Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

기능문의 겸 감사의 인사를 올립니다. #11

Open
tdi2020 opened this issue Jan 19, 2021 · 5 comments
Open

기능문의 겸 감사의 인사를 올립니다. #11

tdi2020 opened this issue Jan 19, 2021 · 5 comments

Comments

@tdi2020
Copy link

tdi2020 commented Jan 19, 2021

안녕하세요 존경하는 개발자님 오버레이 도구를 정말 잘 사용하고 있는 유저입니다!
한가지 기능을 문의드리고 싶어서 이렇게 글까지 쓰게 되었습니다.

https://github.com/Lastorder-DC/chatreader-kor

위 트위치 채팅읽어주는 로봇의 경우 채팅을 음성으로 읽어주는 기능이 있습니다.
그런데 현재 개발하신 오버레이 도구에서 옆에 WA 버튼을 누르니까 말할때 글자 출력에 맞춰 효과음이 나더라구요.
그래서 혹시 음성으로 출력된 자막을 화면 송출시에 소리로 글자를 읽어주는 방식도 가능하지 않을까...하는 생각이 들었습니다.
(만약 현실적으로 불가능한 영역이라면 제 무지의 탓이니 너른 양해 바랍니다ㅠㅠ)

챗읽어주는 기능을 응용해서 오버레이 도구에 접목시키는 것이 가능한 일인지.. 있으면 좋을것 같은 기능이라 여쭙게 되었네요.
아무쪼록 저는 일개 유저이지만 이런 근사한 기능을 구현해주셔서 정말 놀랍고 개발자님께 다시 한 번 감사드립니다.
읽어주셔서 감사드립니다.

ps.아참 막바지 추위에 건강 유의하세요!

@rishubil
Copy link
Collaborator

소중한 의견 보내주셔서 감사합니다.

말씀해주신 기능의 구현 가능여부만을 말씀드리자면 일단 가능은 합니다.
다만 자연스럽게 완성하기는 조금 어려울 것 같습니다.

현재 본 프로젝트에서 사용하고 있는 브라우저의 음성 인식 기능은 실시간으로 예상 단어를 표시할 수 있지만,
실제 인식된 단어가 확정되는 것은 실시간으로 처리되는 것이 아닙니다.
저도 실제 내부 구현을 알지 못해 추측하는 정도입니다만 아마도 인식한 문장 전체의 문맥 등에 따라서
애매하게 인식된 단어를 더 적절한 단어로 교체하는 것으로 알고 있습니다.

따라서 실제 문장의 내용을 브라우저 TTS 등으로 자연스럽게 읽게 하려면 문장 전체의 인식이 완료한 후에 읽어야 할겁니다.
하지만 생각보다 문장 내용 인식이 완료되는 데까지 걸리는 시간이 길어 시청자가 어색하게 생각하지 않을까 합니다.
물론 부자연스러운 방식으로 동작시키자면야 단어가 인식될 때마다 TTS로 읽게 시키면 가능하겠지만,
솔직히 그런 방식이 의미가 있을지 잘 모르겠습니다.

("WA" 모드 사용시에 재생되는 소리는 인식된 단어의 길이에 따라 여러번 소리를 재생하는 방식으로 구현되어 있습니다.
따라서 해당 기능은 실제 단어의 길이 및 내용과는 전혀 무관하게 동작할 수 있습니다.)

혹시 해당 기능이 필요한 이유나 목적같은걸 말씀해주시면, 적절한 방향으로 구현할 수 있을지 더 검토해 볼 수 있을것 같습니다.

감사합니다.

@tdi2020
Copy link
Author

tdi2020 commented Jan 21, 2021

와ㅠㅠ 이해가 너무 쉽게 설명해주셔서 지식이 없음에도 완벽하게 이해되었습니다.

우선 해당 기능의 필요성을 느낀 이유는 , 영상 제작시 실제 음성으로 더빙하지 않고 TTS를 입혀 제작하고 있기 때문입니다.
오버레이를 사용해서 먼저 화면과 자막을 녹화한 뒤, 그 위에 TTS를 입히려면 별도로 타이핑해서 TTS를 제작후
타이밍을 맞추어 TTS보이스를 편집으로 입혀야하는 번거로움이 있었거든요.

기능 사용시 직접 말한 내용이 교정?수정되는 시간이 있는 점 때문에 TTS와 자막의 딜레이가 꽤 있을 수 있음을 이해하였습니다.
그렇다면 이러한 방법은 어떨까요?

TTS출력 버튼을 별도로 활성화 할 수 있지만,
'딜레이 안내 : TTS 출력 버튼을 활성화 시에는 문장 수정이 자연스럽게 된 후 자막과 TTS가 동시에 출력됩니다.'
라고 짧은 안내가 있고,
이 버튼을 활성화하면, 말을 먼저한 뒤 수정이 확정 후 -자막상 약간 진한글자가 되더군요- 자막과 TTS가 함께 출력 되는거죠.

물론.. 앞서 말씀드린 것 처럼 제가 무지하니 실제로 구현이 가능한 부분인지는 모르겠습니다만.
저의 경우에는 이 기능을 원했던 이유의 99%가 해소되는 것과 같아서 큰 불편함을 느끼지 않을 것 같습니다.

기존처럼 신속한 자막이 말하자마자 나오는 것을 원하는 분들은 활성화 시키지 않고 그대로 쓰시겠으나.
저처럼 OBS를 통해 영상만 녹화후 재가공 할 경우이거나 감안하고 라이브에 적용하실 분들도 계시리라 생각이 됩니다.
말은 좀 천천히 끊어서 해야하고 딜레이가 발생하긴 하지만.. TTS는 너무 강력한 메리트가 있어서요!

녹화후 영상 재가공을 하는 저의 경우는 통상 대본을 써두고 읽게 됩니다.
실제 이 자막 오버레이 기능을 사용해보니 자막 출력 후 수정을 마치고 확정하는데 딜레이가 있기는 해도
빠르게 말하면 오히려 발음이 잘못 인식되는 경우도 종종 생기고 수정을 더 많이 하는것 같아서
사용 할때 문장을 빠르게 읽는 경우를 줄이기도 했거든요.

그래서 만약 별도의 옵션으로 위처럼 구현된다면,
라이브로 쓰실 분들의 경우에도 조금 딜레이를 감안하여 말을 적당히 짧고 느릿하게 끊으며 토크 속도를 유지한다면
충분히 유용하게 쓸 수 있지 않을까 생각이 되기도 합니다. (만약 저처럼 실제 목소리가 아닌 TTS 출력을 원하신다면요!)

저 혼자만의 의견이라 다른 의견들도 더 있으면 보완이 될것 같지만..
우선은 위와같이 토글방식이라도 되기만 한다면 제겐 더할 나위 없이 유용한 기능이 될 것 같아 이렇게 의견을 올려보았습니다.
프로그램 적인 부분에서 말이 안되는 부분은 다시 한 번 너른 양해를 부탁드리겠습니다.

그리고 이렇게 불쑥 올린 의견임에도 상세히 들어주신 것만으로 제겐 정말 뜻깊다고 생각하고 큰 존경과 감사함을 보냅니다.
현재의 자막 오버레이 기능만 해도 이미 엄청 근사하니까요!

이번에도 좀 긴 글이라 두서가 없을텐데 읽어주셔서 감사드립니다. 답변 정말 감사드립니다.

@tdi2020
Copy link
Author

tdi2020 commented Feb 19, 2021

안녕하세요 존경하는 개발자님! 혹시 싶어서 계속 들려보고 있다가 남겨보네요.
바쁘시겠지만, 혹시 기능 업데이트의 여부를 알 수 있을지요! 현재도 잘 사용중입니다. 감사합니다.

@rishubil
Copy link
Collaborator

현재로서는 가능 여부 및 일정을 말씀드리기가 어렵습니다.

다만 추가 기능 개발 작업을 하게 되면, 최우선적으로 고려하여 작업할 수 있도록 하겠습니다.

많은 관심을 보여주셔서 감사합니다.

@tdi2020
Copy link
Author

tdi2020 commented Feb 19, 2021

앗 그렇군요! 답변 주셔서 감사드립니다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Development

No branches or pull requests

2 participants