LLM = 영상 분석 + stt 후의 텍스트 뒤처리
, . ? ! “ ‘ - 등 문장부호의 효과 확인 필요
STT 이후의 후처리에 LLM이 이를 어울리게 붙일 예정
스크립트 혹은 원본 영상참조
그때 그떄 문장 분석일지 전체 느낌 분석일지는 모름
어차피 TTS는 오직 텍스트만 참조
화자별로 나눠진 텍스트에 따라 보이스샘플 추가
이를 원본 보이스의 샘플을 따는 법도 있지만 어울릴 만한 보이스 샘플을 ai로 추천도 가능
샘플링의 무작위성 조절 (엔트로피)
언어 번역 모델: 온도 높아지면 다양성, 창의성 올라감 (맥락 유지/논리성 떨어짐) 온도 낮아지면 보수적, 결정적이게 됨
의역시 온도 높이고 정확해야하면 낮춰야 함
이미지/오디오 생성 모델: 온도 높이면 다양성 높아짐 세부 일관성 낮아짐 tts에선 높이면 발화가 튀기에 보통 낮게함
xtt2의 경우 한국어 미숙하다…
대안:
| 항목 | CosyVoice 2 | OpenVoice V2 |
|---|---|---|
| 한국어 품질 | 고품질 멀티링궐, 발음 오류 ↓(30–50%) | 네이티브 지원(ko 포함) |
| 실시간/지연 | 양방향 스트리밍, 초저지연(~150ms) | 주로 오프라인 파이프라인(최적화 가능) |
| 제어 방식 | 자연어 프롬프트 + 특수 토큰([laughter], [breath], <strong>…</strong>) + <\|endofprompt\|> |
스타일 파라미터(감정/억양/리듬/휴지) + 톤 컬러 변환 |
| 음성 클로닝 철학 | 프롬프트 오디오 토큰으로 스타일/프로소디 이식 강함 | 톤 컬러만 정확 복제(악센트·감정은 별도 제어) |
| 라이선스 | Apache-2.0 | MIT(상업 자유) |
| 레퍼런스 | 깃허브 README/논문/데모 | HF 모델카드/깃허브/연구 페이지/OV 노트북 |