ai 공부

찐빠 줄이고 결과 내기 위한 방법?

LLM = 영상 분석 + stt 후의 텍스트 뒤처리

, . ? ! “ ‘ - 등 문장부호의 효과 확인 필요

STT 이후의 후처리에 LLM이 이를 어울리게 붙일 예정

스크립트 혹은 원본 영상참조

그때 그떄 문장 분석일지 전체 느낌 분석일지는 모름

어차피 TTS는 오직 텍스트만 참조

화자별로 나눠진 텍스트에 따라 보이스샘플 추가

이를 원본 보이스의 샘플을 따는 법도 있지만 어울릴 만한 보이스 샘플을 ai로 추천도 가능

샘플링의 무작위성 조절 (엔트로피)

언어 번역 모델: 온도 높아지면 다양성, 창의성 올라감 (맥락 유지/논리성 떨어짐) 온도 낮아지면 보수적, 결정적이게 됨

의역시 온도 높이고 정확해야하면 낮춰야 함

이미지/오디오 생성 모델: 온도 높이면 다양성 높아짐 세부 일관성 낮아짐 tts에선 높이면 발화가 튀기에 보통 낮게함

xtt2의 경우 한국어 미숙하다…

대안:

항목	CosyVoice 2	OpenVoice V2
한국어 품질	고품질 멀티링궐, 발음 오류 ↓(30–50%)	네이티브 지원(ko 포함)
실시간/지연	양방향 스트리밍, 초저지연(~150ms)	주로 오프라인 파이프라인(최적화 가능)
제어 방식	자연어 프롬프트 + 특수 토큰(`[laughter]`, `[breath]`, `<strong>…</strong>`) + `<\\|endofprompt\\|>`	스타일 파라미터(감정/억양/리듬/휴지) + 톤 컬러 변환
음성 클로닝 철학	프롬프트 오디오 토큰으로 스타일/프로소디 이식 강함	톤 컬러만 정확 복제(악센트·감정은 별도 제어)
라이선스	Apache-2.0	MIT(상업 자유)
레퍼런스	깃허브 README/논문/데모	HF 모델카드/깃허브/연구 페이지/OV 노트북