STT 계열의 대대적인 개혁을 염두에 두고 있다
문장 단위 타임스탬프 가지고는 원하는만큼 화자 분리가 안되기에
단어별로 좀더 세세히 기록하고 이를 모은 하나의 문장 세그먼트 등으로 말이다
문장별 세그먼트
문장별 세그먼트 + 단어별 세그먼트
+ 이벤트 트렉이란것도 추천받았다
웃음, 한숨, 기침 등 비언어 이벤트 기록용이다
+ 버전?
undo같은거나 나중에 복잡한 편집 들어갈때 고려할만 하다
병합, 분할 등등 기록했다가 되돌릴 수 있게 말이다
로컬 m2m 같은건 시간대비 성능 별로라 갖다 버리고 api 호출 할 거 같다
잼플이랑 잼프로 중에 고민이다
xtts-v2 같은 경우 빠르고 가볍지만 퀄리티도 빠르고 가벼운 쓰레기라 대체해야 한다
OpenVoice-V2와 CosyVoice-V2 비교 결과 CosyVoice-V2로 하기로 결정났다
이로 인해 미세 제어 토큰을 사용가능하게 되었는데 관련해서는 더 알아봐야겠다
사용할 보이스샘플도 파인튜닝 가능하다는데 이에 대해서는 추가로 알아볼 예정이다
일단 단순 보이스 클로닝 자체는 ㅅㅌㅊ라 만족이다
프롬프트 오디오 텍스트 입력이 필요하긴한데 이조차도 STT로 때우면 오케이다 👍
이로인해 총 워커 흐름을 재정리할 필요가 있다
파일 업로드
↓
(옵션) 15-30분 단위로 쪼개기
↓
Whisper X
↓
문장 메타데이터
+
단어 메타데이터 생성
↓
토큰 기준으로 세그먼트 분리 후 정리
↓
LLM을 통한 병렬 처리 번역
↓
원본영상 보이스 클로닝
↓
CosyVoice V2
↓
스트레치를 통해 원본과 매핑
↓
에디터 준비