변화

STT 계열의 대대적인 개혁을 염두에 두고 있다

에바 안경 아저씨 짤

문장 단위 타임스탬프 가지고는 원하는만큼 화자 분리가 안되기에

단어별로 좀더 세세히 기록하고 이를 모은 하나의 문장 세그먼트 등으로 말이다

ASR 변화

현재:

문장별 세그먼트

메타 데이터

발화 시작점
발화 끝점
문장 텍스트
세그먼트간 공백시간 (gap_after)
세그먼트간 침묵시간 (gap_after_vad)
세그먼트 id
발화 길이

미래:

문장별 세그먼트 + 단어별 세그먼트

문장 메타 데이터

발화 시작점
발화 끝점
문장 텍스트
세그먼트간 공백시간 (gap_after)
세그먼트간 침묵시간 (gap_after_vad)
세그먼트 id
발화 길이
해당 세그먼트에 속하는 단어 메타데이터들의 id
동시 발화 여부
ASR 점수

단어 메타 데이터

발화 시작점
발화 끝점
단어 텍스트
세그먼트 id
발화 길이
화자

+ 이벤트 트렉이란것도 추천받았다
웃음, 한숨, 기침 등 비언어 이벤트 기록용이다

+ 버전?
undo같은거나 나중에 복잡한 편집 들어갈때 고려할만 하다
병합, 분할 등등 기록했다가 되돌릴 수 있게 말이다

MT 변화

로컬 m2m 같은건 시간대비 성능 별로라 갖다 버리고 api 호출 할 거 같다

잼플이랑 잼프로 중에 고민이다

TTS 변화

xtts-v2 같은 경우 빠르고 가볍지만 퀄리티도 빠르고 가벼운 쓰레기라 대체해야 한다

OpenVoice-V2와 CosyVoice-V2 비교 결과 CosyVoice-V2로 하기로 결정났다

이로 인해 미세 제어 토큰을 사용가능하게 되었는데 관련해서는 더 알아봐야겠다

사용할 보이스샘플도 파인튜닝 가능하다는데 이에 대해서는 추가로 알아볼 예정이다

일단 단순 보이스 클로닝 자체는 ㅅㅌㅊ라 만족이다

프롬프트 오디오 텍스트 입력이 필요하긴한데 이조차도 STT로 때우면 오케이다 👍

총흐름

이로인해 총 워커 흐름을 재정리할 필요가 있다

파일 업로드시 프로젝트 준비

          파일 업로드
              ↓
    (옵션) 15-30분 단위로 쪼개기
              ↓
          Whisper X
              ↓
         문장 메타데이터
              +
      단어 메타데이터 생성
              ↓
토큰 기준으로 세그먼트 분리 후 정리
              ↓
    LLM을 통한 병렬 처리 번역
              ↓
     원본영상 보이스 클로닝
              ↓
         CosyVoice V2
              ↓
    스트레치를 통해 원본과 매핑
              ↓
          에디터 준비