프로젝트 하나를 마무리 하긴 했는데 아쉽다.

기록

jjnll 2025. 4. 12. 08:12

프로젝트 하나를 마무리 하긴 했는데 아쉽다. 부족한 점들이 계속 보인다.

그래서 버전업을 하는 거겠지만...

여튼 그래서 지금 단계에서 몇 가지 더 추가하고자 한다.

1. Ganicorn, Onnx, MLFlow 셋 추가하고, flower로 celery 적용되는 것 시각화.

2. 소리 분리 후 정제한 뒤 다시 합치는 전처리 추가.

3. ffmpeg과 whisper로 소리 조금 더 세분화.

4. 감정 분석 기능 추가.

5. 박수, 환호, 울음 등 자막에서 말로 표현하기 힘든 구간도 텍스트화.

6. 현재 방식인 Hard subtitle이 아닌, Soft subtitle로 변경해 두 레이어를 on/off 가능하도록 함.

7. 번역 기능 추가.

8. 영상 1분 짜리로 하고 있는데, 이 것도 2분으로 늘려서 재 적용.

9. 성격이 다른 영상 둘 추가해서 다른 기능 테스트.

이 정도 까지 하면 사운드 데이터 핸들링도, 웹단 병렬처리도, 프로젝트의 목적 명확도도, 좋아질 것 같다.

pretrained 모델인 만큼 그 외의 것들에 더 시간을 쏟아야지.

처음에는 사전 api를 아래 붙여 쓰는 영어 공부 사이트를 구상했는데, 지금은 영상 서비스 용도로 바뀌었다.

소리와 영상 데이터, 그리고 웹단에 큰 도움 될 것 같다. github action으로 ci/cd도 추가하고 싶다.

우선 1~9까지 하고 생각하자. 아니 그 전에 중간고사 공부 먼저 해야한다.

728x90