我用Whisper转字幕,最大的痛点不是速度慢一点,我等得起。最麻烦的是换行的位置让我很抓狂,非常影响翻译结果和显示效果。所以翻译前我一般要手动调整一下,很费时间。 https://t.co/RddTdJ68bS
比如我用普通的Whisper,很少按照正常句子分割,经常在一些不是句子停顿的位置换行。(参考图一)
WhisperX相对比较好,是整句整句在一起,这样翻译效果很好,但是有时候句子太长了,在视频里面能占三四行,小半个屏幕都被遮住了,上次让代码解释器给我二次分割,效果也还是不理想。(参考图二)
于是写了个简单程序,读取WhisperX生成的JSON文件,其中包含了每个单词的时间轴,然后做了一个图三那样的界面,如果超过80个字符就黄色背景,超过120个字符就红色背景,一目了然。
要拆分字幕行的话,在界面上点击单词,就自动在单词位置拆分,形成新的时间轴,这样只要点几次,几分钟就能处理好一个字幕。(在图三红框位置点击后结果见图四)
会写代码,还是挺好的\\ud83d\\ude04
点击图片查看原图
点击图片查看原图
点击图片查看原图
点击图片查看原图