先用demucs分离出用纯人声(特别嘈杂的就用lalal的付费api),然后用pydub或者ffmpeg根据音量切割人声轨,每当停顿达到1.5s(这个间隔根据视频特点自己调整间隔)就切出一段,将每段编号命名和对应起始位置的精确毫秒数都记录在excel里,用whisper读表挨个识别,每个编号片段的时间轴在记录时都加上excel里记录的的偏移量,就能得到一个相对准确的时间轴
如此处理无论时间轴有多偏,每当出现1.5s的停顿,时间轴就会被强制对齐,虽然具体到单词的偏移还是有,但只是做视频字幕的话,能极大的改善时间轴的准确率达到基本一次到位的效果