🔊 实用方法:声音预处理
AI 技术在实际落地应用中,总是需要各种预处理和后处理来填坑,昨晚在宝玉老师 @dotey 的评论区学到 @dcpromo924 分享的声音预处理方法,可以有效提升后续识别的质量和效率。
单靠聆听,很难描述前后的差异,于是我提取声纹图谱做了个重叠对照,方便直观解读。
16-bit 单声道有足够的动态范围来保持语音的清晰度和细节,同时避免了过度的数据复杂性。有助于模型更有效地识别语音中的细微差别,也可以减少可观的计算量。
ffmpeg 指令参考:
1. mp3(可选更高质量的 256k)
ffmpeg -i input.mp3 -c:a mp3 -b:a 192k -ac 1 16-bit.mp3
2. aac(相对 mp3,压缩比更佳)
ffmpeg -i input.mp3 -c:a aac -b:a 192k -ac 1 16-bit.aac
#可视化 #Whisper
点击图片查看原图