Meta 剛剛推出新的多語言和多任務模型 SeamlessM4T,號稱比 Whisper 還強,接下來會把這一切放進臉書、Instagram、Whatsapp,巴別塔真的被蓋回來了 (?)
https://t.co/fNOFDoCUK6
SeamlessM4T 可以無縫地在語音和文本之間進行翻譯和轉錄。SeamlessM4T 支持以下功能:
Automatic speech recognition for nearly 100 languages
近百種語言的自動語音識別
Speech-to-text translation for nearly 100 input and output languages
近100種輸入和輸出語言的語音轉文字翻譯
Speech-to-speech translation, supporting nearly 100 input languages and 35 (+ English) output languages
語音轉換,支援近100種輸入語言和35種(+英語)輸出語言
Text-to-text translation for nearly 100 languages
提供近100種語言的文本翻譯服務
Text-to-speech translation, supporting nearly 100 input languages and 35 (+ English) output languages
文字轉語音翻譯,支援近100種輸入語言和35種(+英語)輸出語言
打造一個像《銀河系漫遊指南》中虛構的巴別魚一樣的通用語言翻譯器是具有挑戰性的,因為現有的語音到語音和語音到文本系統只涵蓋了世界語言的一小部分。SeamlessM4T在語音到語音和語音到文本領域取得了重大突破,解決了語言覆蓋範圍有限和依賴分離系統的挑戰,這些系統將語音到語音翻譯任務分為多個階段的子系統。這些系統可以利用大量的數據,但通常只對一種模式表現良好。我們的挑戰是創建一個統一的多語言模型,可以應對所有這些。
對於這些任務和語言,SeamlessM4T在近100種語言中實現了最先進的結果,並支持自動語音識別、語音轉文字、語音轉語音、文字轉語音和文字轉文字翻譯的多任務支持,全部在一個模型中完成。我們還顯著提升了對於低資源和中資源語言的性能,並在高資源語言上保持了強大的性能。
為了更準確地評估系統,不依賴於基於文本的指標,我們將我們的無文本指標擴展為BLASER 2.0,與其前身相比,現在能夠在語音和文本單元之間進行評估,並具有相似的準確性。在韌性測試中,與當前最先進的模型相比,我們的系統在背景噪音和說話者變化的語音轉文本任務中表現更好(分別平均提升了37%和48%)
SeamlessM4T 也超越了以往的最先進競爭對手。
点击图片查看原图