先用demucs分离出用纯人声（特别嘈杂的就用lalal的付费api），然后用pydub或者ffmpeg根据音量切割人声轨，每当停顿达到1.5s（这个间隔根据视频特点自己调整间隔）就切出一段，将每段编号命名和对应起始位置的精确毫秒数都记录在excel里，用whisper读表挨个识别，每个编号片段的时间轴在记录时都加上exc…

发布时间: 2024-05-09 09:30:20

1分

数据加载中

关注推特

收听电报

2

1

0

先用demucs分离出用纯人声（特别嘈杂的就用lalal的付费api），然后用pydub或者ffmpeg根据音量切割人声轨，每当停顿达到1.5s（这个间隔根据视频特点自己调整间隔）就切出一段，将每段编号命名和对应起始位置的精确毫秒数都记录在excel里，用whisper读表挨个识别，每个编号片段的时间轴在记录时都加上exc…
时政
( twitter.com )

8个月前由 d'Eon樱 🌸 提交

先用demucs分离出用纯人声（特别嘈杂的就用lalal的付费api），然后用pydub或者ffmpeg根据音量切割人声轨，每当停顿达到1.5s（这个间隔根据视频特点自己调整间隔）就切出一段，将每段编号命名和对应起始位置的精确毫秒数都记录在excel里，用whisper读表挨个识别，每个编号片段的时间轴在记录时都加上excel里记录的的偏移量，就能得到一个相对准确的时间轴

如此处理无论时间轴有多偏，每当出现1.5s的停顿，时间轴就会被强制对齐，虽然具体到单词的偏移还是有，但只是做视频字幕的话，能极大的改善时间轴的准确率达到基本一次到位的效果

Markdown支持

评论加载中...

您可能感兴趣的：更多

1

1

0

0

今天逛huggingface发现一个有意思的项目，为歌曲生成符合上下文的图，并且也支持生成相应的视频。看了一下实现使用了一个为音乐配解释性字幕的模型lp-music-caps，如果勾选使用歌词还会调用人声分离模型Demucs和Whisper来提取歌词。然后将解释性字幕和歌词通过Llama生成stable-diffusion的提示词。1/2
时政
( twitter.com)

1年前 • GanymedeNil • -- 点击 0 评论

2

3

2

2

刚发现 Midjourney 迈出了脱离 Discord 最重要的一步，现在支持直接使用谷歌授权登录。之前被 Discord 复杂操作路径挡住的相当一部分用户，应该可以直接使用网页版了。
IT技术
( twitter.com)

7个月前 • 歸藏(guizang.ai) • -- 点击 0 评论

3

2

1

1

特别特别好用
大陆资讯

1年前 • 猪八戒 • -- 点击 0 评论

4

2

1

1

国际技术领先的肉食品注水机器，中国研发出来了，并广泛应用于实践，经济效益特别显著。
时政
( twitter.com)

1年前 • Petrichor • -- 点击 • 下载视频 0 评论

00:00:32

5

2

1

1

有用户给我发来信息说，来日本旅游，用我们的 FeloTranslator 特别好用。一句日语都不会的他，手机上装了我们这个同声传译的App就去夜店了。环境虽然吵杂，但是FeloTranslator也能帮他大概听懂小姐姐在说什么，帮助他和小姐姐沟通，翻译速度还特别快。
还帮我忽悠夜店的日本小姐姐也一人装了一个。
IT技术
( twitter.com)

1年前 • 零零發 • -- 点击 0 评论

6

2

1

1

日更 60 天！总结出的视频号日更最简SOP：
（阿机原创）

1、录制：使用iphone13pro或以上设备，使用前置摄像头，打开4k+60模式录制。使用罗德麦克风一托一，安静环境领夹，嘈杂环境手持。

2、文案：基于新闻采写的原创稿件删减，只提炼最核心的观点和数据，字数
IT技术
( twitter.com)

1年前 • 即刻精选 • -- 点击 0 评论

7

2

1

1

一群东北的大叔大妈穿着和服在日本逛，这视频被很多人转了。我看了视频和大家的评论，的确说没错，确实那一口嘈嘈杂杂的东北话和和服很违和。但是说走路的姿态啥啥的，就过了。
我护个短儿，加个老电影滤镜，去掉原声，换个BMG，你们看看这群东北老乡们明治不明治，昭和不昭和。
时政
( twitter.com)

9个月前 • 东北御厨💙💛 • -- 点击 • 下载视频 0 评论

00:00:12

8

2

1

1

# AI 开源模型分享
最强语音识别和说话人分离模型
Reverb 推出最强开源语音识别 (ASR) 和说话人分离 (Diarization) 模型, 评测结果击败 OpenAI 推出的 Whisper large-v3！
# Reverb ASR 模型
- 使用 20 万小时的人工转录数据训练
- 达到了最新的词错误率 (WER) 水平
- 支持可定制的逐字转录
#
时政
( twitter.com)

3个月前 • meng shao • -- 点击 0 评论

9

2

1

1

1946，美国芝加哥，6名模特聚集在一家名为《Coronet》的杂志社门口抗议，因为当时出于降低成本的考虑，许多杂志社转向使用图画而不是真人模特作为封面
大陆资讯

1年前 • 风吹大奶两边倒 • -- 点击 0 评论

0.14733 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: admin@bad.news

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特