Stability AI 开源其音频生成模型：Stable Audio Open• 能够通过简单的文本提示生成最长47秒的立体声音频（44.1kHz）。• 适用于创建鼓点、乐器片段、环境声音和拟音录音等。• 基于transforms扩散模型（DiT），在自动编码器的潜在空间中操作，提高生成音频的质量和多样性。•

发布时间: 2024-06-06 10:50:25

1分

数据加载中

关注推特

收听电报

2

1

0

Stability AI 开源其音频生成模型：Stable Audio Open
• 能够通过简单的文本提示生成最长47秒的立体声音频（44.1kHz）。
• 适用于创建鼓点、乐器片段、环境声音和拟音录音等。
• 基于transforms扩散模型（DiT），在自动编码器的潜在空间中操作，提高生成音频的质量和多样性。
•
时政
( twitter.com )

7个月前由小互提交

Stability AI 开源其音频生成模型：Stable Audio Open

• 能够通过简单的文本提示生成最长47秒的立体声音频（44.1kHz）。

• 适用于创建鼓点、乐器片段、环境声音和拟音录音等。

• 基于transforms扩散模型（DiT），在自动编码器的潜在空间中操作，提高生成音频的质量和多样性。

• 用户可以在自定义音频数据上微调模型，生成符合个人需求的音频样本。
•例如，鼓手可以用自己录制的鼓声样本进行微调，生成新的鼓点。

•与Stable Audio 的比较：与能够生成最长三分钟完整曲目的商业版Stable Audio Open不同，Stable Audio Open 专注于短音频片段和音效。

Markdown支持

评论加载中...

您可能感兴趣的：更多

1

2

1

1

Meta发布开源AI工具AudioCraft，可用文本内容生成高质量、逼真的音频和音乐
大陆资讯
( 36kr.com)

1年前 • 七仙女坐台 • -- 点击 0 评论

2

2

1

1

Meta 今天公布了开源 AI 音频生成工具 AudioCraft

工具包含 3 个模型：

- MusicGen 文本生成音乐
- AudioGen 文本生成音频
- EnCodec 损失更少的音频压缩

我测试了 MusicGen
，让它生成一段 Daft Punk风格的电子乐，效果如下，呃…

#设计AI
IT技术
( twitter.com)

1年前 • 倪爽 • -- 点击 • 下载视频 0 评论

00:00:15

3

5

4

4

#AI开源项目推荐：wav2lip

可以音频输入生成口型同步视频。

项目首页：
代码仓库：
论文：

视频来源：

IT技术
( twitter.com)

1年前 • 宝玉 • -- 点击 • 下载视频 0 评论

00:01:06

4

2

1

1

著名开源作者的 9 个 AI 应用
Hassan 的 9 个开源 AI 应用, 覆盖 AI 搜索, RAG, 图像生成, 网页生成, 语音等多个方向, 高产且优质！
作者的技术栈更是值得借鉴！
开源地址:
时政
( github.com)

2个月前 • meng shao • -- 点击 0 评论

5

2

1

1

一个大新闻：Facebook 开源了一个专注于声音的 Generative AI 工具： AudioCraft

输入文字描述，就可以生成音频，我试了一下，确实很强大。
分为三部分：
MusicGen：主打音乐生成
AudioGen：主打各种音效生成
EnCodec：智能音频压缩。

AudioGen 其实是更强的，这里有一些…
IT技术
( ai.meta.com)

1年前 • Viking • -- 点击 0 评论

6

2

1

1

AI生成音乐视频。
有趣
( twitter.com)

8个月前 • 出埃及记 • -- 点击 • 下载视频 0 评论

00:01:20

7

2

1

1

Stability AI 发布了 SDXL 0.9，其成像质量和细节相较于Beta版本大图提升。左0.9、右Beta。

SDXL 0.9 组合进步的关键驱动因素是其参数数量大幅增加。
SDXL 0.9 是所有开源图像模型中参数数…
IT技术
( twitter.com)

1年前 • 歸藏 • -- 点击 0 评论

8

2

1

1

#AI开源项目推荐 subtitler
不需要上传视频到服务器，直接在浏览器端就可以语音转录成文本字幕，以及对转录的字幕编辑，生成带字幕视频的开源网站。语音转字幕利用的是 WebGPU，在浏览器端执行 Transformer + Whisper 模型（目前只能支持 tiny 和 base 模型）。视频生成是基于一个库叫
IT技术
( twitter.com)

6个月前 • 宝玉 • -- 点击 0 评论

9

2

1

1

Memo 现已经支持 OpenAI TTS 语音合成。
现在，多了些更自然的声音帮你把外语学习视频、播客、字幕变成中文或其他语言来播放。
换 Open AI TTS 会少一些机械音，听起来更舒服。
视频音源是 nova。
时政
( twitter.com)

1年前 • Memo AI • -- 点击 • 下载视频 0 评论

00:00:21

0.11045 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: admin@bad.news

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特