Geimini 1.5 原生多模态的音频理解, 强的有点夸张...不仅能识别说话语气, 还能自动识别说话人到人名?我拿了一个最近两天的音频给Geimin 1.5问: "整体概括, 告诉我前两分钟说话的人是谁. 语气如何"不仅几乎完美回答, 同时还把具体说话的美国议员的名字都识别出来了... (这真不是data leak?)

发布时间: 2024-04-10 12:00:15

1分

数据加载中

关注推特

收听电报

2

1

0

Geimini 1.5 原生多模态的音频理解, 强的有点夸张...
不仅能识别说话语气, 还能自动识别说话人到人名?
我拿了一个最近两天的音频给Geimin 1.5
问: "整体概括, 告诉我前两分钟说话的人是谁. 语气如何"
不仅几乎完美回答, 同时还把具体说话的美国议员的名字都识别出来了... (这真不是data leak?)
时政
( twitter.com )

9个月前由 G_Z 提交

点击图片查看原图

Markdown支持

评论加载中...

您可能感兴趣的：更多

1

2

1

1

推荐阅读：《多模态和多模态大模型 (LMM)[译]》
这是一篇相当详尽的讲述多模态和多模态大模型的文章！内容分为三部分。
* 第 1 部分围绕多模态的概念展开，讲述了使用多模态的原因、不同类型的数据模态以及多模态任务的种类。
* 第 2 部分深入探讨了多模态系统的核心原理，以 CLIP 和 Flamingo…
IT技术
( twitter.com)

1年前 • 宝玉 • -- 点击 0 评论

2

2

1

1

兄弟们，这个模型很强大！👍🏻
M2UGen：多模态音乐理解和生成模型
该模型由腾讯与新加坡国立大学开发，M2UGen能够理解各种音乐，包括风格、演奏乐器、表达的情绪情感等，并进行音乐问答。
而且还能根据文本、图像、视频和音频生成各种音乐，同时对生成的音乐也能理解并根据文字描述对音乐进行编辑。…
IT技术
( twitter.com)

1年前 • 小互 • -- 点击 • 下载视频 0 评论

00:04:35

3

2

1

1

Azure 平台多模态支持来了，不再局限于文本对话生成，实现图文和音频等内容的双向识别转换：

1. 发送链接总结新闻，生成新闻摘要总结，返回音频朗读；
2. 发送长音频，识别文本，生成简短的音频总结；
3. 发送照片，生成食谱、…
IT技术
( twitter.com)

1年前 • 𝘅𝗶𝗻𝘇𝗵𝗶  • -- 点击 0 评论

4

2

1

1

#AI开源项目推荐#：AudioGPT
这是一个借助大语言模型（LLM）处理音频的工具，可以：
- 生成音乐 🎶
- 背景音效 🎵
- 音频生成字幕 🎤
- 文字生成音频 🗣️
- 文字生成音频并模拟声音 📢
- 根据图片生成音频…
推特中文圈
( twitter.com)

1年前 • 宝玉 • -- 点击 0 评论

5

2

1

1

Stability AI 开源其音频生成模型：Stable Audio Open
• 能够通过简单的文本提示生成最长47秒的立体声音频（44.1kHz）。
• 适用于创建鼓点、乐器片段、环境声音和拟音录音等。
• 基于transforms扩散模型（DiT），在自动编码器的潜在空间中操作，提高生成音频的质量和多样性。
•
时政
( twitter.com)

7个月前 • 小互 • -- 点击 • 下载视频 0 评论

00:00:47

6

2

1

1

LEGO：一个由字节跳动和复旦大学研发的多模态理解和图像定位模型。
LEGO能够处理和理解多种类型的输入，支持图像、音频和视频输入，并对这些信息进行分析和理解。
模型还具备精准定位的能力。例如在图像中标识出物体的具体位置，在视频中指出特定事件发生的时间点，在音频中识别出特定声音的来源。…
IT技术
( twitter.com)

1年前 • 小互 • -- 点击 • 下载视频 0 评论

00:01:13

7

2

1

1

🎉AI的多模态时代已经来临！如今，大型语言模型让AI具备了思考的能力，以下的一些出色项目则赋予了AI感知的能力，让它能听、看、说、画画、制作视频等。

它们是各种多模态Agent，可以处理文档📄、图片🖼️、音频🎵、视频🎥等，一切只…
IT技术
( twitter.com)

1年前 • Jeffery Kaneda　金田達也 • -- 点击 0 评论

8

2

1

1

这是腾讯AI Lab发布的一个基于CLIP、Whisper和LLaMA构建的多模态项目。

CLIP：负责编码图像和视频帧。
Whisper：负责编码音频数据。
LLM（LLaMA/Vicuna/Bloom）：负责编码指令和生成响…
IT技术
( twitter.com)

1年前 • 宝玉 • -- 点击 0 评论

9

2

1

1

一个开源的多模态 LLM Unified-IO 2。
比较离谱的是它可以实现语音理解和动作理解还有图像标记这种任务，还可以理解空间关系。真正的 All in one 。
甚至还可以驱动机器人做对应的操作。
项目简介：
Unified-IO 2，这是第一个能够理解和生成图像、文本、音频和动作的自回归多模态模型。…
IT技术
( twitter.com)

1年前 • 歸藏 • -- 点击 0 评论

0.09612 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: admin@bad.news

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特