Magi:自动将漫画转录成文字 并自动生成剧本
Magi模型,由牛津大学工程科学系的视觉几何组开发。
它可以全自动地为漫画页生成剧本,包括谁说了什么以及何时说的。
还可以通过识别漫画页面上的面板、文字块和角色,以及将它们相互关联。
Magi模型的主要功能包括:
1、面板检测:识别漫画页面上的各个面板,即独立的画框,这是理解漫画布局的基础。
2、文本块检测:在漫画的各个面板中识别文本块,这些文本块通常包含对话或叙述性文本。
3、角色检测:识别页面上的角色形象,这对于将文本与说话的角色关联至关重要。
4、角色聚类:将检测到的角色按其身份进行聚类,以区分页面上不同的角色。
5、文本到说话者的关联:确定哪些文本是由页面上的哪个角色说出的,这是生成准确剧本的关键。
6、阅读顺序排序:将检测到的文本块按照漫画的阅读顺序进行排序,确保剧本的叙述逻辑与原漫画一致。
7、通过这些功能,Magi能够自动将漫画页面转化为详细的文字剧本,其中包含角色对话和相应的动作或情境描述,从而使读者能够通过阅读文本来完整地体验漫画故事。
GitHub:https://t.co/AIcmUVUJEJ
论文:https://t.co/fazBkfdFLb
模型:https://t.co/txaIbtSmXA
在线演示:https://t.co/f7e9og6sLj