晚上测试用GPT4读图能力来理解Tiktok视频创意。
操作步骤:
① 按顺序上传截图,告诉GPT4这些图片出现在第几秒,总视频时长是多少秒。
② 再给GPT一些额外背景信息,如视频介绍Text、Subtitle、用户评论等信息。
③ 最后让GPT4分析这个视频流行的原因。
关于关键帧截取:
首帧、尾帧往往包含Hook、Call To Action信息,信息价值高。
中间部分可按总帧数均分、关键帧截取(内容显著变化帧,如剧情转折或动作发生)、目标检测截取。
测试时,人肉观察画面手动截取了3张图片,加上首尾帧,一共5张图发给GPT4。(上限10张)
其他输入项:
Subtitle:语音识别转成文本。
热门评论:评论区复制前五条留言。
发现GPT4真的可以比较好的识别画面内容,也能给出有一定意义的分析。
如不给截图,只把Subtitle发给GPT4分析,生成结果非常General。
这里漏掉了对声音的理解,还缺失对视频中物品、人物的发散联想、逻辑推理。
比如让GPT4分析“郭德纲讲英语”这个视频为什么火,难度很高。
AI需要先知道画面中的人是中国相声演员郭德纲,然后他竟然用英语讲相声,再从中发现有趣的地方,惊叹声音克隆技术的进步。
这一系列思考,对人来说,很容易,但对AI来说,可能就是巨大的挑战。很期待未来真正的多模态LLM。