Hello GPT-4o:理解物理世界与人性

24 年 5 月 14 日 星期二
1169 字
6 分钟

AI 摘要

奋力赶来...

今天的一个大新闻是 OpenAI GPT-4o 模型的开放,很幸运地灰度到了体验权限。不得不说,AI的发展速度之快令人震撼。与之前的体验不同,这次不仅在数学、编码、文字理解等领域有了显著提升,更在感性认知方面有了革命性的进步。整个体验过程仿佛是一个孩子的成长历程,只是速度快得多。小学、中学、大学的标准化知识提升可能依赖于强大的计算能力,但在人性理解上,GPT-4o填补了前所未有的空白。

GPT-4o 体验

能力提升

模型类型:

GPT-4o是一款全能型模型,可以接受任意组合的文本、音频和图像作为输入,并生成任意组合的文本、音频和图像输出。

响应速度:

GPT-4o可以在232毫秒内响应音频输入,平均响应时间为320毫秒,与人类在对话中的响应时间相似。

非英文语言能力:

GPT-4o在处理非英语文本方面有显著的改进,对非英语文本的文本处理性能优于GPT-4 Turbo。

视觉与音频:

GPT-4o在视觉和音频理解方面表现特别出色,并且相较于GPT-4 Turbo有更好的性能。

价格:

GPT-4o在API方面更快速、价格更便宜50%。与现有模型相比,它的速度提高了2倍,价格减半,并且限制速率提高了5倍。

情绪测试

为了测试GPT-4o的情绪识别能力,我选择了李佳琦的两张不同情绪的图片,一张是哭泣的,另一张是笑出眼泪的。然后让GPT-4o进行描述。

哭泣的李佳琦笑出眼泪的李佳琦
哭泣的李佳琦笑出眼泪的李佳琦

描述结果

请描述一下图中的画面,是否存在什么人类情绪、感情在里面?
在这个图片中又是什么样儿的情绪?

惊艳的能力

  1. GPT-4o 能够准确理解图片中的人物感情,不会因为存在眼泪就简单地认为是哭泣,而是结合场景进行推断。
  2. 能对图片(或其他媒体)中的文字进行分析推断,并与图片中的场景、人物(动作、表情)进行统一的推理,不仅仅依赖单一信息源。
  3. 具备面部识别能力(可以认出李佳琦,训练数据中存在公众人物的信息),能够区分图中不同的人物,单独分析不同个体的情绪,也能结合整体进行推理。
  4. 回答的速度很快,但是体验的额度是真的不够使用的。
GPT-4o额度告急

应用场景

AI 亚父

对于一个孩童来说从哇哇落地开始,对物理世界中的气味、色彩、声音、质感的感受就在逐渐刺激着孩子的成长,与此相伴发展的就是感情、人性的建立。而作为家长,很难做到永远的情绪稳定,而人工智能给出了一个全新的伴陪解决方案,一个知识更渊博、情绪永远稳定还能理解孩子感情诉求的亚父,虽然依然存在胡说的问题。

AI 客服

印象中有个在医院服役的机器人要给哭泣的病患家属讲笑话而被暴捶的新闻,如果具备对人类情感深度理解的 AI,这样的场景便能得到更具人性化的解决方案。AI 客服除了要解决程序化的客户问题、情感诉求同样也应被满足。

医疗与心理健康

在医疗领域,情感理解型AI可以帮助医生更好地与患者沟通,提供更为个性化的医疗建议。在心理健康方面,AI可以作为心理咨询师的辅助工具,提供情感支持和即时反馈,帮助人们应对心理问题。

教育与培训

AI可以在教育领域发挥重要作用,提供个性化教学,帮助学生更好地理解和掌握知识。同时,AI可以通过情感分析,及时了解学生的心理状态,提供适当的心理支持,促进学生的全面发展。

总之,GPT-4o不仅在知识和技能方面有了巨大进步,更在情感和人性理解方面展现了令人期待的前景。我们有理由相信,随着AI技术的不断发展,未来将会变得更加智能和人性化。

文章标题:Hello GPT-4o:理解物理世界与人性

文章作者:Cedar

文章链接:https://some.fylsen.com/posts/advancements-gpt-4o-emotional-cognition  [复制]

最后修改时间:


商业转载请联系站长获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。
本文采用CC BY-NC-SA 4.0进行许可。