Hello GPT-4o：理解物理世界与人性

今天的一个大新闻是 OpenAI GPT-4o 模型的开放，很幸运地灰度到了体验权限。不得不说，AI的发展速度之快令人震撼。与之前的体验不同，这次不仅在数学、编码、文字理解等领域有了显著提升，更在感性认知方面有了革命性的进步。整个体验过程仿佛是一个孩子的成长历程，只是速度快得多。小学、中学、大学的标准化知识提升可能依赖于强大的计算能力，但在人性理解上，GPT-4o填补了前所未有的空白。

能力提升

模型类型：

GPT-4o是一款全能型模型，可以接受任意组合的文本、音频和图像作为输入，并生成任意组合的文本、音频和图像输出。

响应速度：

GPT-4o可以在232毫秒内响应音频输入，平均响应时间为320毫秒，与人类在对话中的响应时间相似。

非英文语言能力：

GPT-4o在处理非英语文本方面有显著的改进，对非英语文本的文本处理性能优于GPT-4 Turbo。

视觉与音频：

GPT-4o在视觉和音频理解方面表现特别出色，并且相较于GPT-4 Turbo有更好的性能。

价格：

GPT-4o在API方面更快速、价格更便宜50%。与现有模型相比，它的速度提高了2倍，价格减半，并且限制速率提高了5倍。

情绪测试

为了测试GPT-4o的情绪识别能力，我选择了李佳琦的两张不同情绪的图片，一张是哭泣的，另一张是笑出眼泪的。然后让GPT-4o进行描述。

哭泣的李佳琦	笑出眼泪的李佳琦

描述结果

惊艳的能力

GPT-4o 能够准确理解图片中的人物感情，不会因为存在眼泪就简单地认为是哭泣，而是结合场景进行推断。
能对图片（或其他媒体）中的文字进行分析推断，并与图片中的场景、人物（动作、表情）进行统一的推理，不仅仅依赖单一信息源。
具备面部识别能力（可以认出李佳琦，训练数据中存在公众人物的信息），能够区分图中不同的人物，单独分析不同个体的情绪，也能结合整体进行推理。
回答的速度很快，但是体验的额度是真的不够使用的。

应用场景

AI 客服

印象中有个在医院服役的机器人要给哭泣的病患家属讲笑话而被暴捶的新闻，如果具备对人类情感深度理解的 AI，这样的场景便能得到更具人性化的解决方案。AI 客服除了要解决程序化的客户问题、情感诉求同样也应被满足。

医疗与心理健康

在医疗领域，情感理解型AI可以帮助医生更好地与患者沟通，提供更为个性化的医疗建议。在心理健康方面，AI可以作为心理咨询师的辅助工具，提供情感支持和即时反馈，帮助人们应对心理问题。

教育与培训

AI可以在教育领域发挥重要作用，提供个性化教学，帮助学生更好地理解和掌握知识。同时，AI可以通过情感分析，及时了解学生的心理状态，提供适当的心理支持，促进学生的全面发展。

总之，GPT-4o不仅在知识和技能方面有了巨大进步，更在情感和人性理解方面展现了令人期待的前景。我们有理由相信，随着AI技术的不断发展，未来将会变得更加智能和人性化。

AI 摘要

能力提升

情绪测试

描述结果

惊艳的能力

应用场景