为什么GPT-4o和Gemini Live会重新定义人机交互标准？

本周，OpenAI和Google发布了各自的新大模型产品：GPT-4o和Gemini Live。这两款产品通过多模态交互在使用体验上取得了重大突破，标志着人机交互的新标准。本文将深入探讨这两个新产品的核心优势及其在多模态交互上的应用，展望未来人机交互的可能性。

新品发布：GPT-4o和Gemini Live

就在这周的前几天，OpenAI和Google相继发布了新的大模型产品。虽然具身智能还未完全实现，但这两家公司在多模态交互上迈出了关键一步。

GPT-4o的发布引起了广泛关注，其主要有三个核心优势：

其中最引人遐想的是“实时理解世界”的能力，包括对物理现实和人类情绪的理解。

在Google I/O开发者大会上，Google展示了名为“Gemini Live”的新体验。与GPT-4o类似，Gemini Live可以通过手机摄像头拍摄的照片或视频，查看用户的周围环境并对其做出反应，使交互更自然。

具身智能强调“感知—行动回路”，具有以下三个特点：

尽管真正的具身智能还很遥远，但在多模态交互上，我们已经迈出了关键一步。

大模型产品的交互方式通常是CUI（Conversational User Interface）或LUI（Language User Interface）。但这些方式并不一定是最好的交互方式。著名的用户体验设计大师唐·诺曼（Don Norman）曾提到，好产品的交互设计应满足六项基本原则：

GPT-4o和Gemini Live重新定义了大语言模型产品的交互设计标准，为我们带来了：

多模态交互设计为我们提供了一种新的思路，可以将GUI、CUI/LUI和多模态结合起来，为特定场景设计交互方式。例如：

这种多模态的交互方式，更符合唐·诺曼提到的交互设计原则，能够更好地满足用户的需求。

GPT-4o和Gemini Live的发布，标志着人机交互的一个新阶段。它们通过多模态交互在使用体验上取得了重大突破，为我们展示了未来人机交互的可能性。无论是即时反馈、立体交互还是情绪化的交互过程，这些新技术都在重新定义大模型产品的交互标准。

未来，大模型产品应具备“看”的能力，通过视觉感知环境；“说”的能力，通过自然语言对话；“听”的能力，通过声音感知情绪；“记”的能力，通过长期交互形成记忆。这些能力将使大模型产品更智能、更人性化。