本周,OpenAI和Google发布了各自的新大模型产品:GPT-4o和Gemini Live。这两款产品通过多模态交互在使用体验上取得了重大突破,标志着人机交互的新标准。本文将深入探讨这两个新产品的核心优势及其在多模态交互上的应用,展望未来人机交互的可能性。
新品发布:GPT-4o和Gemini Live
就在这周的前几天,OpenAI和Google相继发布了新的大模型产品。虽然具身智能还未完全实现,但这两家公司在多模态交互上迈出了关键一步。
GPT-4o的核心优势
GPT-4o的发布引起了广泛关注,其主要有三个核心优势:
- 使用门槛更低:免费开放、API价格减半、Mac版工具
- 使用体验更好:速度翻倍、跨模态推理、自然对话
- 使用场景更丰富:情绪感知、实时语音、视觉增强
其中最引人遐想的是“实时理解世界”的能力,包括对物理现实和人类情绪的理解。
Gemini Live的特点
在Google I/O开发者大会上,Google展示了名为“Gemini Live”的新体验。与GPT-4o类似,Gemini Live可以通过手机摄像头拍摄的照片或视频,查看用户的周围环境并对其做出反应,使交互更自然。
具身智能的三大特点
具身智能强调“感知—行动回路”,具有以下三个特点:
- 多模态:能像人一样通过视觉、听觉、触觉等感官完成智能任务。
- 环境交互:能根据环境的交互积累经验,构建不同模型产生不同智能。
- 自主性:具备自主性,和人类的学习与认知过程一致。
尽管真正的具身智能还很遥远,但在多模态交互上,我们已经迈出了关键一步。
新的人机交互标准
CUI与LUI的局限性
大模型产品的交互方式通常是CUI(Conversational User Interface)或LUI(Language User Interface)。但这些方式并不一定是最好的交互方式。著名的用户体验设计大师唐·诺曼(Don Norman)曾提到,好产品的交互设计应满足六项基本原则:
- 示能(Affordance):物理对象本身就有的交互方式。
- 意符(Signifiers):提示用户可以采取什么行为。
- 约束(Constraint):限定可能的操作。
- 映射(Mapping):直观反映在物理位置上的关系。
- 反馈(Feedback):即时反馈,确认所有操作。
- 概念模型(Conceptual Models):简化的说明,告诉用户产品如何工作。
GPT-4o和Gemini Live的突破
GPT-4o和Gemini Live重新定义了大语言模型产品的交互设计标准,为我们带来了:
- 更即时的交互反馈:GPT-4o的响应速度快2倍,Gemini Live也支持实时打断。
- 更立体的交互方式:通过视觉、声音、语调理解用户的环境和情绪。
- 更情绪化的交互过程:在本能层、行为层和反思层表现得更自然生动。
多模态交互设计的新思路
多模态交互设计为我们提供了一种新的思路,可以将GUI、CUI/LUI和多模态结合起来,为特定场景设计交互方式。例如:
- 老师机器人:通过视觉和语音理解学生的需求,提供个性化的教学指导。
- 医生机器人:通过摄像头和传感器监测病人的状况,提供实时医疗建议。
- 教练机器人:通过视觉和语音分析用户的运动姿势,提供专业的运动指导。
这种多模态的交互方式,更符合唐·诺曼提到的交互设计原则,能够更好地满足用户的需求。
结语
GPT-4o和Gemini Live的发布,标志着人机交互的一个新阶段。它们通过多模态交互在使用体验上取得了重大突破,为我们展示了未来人机交互的可能性。无论是即时反馈、立体交互还是情绪化的交互过程,这些新技术都在重新定义大模型产品的交互标准。
未来,大模型产品应具备“看”的能力,通过视觉感知环境;“说”的能力,通过自然语言对话;“听”的能力,通过声音感知情绪;“记”的能力,通过长期交互形成记忆。这些能力将使大模型产品更智能、更人性化。