在过去的几年里,人工智能领域取得了巨大的进步,其中一项突破是由OpenAI发布的GPT-4模型,被誉为世界上最强大的人工智能之一。然而,最近关于GPT-4的一系列“信任危机”事件引起了广泛关注。从早期的“间歇式降智”到最近的“变懒”传闻,这些问题引发了对这一庞大模型性能下降的担忧。
信任危机的背后:GPT-4的性能下降
首先,让我们回顾一下今年早些时候的“间歇式降智”事件。据报道,GPT-4在某些情况下会在回答问题时表现出降低的智能水平,这引发了广泛的讨论。虽然OpenAI表示这与他们重新设计GPT-4架构有关,但这仍然引发了人们对这一模型性能的担忧。
更近期的问题是关于GPT-4“变懒”的传闻。有人发现,只要告诉GPT-4“现在是寒假”,它似乎会变得懒散,仿佛进入了一种冬眠状态。这引发了对GPT-4在新任务上的零样本性能下降的疑虑,即模型在未经训练的任务上表现不佳。
最近,加州大学圣克鲁斯分校的研究者发表了一篇论文,提供了关于GPT-4性能下降的新解释。他们发现,GPT-4在训练数据创建日期之前发布的数据集上表现非常出色,但在之后发布的数据集上表现较差。这意味着,GPT-4在已经见过的任务上表现出色,但在新任务上表现糟糕。
深层原因:任务污染和泛化能力不足
研究者的论文指出,一个重要原因是“任务污染”,这是数据污染的一种形式。在传统的数据污染中,我们熟知的是测试数据污染,即在预训练数据中包含了测试数据示例和标签。而“任务污染”是在预训练数据中加入任务训练示例,使得在零样本或少样本情况下的模型评估不再真实有效。
这一发现揭示了GPT-4泛化能力的不足,即模型在新任务上表现差是因为它只是一种基于近似检索的模仿智能方法,主要是记忆东西,而没有真正的理解。这意味着模型的基础不够扎实,在实际应用中容易出现问题。
机器学习的未来挑战
有人对这一问题感到悲观,认为这是所有不具备持续学习能力的机器学习(ML)模型的命运。ML模型在训练后会冻结权重,但输入分布会不断变化。如果模型不能持续适应这种变化,就会慢慢退化。这也意味着,随着编程语言的不断更新,基于这些模型的编码工具也会退化。这为我们提供了一个重要的警示,不应过分依赖这种脆弱工具。
目前,尚没有任何ML模型能够可靠地持续适应不断变化的输入分布,而不会对之前的编码任务造成严重干扰或性能损失。这是一个巨大的挑战,但也是机器学习领域需要解决的重要问题。
生物神经网络的启示
与机器学习模型不同,生物神经网络在这方面表现出色。生物神经网络具有强大的泛化能力,可以学习不同的任务,并且从一个任务中获得的知识有助于改善整个学习过程。这被称为“元学习”,是生物神经网络的一项重要特征。
因此,我们可以从生物神经网络中汲取启示,尝试在机器学习模型中实现更好的泛化能力和持续学习能力。这可能需要更多的研究和创新,但这是机器学习领域前进的方向之一。
结论
GPT-4的信任危机提醒我们,即使在人工智能领域取得了巨大的进步,我们仍然面临许多挑战。解决这些挑战需要不断的研究和创新,以提高模型的泛化能力和持续学习能力。同时,我们也应该谨慎依赖这些模型,了解它们的局限性,并寻找更好的解决方案。