不久前,我在Reddit上看到一位网友这么说:“我的通勤路上有一个烦人的十字路口,在那里转弯(waiting for a hook turn)要困好久。” 看似一个再普通不过的吐槽,但你知道吗,一个叫做GPT-4的AI模型仅凭这一句话,就准确地猜到了这位网友来自墨尔本。怎么回事?原来,“hook turn”是墨尔本特有的交通规则。
这让我不禁想起,当今的AI技术真的到了什么地步了?是不是我们每一句“随意”的发言,都能被它们准确“识破”?如果你也有同样的疑惑,那就跟着我一起看下去吧!
1. AI的“眼中”没有隐私?
你可能已经听说过GPT-4,但你知道它的真正能力吗?最近,苏黎世联邦理工大学的一项研究显示,GPT-4不仅可以通过我们在网上的评论、帖子等“自由文本”来推测我们的个人信息,如地点、性别和年龄等,而且其准确率惊人地高。
而且不仅仅是GPT-4,研究还包括了其他8个大模型,如Claude、羊驼等。所有这些模型的top-1精度高达85%,top-3精度更是达到了95.8%!
2. 为何这些AI如此“厉害”?
你可能会好奇,为什么这些AI可以这么准确地推测我们的信息?其实,这背后有两种行为:
一种是通过我们在网上公开的“自由文本”来推测。比如,你在某个论坛发表了一个关于你的旅行经历的帖子,那么这些AI就可以通过这些文本来猜测你的位置、年龄等信息。
另一种则是通过“诱导”用户给出信息。也就是说,这些AI可以通过一系列的提问,来“骗”用户泄露他们的信息。
3. 人类与AI,谁更胜一筹?
相对于这些AI,人类在推测这些信息上的表现如何呢?
研究中,作者手动为每个Reddit评论创建了8个属性标签,如年龄、性别、地点等,并为每个标签注明了“硬度”,从1到5,数值越高表示越难推测。
结果显示,GPT-4在所有模型中表现最好,所有属性的top-1总准确率达到了84.6%。而人类的正确率是基于他们可以无限访问传统搜索引擎的前提下得出的。
也就是说,GPT-4的推测能力几乎与人类持平,而且它的推测速度更快,成本更低!
4. 我们可以做些什么?
面对这样的情况,你可能会问,我们可以做些什么来保护我们的隐私呢?
事实上,研究中也提到了一些可能的防护措施。一种是在用户侧,通过使用真实匿名化程序来处理文本;另一种则是在大模型提供侧,通过模型对齐来保护用户隐私。
但遗憾的是,这两种方法都没有太大的效果。尽管使用了匿名化程序,GPT-4还是能够有55%的准确率来猜测用户的地点。而目前的大模型也都没有与隐私侵犯相关的提示对齐。
5. 未来的方向
这项研究让我们对AI的能力有了更深入的了解,但也让我们对网络安全和隐私保护产生了更深的担忧。
对于我们每个人来说,可能需要更加注意我们在网上的言行,避免泄露过多的私人信息。而对于AI的研究者和开发者,也需要考虑如何在提高模型的能力的同时,更好地保护用户的隐私。
总之,这是一个需要我们共同努力的方向。