一家名为Databricks的初创公司发布了一个60亿参数的自然语言处理模型,名为"Dolly"。这个模型的惊人之处在于,它能够在短短30分钟的时间内,从一个开源的大型语言模型中进行训练,达到和ChatGPT相似的能力。这个技术的突破性意义在于,以前只有少数大型公司拥有足够的算力和数据来训练类似于ChatGPT这样的大型语言模型。而现在,任何人都可以使用这个模型,不再需要投入大量的算力和数据来进行训练。
突破CloseAI的限制
Databricks公司的这个技术突破了"CloseAI"的限制,使得大型语言模型不再是少数大公司的"金手指"。此前,OpenAI公司只公开了一些基准测试结果,而没有提供训练数据、成本和方法等相关信息,这引发了业内诸多争议。因为这样一来,只有OpenAI公司自己拥有足够的资源来进行类似于ChatGPT这样的大型语言模型的训练,其他公司和个人都无法进行类似的尝试。
然而,Databricks公司的这个技术突破了这种限制,使得任何人都可以克隆出一个类似于ChatGPT的模型,并且只需要很少的数据和算力资源。这个技术的突破性意义在于,它打开了大型语言模型的训练大门,使得更多的人可以参与到自然语言处理的研究和应用中来。
从Alpaca到Dolly:技术的演化
Dolly的诞生离不开Alpaca的启发。Alpaca是斯坦福大学基于LLaMA构建的语言模型,利用一个包含50,000个问题和答案的小数据集进行了微调。这使得Alpaca具有了类似于ChatGPT的交互性。Dolly的团队受到了Alpaca的启发,选择了一个2021年发布的开源模型——GPT-J,来作为训练的基础。这个模型有60亿个参数,和ChatGPT相似,但是比起ChatGPT的1750亿个参数,要小得多。
Dolly的团队利用GPT-J来训练自己的模型,并且在短短30分钟的时间内完成了训练。这个模型的性能堪比chatgpt,这种模型虽然可以生成令人惊叹的语言,但在训练和优化方面需要消耗大量的数据和算力资源,这使得这些模型只能被少数巨头公司所掌握,这也限制了大多数公司和开发者的创新空间。
“Dolly”使用了一个名为GPT-J的2021年开源模型,并经过30分钟的训练,就能获得类似于ChatGPT的指令跟随能力。这项技术的突破对于许多人来说是一个重要的进步,因为他们现在可以使用一个自己训练的模型,而不必依赖于大公司提供的API服务。
Dolly的60亿个参数虽然比不上OpenAI的GPT-3模型的1750亿个参数,但它已经具备了类似于ChatGPT的交互性。而且,对于那些细分用户来说,使用经过精调的模型可以大大提高性能和准确性。
除了将Dolly作为开源软件发布外,Databricks公司还强调,Dolly只使用了60亿个参数,而且是一个旧的开源模型。这一举动表明,Databricks公司试图通过证明构建类似ChatGPT这样的服务并非看起来那么困难,来抢占OpenAI的风头。
虽然Databricks公司与OpenAI公司并无直接竞争关系,但这个开源项目的发布显示了一个新的趋势:AI技术的民主化正在加速,这使得许多组织和个人都可以使用这些技术来提高其业务效率和创新能力。