文章导语:清华大学NLP团队共同开放了ChatGLM-6B 和 ChatGLM2-6B模型的权重,预示着人工智能研究新纪元的来临。
一、AI研究的新里程碑:ChatGLM-6B与ChatGLM2-6B
清华大学NLP团队与智谱AI及清华KEG实验室共同宣布,他们的ChatGLM-6B和ChatGLM2-6B模型现已完全开放权重,允许学术研究和商业使用。这两个模型在人工智能研究领域具有重要意义。
ChatGLM-6B模型是基于General Language Model(GLM)架构的中英双语对话模型,拥有62亿参数。该模型具备问答和对话功能,展现了其在人工智能领域的应用潜力。
二、ChatGLM2-6B:升级与创新
ChatGLM2-6B模型在初代模型的基础上,引入了更多新特性。它采用了GLM的混合目标函数,经过1.4T中英标识符的预训练和人类偏好对齐训练,性能得到了显著提升。上下文长度从2K扩展到了32K,推理速度提升了42%,在INT4量化下,6GB显存可以支持更长的对话长度。这些优化让其在长对话处理和推理速度方面具有了更大的优势。
三、开启AI研究新纪元
这两个模型的开放将为学术界和商业领域的研究者提供更多机会,推动人工智能的创新与应用。他们的发布标志着清华大学在人工智能领域的重要突破,开启了全球AI研究和应用探索的新篇章。
我们期待,在未来,基于ChatGLM-6B和ChatGLM2-6B模型的研究成果和应用场景将持续出现,不断推动人工智能技术的发展进程。