【新智元导读】时光荏苒,转眼2024年已成过去,而今来到了一个全新的2025年。在AI的世界里,这一年对于技术发展和突破意味着什么?让我们通过田渊栋先生的长文,一探究竟。
时光飞逝,岁末将至。此刻,我们站在一年的终点,回首过去,展望未来。今年我们的工作可谓硕果累累,聚焦于两大主题。
学术研究
首先是在大语言模型(LLM)的研究上。我们主要做了两方面的工作:一是增强LLM在复杂推理和规划问题上的能力;二是提升LLM的训练和部署效率。
增强LLM的推理和规划能力
尽管大语言模型在许多任务中表现出色,但在面对复杂的推理和规划问题时仍存在不足。例如在旅行规划问题上,我们开展了深入研究。年初的Searchformer研究项目中,我们将A搜索的符号推理过程记录下来,作为模型的思维链,对传统规划问题进行训练。我们进一步优化模型性能,发现推理链变得更短,而模型的性能却不断提升。
在此基础上,我们开发了Dualformer和Coconut等模型,通过随机移除或缩短推理链中的部分步骤,实现了快思考与慢思考的动态切换。这些模型在处理复杂问题时表现出色。
提高LLM的训练及部署效率
在提高LLM训练及部署效率方面,我们开发了GaLore方法,通过低维投影梯度的方式大幅减少了优化过程中的计算资源需求。此方法显著降低了内存消耗,为模型训练和部署提供了更多便利。
我们还开展了模型部署的相工作,如SpinQuant优化权重旋转矩阵以减少outlier对量化模型的影响等。这些技术应用于LLaMA 3.2 1B/3B模型上,取得了良好效果。
作品出版与AI辅助写作
期待随着工作流的组合与工具的不断进化,AI将在写作领域带来更多惊喜。
对未来的思考与期待
随着AI技术的不断发展,我们正站在一个充满无限可能的起点上。我期待着在明年的工作中,能够更加hands-on地投入我们的项目开发。我们也越来越期待着在深度融合人工智能的推动下打造一个真正“言出法随”或“所思即所得”的未来。
在AGI(通用人工智能)的探索上,我们坚信只有当AI能够像人类一样高效学习并深入理解问题时,才能称其为真正的AGI。尽管目前的大模型还远未达到这一目标,但研究者们仍在不断努力寻找答案。
关于AGI的未来展望
对于AGI的研究和探索而言,这是一个从“炼金术”到“化学”的转变过程。虽然前进的道路充满挑战和未知,但这也是研究者的巨大机遇。我期待着未来能够在研究领域见证这一重大转变。