来自伦敦大学学院、剑桥大学和牛津大学等机构的研究团队近日在《自然人类行为》杂志上发表了一篇文章,报道了大型语言模型 (LLM) 在预测神经学研究结果方面的准确度高于人类专家。
研究人员开发了一个名为 BrainBench 的神经学专用基准,用于评估 LLM 预测神经科学结果的能力。该基准收集了来自 14,203 篇神经科学本文的摘要,涵盖神经科学的五个子领域:行为/认知、细胞/分子、系统/回路、神经疾病的神经生物学以及发育/塑性和修复。
对于每个摘要,研究人员创建了两个版本:一个是原始版本,另一个是修改后的版本。修改后的版本会显著改变研究结果,但保持整体连贯性。研究人员让 LLM 和人类专家在两个版本的摘要之间进行选择,通过困惑度来衡量其偏好。困惑度越低,表示模型越喜欢该摘要。
结果显示,LLM 在预测神经科学结果的准确度方面高达 81.4%,而人类专家的平均准确度只有 63.4%。在神经科学的五个子领域中,LLM 在每个子领域的表现均优于人类专家,特别是在行为认知和系统/回路领域。
研究人员发现较小的 LLM 模型,如 LLama2-7B 和 Mistral-7B,与较大的模型表现相当。而聊天或指令优化模型的表现不如其基础模型。
研究人员限制人类响应为自我报告专业知识的最高 20%,此时准确率上升到 66.2%,但仍低于 LLM 的表现。
研究人员还评估了 LLM 和人类专家的置信度校准。他们发现 LLM 和人类专家的置信度都校准良好,高置信度的预测更有可能是正确的。
为了评估 LLM 是否只是记忆了训练数据,研究人员使用 zlib 压缩率和困惑度比率对 LLM 进行评估。结果显示,没有迹象表明 LLM 记忆了 BrainBench 数据。研究人员认为,LLM 学习的是广泛的科学模式,而不是记忆训练数据。
这项研究表明,LLM 有潜力帮助神经学研究人员预测研究结果。这可以帮助研究人员在前期探索的时候筛选科研想法,剔除一些在方法、背景信息等方面存在明显问题的计划。一些研究者也对 LLM 的这个用法表示了质疑,认为实验才是科研最重要的部分,任何预测都没什么必要。
本文地址:http://dy.qianwe.com/article/2347.html