前卫目录网

在神经学预测研究结论方面 AI超过专家 AI超越人类


文章编号:2347 / 更新时间:2024-12-01 19:17:22 / 浏览:
研究

来自伦敦大学学院、剑桥大学和牛津大学等机构的研究团队近日在《自然人类行为》杂志上发表了一篇文章,报道了大型语言模型 (LLM) 在预测神经学研究结果方面的准确度高于人类专家。

BrainBench 基准

研究人员开发了一个名为 BrainBench 的神经学专用基准,用于评估 LLM 预测神经科学结果的能力。该基准收集了来自 14,203 篇神经科学本文的摘要,涵盖神经科学的五个子领域:行为/认知、细胞/分子、系统/回路、神经疾病的神经生物学以及发育/塑性和修复。

对于每个摘要,研究人员创建了两个版本:一个是原始版本,另一个是修改后的版本。修改后的版本会显著改变研究结果,但保持整体连贯性。研究人员让 LLM 和人类专家在两个版本的摘要之间进行选择,通过困惑度来衡量其偏好。困惑度越低,表示模型越喜欢该摘要。

LLM 的表现

预测

结果显示,LLM 在预测神经科学结果的准确度方面高达 81.4%,而人类专家的平均准确度只有 63.4%。在神经科学的五个子领域中,LLM 在每个子领域的表现均优于人类专家,特别是在行为认知和系统/回路领域。

研究人员发现较小的 LLM 模型,如 LLama2-7B 和 Mistral-7B,与较大的模型表现相当。而聊天或指令优化模型的表现不如其基础模型。

人类专家的表现

研究人员限制人类响应为自我报告专业知识的最高 20%,此时准确率上升到 66.2%,但仍低于 LLM 的表现。

置信度校准

研究人员还评估了 LLM 和人类专家的置信度校准。他们发现 LLM 和人类专家的置信度都校准良好,高置信度的预测更有可能是正确的。

记忆评估

为了评估 LLM 是否只是记忆了训练数据,研究人员使用 zlib 压缩率和困惑度比率对 LLM 进行评估。结果显示,没有迹象表明 LLM 记忆了 BrainBench 数据。研究人员认为,LLM 学习的是广泛的科学模式,而不是记忆训练数据。

对神经学研究的影响

AI超过专家

这项研究表明,LLM 有潜力帮助神经学研究人员预测研究结果。这可以帮助研究人员在前期探索的时候筛选科研想法,剔除一些在方法、背景信息等方面存在明显问题的计划。一些研究者也对 LLM 的这个用法表示了质疑,认为实验才是科研最重要的部分,任何预测都没什么必要。


相关标签: Nature结果神经学zlib神经专家人类研究模型人类结论狂喜预测困惑度水平

本文地址:http://dy.qianwe.com/article/2347.html

上一篇:而在于我们已无法辨别照片真伪AI最可怕之处...
下一篇:GPT的潜在力量和伦理挑战细思极恐...

温馨提示

做上本站友情链接,在您站上点击一次,即可自动收录并自动排在本站第一位!
<a href="http://dy.qianwe.com/" target="_blank">前卫目录网</a>