在神经学预测研究结论方面 AI超过专家 AI超越人类

文章编号：2347 / 更新时间：2024-12-01 19:17:22 / 浏览：次

来自伦敦大学学院、剑桥大学和牛津大学等机构的研究团队近日在《自然人类行为》杂志上发表了一篇文章，报道了大型语言模型 (LLM) 在预测神经学研究结果方面的准确度高于人类专家。

BrainBench 基准

研究人员开发了一个名为 BrainBench 的神经学专用基准，用于评估 LLM 预测神经科学结果的能力。该基准收集了来自 14,203 篇神经科学本文的摘要，涵盖神经科学的五个子领域：行为/认知、细胞/分子、系统/回路、神经疾病的神经生物学以及发育/塑性和修复。

对于每个摘要，研究人员创建了两个版本：一个是原始版本，另一个是修改后的版本。修改后的版本会显著改变研究结果，但保持整体连贯性。研究人员让 LLM 和人类专家在两个版本的摘要之间进行选择，通过困惑度来衡量其偏好。困惑度越低，表示模型越喜欢该摘要。

结果显示，LLM 在预测神经科学结果的准确度方面高达 81.4%，而人类专家的平均准确度只有 63.4%。在神经科学的五个子领域中，LLM 在每个子领域的表现均优于人类专家，特别是在行为认知和系统/回路领域。

研究人员发现较小的 LLM 模型，如 LLama2-7B 和 Mistral-7B，与较大的模型表现相当。而聊天或指令优化模型的表现不如其基础模型。

研究人员限制人类响应为自我报告专业知识的最高 20%，此时准确率上升到 66.2%，但仍低于 LLM 的表现。

研究人员还评估了 LLM 和人类专家的置信度校准。他们发现 LLM 和人类专家的置信度都校准良好，高置信度的预测更有可能是正确的。

为了评估 LLM 是否只是记忆了训练数据，研究人员使用 zlib 压缩率和困惑度比率对 LLM 进行评估。结果显示，没有迹象表明 LLM 记忆了 BrainBench 数据。研究人员认为，LLM 学习的是广泛的科学模式，而不是记忆训练数据。

这项研究表明，LLM 有潜力帮助神经学研究人员预测研究结果。这可以帮助研究人员在前期探索的时候筛选科研想法，剔除一些在方法、背景信息等方面存在明显问题的计划。一些研究者也对 LLM 的这个用法表示了质疑，认为实验才是科研最重要的部分，任何预测都没什么必要。

相关标签： Nature、结果、神经学、 zlib、神经、专家、人类、研究、模型、人类、结论、狂喜、预测、困惑度、水平、

本文地址：http://dy.qianwe.com/article/2347.html

做上本站友情链接,在您站上点击一次,即可自动收录并自动排在本站第一位！
<a href="http://dy.qianwe.com/" target="_blank">前卫目录网</a>