前卫目录网

科研党狂喜! AI预测神经学研究结论超越人类专家水平


文章编号:1100 / 更新时间:2024-11-29 17:22:44 / 浏览:
狂喜

作者:奇月发自凹非寺

来自伦敦大学学院、剑桥大学、牛津大学等机构的研究团队最近发布了一个神经学专用基准BrainBench,登上了《自然人类行为》(Naturehumanbehavior)期刊。结果显示,经过该基准训练的LLM在预测神经科学结果的准确度方面高达81.4%,远超人类专家的63.4%。

在神经学常见的5个子领域:行为/认知、细胞/分子、系统/回路、神经疾病的神经生物学以及发育/塑性和修复中,LLM的表现也都全方位超过了人类专家。更重要的是,这些模型被证实对于数据没有明显的记忆。也就是说,它们已经掌握了一般科研的普遍模式,可以做更多的前瞻性(Forward-looking)预测、预测未知的事物。

LLM预测能力全面超越人类专家

本文的主要结论如下:

  • 总体结果:LLMs在BrainBench上的平均准确率为81.4%,而人类专家的平均准确率63.4%。
  • 子领域表现:LLMs在神经科学的几个重要的子领域:行为/认知、细胞/分子、系统/回路、神经疾病的神经生物学以及发育/塑性和修复中,在每个子领域的表现均优于人类专家,特别是在行为认知和系统/回路领域。
  • 模型对比:较小的模型如Llama2-7B和Mistral-7B与较大的模型表现相当,而聊天或指令优化模型的表现不如其基础模型。
  • 人类
  • 人类专家的表现:大多数人类专家是博士学生、博士后研究员或教职员工。当限制人类响应为自我报告专业知识的最高20%时,准确率上升到66.2%,但仍低于LLMS。
  • 置信度校准:LLMs和人类专家的置信度都校准良好,高置信度的预测更有可能是正确的。
  • 记忆评估:没有迹象表明LLMs记忆了BrainBench项目。使用zlib压缩率和困惑度比率的分析表明,LLMs学习的是广泛的科学模式,而不是记忆训练数据。

全新神经学基准

本本文的一个重要贡献,就是提出了一个前瞻性的基准测试BrainBench,可以专门用于评估LLM在预测神经科学结果方面的能力。

BrainBench基准的数据收集主要来自神经科学本文摘要,包括:

  • 约300万篇本文摘要,涵盖了神经科学的各个方面。
  • 来自PubMed Central和bioRxiv的开放获取本文摘要,其中包括研究假设、方法、结果和结论。
  • 由人类专家和机器学习算法从摘要中提取的研究结果。

评估LLM和人类专家

在收集数据的基础上,团队为BrainBench创建了测试用例,主要通过修改本文摘要来实现。每个测试用例包括两个版本的摘要:一个是原始版本,另一个是经过修改的版本。修改后的摘要会显著改变研究结果,但保持整体连贯性。测试者的任务是选择哪个版本包含实际的研究结果。

模型

团队使用EleutherALanguageModelEvaluationHaress框架,让LLM在两个版本的摘要之间进行选择,通过困惑度(perplexity)来衡量其偏好。困惑度越低,表示模型越喜欢该摘要。对人类专家行为的评估也是在相同测试用例上进行选择,他们还需要提供自信度和专业知识评分。最终参与实验的神经科学专家有171名。实验使用的LLM是经过预训练的Mistral-7B-v0.1模型。通过LoRA技术进行微调后,准确度还能再增加3%。

评估LLM是否纯记忆

为了衡量LLM是否掌握了思维逻辑,团队还使用zlib压缩率和困惑度比率来评估LLMs是否记忆了训练数据。公式如下:

MLM Score = 1 - (ZLIB(X) / PPL(X))

其中,ZLIB(X)表示文本X的zlib压缩率,PPL(X)表示文本X的困惑度。

根据公式,如果LLM仅仅记忆了训练数据,那么它将无法对新数据进行有效预测,因为新数据的zlib压缩率和困惑度比率与训练数据不同。结果表明,LLMs在BrainBench数据集上的MLM Score很高,这表明它们学习的是广泛的科学模式,而不是记忆训练数据。

结论

本文向我们展示了神经科学研究的一个新方向。未来,神经学专家可以使用LLM的力量进行初步的科研想法筛选,剔除一些在方法、背景信息等方面存在明显问题的计划。需要注意的是,实验才是科研最重要的部分,任何预测都没什么必要。


相关标签: 水平狂喜专家Nature神经模型zlib神经学结果困惑度人类研究预测结论人类

本文地址:http://dy.qianwe.com/article/1100.html

上一篇:从人类模仿者到不可信的照片AI的逼真程度如...
下一篇:靠游戏录得季度首盈利B站陈睿欲凭三谋布局...

温馨提示

做上本站友情链接,在您站上点击一次,即可自动收录并自动排在本站第一位!
<a href="http://dy.qianwe.com/" target="_blank">前卫目录网</a>