来自伦敦大学学院、剑桥大学、牛津大学等机构的团队最近发布了一个神经学专用基准BrainBench,发表在《自然人类行为(Nature human behavior)》杂志上。
经过BrainBench训练的LLM在预测神经科学结果的准确度高达81.4%,远超人类专家的63.4%。在神经学常见的5个子领域:行为/认知、细胞/分子、系统/回路、神经疾病的神经生物学以及发育/塑性和修复中,LLM的表现也都全方位超过了人类专家。
较小的模型如Llama2-7B和Mistral-7B与较大的模型表现相当,而聊天或指令优化模型的表现不如其基础模型。
大多数人类专家是博士学生、博士后研究员或教职员工。当限制人类响应为自我报告专业知识的最高20%时,准确率上升到66.2%,但仍低于LLMS。
LLM和人类专家的置信度都校准良好,高置信度的预测更有可能是正确的。
没有迹象表明LLM记忆了BrainBench项目。使用zlib压缩率和困惑度比率的分析表明,LLM学习的是广泛的科学模式,而不是记忆训练数据。
BrainBench是一个前瞻性的基准测试,专门用于评估LLM在预测神经科学结果方面的能力。它通过修改本文摘要来创建测试用例,让LLM和人类专家选择包含实际研究结果的版本。
研究者使用zlib压缩率和困惑度比率来评估LLM是否记忆了训练数据。结果表明,LLM掌握了思维逻辑,而不是简单地记忆训练数据。
本文向我们展示了神经科学研究的一个新方向。未来,神经学专家可以借助LLM的力量进行初步的科研想法筛选。一些研究者也对LLM的这个用法表示质疑,认为实验才是科研最重要的部分,任何预测都没什么必要。
本文为AI在神经科学研究中的应用开辟了新的可能性。LLM在预测神经科学结果方面的能力将极大地帮助神经学研究人员推进他们的研究。
本文地址:http://dy.qianwe.com/article/2102.html