最近,来自伦敦大学学院、剑桥大学、牛津大学等机构的一个研究团队发布了神经学专用基准BrainBench,研究结果登上了《自然人类行为》期刊。
研究结果显示,经过该基准训练的LLM在预测神经科学研究结果方面的准确度高达81.4%,远高于人类专家的63.4%。在神经学常见的5个子领域(行为/认知、细胞/分子、系统/回路、神经疾病的神经生物学以及发育/塑性和修复),LLM的表现也都全方位超过了人类专家。
值得注意的是,这些模型被证实对于数据没有明显的记忆。也就是说,它们已经掌握了一般科研的普遍模式,可以进行更多的前瞻性预测、预测未知的事物。
研究团队收集了15,000多篇神经科学本文,涵盖了神经科学的各个子领域。
研究团队使用EleuTherAI语言模型评估框架,让LLM在两个版本的摘要之间进行选择,通过困惑度来衡量其偏好。
对人类专家行为的评估也是在相同测试用例上进行选择,他们还需要提供自信度和专业知识评分。最终参与实验的神经科学专家有171名。
研究团队使用zlib压缩率和困惑度比率来评估LLM是否记忆了训练数据。
本研究表明,LLM在预测神经科学研究结果方面的准确度已经超过了人类专家,并且它们可以掌握一般的科研模式,进行前瞻性预测。这为神经科学研究领域带来了新的可能,未来神经学专家可以使用LLM的力量进行初步的科研想法筛选。
也有研究者认为实验才是科研最重要的部分,任何预测都没什么必要,LLM的预测能力还需要进一步验证。
本文地址:http://dy.qianwe.com/article/1304.html