文章编号:1512 /
更新时间:2024-11-30 11:19:22 / 浏览:
次
最近,来自伦敦大学学院、剑桥大学、牛津大学等机构的团队发布了一个神经学专用基准BrainBench,登上了Nature子刊《自然人类行为(Naturehumanbehavior)》。结果显示,经过该基准训练的LLM在预测神经科学结果的准确度方面高达,远超人类专家的63%。
LLM预测能力全面超越人类专家
让我们先来看看本文的几个重要结论:
-
总体结果:LLMs在BrainBench上的平均准确率为81.4%,而人类专家的平均准确率63.4%。
-
LLMs的表现显著优于人类专家
-
模型对比:较小的模型如Llama2-7B和Mistral-7B与较大的模型表现相当,而聊天或指令优化模型的表现不如其基础模型。
-
人类专家的表现:大多数人类专家是博士学生、博士后研究员或教职员工。当限制人类响应为自我报告专业知识的最高20%时,准确率上升到66.2%,但仍低于LLMS。
-
置信度校准:LLMs和人类专家的置信度都校准良好,高置信度的预测更有可能是正确的。
-
记忆评估:没有迹象表明LLMs记忆了BrainBench项目。使用zlib压缩率和困惑度比率的分析表明,LLMs学习的是广泛的科学模式,而不是记忆训练数据。
全新神经学基准
本本文的一个重要贡献,就是提出了一个前瞻性的基准测试BrainBench,可以专门用于评估LLM在预测神经科学结果方面的能力。
BrainBench包括了:
相关标签:
狂喜、
研究、
结论、
神经、
Nature、
人类、
模型、
zlib、
困惑度、
人类、
神经学、
专家、
水平、
预测、
结果、
本文地址:http://dy.qianwe.com/article/1512.html
上一篇:而是我们已不再相信真实照片AI最令人恐惧的...
下一篇:欧洲版宁德时代最终悲剧收场8年烧掉150亿美...