ChatGPT科学判断准确率仅80%且自我矛盾
发布日期2026年3月17日来源某机构一项新研究对ChatGPT进行了测试要求它判断数百个科学假设的真假结果远不令人放心。虽然该AI表面上的正确率约为80%但在考虑随机猜测因素后其表现显著下降仅显示出有限的推理能力。更令人担忧的是当同一问题被多次重复提问时它经常自相矛盾有时答案来回翻转。完整报道AI可能听起来很自信——但在真正理解方面它的猜测程度远超你的想象。某机构教授Mesut Cicek及其研究团队通过提供来自科学论文的假设对ChatGPT进行了重复测试。目标是看AI能否正确判断每项主张是否得到研究支持——换句话说即其真假。团队共评估了700多个假设并对每个假设重复提问10次以衡量一致性。准确率结果与AI性能局限在2024年首次实验时ChatGPT的正确回答率为76.5%。在2025年的后续测试中准确率略有上升至80%。然而当研究人员针对随机猜测随机猜测的正确概率为50%进行调整后结果远没那么亮眼。该AI的表现仅比随机水平好约60%这一水平更接近“D级”而非高可靠性。该系统最难识别错误陈述正确标记假假设的准确率仅为16.4%。它还表现出明显的不一致性。即使对完全相同的提示重复10次ChatGPT也只有约73%的时间给出一致的答案。不一致的答案引发担忧“我们讨论的不仅是准确性还有不一致性。因为如果你反复问同一个问题你会得到不同的答案”Cicek说。他是某机构营销与国际商务系副教授也是这篇新论文的主要作者。“我们使用了10个完全相同的提示。所有条件都一样。它会回答‘真’。下一次它说‘假’。真、假、假、真。有几个案例中出现了五次真、五次假。”AI的流畅性 vs. 真正理解这些发现发表于《Rutgers Business Review》强调了在依赖AI做出重要决策尤其是那些需要细微或复杂推理的决策时保持谨慎的重要性。虽然生成式AI能产生流畅、有说服力的语言但它尚未展现出同等水平的概念理解能力。Cicek认为这些结果表明能够真正“思考”的通用人工智能可能仍比许多人预期的要遥远。“当前的AI工具并不像我们那样理解世界——它们没有‘大脑’”Cicek说。“它们只是记忆能提供一些见解但它们并不理解自己在说什么。”研究设计与方法Cicek与来自某机构的Sevincgul Ulu、来自某机构的Can Uslay以及来自某机构的Kate Karniouchina共同合作。团队使用了自2021年以来发表在商业期刊上的719个科学假设。这类问题通常涉及细微差别有多个因素影响假设是否得到支持。将这种复杂性简化为简单的真/假判断需要仔细的推理。研究人员在2024年测试了免费版的ChatGPT-3.5在2025年测试了更新版的ChatGPT-5 mini。总体而言两个版本的表现相似。在针对随机机会给出正确答案的概率为50%进行调整后AI的有效性在两年的测试中仅比随机水平好约60%。AI推理的关键弱点结果指向了大语言模型AI系统的一个基本局限。尽管它们能生成流畅且有说服力的回答但通常在推理复杂问题时遇到困难。Cicek表示这可能导致听起来令人信服但实际错误的答案。为何专家呼吁对AI保持谨慎基于这些发现研究人员建议商业领导者验证AI生成的信息并持怀疑态度对待。他们还强调需要进行培训以更好地理解AI系统能有效做什么、不能做什么。尽管本研究专门聚焦于ChatGPT但Cicek指出对其他AI工具的类似实验也得出了可比的结果。这项工作也建立在先前呼吁对AI热潮保持谨慎的研究之上。2024年的一项全国性调查发现当产品以AI为营销重点时消费者的购买意愿会降低。“永远保持怀疑”他说。“我不反对AI。我自己也在用。但你必须非常小心。”FINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享