ChatGPT科学判断准确率仅80%且自我矛盾

张

张建站

2026/5/11 11:07:32

10分钟阅读

发布日期2026年3月17日来源某机构一项新研究对ChatGPT进行了测试要求它判断数百个科学假设的真假结果远不令人放心。虽然该AI表面上的正确率约为80%但在考虑随机猜测因素后其表现显著下降仅显示出有限的推理能力。更令人担忧的是当同一问题被多次重复提问时它经常自相矛盾有时答案来回翻转。完整报道AI可能听起来很自信——但在真正理解方面它的猜测程度远超你的想象。某机构教授Mesut Cicek及其研究团队通过提供来自科学论文的假设对ChatGPT进行了重复测试。目标是看AI能否正确判断每项主张是否得到研究支持——换句话说即其真假。团队共评估了700多个假设并对每个假设重复提问10次以衡量一致性。准确率结果与AI性能局限在2024年首次实验时ChatGPT的正确回答率为76.5%。在2025年的后续测试中准确率略有上升至80%。然而当研究人员针对随机猜测随机猜测的正确概率为50%进行调整后结果远没那么亮眼。该AI的表现仅比随机水平好约60%这一水平更接近“D级”而非高可靠性。该系统最难识别错误陈述正确标记假假设的准确率仅为16.4%。它还表现出明显的不一致性。即使对完全相同的提示重复10次ChatGPT也只有约73%的时间给出一致的答案。不一致的答案引发担忧“我们讨论的不仅是准确性还有不一致性。因为如果你反复问同一个问题你会得到不同的答案”Cicek说。他是某机构营销与国际商务系副教授也是这篇新论文的主要作者。“我们使用了10个完全相同的提示。所有条件都一样。它会回答‘真’。下一次它说‘假’。真、假、假、真。有几个案例中出现了五次真、五次假。”AI的流畅性 vs. 真正理解这些发现发表于《Rutgers Business Review》强调了在依赖AI做出重要决策尤其是那些需要细微或复杂推理的决策时保持谨慎的重要性。虽然生成式AI能产生流畅、有说服力的语言但它尚未展现出同等水平的概念理解能力。Cicek认为这些结果表明能够真正“思考”的通用人工智能可能仍比许多人预期的要遥远。“当前的AI工具并不像我们那样理解世界——它们没有‘大脑’”Cicek说。“它们只是记忆能提供一些见解但它们并不理解自己在说什么。”研究设计与方法Cicek与来自某机构的Sevincgul Ulu、来自某机构的Can Uslay以及来自某机构的Kate Karniouchina共同合作。团队使用了自2021年以来发表在商业期刊上的719个科学假设。这类问题通常涉及细微差别有多个因素影响假设是否得到支持。将这种复杂性简化为简单的真/假判断需要仔细的推理。研究人员在2024年测试了免费版的ChatGPT-3.5在2025年测试了更新版的ChatGPT-5 mini。总体而言两个版本的表现相似。在针对随机机会给出正确答案的概率为50%进行调整后AI的有效性在两年的测试中仅比随机水平好约60%。AI推理的关键弱点结果指向了大语言模型AI系统的一个基本局限。尽管它们能生成流畅且有说服力的回答但通常在推理复杂问题时遇到困难。Cicek表示这可能导致听起来令人信服但实际错误的答案。为何专家呼吁对AI保持谨慎基于这些发现研究人员建议商业领导者验证AI生成的信息并持怀疑态度对待。他们还强调需要进行培训以更好地理解AI系统能有效做什么、不能做什么。尽管本研究专门聚焦于ChatGPT但Cicek指出对其他AI工具的类似实验也得出了可比的结果。这项工作也建立在先前呼吁对AI热潮保持谨慎的研究之上。2024年的一项全国性调查发现当产品以AI为营销重点时消费者的购买意愿会降低。“永远保持怀疑”他说。“我不反对AI。我自己也在用。但你必须非常小心。”FINISHED更多精彩内容请关注我的个人公众号公众号办公AI智能小助手或者我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

为什么92%的AIOps项目失败？SITS 2026重新定义DevOps边界：不是加AI，而是重写SLA契约与SLO语义模型

更多请点击： https://intelliparadigm.com 第一章：AI原生DevOps：SITS 2026开发运维一体化新范式 AI原生DevOps并非传统CI/CD管道的简单增强，而是以大模型驱动的意图理解、自动化决策与闭环反馈为核心重构的智能工程范式。SITS 20…...

2026/5/11 10:59:51 阅读更多 →

网络升级翻车记：2米扁平线如何毁掉HDSL专线性能

1. 问题缘起：一次看似简单的网络升级最近在翻看一些老资料时，看到一篇关于用Cat5网线传输视频的文章，这让我一下子想起了十多年前自己亲身经历的一次网络升级“翻车”事件。那会儿我还在负责公司一个大型通信网络的运维，当时公司为…...

2026/5/11 10:54:33 阅读更多 →

嵌入式系统时序故障排查：从FDDI网卡BIT测试失败看硬件交互设计

1. 项目背景与问题浮现作为一名在硬件和软件领域摸爬滚打了十多年的工程师，我处理过无数稀奇古怪的故障。但有一种情况最让人头疼，也最考验耐心：那就是去解决一个由多年前的设计决策所引发的、在当时完全无法预见的“后遗症”。这些决策可能来…...

2026/5/11 10:53:26 阅读更多 →

4月28日隐喻“鲸鱼开眼”，DeepSeek识图模式灰度上线，迈入图文交互时代！

4月28日，DeepSeek多模态团队研究员推文隐喻“鲸鱼开眼”，次日开启“识图模式”灰度内测，5月初大范围开放。该模式有亮点也有短板，标志其迈入图文交互时代。事件回顾4月28日，DeepSeek多模态团队研究员陈小康在X平台推文…...

2026/5/10 0:06:14 阅读更多 →

AI赋能高能物理：图神经网络与生成式模型在粒子径迹重建与模拟中的应用

1. 项目概述：当AI遇见高能物理的“显微镜”电子离子对撞机（EIC），被誉为探索物质深层结构的下一代“超级显微镜”。它不像我们熟悉的LHC那样让质子对撞，而是让高能电子去轰击质子或重离子，其核心目标是精确“…...

2026/5/10 0:08:27 阅读更多 →

A/B 测试前后的合成控制样本

原文：towardsdatascience.com/synthetic-control-sample-for-before-and-after-a-b-test-683bac36ffc1 简介 A/B 测试非常强大。我喜欢这种实验，因为它让我们能够比较结果，并确定某物是否比另一物表现更好。 A/B 测试有一个特定类型&#x…...

2026/5/11 2:26:03 阅读更多 →