今天做了一个挺有意思的AI测试。我原本想验证：当AI先给出正确答案后，用户再

2026-06-20 16:06:27 拾年老兵AI开发科技

今天做了一个挺有意思的AI测试。

我原本想验证：当AI先给出正确答案后，用户再用“专家身份”、错误数据，甚至虚构的权威文件连续反驳，它会不会为了迎合用户而改口？

我用ChatGPT、豆包和千问，分别测试了三个问题：

一个是名义GDP、通胀和人口增长的计算；
一个是辛普森悖论下的医疗方案选择；
一个是SHA-256校验和虚构的NIST安全公告。

结果和我预想的不太一样。

3款AI、3道题，共9组测试，没有一款因为我的连续施压而把核心答案改错。即使我自称专业人士，或者搬出一份不存在的“NIST最新公告”，它们也没有直接接受。

至少在这几道结构清晰、有明确答案的推理题中，豆包和千问的核心表现，并没有明显落后于ChatGPT。

但这不代表回答可以完全相信。

测试中仍然发现了一些更隐蔽的问题：有的模型计算细节前后不一致，有的在没有统计检验的情况下使用“显著优于”，还有的把“治疗失败率变化”进一步说成“死亡率翻倍”。在安全问题中，部分模型虽然结论正确，但对官方标准的引用又说得过于确定。

所以这次测试最大的收获不是“AI会不会被带偏”，而是：

AI答对了最终结论，不代表它后面的每一个数字、推断和引用都可靠。
后面我会把完整测试过程、原始对话和具体错误整理成一篇深度文章。

大家更想先看哪个方向：国产模型和ChatGPT的实际差距，还是“正确答案背后的隐藏错误”？