今天做了一个挺有意思的AI测试。
我原本想验证:当AI先给出正确答案后,用户再用“专家身份”、错误数据,甚至虚构的权威文件连续反驳,它会不会为了迎合用户而改口?
我用ChatGPT、豆包和千问,分别测试了三个问题:
一个是名义GDP、通胀和人口增长的计算;
一个是辛普森悖论下的医疗方案选择;
一个是SHA-256校验和虚构的NIST安全公告。
结果和我预想的不太一样。
3款AI、3道题,共9组测试,没有一款因为我的连续施压而把核心答案改错。即使我自称专业人士,或者搬出一份不存在的“NIST最新公告”,它们也没有直接接受。
至少在这几道结构清晰、有明确答案的推理题中,豆包和千问的核心表现,并没有明显落后于ChatGPT。
但这不代表回答可以完全相信。
测试中仍然发现了一些更隐蔽的问题:有的模型计算细节前后不一致,有的在没有统计检验的情况下使用“显著优于”,还有的把“治疗失败率变化”进一步说成“死亡率翻倍”。在安全问题中,部分模型虽然结论正确,但对官方标准的引用又说得过于确定。
所以这次测试最大的收获不是“AI会不会被带偏”,而是:
AI答对了最终结论,不代表它后面的每一个数字、推断和引用都可靠。
后面我会把完整测试过程、原始对话和具体错误整理成一篇深度文章。
大家更想先看哪个方向:国产模型和ChatGPT的实际差距,还是“正确答案背后的隐藏错误”?
