科技快讯：GPT-4在复杂医疗诊断中表现优异

近日，《新英格兰医学杂志》发表的一项研究显示，OpenAI的GPT-4在诊断复杂医疗案例方面的正确率高达52.7%，超过了36%的医学期刊读者，在对比测试中，GPT-4超越了99.98%的人类。

这项由丹麦研究人员进行的评估利用GPT-4来诊断38个复杂的临床案例，这些病例全部来自2017年1月至2023年1月之间。GPT-4与医学期刊读者贡献的248,614个答案进行了PK。

每一个复杂的临床案例都包含了病人的病史信息，以及一个包含六个可能诊断选项的投票。为了使GPT-4进行诊断，研究人员给出了一个特定的任务，即让它回答一个多选题，并分析临床病例报告中的完整原始文本。为了测试GPT-4的诊断是否可靠且一致，每个案例都被重复向GPT-4展示了五次。

研究人员为了与GPT-4的性能进行对比，模拟了10,000个不同的答案集。这些答案集代表了10,000个虚拟的人类参与者。

常见诊断包括15个传染病领域的案例（占39.5%）、5个内分泌学案例（占13.1%）和4个风湿病学案例（占10.5%）。

临床案例中的患者年龄从新生儿到89岁不等，其中37%为女性。

2023年3月最新版本的GPT-4在诊断测试中正确诊断了21.8个病例，即大约57%的准确率，表现出了良好的可重复性。相比之下，参与对比的医学期刊的读者（通常是医疗专业人士，包括医生、医学研究人员和其他医疗领域专家。这些读者通常具有专业的医学背景和丰富的临床经验。）平均正确诊断了13.7个病例，即大约36%的准确率。这一对比结果表明，GPT-4在这些复杂临床案例的诊断中表现出比人类专家更高的准确率。

2023年3月最新发布的GPT-4版本包含了截至2021年9月的在线材料。因此，研究人员对这个时间点之前和之后发布的案例进行了评估。这样做的目的是为了测试GPT-4对于其训练数据集以外新信息的处理能力，从而评估其在实际应用中的有效性和准确性。

在这项研究中，GPT-4在处理2021年9月之前发布的案例时，正确诊断的比例为52.7%。而对于2021年9月之后发布的案例，GPT-4的正确诊断比例提高到了75%。这一结果表明GPT-4在处理更新的案例时表现得更好，可能是因为其最新版本包含了更多的、更新的训练数据，从而使得模型对新情况有了更好的处理能力。

研究者们发现GPT-4在进行诊断时结果的可重复性较高。他们通过时间分析发现，GPT-4所展现的高准确性并非仅因为案例内容曾出现在其训练数据中。在GPT-4的不同版本之间，诊断性能有所变化，最新版本的性能略有下降。虽然在研究中GPT-4展示出了令人充满希望的诊断结果，但它仍然错过了近一半的诊断案例。这表明，尽管GPT-4在医学诊断方面展示了潜力，但它在准确性上仍有提升空间。

“...我们的结果，连同其他研究人员的最新发现，表明目前的GPT-4模型在临床上可能很有前景。然而，需要进行适当的临床试验，以确保这项技术在临床使用中是安全和有效的。”

研究人员同时也指出了研究的局限性，包括对医学期刊读者医疗技能的未知情况，以及研究者的结果可能代表了对GPT-4最有利的最佳情境假设。尽管如此，研究人员得出结论，即使“假设所有参与评估的医学期刊读者在回答问题时，他们的答案高度一致且正确”情况下，GPT-4的表现仍然能超过其中72%的人类专家，显示出它在医学诊断方面的强大能力。

研究人员强调未来模型需要包括来自发展中国家的训练数据，以确保该技术的全球效益，同时还需要考虑伦理问题。

随着人工智能技术在医疗等领域的应用越来越广泛，伴随其发展的伦理和监管问题也变得日益重要。商业化的人工智能模型，如GPT-4，虽然在某些领域表现出色，但其操作的透明度以及如何处理和保护数据的问题需要得到更多关注。确保数据的安全和隐私，以及确立相应的法律和伦理框架，是实现这项技术安全、有效和公平应用的关键。

“最后，应在未来实施之前，先进行临床研究来评估其准确性、安全性和有效性。一旦这些问题得到解决并且人工智能得到改进，预计社会将越来越依赖人工智能作为辅助决策的工具，并在人类监督下使用，而不是作为医生的替代品。”

尚医云·云HIS结合大数据、云计算、云存储等高端技术优势，囊括了BI-数据挖掘与分析（智慧医疗云平台态势图）、微信营销、互联网医院、微官网、连锁医疗集团等特色功能，能满足不同规模、不同类型医疗机构的绝大部分运营需求，为各大医疗机构提供高质量服务，为推动各类医疗机构高质量发展保驾护航。

来源：HIMSS AI News by Jessica Hagen November 27, 2023

助医者济苍生

We empower those healing the world.

群发资讯网

科技快讯：GPT-4在复杂医疗诊断中表现优异

尚医云端