在生成式AI大模型兴起后,AI医生的能力被夸大了,仿佛什么病都会看了;还有不少患者直接拿着DeepSeek的诊断结果来向医生咨询。
生成式AI正在快速席卷医疗行业,针对AI医疗系统的炒作也在愈演愈烈。
很多医生都对此表达了担忧——在生成式AI大模型兴起后,AI医生的能力被夸大了,仿佛什么病都会看了;还有不少患者直接拿着DeepSeek的诊断结果来向医生咨询。
有临床医生表示,AI模型现在还存在不少幻觉,用于医疗诊断应格外谨慎。
大模型能力真假难辨
近日,网上有消息称,上海瑞金医院使用某人工智能系统,成功挽救了一名25岁因误诊陷入多器官衰竭的程序员的生命。不过,据第一财经记者从院方相关人士方面了解,这一案例并不属实,瑞金医院也没有使用过该人工智能系统。
网上消息杜撰了瑞金医院ICU的急救场景,称主治医生接诊一“肺炎”疑难杂症患者,在使用抗生素48小时后不见好转,在束手无策之际,一个叫做“医智星”的AI医疗系统通过分析全球700多例抗利尿激素异常分泌综合征(SIADH)病例数据和患者的CT影像,仅用数秒便锁定患者病因,并提供了成功率高达82%的治疗方案。
对此,瑞金医院方面向第一财经记者表示,消息是假的,瑞金医院也从来没有使用过这个被称为“医智星”的AI医疗系统。
但也有医院使用人工智能大模型救治患者成功的真实案例。上海市东方医院就曾出现过一个病例,一名11岁男童因不明原因发热、间歇性晕厥、嗜睡等症状在外地某著名三甲医院儿科反复检查,却始终无法查明病因,直至一年后,他才被确诊为患有一种十分罕见的自身免疫性疾病。而当医生将这名患儿的病例输入AI大模型后,医学大模型仅用几分钟便给出了专家耗费一年才完成的诊断。
上海某大型三甲医院重症科主任向第一财经记者解释称:“大模型的知识是相对全面的,而推理和结论在医学方面的能力取决于输入的信息。大模型只有输入有效数据,才能输出有效的信息;正确的输入才有可能得到正确的输出,越全面的输入就可能产生更准确的输出。就诊断而言,所有与病人疾病发病相关的信息都是有效信息。”
在上述重症医学专家看来,目前要建医学大模型并不难,因为有了很多开源的模型基础,难点是场景应用中的局部数据治理。
去年,上海市东方医院发布了一款由医生团队主创、技术团队共同研发的AI医学大模型“Med-Go”,引发业内关注。据介绍,这款大模型“啃下”6000多本国内外权威教材、成功通过国家执业医师资格考试,多次参加中文医学信息挑战赛连续获得冠军,并已接入东方医院的HIS系统。
“Med-Go”发明人、东方医院急诊与重症医学科主任张海涛介绍,“Med-Go”如同一名医学教授,具有强大的思考与分析能力,给予医生辅助决策支持,是生成式AI对临床诊疗极具价值的部分。
患者带着DeepSeek报告就诊
随着人工智能公司DeepSeek大模型的普及,已有不少患者在就诊前开始咨询DeepSeek与疾病相关的咨询,甚至拿着DeepSeek的“诊断报告”找医生“对簿公堂”。
对此,一位心内科医生向第一财经记者坦言:“DeepSeek大约90%的结论是正确的,这样确实能够减轻一部分医生和患者的沟通成本。有时DeepSeek的信息更新甚至比医生的知识更新更快,如果医生不与时俱进,确实面临被AI淘汰的风险。”
不过,某医学背景的医疗信息系统开发者对第一财经记者表示:“目前市面上的医疗AI大模型可以取代一部分社区全科医生的工作,为患者提供某些建议,但深入到大型三甲医院的临床诊断,恐怕还需要垂直医疗大模型的持续深入的研究和训练,核心是医院的深度数据。”
上述人士还称,虽然目前已有AI大模型在临床上实现了个别精准诊断的案例,但这些成功的个案尚无法推及更广泛的患者群体,一般临床上还是会看AI模型在长时间落地统计上是否取得显著效果。
上海市第十人民医院超声医学科副主任郭乐杭与团队正开展“超声+AI”的临床研究,主要面向全身多器官、多疾病,针对诊断、预测、教学、远程医疗等多重任务。
在他看来,“幻觉”是医疗AI普及的最大阻碍。“这可能导致错误的诊断、治疗建议或医疗决策,从而对患者的健康造成严重影响。”郭乐杭表示。目前,已有企业正在着手解决AI幻觉产生的问题,业内认为这可能与强化学习的方式有关。
中国科学院院士陈润生也曾提到,破除AI“幻觉”需跨越技术难题、伦理问题等诸多挑战。从技术层面来说,AI的表现很大程度上依赖于训练数据的质量和多样性,如果训练数据存在偏差,模型可能会产生错误的输出。从伦理层面看,算法可能因为训练数据的不完善或设计者的主观偏见而导致歧视性的决策结果。