机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 38|回复: 0

医疗AI读到的病历就不可信

[复制链接]

2万

主题

3万

帖子

21万

积分

超级版主

Rank: 8Rank: 8

积分
217617
发表于 前天 17:35 | 显示全部楼层 |阅读模式
AI弹出用药建议,医生没有点确认,而是翻开了病历:过敏史空着,检验结果缺失,诊断自相矛盾。
他关掉建议框,按自己的判断开了处方.
这在国内多数公立三甲医院几乎每天都在上演。
行业讨论的焦点始终对准算法:模型参数够不够大,训练数据够不够多,推理能力够不够强。
很少有人追问一个更前置的问题:AI读到的那份病历,本身是可信的吗?
医生拒绝AI建议,大多数时候不是因为算法不够聪明,而是因为他知道喂给算法的数据有多粗糙。不信任的起点不在模型的输出端,而在数据的输入端。而那个输入端,就是每家医院运转了十年、二十年的HIS系统。
HIS和医疗AI之间的脱节,不是某一个字段没填好的偶发问题,而是系统性的、几乎覆盖全链条的数据失真。这些问题在历次HIS升级中反复被提及,却从未被真正根治。拆开来看,至少有四层。

家族史、过敏史、既往手术史,这些对临床决策至关重要的信息,在多数HIS系统中的完整率低得惊人。
不是没有字段,是字段在那里但没有内容。护士在入院评估时可能问过,但录入系统时被简化成了三个字:无特殊。
三个月前在外院做的CT结果没有导入,上一次急诊的处置记录因为跨系统而无法调取。AI面对的不是一份完整的患者档案,而是一张到处是窟窿的拼图。缺了三分之一,你让算法怎么拼出正确的画面。

比缺失更隐蔽的是错误,同一个患者,门诊诊断写的是2型糖尿病,住院首页填的是糖尿病未分型。检验报告里的肌酐值单位在不同系统间存在不一致。某次录入把收缩压和舒张压反了,后续所有引用这条数据的环节都继承了这个错误。
这些噪音在人工阅读时可以被有经验的医生自动过滤,但AI没有这种本能。它会忠实地把一条错误的肌酐值纳入肾功能评估,然后给出一个看起来有理有据,实际上建立在错误基础上的用药建议。

门诊系统、住院系统、检验系统、影像系统、医保结算系统,在很多医院里来自不同厂商,使用不同的数据标准,运行在不同的服务器上。名义上都叫HIS的一部分,实际上彼此之间的数据打通程度参差不齐。
一个患者上午在门诊做了血常规,下午住进病房,住院医生在系统里看不到上午的结果,因为门诊检验的数据还没有同步过来。AI要构建完整的临床画像,需要把散落在五六个系统里的信息拼在一起。但这些系统之间的接口,很多还停留在定时批量传输的阶段,实时性和完整性都无法保证。

上下文丢失,这一层最容易被忽视,也最致命。
病历记录的是结果,不是过程。医生为什么选了A方案而不是B方案,当时的临床语境是什么,患者表达了什么偏好,家属提出了什么顾虑。这些信息在纸质病历时代就已经大量丢失,电子病历时代不但没有改善,反而因为结构化录入的限制变得更加稀薄。
AI看到的是一条医嘱记录,但它不知道这条医嘱背后的决策权衡。没有上下文的数据,就像没有语境的句子,怎么理解都可能是错的。
四层缺陷叠在一起,构成了一个让人沮丧的现实。
AI的输入层已经被系统性地污染了,而我们还在拼命优化输出层。

大模型行业习惯用一个数字来衡量AI的可信度:准确率。
在某个测试集上达到了95%,于是宣称可以辅助临床决策。
但临床信任的运作方式完全不是这样,一个医生决定是否采纳一条AI建议,依据的不是模型在一万个病例上的平均表现,而是这条具体建议在这个具体患者身上是否说得通。说得通的前提是:他能追溯到每一个依据,验证每一条输入数据的真实性,必要时复现整个推理过程。
临床信任需要的不是统计学意义上的置信度,而是一条完整的证据链。可追溯,可验证,可复现。国内最新的医疗AI监管指引也在强调同一方向:AI辅助诊疗的输出必须具备可解释性和可溯源性。这不是建议,正在成为合规底线。

一些技术路径试图在输出端弥补这个缺口,比如RAG,即检索增强生成,通过在推理时关联权威指南和文献来提高输出的可溯源性。原子事实核查则把AI建议拆解成可逐条验证的微声明。这些方法有价值,但它们解决的是输出端的可解释性问题,不是输入端的数据质量问题。
你可以让AI解释它为什么这么建议,但如果它引用的那条检验结果本身就是错的,解释得再清楚也是在一个错误的前提做精致的辩护。
证据链的强度,取决于最弱的那一环。在今天的多数医院里,最弱的那一环不是算法,是HIS。

承认了问题的根源在HIS,接下来的问题是怎么办。
推行重建不现实。HIS的替换周期以十年计,迁移成本极高,任何激进方案在公立医院的决策体系里都会自然死亡。但不现实不等于不能做,而是需要按照不同时间尺度分层处理。
短期,数据治理。不动系统架构,在现有数据基础上做清洗、校验和质量监控。建立关键字段的完整率看板,对过敏史、既往史、检验结果回传等高优先级数据设置质量阈值。当数据质量低于阈值时,AI模块主动降级,不给出建议而是提示数据不足。这比给出一个基于残缺数据的错误建议安全得多,也事后追责的代价小得多。这件事不需要大投入,需要的是有人愿意把数据质量当成持续运营的指标来跟踪,而不是验收时看一眼的数字。
中期,数据标准化。FHIR,快速医疗互操作性资源,作为国际通行的医疗数据交换标准,国内也在逐步推进。把门诊、住院、检验、影像等系统的数据按照统一标准进行映射和归集,建立面向AI消费的数据视图层。不是建一个大而全的数据中心,而是在现有系统之上架一层薄薄的翻译层,让AI能够以统一的方式读取散落在各处的数据。
长期,反馈闭环。数据质量不能只靠事后清洗,必须在数据产生的那一刻就被管理。当AI因为数据完整而给出了一条真正有用的建议,帮医生省去了一次不必要的重复检查,或者在用药审核中提前拦截了一个风险,数据填报行为才会获得正向驱动力。如果填得好和填得差的结果完全一样,没有人会改变习惯。数据质量的提升不能靠行政命令,必须和临床实际获得感知挂钩。

医疗AI的下一阶段竞争,不会是算法竞争。大模型的能力在快速趋同,算法层面的差异化窗口正在收窄。真正拉开差距的,将是谁能在临床场景中建立起可持续的信任。
而信任的建立,依赖的是完整的、可验证的证据链。证据链的起点,是HIS系统中的数据质量。
这意味着一件反直觉的事情:决定一家医院AI能力上限的,可能不是它买了哪家公司的大模型,而是它的HIS数据治理做到了什么程度。
对医院来说,HIS数据治理不再只是信息科的运维任务,而是直接影响AI落地成败的战略投入。对AI厂商来说,只卖模型不管数据质量,等于把产品口碑的决定权完全交给了自己无法控制的变量。对监管方来说,推动数据标准化和质量可审计机制,比逐个审批算法准确率更能从根本上提升医疗AI的安全性。技术路径、数据工程、管理机制,三者必须同步推进,缺任何一条腿都站不稳。





回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2026-6-5 00:00 , Processed in 0.090196 second(s), 19 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表