医疗AI读到的病历就不可信

寂静回声 · 发表于 2026-6-3 17:35:57

AI弹出用药建议，医生没有点确认，而是翻开了病历：过敏史空着，检验结果缺失，诊断自相矛盾。
他关掉建议框，按自己的判断开了处方.
这在国内多数公立三甲医院几乎每天都在上演。
行业讨论的焦点始终对准算法：模型参数够不够大，训练数据够不够多，推理能力够不够强。
很少有人追问一个更前置的问题：AI读到的那份病历，本身是可信的吗？
医生拒绝AI建议，大多数时候不是因为算法不够聪明，而是因为他知道喂给算法的数据有多粗糙。不信任的起点不在模型的输出端，而在数据的输入端。而那个输入端，就是每家医院运转了十年、二十年的HIS系统。
HIS和医疗AI之间的脱节，不是某一个字段没填好的偶发问题，而是系统性的、几乎覆盖全链条的数据失真。这些问题在历次HIS升级中反复被提及，却从未被真正根治。拆开来看，至少有四层。

家族史、过敏史、既往手术史，这些对临床决策至关重要的信息，在多数HIS系统中的完整率低得惊人。
不是没有字段，是字段在那里但没有内容。护士在入院评估时可能问过，但录入系统时被简化成了三个字：无特殊。
三个月前在外院做的CT结果没有导入，上一次急诊的处置记录因为跨系统而无法调取。AI面对的不是一份完整的患者档案，而是一张到处是窟窿的拼图。缺了三分之一，你让算法怎么拼出正确的画面。

比缺失更隐蔽的是错误，同一个患者，门诊诊断写的是2型糖尿病，住院首页填的是糖尿病未分型。检验报告里的肌酐值单位在不同系统间存在不一致。某次录入把收缩压和舒张压反了，后续所有引用这条数据的环节都继承了这个错误。
这些噪音在人工阅读时可以被有经验的医生自动过滤，但AI没有这种本能。它会忠实地把一条错误的肌酐值纳入肾功能评估，然后给出一个看起来有理有据，实际上建立在错误基础上的用药建议。

门诊系统、住院系统、检验系统、影像系统、医保结算系统，在很多医院里来自不同厂商，使用不同的数据标准，运行在不同的服务器上。名义上都叫HIS的一部分，实际上彼此之间的数据打通程度参差不齐。
一个患者上午在门诊做了血常规，下午住进病房，住院医生在系统里看不到上午的结果，因为门诊检验的数据还没有同步过来。AI要构建完整的临床画像，需要把散落在五六个系统里的信息拼在一起。但这些系统之间的接口，很多还停留在定时批量传输的阶段，实时性和完整性都无法保证。

上下文丢失，这一层最容易被忽视，也最致命。
病历记录的是结果，不是过程。医生为什么选了A方案而不是B方案，当时的临床语境是什么，患者表达了什么偏好，家属提出了什么顾虑。这些信息在纸质病历时代就已经大量丢失，电子病历时代不但没有改善，反而因为结构化录入的限制变得更加稀薄。
AI看到的是一条医嘱记录，但它不知道这条医嘱背后的决策权衡。没有上下文的数据，就像没有语境的句子，怎么理解都可能是错的。
四层缺陷叠在一起，构成了一个让人沮丧的现实。
AI的输入层已经被系统性地污染了，而我们还在拼命优化输出层。

大模型行业习惯用一个数字来衡量AI的可信度：准确率。
在某个测试集上达到了95%，于是宣称可以辅助临床决策。
但临床信任的运作方式完全不是这样，一个医生决定是否采纳一条AI建议，依据的不是模型在一万个病例上的平均表现，而是这条具体建议在这个具体患者身上是否说得通。说得通的前提是：他能追溯到每一个依据，验证每一条输入数据的真实性，必要时复现整个推理过程。
临床信任需要的不是统计学意义上的置信度，而是一条完整的证据链。可追溯，可验证，可复现。国内最新的医疗AI监管指引也在强调同一方向：AI辅助诊疗的输出必须具备可解释性和可溯源性。这不是建议，正在成为合规底线。

一些技术路径试图在输出端弥补这个缺口，比如RAG，即检索增强生成，通过在推理时关联权威指南和文献来提高输出的可溯源性。原子事实核查则把AI建议拆解成可逐条验证的微声明。这些方法有价值，但它们解决的是输出端的可解释性问题，不是输入端的数据质量问题。
你可以让AI解释它为什么这么建议，但如果它引用的那条检验结果本身就是错的，解释得再清楚也是在一个错误的前提做精致的辩护。
证据链的强度，取决于最弱的那一环。在今天的多数医院里，最弱的那一环不是算法，是HIS。

承认了问题的根源在HIS，接下来的问题是怎么办。
推行重建不现实。HIS的替换周期以十年计，迁移成本极高，任何激进方案在公立医院的决策体系里都会自然死亡。但不现实不等于不能做，而是需要按照不同时间尺度分层处理。
短期，数据治理。不动系统架构，在现有数据基础上做清洗、校验和质量监控。建立关键字段的完整率看板，对过敏史、既往史、检验结果回传等高优先级数据设置质量阈值。当数据质量低于阈值时，AI模块主动降级，不给出建议而是提示数据不足。这比给出一个基于残缺数据的错误建议安全得多，也事后追责的代价小得多。这件事不需要大投入，需要的是有人愿意把数据质量当成持续运营的指标来跟踪，而不是验收时看一眼的数字。
中期，数据标准化。FHIR，快速医疗互操作性资源，作为国际通行的医疗数据交换标准，国内也在逐步推进。把门诊、住院、检验、影像等系统的数据按照统一标准进行映射和归集，建立面向AI消费的数据视图层。不是建一个大而全的数据中心，而是在现有系统之上架一层薄薄的翻译层，让AI能够以统一的方式读取散落在各处的数据。
长期，反馈闭环。数据质量不能只靠事后清洗，必须在数据产生的那一刻就被管理。当AI因为数据完整而给出了一条真正有用的建议，帮医生省去了一次不必要的重复检查，或者在用药审核中提前拦截了一个风险，数据填报行为才会获得正向驱动力。如果填得好和填得差的结果完全一样，没有人会改变习惯。数据质量的提升不能靠行政命令，必须和临床实际获得感知挂钩。

医疗AI的下一阶段竞争，不会是算法竞争。大模型的能力在快速趋同，算法层面的差异化窗口正在收窄。真正拉开差距的，将是谁能在临床场景中建立起可持续的信任。
而信任的建立，依赖的是完整的、可验证的证据链。证据链的起点，是HIS系统中的数据质量。
这意味着一件反直觉的事情：决定一家医院AI能力上限的，可能不是它买了哪家公司的大模型，而是它的HIS数据治理做到了什么程度。
对医院来说，HIS数据治理不再只是信息科的运维任务，而是直接影响AI落地成败的战略投入。对AI厂商来说，只卖模型不管数据质量，等于把产品口碑的决定权完全交给了自己无法控制的变量。对监管方来说，推动数据标准化和质量可审计机制，比逐个审批算法准确率更能从根本上提升医疗AI的安全性。技术路径、数据工程、管理机制，三者必须同步推进，缺任何一条腿都站不稳。

		自动登录	找回密码
密码			立即注册

医疗AI读到的病历就不可信

浏览过的版块