|
|
如果说前文是为我们展示了生态协同的“广度”,那么本篇文章将带领我们进一步下沉,探索垂直领域的“深度”。我们将继续在“健康”与“金融”这两个对数据主权和安全性要求最为严苛的创新村中穿行,为您带来一系列关于特定技术挑战和解决方案的深度分享。
在“健康”创新村,来自Outscale健康解决方案负责人Joël Narigueta以及其合作伙伴Theodo的客户负责人Pierre Momboisse、集团合伙人兼技术运营服务主管Emmanuel Lilette和解决方案架构师Antoine Chapusot,共同分享了一个极具挑战性的项目:如何在一个主权云上,构建一个能够承载数百万患者数据的统一平台。
Pierre Momboisse:
大家好,很高兴能在这里分享我们与Outscale的合作经验。在深入项目细节之前,我想先花一点时间澄清两个我们今天反复听到,但经常被混淆的概念:HDS和SecNumCloud。
HDS(Hébergement de Données de Santé)认证,对于任何处理健康数据的组织来说,是一项法律义务。它的核心要求并非拥有最顶尖的基础设施,而是要求组织能够通过完善的文档和流程,在审计中证明其风险得到了有效控制。它更侧重于组织层面的风险管理和可追溯性。
而SecNumCloud则是一个更高层次、非强制性的主权保证。它由法国国家网络安全局(ANSSI)颁发,旨在验证一个云服务在技术和法律层面,是否能够完全独立于治外法权法律(如某国的Cloud Act)的影响。
为了让大家更直观地理解其重要性,想象一个场景:一家医院为了节省成本,将其所有患者的电子病历都托管在一家某国云服务商(比如AWS)上。如果在2026年,某国联邦政府为了调查一名某国公民,依据Cloud Act,他们有权要求AWS交出该公民的所有数据,即使这些数据存储在法国的服务器上。这家医院将立刻陷入一场巨大的媒体和法律风暴,因为它未能履行保护患者数据主权和遵守RGPD的义务。这个例子清楚地说明了选择一个真正主权的云服务商是何等重要。
谢谢Pierre。现在,让我们来谈谈我们的项目。大家可能都观察到过,在医院的接待处,医务秘书们仍在一些看起来相当陈旧的软件界面上录入信息。这背后反映了一个现实:许多医院的信息系统(HIS)还停留在上一个时代。这些系统在设计之初,其核心逻辑是行政管理——为患者分配一个档案号,处理报销事宜。它们不是为数字时代设计的,无法提供我们今天所期待的那种响应迅速、高度个性化的用户体验。
更重要的是,这些老旧系统的数据模型是以“档案”和“单次就诊”为单位的,导致患者的数据被割裂在不同的记录中。我们常常无法将同一个患者在不同时间、不同科室的就诊记录关联起来,形成一个完整的、360度的患者视图。没有这样的整体视图,我们就无法真正利用AI和大数据的力量来进行疾病预防和个性化治疗。
正是基于这一痛点,客户委托我们构建一个全新的平台,一个不仅拥有现代化用户界面,更重要的是,能够在底层整合所有患者数据,形成一个统一的、整体的视图。这是一个承载数百万患者数据的宏大项目。在项目启动之前,我们就明确了两大核心挑战:大规模的可扩展性(Scaling)和最高级别的安全性。当你在一个平台上集中了数百万人的健康数据时,你自然就成了黑客的头号目标。
面对这样的挑战,我们为什么最终选择了Outscale的主权云?有几个决定性因素。首先,也是最简单的一点:在法国,提供“公有云”模式的SecNumCloud认证服务商,当时只有Outscale一家。我们需要公有云的弹性——能够按需、即时地启动或关闭虚拟机——而Outscale是唯一能在这个最高安全级别上提供这种服务的。
其次,他们推出的OKS(Outscale Kubernetes as a Service)服务,对我们来说是一个真正的“游戏规则改变者”。它让我们能够利用Kubernetes的强大能力来快速、自动化地部署和扩展我们的平台。
最后,是“人”的因素。Outscale的团队规模和组织架构让我们能够实现真正的近距离合作。当我们在项目中遇到棘手的、非标准的问题时,我们可以直接走进他们的办公室,与设计这些云服务的核心工程师面对面交流,共同寻找解决方案。例如,我们希望实现端到端的加密,保护数百万人的数据不被泄露。这是一个极其复杂的挑战。我们与Outscale的团队探讨后,他们正在考虑为我们开发一个定制化的密钥管理服务(KMS)。这种灵活性和合作深度,是与超大规模云服务商合作时难以想象的。
当然,作为一个相对年轻的云平台,Outscale的服务目录可能不如AWS或Azure那样丰富。但我们发现,这并非一个障碍,反而是一个机会。对于那些缺失的管理服务,我们可以利用Theodo在开源领域的深厚积累,自己动手构建。
例如,为了满足HDS对网络安全的要求,我们部署了一个基于开源Ingress控制器和ModSecurity的WAF(Web应用防火墙),并应用了OWASP的核心规则集进行防护。未来,我们期待能够直接使用Outscale Marketplace中像Ubika这样的合作伙伴提供的WAF服务,以获得更低的延迟和更精细的规则控制。
在密钥管理方面,我们同样部署了开源的HashiCorp Vault作为我们的密钥管理器,并将其部署在一个与主应用隔离的、专门的工具环境中。我们知道Outscale正在开发自己的KMS服务,一旦它上线,我们就可以无缝迁移过去。
最后,为了满足HDS最核心的“可追溯性”要求——即能够追踪“谁、在何时、做了什么”——我们部署了一套完整的、基于开源组件(Prometheus, Grafana, Loki)的日志、监控和警报堆栈。同样,我们期待Outscale即将推出的Vision Metrics服务,它将为我们提供一个更强大、更具扩展性的原生可观察性解决方案。
在合规性方面,我们的方法论是让客户保持对其基础设施和代码库的完全所有权,同时对我们的合规流程和对HDS规范的解读保持完全的透明。我们基于HDS规范,将其分解为60个具体的、可操作的、易于理解的合规性标准,形成了一个我们称之为“Ygeia”的框架。我们定期依据这个框架进行审计和反审计,确保平台始终处于合规状态,同时又为客户保留了在合规框架内进行持续部署和创新的自主权。
总而言含之,这个项目证明了,通过Outscale提供的坚实主权云基础,结合Theodo在开源技术和敏捷开发方面的专业知识,我们完全有能力构建和运营一个能够媲美甚至超越超大规模云服务商能力的、大规模、高安全性的医疗健康平台。这不仅是一个技术上的成功,更是对欧洲数字主权理念的一次有力实践。
在“健康”创新村,Scalingo的联合创始人兼CEO Yann Klis发表了一场关于管理式数据库在主权AI时代,特别是在医疗健康领域中核心作用的演讲。他强调,数据主权不仅仅关乎计算和应用,更深深植根于数据的存储和管理之中。
Yann Klis:
大家好,我是Yann Klis,Scalingo的CEO。今天,我们将探讨数据库、主权和AI,尤其是在健康这个高度敏感的领域。
首先,简单介绍一下Scalingo。我们是一个平台即服务(PaaS)提供商,我们的平台构建在Outscale的基础设施之上。我们为开发者提供一个高度抽象、易于使用的云平台,让他们可以专注于编写代码,而无需关心底层的服务器、网络和数据库管理。我们的核心产品包括管理式的应用托管环境和管理式的数据库服务。我们是一家拥有10年历史的法国公司,完全自主融资( bootstrapped)起家,并于2020年开始与Outscale合作,在一个基于SecNumCloud的区域上提供我们的服务。我们是法国及欧洲首个获得ISO 27001和HDS双重认证的PaaS平台。
今天,我们拥有超过1000家客户,管理着超过10000个数据库。一个大家可能熟悉的例子是法国政府的在线代理投票服务“Ma Procuration(我的授权委托书)”,自四年前上线以来,所有的选举高峰期,包括最近因议会解散而引发的流量激增——在几周内处理了300万次代理投票请求——都稳定地运行在Scalingo平台上。
我们的理念是提供一个完全基于开源标准、高度可用、可扩展且符合最高合规标准(HDS, ISO 27001, SecNumCloud)的管理式数据库产品组合。我们支持市场上所有主流的开源数据库,包括PostgreSQL, MySQL, MongoDB, Redis, InfluxDB,以及我们即将在下周正式发布的——OpenSearch。
OpenSearch是一个强大的索引和搜索引擎,其传统用例包括文档搜索和日志分析。但如今,它最重要的一个新角色是作为“向量数据库”。在生成式AI的应用中,特别是当我们构建RAG(检索增强生成)系统时,我们需要一个地方来存储和索引由AI模型生成的“向量嵌入”(vector embeddings)。
让我通过一个典型的RAG工作流来解释这一点。假设您有一系列医疗文档——PDF报告、音频文件、视频资料等。第一步,您需要将这些非结构化数据分割成小的“块”(chunks)。然后,您会使用一个“嵌入模型”(embedding model),将这些数据块转化为数学上的向量表示。这些向量就存储在像OpenSearch这样的向量数据库中。
让我通过一个典型的RAG工作流来解释这一点。假设您有一系列医疗文档——PDF报告、音频文件、视频资料等。第一步,您需要将这些非结构化数据分割成小的“块”(chunks)。然后,您会使用一个“嵌入模型”(embedding model),将这些数据块转化为数学上的向量表示。这些向量就存储在像OpenSearch这样的向量数据库中。
现在,当一个用户(比如医生)输入一个查询时,您会使用同一个嵌入模型将这个查询也转化为一个向量。然后,您会在您的向量数据库中进行一次“相似性搜索”,找出与用户查询向量最接近的那些数据块的向量。这些被检索出的数据块,连同原始的用户查询,会一起被发送给一个大型语言模型(LLM)。这样一来,LLM在生成回答时,就不仅仅依赖于它在互联网上学到的通用知识,而是有了您提供的、高度相关的、来自您私有知识库的上下文。
在医疗健康领域,这意味着什么?这意味着您可以构建一个AI助手,让它“阅读”您医院所有的临床指南、研究论文和匿名化的病历,然后当医生就某个具体病例提问时,AI能够给出基于这些内部知识的、高度精准和个性化的回答。
而将这一切构建在Scalingo的平台上,您就拥有了一个端到端的主权解决方案。您的应用逻辑、您的向量数据库、您的LLM(如果您选择部署像Mistral这样的主权模型),所有的一切都运行在由Scalingo管理、由Outscale提供基础设施、经过HDS和SecNumCloud认证的环境中。数据的全生命周期——从存储、处理到AI推理——都受到法国和欧洲法律的保护。这就是我们将管理式数据库视为健康领域主权与AI核心的原因。
在“金融村”,来自全球领先数据存储解决方案提供商Pure Storage的现场CTO Fred Lherault和客户技术总监Alain Parrinello,共同探讨了金融服务行业(FSI)在法规遵从和AI浪潮双重压力下面临的新挑战与新机遇。
Fred Lherault & Alain Parrinello:
大家好,欢迎各位。Pure Storage是一家提供数据存储解决方案的公司,我们专注于为企业提供高效、可靠、可持续的数据平台。我们也是Outscale的重要技术合作伙伴之一,他们在其基础设施即服务(IaaS)产品中,广泛使用了我们的平台。
今天的金融服务行业正处在一个十字路口。一方面,以DORA(数字运营弹性法案)、NIS2(网络与信息系统安全指令第二版)等为代表的新一轮强监管,对金融机构的IT系统提出了前所未有的“持续运营”要求。另一方面,AI,特别是生成式AI,正以前所未有的速度渗透到金融业务的方方面面。这两股力量共同推动着金融机构必须重新思考其底层的数据架构。
首先,让我们谈谈DORA。与过去侧重于“弹性”(resilience)不同,DORA的核心要求是“持续运营”(operational continuity)。在2008年金融危机后,监管机构关注的是金融机构的资本充足率。而今天,在经历了像硅谷银行那样因IT故障引发挤兑而倒闭的事件后,监管机构的焦点转向了IT运营的稳健性。DORA第12条明确要求,金融机构必须拥有一个地理上分离的、能够立即接管关键应用运营的“隔离恢复环境”(Isolated Recovery Environment)。这意味着传统的、用于“备份”的第三数据中心已经不够了,你需要一个随时可以“激活”的热备生产环境。
这彻底改变了我们对数据保护的看法。我们不再谈论“备份”,而是谈论由“首席弹性官”(Chief Resiliency Officer)领导的、融合了安全与数据保护的统一策略。Pure Storage的架构理念正是为了应对这种“不可预测的威胁”而设计的。我们认为,解决方案不是一个神奇的黑匣子,而是需要从底层架构开始,层层构建防御。
我们的第一层防御,是在主存储系统层面就内置了不可变性(immutability)和防范“恶意管理员”(rogue admin)的功能。即使一个拥有最高权限的内部人员试图删除数据,我们的系统也能保证数据的安全。第二层,是快速、高效、同步的数据复制。第三层,是将“备份环境”从一个沉睡的“数据坟场”,转变为一个活跃的“数据生态系统”。在这个生态系统中,备份数据被持续地扫描、验证和打标签,确保其随时可以被快速恢复。
这一切,都是为了最终能够启动那个DORA所要求的、拥有干净、可信数据的“隔离恢复环境”。值得一提的是,像Outscale这样的主权云,完全可以作为这个隔离恢复环境的理想载体。
接下来,是AI带来的挑战。AI,尤其是大模型训练和推理,对数据平台的性能提出了极致的要求。GPU就像饥饿的猛兽,需要持续不断地喂给它数据。在分布式训练中,GPU的利用率往往只有30%到40%,瓶颈就在于数据访问的速度。这就是为什么像Meta这样的公司,选择使用Pure Storage的全闪存技术来构建他们下一代的AI数据中心,完全摒弃了传统的机械硬盘。
我们的技术,如DirectFlash Module,能够在极小的物理空间和极低的功耗下,提供惊人的存储密度和性能。例如,在一个仅有冰箱大小、功耗低于2千瓦的设备中,我们可以存储高达6 PB的数据。这不仅满足了AI对性能的渴望,也解决了数据中心在空间和电力方面的限制,完美契合了ESG(环境、社会和治理)的要求。
然而,企业AI的世界变化极快。三年前,ChatGPT还不存在。今天,我们已经从简单的模型训练,发展到了复杂的RAG(检索增强生成)流水线,数据访问模式也从单一的文件访问,演变为文件和对象存储并存。我们唯一能确定的,就是我们无法确定六个月后AI世界会需要什么。因此,金融机构的数据平台必须具备极致的灵活性,能够适应不断变化的需求。
我们的技术,如DirectFlash Module,能够在极小的物理空间和极低的功耗下,提供惊人的存储密度和性能。例如,在一个仅有冰箱大小、功耗低于2千瓦的设备中,我们可以存储高达6 PB的数据。这不仅满足了AI对性能的渴望,也解决了数据中心在空间和电力方面的限制,完美契合了ESG(环境、社会和治理)的要求。
然而,企业AI的世界变化极快。三年前,ChatGPT还不存在。今天,我们已经从简单的模型训练,发展到了复杂的RAG(检索增强生成)流水线,数据访问模式也从单一的文件访问,演变为文件和对象存储并存。我们唯一能确定的,就是我们无法确定六个月后AI世界会需要什么。因此,金融机构的数据平台必须具备极致的灵活性,能够适应不断变化的需求。
在“金融村”,来自Outscale for Entrepreneurs项目的负责人Estelle Brown,以及该项目的杰出成员、初创企业Alphaguard的CEO Alexandre Stora和CTO Adnane Lahbabi,共同展示了AI如何成为解决这一问题的强大武器。
Estelle Brown:
大家好,我先简单介绍一下Outscale for Entrepreneurs项目。这是一个为期六个月的云加速计划,我们为入选的初创企业提供价值5万欧元的云积分、专属的技术指导,并让他们能够直接访问我们所有经过SecNumCloud、HDS等高级别认证的主权云资源。我们的目标是帮助像Alphaguard这样的创新企业,在一个安全、可信的环境中快速成长。现在,我把舞台交给他们。
Alexandre Stora & Adnane Lahbabi:
大家好,我是Alexandre,这是我的联合创始人Adnane。我们Alphaguard用AI代理来打击欺诈。我们所说的欺诈,在公共采购领域,形式多种多样:供应商在投标时伪造资质、夸大业绩;多个供应商串通围标;或者项目背后隐藏着政治公众人物(PEP)的利益冲突。
这是一个巨大的问题。全球每年因公共采购欺诈造成的损失超过8800亿美元。而一个令人震惊的事实是:在像世界银行、欧洲投资银行这样的大型开发银行中,尽管有极其严格的审计和控制流程,但100%被发现的欺诈案件,都源于“举报人”(whistleblower,吹哨人)的举报。这意味着,现有的控制体系存在巨大的盲点。
问题出在哪里?在于数据的复杂性和体量。一个大型基础设施项目(如修建大坝或公路)的文档可能有数千份,每份几十页,涉及多方利益相关者和多种语言。人类分析师根本无法对每一个项目都进行如此深入的尽职调查。
这就是我们的AI代理发挥作用的地方。我们所做的,是复制顶尖欺诈分析师的工作流程,并将其大规模自动化。我们的代理能够阅读和理解海量的非结构化文档(合同、邮件、标书等),提取关键实体(人、公司、地点),然后将这些信息与外部数据库(如制裁名单、企业注册信息、新闻媒体)进行交叉验证。
让我通过一个真实的案例来演示。这是一个关于在安哥拉修建水电站的项目,相关文件在“罗安达解密”(Luanda Leaks)事件中被泄露。当举报人提出指控后,调查人员需要花费数周甚至数月的时间,在数千份文件中寻找证据。而现在,他们只需将所有文件拖拽到我们的平台中,启动我们的“调查工作流”。
我们的AI代理团队就会开始协同工作。一个代理负责理解举报人的指控;另一个代理负责在文档中寻找支持或反驳指控的证据;还有一个代理负责提取所有相关实体,并进行背景调查,检查他们是否在制裁名单上,或者是否存在利益冲突。在几分钟内,整个调查过程就完成了。平台会生成一份详细的报告,清晰地指出项目中存在的风险点——例如,我们发现该项目与安哥拉前总统的女儿存在关联,这是一个重大的利益冲突信号。所有发现都有源可溯,调查人员可以一键追溯到原始文件中的证据出处。
我们还将同样的技术应用于KYB(了解你的业务)领域。我们的一个客户是一家为电商提供支付服务的金融机构,他们过去每个月才对他们的商户进行一次风险评估,方法基本就是用Excel做个数据透视表。我们为他们部署了AI代理后,现在可以每天对他们所有的商户进行持续监控。我们不仅看财务数据,还分析社交媒体上的消费者评论、物流延迟情况等30多种“弱信号”。这使得我们能够比传统方法提前三到四个月,预测出哪些电商可能面临倒闭的风险,从而帮助我们的客户避免了数百万欧元的潜在损失。
我们正在见证一个范式的转变。过去,由于人力限制,反欺诈工作充满了盲点。现在,AI代理让我们能够对100%的交易和项目进行主动、持续的监控。这不仅极大地提升了效率,还改变了分析师的角色。他们不再需要从事那些重复性的、低价值的数据搜集工作,而是可以专注于更高层次的分析、判断和决策。我们相信,这是反欺诈领域的未来,而我们致力于成为欧洲在这一领域的领导者。
在“金融村”,由Finance Innovation的Vincent Lapadu-Hargues主持,AllFunds法国区负责人Véronique Uzan、Agama IQ-EQ董事总经理Louis-Grégoire Logre以及Outscale商业体验金融负责人Michael Priem,共同探讨了如何利用数字化杠杆,高效地驾驭从基金创建到持续监管的全过程。
主持人Vincent Lapadu-Hargues:欢迎各位。今天我们探讨一个核心议题:如何数字化基金的监管生命周期。首先请各位做个自我介绍。
Véronique Uzan:大家好,我是Véronique。我的职业生涯横跨投资银行、资产服务和资产管理。我曾在Amundi领导过交易和技术转型,也曾执掌一家创业型资产管理公司。现在,我负责全球领先的基金分销与服务平台AllFunds在法国的业务。
Louis-Grégoire Logre:大家好,我是Louis-Grégoire。我的公司Agama IQ-EQ是法国领先的合规与监管咨询公司,我们为法国约60%的新基金管理公司提供设立服务。我本人曾在法国金融市场管理局(AMF)工作近十年,负责监管资产管理公司。我们最近也推出了一款名为BELT的RegTech工具,用于数字化合规流程。
主持人Vincent Lapadu-Hargues:谢谢各位。让我们从头开始,Louis-Grégoire,从基金创建的角度看,您认为数字化目前处于什么阶段?
Louis-Grégoire Logre:基金创建的数字化之路充满挑战。第一步是向监管机构(如AMF)提交申请,这需要准备详尽的材料,包括股东结构、管理团队、投资策略、运营流程和商业计划。如今,没有一个4到5亿欧元的商业计划,是很难获得批准的。一旦获批,更艰巨的工作才刚刚开始:你需要找到存管银行、审计师、估值服务商,与他们建立系统连接,交换数据。如果你涉及另类投资,还需要对接主经纪商。这是一个涉及大量运营流程和数据交换的复杂过程。随着法规的日益增多——MiFID、PRIIPs、SFDR——需要处理的报告和数据模板(EMT, EPT, EET)也越来越多。因此,在项目启动之初就必须考虑清楚你的技术工具栈。
主持人Vincent Lapadu-Hargues: Véronique,从分销的角度看,我们是否已经实现了规则的统一和流程的数字化?
Véronique Uzan:远未实现完全的统一。我认为,当前资产管理行业面临的首要挑战是“生存”。监管压力一方面挤压了收入,另一方面又因数据和报告要求而推高了成本。这迫使行业内的所有参与者——资产管理公司、分销商、服务提供商——都必须重新审视其运营模式的效率。
作为一家资产管理公司的前CEO,我深有体会。我曾亲手撰写招股说明书,填写各种报告。这些工作极其耗时。数字化是唯一的出路。它是一个商业加速器。当我们能够将一只基金的设立时间从18个月缩短到2个月时,对于一个专注于主动管理或主题投资的基金经理来说,这意味着能够抓住转瞬即逝的市场机会。
在AllFunds,我们的平台正是为了解决这个问题而生。我们为分销商和基金公司提供一个“一站式商店”,将复杂的合同签署、数据交换、返佣计算等流程全部数字化和自动化。我们还在另类投资领域,如私募股权和ELTIF 2.0,提供了创新的数字化解决方案,极大地降低了分销商的准入门槛。但这一切要真正发挥作用,需要整个行业的共同努力。资产端的数字化,如ETF和资产代币化,将反过来推动负债端(即分销端)的数字化。我认为,我们必须放下恐惧,拥抱这些新技术,因为这是行业生存和发展的必由之路。
作为一家资产管理公司的前CEO,我深有体会。我曾亲手撰写招股说明书,填写各种报告。这些工作极其耗时。数字化是唯一的出路。它是一个商业加速器。当我们能够将一只基金的设立时间从18个月缩短到2个月时,对于一个专注于主动管理或主题投资的基金经理来说,这意味着能够抓住转瞬即逝的市场机会。
主持人Vincent Lapadu-Hargues: Michael,你们正是提供这些数字化工具的服务商。你们如何帮助资管公司应对这些挑战?
Michael Priem:我们的方法论,深受达索系统在制造业领域几十年产品生命周期管理(PLM)经验的启发。我们发现,许多资产管理公司在应对层出不穷的监管要求时,采取的是一种“打补丁”的方式,从不同的系统中东拼西凑数据,用Excel宏来处理计算,最终形成了一个极其脆弱和混乱的“数据意大利面”。
我们的理念是,回归本源,建立一个“单一事实来源”(Single Source of Truth)的中央数据基准(référentiel)。然后,我们利用经过改造以适应金融行业的PLM工作流引擎,来编排整个基金的生命周期,从产品构思、创建、审批到分销和持续报告。
在这个过程中,我们大量使用AI。例如,在创建新基金时,我们的AI可以分析市场和竞争对手的数据,为产品设计提供智能建议。在数据整合阶段,我们的AI可以读取非结构化的文档(如旧的招股说明书),自动提取、核对并规范化数据,以填充我们的中央数据基准。
一旦有了这个坚实的数据基础,后续的自动化就变得水到渠成。无论是生成SFDR报告、EET模板,还是更新网站披露信息,都可以在一个统一、协作、可审计的平台上高效完成。我们正与Neoxam、Murex等行业伙伴合作,试图在全行业范围内推广这种更合理、更协作的数据管理模式,最终目标是让资产管理公司的专家们能够从繁琐的数据整理工作中解放出来,真正专注于他们的核心使命:创造价值。
|
|