|
2024年10月29日至30日,达索系统在享有盛誉的巴黎巴斯德研究所(Institut Pasteur)举办了“2024体验时代的科学大会”,这一盛会汇聚了来自全球各地的科学家、行业领袖以及学术界的翘楚,共同探讨生成式科学如何为社会服务,并深入探索人工智能在未来科技发展中的关键角色。
达索系统的根基深植于科学之中,这一点在其虚拟孪生技术中得到了充分体现。作为一家以科学为导向的企业,达索系统始终致力于通过科学的方法来解决复杂的现实问题,从而推动可持续性创新。
选择在巴斯德研究所举办此次大会别具意义。自1887年成立以来,巴斯德研究所一直是微生物学和公共卫生领域的先锋,以其对狂犬病、白喉及炭疽疫苗的研究闻名遐迩,巴斯德研究所的科学家曾有10人以上获得诺贝尔奖。该研究所不仅在传染病学、免疫学等领域有着卓越贡献,还积极参与到全球健康挑战中去。此次会议选址于此,象征着现代科技与历史传承之间的桥梁,同时也是对未来科研方向的一种指引。
本次大会的主题围绕“生成式科学服务社会”展开,涵盖了从生命科学到环境科学等多个领域内的最新进展。尤其值得注意的是,人工智能成为贯穿整个议程的核心议题之一。例如,Mistral.AI的联合创始人Guillaume Lample介绍了生成式AI在数学上的应用;布朗大学教授George Karniadakis则讨论了物理信息机器学习到智能转变的重要性;而Carnegie Mellon的Gabe Gomes更是展示了大型语言模型如何助力自主化学研究。
此外,大会还邀请到了多位诺贝尔奖得主分享他们各自领域的见解,如物理学领域的Alain Aspect以及经济学领域的Jean Tirole,他们分别就量子技术和经济视角下的医疗创新进行了精彩发言。这些顶尖学者的到来无疑为参会者提供了宝贵的学习机会,同时也彰显出本次大会对于促进跨学科交流的重要价值。
达索系统执行副总裁兼企业研究与科学负责人Patrick Johnson在他的开场致辞中表示,虚拟世界旨在扩展知识并促进可持续创新。它们开辟了所有可能性,并利用生成式科学提升实践、知识和潜力。这些UNIV+RSES对所有人开放,为我们的社会提供了大规模的学习能力。
科学和创新是我们DNA的一部分。我们的虚拟宇宙是那些致力于解决当今人类面临的重大挑战的人们的试验场。3D设计、数字样机(DMU)、产品生命周期管理(PLM):我们当然在你期望的地方,但我们的影响远不止于此!
早上好,各位。我是Patrick Johnson,达索系统的研究主管,我是未来两天的主持人。欢迎来到我们的2024年科学周活动以及“体验时代的科学”会议。我很荣幸代表达索系统欢迎大家来到历史悠久的巴斯德研究所,这里在过去一个世纪里成为了突破性研究的地标,并赢得了不少于10项诺贝尔奖。我要感谢巴斯德研究所的管理层使此次事件成为可能。
这似乎是一个恰当的选择,因为我们开始了关于改变生活且具有颠覆性的科学技术研究的一周讨论。今天,我们有几百名科学家、行业思想领袖和学术冠军齐聚一堂。热烈欢迎所有现场参与及线上加入的朋友们。
达索系统是一家基于科学的公司,我们相信通过科学来构建更美好的未来是最佳方式。因此,科学贯穿于我们所做的一切工作之中,包括我们努力调和产品、自然和生命之间的关系,并提供基于虚拟孪生体验的可持续解决方案。科学确实融入了我们的DNA,随着社会正成为一个融合虚拟与现实的新世界,我们比以往任何时候都更加确信新的科学需要新的地方进行讨论、分享、体验,以便新的社群能够茁壮成长。我们希望为此做出贡献。面向目的的科学,将应用研究带入这个新世界,将虚拟与现实融为一体,并为生活中的科学家和思想领袖提供塑造明天的机会,这就是为什么我们组织了这次会议。
近十年来,我们聚集了全球的科学界,围绕改变游戏规则的可持续创新交换意见、辩论、扩展知识和技能,以应对世界上最伟大的挑战。这些会议确实是关于科学新时代的,我们坚信我们思考、做事、开展科学研究的方式正在以前所未有的速度发生戏剧性的变化,伴随着虚拟与现实的结合。虚拟世界为科学研究提供了全新的独特描述方法,塑造了科学的面貌,并让我们用V+R体验的概念迈入新的视野。因此,今年我们整个科学周的主题是“生成式科学服务社会”。为什么会这样?因为生成式科学为我们观察世界提供了根本性的新基础,它承诺将带来解决最紧迫挑战的突破,同时始终牢记理解其后果、经验和整体成果对于地球和社会的重要性。换句话说,就是再生一个更美好的世界,并使工业实现新的生成式经济。我们坚信这是公共部门和私营部门的融合,这也是本次会议的身份所在。本周将按如下安排进行:从今天开始直到明天中午的“体验时代的科学”会议,随后是第十届虚拟人体孪生体验研讨会,专注于健康和下一代医疗实践。接下来的几天里,您将听到有关科学如何演进的鼓舞人心的愿景,以及来自不同科学和技术领域的突破性成果,让您看到我们对未来充满乐观态度,并惊叹于变化的速度和一些演示。
今年的“体验时代的科学”会议将分为五个部分,您可以看到我们涵盖的所有主题。
工业重塑生活:生成式科学如何彻底改变工业的视角,完全重新定向投资理念和发明,以持续性和体验驱动的方法向更可持续的承诺迈进。简而言之,就是有意识的创新。
保持健康生活:如何通过重新审视某些科学基础来改变我们对生命的理解,并不仅影响生命科学和医疗保健,而且影响全球各行业。
宜居的生活:在一个更加V+R的社会中,我们如何为我们的后代创造一个更可信、更宜居的世界。
在2024年的“体验时代科学大会”上,达索系统公司董事会执行主席Bernard Charlès分享了他对科学以及世界虚拟化的见解。他的演讲围绕三个核心观点展开:
1.科学在创造、探索和居住“新世界”中扮演的角色。
2.虚拟孪生(Virtual Twins)作为科学研究的环境。
3.“V+R科学”的意义。
尊敬的各位来宾,欢迎来到巴黎参加这一盛事。我非常荣幸今天早上能与大家分享一些想法。刚才Patrick介绍了一周的精彩议程,我相信这将是我今年最好的学习机会之一。我们将继续投资,构建这个伟大的朋友网络,把科学置于达索系统公司一切工作的核心。我认为,如果没有科学,达索系统公司就不会存在;它是我们的根本所在。我想借此机会分享一下我们在这个领域的未来投资方向。
我们正处于一个特殊的时刻,21世纪带来了对数字化的新理解。数字化不仅仅是将物理世界转化为数字形式,它还是创建一个由现实和虚拟构成的新世界的工具。我们认为,数字化是手段,而虚拟化则是探索新知识、发现和研究以前从未理解的现象的方法。在达索系统,我们区分了数字化和虚拟化:你可以将任何事物数字化,但如果你不理解它是如何运作的,那么你仍然无法真正了解事物的本质。当现象被表示出来时,你就有了新的东西可以用来探究、帮助这个世界和社会迈向新的创新能力。
虚拟化是连接科学与人类想象力的一种方式,用近似的方式表示高度复杂的事物,这些事物对于现实生活将是十分有用的。这就是为什么我们在达索系统所做的事情与众不同。
哲学家George Balandier提到,我们以为自己正在开启一个由现实和虚拟组成的新世界。当我观察我的十个孙子孙女时,我发现他们每天生活在一个不同于我的世界里。对他们来说,虚拟世界是非常真实的,他们可以在两个世界之间自如地切换,这种舒适度和理解力将使21世纪与20世纪截然不同。
举个例子,在我们历史上具有里程碑意义的一天,我们与一家大型公司合作,成功证明了我们可以完全在虚拟环境中设计并保证一架包含600万零件的飞机安全起飞,而无需进行实体原型测试。这表明虚拟表示可能超越了物理产品的观测本身,也意味着人类第一次能够复制复杂的产品及其制造过程,而不是仅仅通过拆解和模仿物理产品。
当然,这里有许多简单例子,但请记住,在接下来三天的每一项演示中,您看到的一切都是关于我们如何在这三个经济领域中复制这一点:所有与实体商品有关的内容,我们需要转变基础材料以实现可持续性,使其更普及、更便宜;生命科学和医疗保健;以及基础设施。达索系统的宗旨是通过协调产品、自然和生命,来共同发明极其复杂现象的表示方法,从而预测并评估整个生命周期中的正负方面,先于实际生产。
我们的目标是在三个关键经济领域——物理产品、生命科学和基础设施中,发明复杂现象的表示方法,预测和评估整个生命周期的影响。85%的全球电动汽车都是通过我们的软件设计和模拟出来的。在生命科学行业,由于我们对指导生物学的基本科学知之甚少,我们决定从临床试验入手,就像如果你不知道飞行物体的规律,你会先做飞行测试一样。如今,70%的新型药物都在使用达索系统的平台进行临床试验。
我们还致力于城市基础设施,这对于生活质量等方面至关重要。无论是能源、资源还是被称为城市的复杂系统,同样的事情都在发生。
我们建立全球协作环境的旅程,结合世界科学和技术手段,经历了几个阶段。第一步也是持续关注的一点是如何将图纸上的信息转化为易于理解的形式,确保没有歧义。这看起来很基本,我就举个我母亲的例子。不幸的是,我的母亲已经不在了。有一天,当我们决定装修厨房时,她看了装修的平面图后说:“我不明白你想做什么。”然后我们展示了完整的厨房装修的3D视图,她立刻明白了:“哦,现在我明白了,这很容易理解。”
我认为未来我们需要在所有方面实现多尺度、多物理场的表现形式,从原子或分子到最高层次的复杂性。并且我们要用通俗易懂的方式表示复杂现象,让非专家也能理解,甚至觉得像是科幻小说。当科幻变为现实时,你就创造了一个故事。正如一句名言所说,记忆是人类历史的保存者。我们希望两者兼得。我相信硅谷继承了好莱坞的想象力遗产。我们每天都努力在达索系统中将梦想与科学和技术结合起来,使之成真。
虚拟孪生是这个过程中的一部分,但它完美吗?并不。然而,随着我们逐步减少虚拟世界与现实世界之间的差距,分享、记忆、学习、发现和探索就变得更加容易。我有世界上最好的实验场地——我的十个孙子孙女,我乐此不疲地帮助他们通过虚拟化理解学校里可能直到20或25岁才会接触到的现象,而在五或六岁时他们就说:“哦,我明白了。”有时他们告诉我:“给我一点时间思考,它在我的脑海里。”这就是新一代孩子的力量,也是我们试图为全世界各个领域复制的东西,将科学置于核心位置。我认为这些体验塑造了大脑,而不是相反。这是一个强大的概念,它解释了为什么虚拟体验可以显示现实中不可能发生的事情,但也许会激发新的探索思路。
这不是简单的数字化,而是概念和想法——我称之为“虚构”的虚拟化,它们帮助人们共同考虑未曾评价过的解决方案。在迈向这个目标的过程中,我们采用了称为IFWE循环的模型:让我们开始一个虚构的故事,“从前”,看看工程或创造的力量能否使其成为现实,再看看它在现实中如何被使用。“体验经济”是一个美丽的经济形态,因为它超越了产品经济。世界对产品经济感到厌倦。产品如果没有在社会中对其实际体验进行评估,就没有价值。因此,人类价值创造的最终结果不是与产品价值相关,而是与对社会和目标组织的价值相关。我们称这种为“体验经济”,它催生了3DEXPERIENCE平台。
如果我们考虑到全球有数十万家公司使用我们的解决方案,以及我们为当今世界上所有的飞机、80%的汽车、大多数卫星、新的药物分子临床试验甚至某些城市所做的数据表示,我们现在拥有大量可用于揭示工程师多年来如何创造事物的技术。这是反向操作。我们专注于40年的表示法创建,现在我们说:“我们将观察你们和你们的客户创造了什么,并向你们展示前所未见的东西。”我们称之为“生成式经济”。
这是因为AI技术的应用。AI是一种提供新解释的技术,这些解释来自于现在存储在人类记忆中的数字和虚拟表示,这些表示将被用来学习并生成解决方案。这很重要,因为代际之间的知识和技能传承非常困难。在高度管制的复杂行业中,培训车间里的同伴正确地做事需要多年时间。人们认为这很简单,但实际上并非如此,因为存在大量的未资产化的知识和技能,存在于人的心中、脑中和手中。这也是为什么从事这些复杂工作的人是独一无二的。如何资产化和构建这种生成式经济将重新定义所有这些前景。这就是为什么我们认为,利用科学来导航生命科学的真实世界、如何创造复杂的安全产品或适当的基础设施,正是一个伟大的时刻。
最后12秒总结一下。我很高兴提名了我的继任者,我可以回到学校,成为你们未来三天的学生。感谢大家的到来,享受这三天的会议,我们相信这有助于改善全球人民的生活质量。祝大家一天愉快,享受这段时间。
大家好,我是Mistral的联合创始人和首席科学家。今天我想分享一下我们称之为“大规模语言模型训练之旅”的过程,即从最初的步骤到最后将模型投入生产所需经历的不同阶段。
Mistral成立于2023年6月,现在拥有110名员工,其中科学团队有大约35人。我们的总部设在巴黎,同时在伦敦和旧金山湾区设有办公室。截至今年7月,我们在B轮融资中筹集了约10亿美元的资金。在过去的一年里,我们发布了23个不同的模型,许多都可以在Hugging Face上找到,并且下载量达到了数百万次。其中最受欢迎的是Mistral 7B,这是我们去年发布的最小模型之一。用户往往更倾向于较小的神经网络。
关于模型的概述,我们发布的模型分为两类:一类是采用Apache 2.0许可分发的开源模型,用户可以自由使用;另一类是我们为客户特别定制的高级模型,虽然这些模型也是开放权重的,但它们通常比开源版本性能更好。最近我们发布了一个名为Mistral的新模型,以及其大型版本Mistral Large 2,我们也提供给特定用户使用。
在介绍完这些信息后,我将重点讲述大规模语言模型训练的三个主要阶段:预训练、指令调优和基于人类反馈的学习。
预训练是一个概念上非常简单的任务,需要尽可能多地收集文档进行训练。例如,可以从网页教程、科学出版物或维基百科页面等地方获取文本数据。然后,训练模型预测下一个单词。尽管这听起来可能有些简单,但当前围绕大型生成式神经网络的革命正是建立在这个基础之上的。比如,如果我们有一篇论文作为训练材料,我们会提取其中的文字内容,逐词训练模型预测接下来的词汇,直到模型能够很好地完成这个任务。
在演讲的最后部分,我还想展示几个使用我们最新模型的例子。例如,Pixtral 12B是一个拥有120亿参数的模型,尽管它比其他一些更大的模型小得多,但在很多指标上表现优异。它可以处理图像和文本输入,支持任意尺寸的图片。当给出一张图片时,它可以描述图中的场景,执行OCR任务,甚至将手写文档转换成LaTeX格式。另一个例子是Mistral Large 2,这是一个拥有123亿参数的大规模模型,在编程能力和多语言处理方面表现出色。还有一个小型模型Ministral 3B,非常适合部署在移动设备或个人电脑上,速度快且性能优越。
此外,我还提到了我们与数学奥林匹克竞赛相关的研究。我们开发了一个专门针对数学问题解决能力的模型Mathstral,它在数学推理方面有着卓越的表现。通过对大量数学题目进行训练,我们发现即使是只有7亿参数的小型模型也能超越那些参数量大得多的早期模型。
最后,我们讨论了人类反馈的重要性以及如何避免模型仅仅是为了取悦用户而调整自己,确保模型不仅能够产生正确的答案,而且还能保持合理的风格和准确性。我们还在努力理解不同用户的偏好,使模型可以根据具体需求调整输出长度和详细程度。
法雷奥AI4ALL集团总监Cédric Merlin介绍了虚拟孪生的力量以及它们如何彻底改变行业创新,并研究了人工智能对移动世界的影响。法雷奥正在接受新的技术挑战,以在市场上脱颖而出并加速创新。他们正在研发、采购、制造等多个领域创建一个具有生成设计和数据科学能力的虚拟生态系统,目标是让汽车更加电气化、自动化和软件驱动,更加互联。当然,法雷奥正在部署达索系统的3DEXPERIENCE平台和CATIA Magic,以优化新技术的开发,实现更安全、更可持续的移动出行。
当我开始准备这次演讲时,我最初的想法是专注于一个非常具体和技术性的主题。但在讨论之后,我觉得分享我们公司在汽车行业对AI的理解和应用的经验会更加有趣。我想谈谈AI对我们意味着什么,我们的目标是什么,以及为什么在当今这个体验至上的时代,AI对我们来说如此重要。
大家都知道,汽车行业正经历着深刻的变革。一方面,自动化正在改变车辆的使用方式;另一方面,技术方面也在发生变化,比如电气化、脱碳化等。同时,在商业领域,我们也看到了许多新的参与者和新技术的涌入。尽管这些变化巨大,但对我们来说最重要的是如何将所有这些新技术融入世界中,也就是我们如何实现这一转变。在汽车行业,这是一个迭代的过程,人们只有真正理解了技术的工作原理后才会去使用它。你不能强迫驾驶员进入特定区域,所以这是一个累积的技术过程。这同样适用于我们在公司内部处理AI的方式,AI是我们不同模型和技术的结合,作为新科技的推动者。
近年来,我们经历了从单纯零部件供应商转变为提供所需的所有软件和服务的公司,涵盖从底层软件到应用程序的各个方面。公司大约有9,000名软件和系统工程师参与到了与AI相关的项目中。12年前,我们开始了首个基于AI的产品——用于检测特定物体的后视摄像头。随着时间推移,我们建立了Valeo AI研究中心,专注于研究和部署自动驾驶功能,特别关注嵌入式部分以及基础模型的数据集,用作性能评估的标准。
考虑到AI的重要性,管理故障模式变得尤为关键,即当出现问题时,汽车应能够切换到安全模式继续行驶。没有AI就没有完全的自动驾驶,因为无法预测所有情况或编写足够的算法来处理它们。简化来说,我们所做的工作首先是了解场景,然后预测可能发生的事情,最后做出决策。复杂性来源于传感器的多样性,需要保证足够的鲁棒性以满足安全需求。
为了提高感知质量和适应性,我们采用多任务学习方法,并利用合成数据和不同的标注可能性来增强模型性能。在收集来自不同传感器的数据后,需要重建场景,并使用强化学习技术进行预测和决策。这种方法类似于大型模型训练小型模型以更好反应和适应环境,从而提升整体适应能力。
除了驾驶辅助外,我们在车内体验方面也进行了大量工作,例如通过面部识别检测驾驶员分心情况,确保根据自动驾驶级别正确响应;还包括与车辆互动的习惯培养。此外,AI也被应用于优化能源管理系统,比如加热系统,选择最有效的加热策略,从而节省电池能量。在照明方面,根据上下文自适应调整光强度和能耗,可达到4%的节能效果。
工程设计上,AI改变了与机器的关系及设计流程,引入了代理层概念,提高了性能。代理AI使得非确定性变为确定性,不可重复变为可重复回答。在面对安全性和合规性问题时,我们直接与监管机构合作,集中管理安全和法规要素,确保符合公司层面的要求。对于成本控制,我们致力于平衡技术创新与大规模生产之间的关系,通过更全面的方法减少复杂性,以实现L5级别的自动驾驶。
布朗大学的Georges Karniadakis教授回顾了基于物理的神经网络(PINN),并总结了可用于计算科学和工程应用的扩展。他还介绍了新的PINN:AI-Aristotle,它们从函数和相应的响应中学习函数和非线性算子,以实现系统识别。
这两项关键发展构成了科学机器学习的支柱,颠覆了计算科学与工程的发展道路,并为所有科学领域创造了新的机遇。我们将在数字孪生、自主性、材料发现等领域讨论其中一些机遇。
今天,我非常荣幸能够与大家分享我的一些思考和研究进展。我想谈谈人工智能在科学中的应用,从物理信息机器学习到物理信息机器智能。我的演讲题目是“体验时代下的科学2024 - Quo Vadimus”,拉丁语中的“Quo Vadimus”意为“我们该何去何从”。我是乔治·卡尼亚达基斯,布朗大学的应用数学教授,也是美国国家工程学院的院士。我在计算科学和工程领域工作了30多年,常常遇到像机器人这样复杂的系统,在这些场景中,我们可能拥有完整的物理知识,也可能只有一部分,或是有大量数据,但对于社会系统等复杂体系,我们往往缺乏支配性的物理规律。因此,我想探讨的是如何无缝地将物理信息和机器学习结合起来,以提供对任何复杂物理或生物医学系统的最佳预测。
让我先解释一下物理信息机器学习的概念。这个概念是我七年前在我的团队中引入的,并且它已经成为一个颠覆性技术。简单来说,物理信息神经网络(PINNs)是一种结合了数据驱动的方法和已知物理定律的模型。例如,如果我们有一个标准的神经网络,它有两个输入X1和X2,以及两个输出U1和U2,我们可以设置一个拟合问题来匹配我们的预测与收集的数据。但是,如果我们要做很多实验来获取足够多的数据,这将是极其昂贵的。然而,我们知道在过去三个世纪里,科学家们已经建立了许多物理现象的守恒定律,如质量、动量和能量守恒。通过使用这些物理定律,我们可以强制执行正确的物理行为,同时生成更多数据,从而减少实验次数。具体而言,由于U1和U2是可微函数,我可以对它们进行导数运算,并形成关于这种现象的守恒定律。通过这种方式,我们将数据和物理巧妙地结合在一起,使得计算科学变得更加高效。
物理和工程领域的新基本定律可能需要很长时间才能被发现。我们为定量药理学开发了一个名为AI亚里士多德框架的例子,这是一个糖尿病模型,涉及胰岛素和葡萄糖之间的平衡。假设我们没有这样的模型,而是只有大量的葡萄糖测量值,比如来自可穿戴设备的持续监测数据。我们想发现缺失的方程右侧f和g。我们使用神经网络将数据转换为函数,并结合PINNs处理数据和物理。此外,我们还有一个额外的神经网络分配给未知的f和g。通过最小化损失函数,我们可以找到动力学中的20个未知参数,并同时发现缺失的物理规律。最后,我们可以通过符号回归方法进一步解析得到的答案。
我不想再举更多例子,因为我还想谈论一些其他概念。我们收集了所有已经使用PINNs的领域,从地球物理学到天体物理学,到数学金融,到生物医学,到可再生能源,到气候变化等等。工业界已经跳上了这种技术的列车。事实上,Nvidia的富有魅力的首席执行官Huang在2019年早期就采用了这些方法。他以老式的方式做了这件事,他雇佣了我的第一个博士后,Maja Ricei,在我背后,他建立了一个非常好的库,现在用于数字孪生和地球气候以及其他我们时代的大问题。还有其他行业正在使用这些方法来研究不同的问题。
一切看起来都很美好,但问题是什么?问题是这不可持续。ChatGPT需要20兆瓦的电力来重新训练,这需要很多电力。这里我们展示了与硬件可以承受的相比,深度学习所需的计算量。这是五年或六年前的情况。现在,这种需求与可用性之间的差距甚至更大,这是一个指数级增长的深度学习计算需求。当然,这使Nvidia成为世界上最大的公司之一。你可以从这个非常简单的图表中理解这一点。
但对我们这些从业者来说,我们如何处理这个问题呢?我们负担不起。我们不是Elon Musk,我们负担不起每天为生物医学和工程中的关键应用计算这种昂贵的神经网络。因此,我们想做一些不同的事情,我们想回到人脑,因为人脑只需要大约20瓦,并且可以多任务处理。我们目前试图用AI完成的全部任务都可以在一个大脑中完成。但是,人脑有一些特性,比如某种随机性,记忆非常接近处理单元等等。我们可以将其视为我在大脑上展示的内容。
这里不仅有数字计算,还有脉冲,我将再次解释什么是脉冲。我们需要查看单个人类神经元以获得灵感。我们正在查看单个人类神经元,我们正在查看输入,即分支或树突,然后我们查看主体或树干、轴突和突触输出。让我们考虑一下这一点,因为我将使用这个类比来设计我们正在尝试设计的东西。
我们不是在看待函数,人脑是根据电脉冲操作的,这些脉冲以Delta函数的形式出现,这在数学上是不容易处理的,所以我们没有平滑的函数,我们有Delta函数,这些电脉冲可以在人类神经元膜中进入,在人类神经元发射之前。所以,让我在右边展示一下如何使用所谓的脉冲神经网络,这些神经网络可以处理脉冲,正如我在这里所示的那样,来取代当前最先进的连续函数作为输入,使用专门的非线性激活函数来取代它们,用类似人类的活动和类似人类的结构来重新设计神经网络,它们还具有内存计算。这是目前AMD、Nvidia以及其他全球大公司正在进行的趋势,它们正在设计神经形态芯片。这就是我们的想法,在硬件上使用神经形态芯片,在软件上使用新的算法。然而,我们还需要新的数学。
为了处理尖峰现象,我们不仅需要处理连续函数,还需要更高层次的抽象。以下是对人类神经元与2019年引入的一种新架构之间的类比,我们将称之为“神经操作符”。正如您所看到的,这里有两个同步运作的神经网络。左边的神经网络与输入有关,这只是人类神经元的一个分支。因此,输入通过这部分进入。右边还有一个部分,即输出,我们称之为“树干”。这两个部分协同工作。请注意,与神经网络不同,这里的输入是函数,而不是数据。换句话说,我们不是一次解决一个问题,而是试图解决由函数描述的多个问题,这些函数可以是空间或时间的函数。输出也是函数,因此我们将函数映射到函数,而不是数据映射到数据。因此,我们在这里代表的是我们称之为数学操作符的东西,我们在这里称之为“神经操作符”。这是我们所称的“深度操作网络”,我们称之为DeepOnet。我们在2021年发表在《自然·机器智能》上的论文中介绍了这一点。将数学和神经网络结合在一起。这是数学表达式,它表明确实可以将一个函数U映射到另一个函数g(U,Y),即函数到函数,通过这种构建,您可以看到Sigma是激活函数,这是人类神经元的树干。这里的部分是人体神经元的另一个分支,与人体输入有关,即这个函数U(X),我们随机采样作为输入,因此我们有一个函数作为输入,一个函数G(U,Y)作为输出。如您所见,这非常强大,因为我们可以一次解决许多问题。这些神经操作符可以作为基础模块进行预训练,并作为数字孪生的基础模型。
正如我之前所说,神经操作符可以用作数字孪生的基础模型。这里的DeepOnet是一个神经操作符的集合,您可以用CNN、图神经网络或尖峰神经网络替换分支。这里是一个DeepOnet的例子,其中分支是一个MLP,是一个标准的全连接神经网络,一个标准的神经网络,与树干相对,树干可以像人类神经元一样有尖峰,因此可以创建多种架构。这里显示了英特尔计算公司的新产品Litu,它有15亿个神经元,类似于人类神经元,比这个咖啡杯还要小。这就是未来,这就是接下来将要发生的事情,因为尖峰神经网络只需要神经网络所需能量的很小一部分,可能比我们目前花费在神经网络上的能量少一千倍。
例如,在果蝇的问题上,我们可以学习果蝇是否可以学习词嵌入。我的一位合作者IBM的Dhruv Batra写了一篇关于这个问题的论文,因为果蝇的大脑非常简单,只有25,000个神经元,而人类有800亿个神经元。尽管如此,果蝇仍然可以执行多种任务,例如闻味、评估湿度、飞行和逃避等。因此,果蝇确实可以学习词嵌入。但它们能否像我们的研究生和博士生一样,经过多年的训练后解决PDEs呢?答案是否定的,但我们当然可以从中汲取灵感,特别是关于视觉和如何嵌入图像。这就是Vision Transformer背后的想法,它是用于GPT的Transformer的一半。嵌入的关键在于如何将图像分解成块,并分配坐标,因此您可以跟踪并重新合成图像。因此,Vision Transformer在图像处理、自主驾驶和机器人技术等领域被广泛使用。
德克萨斯大学奥斯汀分校航空航天工程和工程力学教授、机器人公司Apptronik Systems创始人Luis Sentis积极参与研究,旨在为理解机器人在社区中的作用奠定基础。在Luis Sentis的演讲中,他告诉我们,虽然人形机器人的价格已降至历史最低水平,但工业界仍在热烈讨论其生产力。人形机器人的杀手级应用是什么,我们可能在哪里看到它们出现?本次演讲将深入探讨此类市场动态和技术问题,涉及人形机器人的物理机电一体化体现的共生、大规模教授它们的新界面以及它们在更大规模工业设置中的部署。
非常荣幸能在这里分享我的见解。我不仅是一名教职员工,还担任着Apptronik Systems的主席,这使得我能够更广泛地探讨科学中涉及隐私、安全和劳动力动态等重要议题。同时,我们正处于一个矛盾的时代:人形机器人正在蓬勃发展,有数以亿计的资金被投入到前沿的人形机器人公司中。我想探讨一下为什么这种情况正在发生,部分原因是我们正满足机器人学中的六大原则:速度、精确性、重复性、智能、安全性以及规模经济。
在过去25年里,我的职业生涯主要集中在为日本本田、美国海军和NASA建造机器人。我的工作涵盖了从液冷弹性致动器的设计到高级远程操作技术的开发。现在,随着监督学习和强化学习在生成式人工智能中的应用,情况已经发生了变化。我创建了一个人机协作实验室,并从中衍生出了一家公司——Apollo,它目前拥有150名员工,计划扩展到300名。这反映了该领域存在的巨大兴奋点和投资力度。
作为一名工程师,我认为我们的目标不是为了赚钱,而是为了让这些系统商业化并广泛应用。这一点得到了NASA过去研究的支持,而现在则是由美国太空军推动。他们正在投入大量资金进行一些看似来自《星球大战》的研究项目,这些项目正逐渐成为现实。
谈到人形机器人的杀手级应用,我认为它们将在精益制造中找到自己的位置。虽然当前硬现金流来自亚马逊、Okado和其他仓库机器人,但我认为通用型多模态机器学习的进步将使得通用机器人在未来取得更大的进展。根据摩根士丹利的报告,全球劳动力市场价值30万亿美元,到2050年,预计将有6000万人形机器人投入使用,市场预测将达到3万亿美元。
回到人形机器人的特殊之处,比如波士顿动力公司的Atlas展示了快速转身和类似篮球运动员的动作。这些机器人像一个大质心上的棍子,可以执行指数级别的动态运动。这对我们提出了安全性的挑战,因为视频中总是可以看到人类站在人形机器人旁边。在我的实验室里,我们实现了无支撑线性行走,这是继波士顿动力、密歇根大学和Agility Robotics之后第三个达成此成就的团队。
展望未来,我希望人形机器人不仅仅替代人力劳动,而是增强中小企业的能力。通用型机器人可以帮助那些资源有限的企业扩大运营规模,服务于不同年龄段和技术水平的人群。我相信,当人形机器人的价格降至5,000美元左右时,它们将成为家庭护理和小型企业的重要工具,但这需要时间来实现。
最后,个人机器人领域存在很高的需求,特别是针对老龄人口的家庭护理。尽管如此,要打入消费电子产品市场并不容易。我们期待看到类似于手机普及的过程,即从奢侈品变为日常生活的一部分。同时,我们必须确保收集的数据得到正当使用,正如当年建立万维网时所做的一样。这就是我对人形机器人未来的看法。
在我们的研究中,我们专注于神经肌肉行为的共生关系、实时控制和穿戴的舒适性,尤其是对于增强功能或平衡操作而言。为了实现良好的共生效果,必须理解实时而非离线的行为,也不只是模拟,而是与肌肉形成闭环的行为。实际上,肌肉并不是线性二次系统,而是表现出滞后阻尼特性。这种非粘性阻尼行为可以通过逆向工程获得临时等效模型,设计控制器以反映上图右上角所示的肌肉阻抗与位置和速度的关系。我们发现,肌肉不表现出粘性行为,而是改变刚度以耗散能量,使人体具有特殊的非线性特性,对负载变化具有高度不变性。当我们把机器连接到人体上时,必须理解高频行为,以便实现可穿戴系统的良好共生和实时行为。
此外,我还与Nan Chulu教授合作,设计电子纹身、电热活动传感器(EGC)等,这些设备正在成为实时系统反馈回路的一部分,因为这些可穿戴机器正在为我们做决定。考虑到所有这些因素,似乎人形机器人的杀手级应用将是辅助行为。2009年,我和Honda有一个愿景,现在我们在Tesla的机器人中看到了更加现代的体现。然而,实际上,硬现金更多地流向了精益制造应用领域,那里的人形机器人正在产生影响。B轮和C轮融资正在增长,但真正支持人形机器人发展的主要是美国海军研究办公室的认知科学项目,他们聚集了认知科学家、计算语言学家和机器人专家,共同解决自动化船务任务的问题。他们关注的不仅仅是水手和军官的自动化,因为他们在船上只待几年,而船只则会长期存在。知识会被遗忘,没有人记得如何修理柴油发动机。他们看到机器人作为机构知识的持有者,机器人上船后自己通信并收集信息,长期保存机构的整体层级结构、操作流程及每个机器的细节处理方法。四年后,机器人成为机构知识的守护者。
另一个重要的资助来源是NASA,特别是约翰逊航天中心,我在那里工作并咨询多年。现在,NASA与新的太空部队合作,进行卫星维护等“星球大战”风格的任务,还有其他蓬勃发展的机器人项目。那么,钱从哪里来,资金的分布又是怎样的呢?这里有10家从事人形机器人的公司,其中一家在欧洲,几家在美国,几家在中国。这些公司大多处于B轮或C轮融资阶段,员工人数在200到300之间,融资额从1亿到3亿美元不等。我的公司Apptronik没有列出具体数字,因为我们正在保密状态下扩展到300人。然而,真正的赢家是亚马逊、Okado等仓库机器人公司,目前这些专用机器人带来了最大的现金流。但这只是暂时的,因为我相信通用型机器人将会取得更大进展,就像通用多模态机器学习一样。
Dave Snowden是Cynefin应用复杂性中心主任。他曾共同领导美国政府在911事件前后开展的一项重大反恐项目。因此,他是新加坡政府风险评估和地平线扫描系统的主要设计者之一。Snowden先生将讨论项目管理如何从大自然中得到启发,并发展成为一个具有适应性复杂系统思维的领域。
我感到自己有点像《狮子王》中的拉菲奇,在经历了这么多高科技之后,站在了这里。我在90年代初期从事AI工作时,研究如何使用遗传算法在神经网络之间进行选择。我不太同意那种说法,即我们忽略了神经网络而转向支持大型语言模型。我现在的工作集中在前瞻性意识上,探讨如何促使高管注意到那些他们本来不会注意的事物。人工智能和技术在这里面扮演着重要的角色,但我们往往低估了人类的作用。我们试图用技术模型来理解人类过程,但这行不通。我会用法国哲学来论证这一点,我的背景是物理学和哲学双学位,你会在后续讨论中看到这一点。我还会谈到“拼凑”,这是个非常重要的概念。
我们的工作领域称为“意义构建”。在学术术语中,破折号非常重要,有破折号时它是一个动词,没有破折号时它是一个名词。我们将意义构建定义为理解这个世界,以便可以在这个世界中采取行动。你永远不知道所有你需要知道的东西来做决定,所以基于你现在或近期内能知道的情况,你能做出什么样的决定?这是一个来自哲学的关键原则,即基于自然科学来行事。
70年代学习物理学时,我们常说社会科学家羡慕物理学家,因为后者拥有足够的数据形成有效的结论,而前者则缺乏。例如,如果法国想增加诺贝尔奖获得者的数量,它只需要增加黑巧克力的消费量,因为这两者在过去50年里直接相关。这只是一个例子,用来说明统计相关性与因果关系之间的区别。实际上,试图通过驾车或溺水自杀的尝试高峰与尼古拉斯·凯奇电影发布的直接相关,但现在我明白了这一点。我这样做是为了强调几个问题:目前医疗保健领域的一半工作者认为找到了衡量安慰剂效应的方法,但实际这只是关于统计相关性,而非生理学。这在社会科学系统中正成为一个问题。
我们还在公民传感器网络方面做了很多工作,尝试让学童作为他们环境的民族志学家,以大规模实验更好地理解人类态度的现实。人类态度是领先指标,合规性是滞后指标。当任何事情出错时,人们总说为什么没有连接这些点。如果有四个点,它们可以形成64种可能的模式;10个点,则超过3.4万亿种模式。事后诸葛亮任何人都可以识别因果模式,但不能引导前瞻性思维。回顾过去,总是能看到一条因果链,但在当时可能并未意识到。复杂性科学打破了系统思维中的许多东西,复杂性被称为纠缠,无法解开再纠缠。
复杂性被称为不确定性的科学,为我们提供了一种看待事物的新方式。白蚁巢穴的构建源于基因编码规则,整个结构没有任何指导性的智能。复杂系统中有大量互动的参与者,高度丰富且局部化,没有一个参与者意识到整体。这就是为什么监控器重要,因为它们是涌现模式,你可以对此作出反应。然后我们还创建了支架,如交通规则,给我们确定性的结构。如果你在复杂世界中管理,真正需要关注的是现在在哪里,以及接下来可以走到哪里。
萨克有一句名言,我们现在正在做的一项关键工作就是用现状的映射替代情景规划。如果你知道现状的能量梯度,会比预测未来状态更可靠。我们看看那些参与者——演员、构建者、约束——将它们映射到改变的成本和时间的网格上。这个过程简单但会产生重大影响。我们最近与北约合作,战略中最大的问题是关于当前情况的共识。如果考虑下一步该怎么做,没有人能准确评估当前情况,因为他们会选择支持他们想要做的证据。所以我们研究了如何打破这种模式,分解到你们都同意的地方。我们还画了三条线:反事实线,任何有效位于该线东北方向的东西都不会改变,因为成本太高,时间太长。顾问们希望如此,因为这样他们的项目就会失败,他们可以每两年向你出售同样的过程。我们还确定了一些我们不能改变的东西,但意识到我们可以改变它们。在创新中识别这些领域会带来巨大差异,因为它允许你集中精力在“等等,我们可能可以”上。
在项目管理方面,首先,我们需要了解工作的环境是什么,我们能够实际改变什么。其次,开始微调,降低项目成功的能量成本。第三,持续扫描,捕捉实时数据,提前触发警报。我们用每个代理的持续叙事捕捉取代所有报告,这意味着我们获得了更好的数据,并提前警告项目失败。
决策分配是我们正在研究的另一个领域,特别是在英国医院中的临终决策。通过结合外科医生的决定,可以避免官僚控制。我们还谈到了数学和知识,重新利用东西。我还谈到了人类中介游戏,我想在巴黎教授这些内容。我们开始了解人类擅长什么,以及技术如何增强它。基本上,我看到了一些图片,说AI使波士顿咨询集团提高了40%的效率。这并不意味着AI很好,而是表明了管理咨询的绝对贫困。如果AI能做得比人类好,那么人类从一开始就不应该做这件事,因为它没有增加价值。最后,我想以一个想法结束,即美国的精英学校已经禁止了AI和技术进入课堂,因为他们知道人类能力的发展将给他们的孩子带来优势。接受AI培训的人找工作时基本是F级。
感谢大家抽出宝贵时间。我敢打赌你遇到了很多政府和公司的人。你想知道最常见的行为吗?我们写了一本关于如何在危机中管理复杂性的欧盟指南。你需要管理一个组织来处理不可知的未知事物,这是一个非常不同的方法。关键是不要考虑行为,而是产生这些行为的流程。当我11岁时第一次去威尔士文法学校时,我们被允许每周发表一次演讲,这使我们成为了全能型人才,学会了理解各种论点,实际上,它使我们成为更好的人。我认为,这是一个产生行为的过程,但没有人试图改变这种行为。
以上就是我对体验时代科学与复杂性管理的一些见解。
|
|