AI Agent工具实战拉垮至极显示出巨大的危险性

寂静回声 · 发表于 2026-2-24 21:06:12

Cowork是一款由Claude Opus 4.6驱动的桌面代理，拥有一百万token的上下文窗口。与响应单个提示的聊天机器人界面不同，Cowork可以直接在用户机器上读取本地文件、执行多步骤任务，并使用插件与外部服务交互。

一位湾区的风险投资人最近在社交媒体上分享了他的惊魂一刻：他让 Claude Cowork整理妻子的电脑桌面，结果这个“聪明”的助手在重命名文件时，顺手删除了一个包含过去15年家庭照片的文件夹。
https://x.com/Nick_Davidov/status/2019982510478995782
孩子的画作、朋友的婚礼、旅行的回忆，在几行代码执行后瞬间消失。
“它差点把我吓出心脏病。”这位投资人写道，最终他不得不求助于苹果客服才勉强找回数据。

OpenClaw是开源的AI智能体工具，它能在你自己的设备上运行，并接入 WhatsApp、Telegram、飞书、钉钉等十余种消息平台，充当 7×24 小时的全能 AI Agent。
本周一，meta 超级智能团队的 Summer Yue，眼睁睁地看着自己部署的 OpenClaw 删光了自己的邮件。AI 的行动完全自主，快速且无法阻止。
Summer Yue 为自己的电子邮箱部署了 OpenClaw 智能体，用来批量处理邮件。然而她在发出指令「也检查一下这个收件箱，并提出你想归档或删除的邮件，在我指示之前不要执行任何操作（don't action until I tell you to）」后，AI 进行了一通分析，然后就开始自顾自地删邮件。
和以往大模型应用的工作方式相同的是，你可以看见 OpenClaw 的思考流程 —— 它理解了一部分指令，但又没完全理解。
Summer Yue 表示这是一个「新手才会犯的错误」，这套工作流程在她用来专门测试智能体的测试邮箱里已经运行了好几周，没啥问题，但在自己实际使用的邮箱里，智能体却忘记了她最初的指令。
有点讽刺的是，Summer Yue 在 meta 的超级智能团队中的职位是「AI 安全与对齐总监」。身居此职却因为 AI 的安全问题栽了跟头，实在是造成了一点反差感。
有网友表示，是个智能体就必须在沙盒里运行，任何破坏性操作，例如删除，都需要系统级的强制确认。作为一个安全总监，你有点过于自信了。
也有人表示，OpenClaw 主打一个「一直在线」，可以在你睡觉的时候帮你办事，但这不就也意味着你用了它就睡不好觉吗？
Summer Yue 事后研究原因认为，这并非 AI 产生了意识或恶意报复，而是一个非常典型的大语言模型（LLM）底层技术机制问题：原因在于 LLM 的上下文压缩（Compaction）
对于很多人来说，最常用的邮箱里早已塞满了各种来源的邮件，当你要求 OpenClaw 读取这些邮件时，海量的文本直接挤爆了 AI 的上下文窗口（Context Window）。那么为了继续处理新的数据，AI 系统就会自动触发内部的压缩机制，试图把旧的上下文进行总结或截断，以腾出处理空间。
在这个断舍离的过程中，AI 不慎把最关键的那句初始前提指令（在我下达指令前不要执行任何操作）给「遗忘」了。
由于丢失了安全限制，而 OpenClaw 又被赋予了直接操作电子邮箱的权限，于是它就按照剩下的任务逻辑，顺理成章地开始执行它认为的「本职工作」—— 高效、全自动地清理收件箱。
OpenClaw 的开发者，奥地利程序员 Peter Steinberger 最近已经官宣加入了 OpenAI。
有趣的是，在让 OpenClaw 接管邮箱这件事上，Peter Steinberger 提到了「提示注入」的潜在问题：如果你让智能体接管邮箱，有别人发邮件包含指令说「删掉所有数据」，AI 有可能真的会这么做。
Peter Steinberger 表示，现在的 AI 模型在安全问题上已经接受了大量的训练，比如它会识别哪些数据是「用户授权的」，哪些是「不可信指令」，但这并不意味着如果有人花费心思进行攻击的话，就能保证不会出问题。

近日，《每日经济新闻》记者（以下简称每经记者）联合每经科技开发人员，展开了一场深度实测。我们将OpenClaw分别接入几款款国产大模型，以及OpenAI的GPT-5-mini，要求它们完成本地文件检索、网络资料搜索、稿件撰写、发送邮件等步骤，试图揭开这位“指挥官”的真实战力。
实测结果显示，部分模型表现不佳，尤其是在需要操控浏览器的环节，如网络搜索和发送邮件，大多失败。有专家直言，当前的OpenClaw不仅难用、费钱，更是一场安全的“噩梦”。
OpenClaw本身并非大模型，它更像一个“指挥官”，负责接收用户指令、调用工具和组织流程，并将指令理解与具体工作交由其接入的外部大模型来完成。
因此，接入的大模型的能力、稳定性与表达方式，决定了任务的最终成败。

为了更贴近记者的真实工作场景，测试人员设定了一项综合性测试任务：
让接入不同大模型的OpenClaw，在电脑中找到对“电车教父”Andy Palmer的采访速记稿，要求它总结文稿内容，并结合搜索到的网络资料，撰写一篇专访新闻稿，最后将新闻稿通过邮件发送到指定邮箱。
这一任务涵盖了指令理解、操控电脑进行本地文件检索、操控浏览器进行网络信息搜索、信息整合和文章写作以及应用操控等多个维度。
首先测试的是千问Qwen3-Max模型。该模型在本地文件检索环节便陷入困境。即便测试人员明确提示文件在电脑中的所在位置，Qwen3-Max在经过约5分钟检索后，仍无法准确定位。
在后续单独测试其发送邮件任务时，Qwen3-Max也未能成功执行，只是不断重复指令，但无实际动作。

Kimi-K2.5的表现稍好，它在5分钟内成功检索到了文件，并完成内容总结。但在执行网络搜索并补充行业最新热点资讯时，因触发了“429错误”（通常指请求过于频繁），导致未能完成信息搜索工作。
在邮件发送环节，Kimi-K2.5无法成功操控浏览器向指定邮箱发送邮件。后来操作者手动了这一过程，但MiniMax-M2.1发送的邮件只包含了稿件的“关键引语”，未附上完整的稿件正文。

MiniMax-M2.1在文件检索、网络搜索资料和写作方面没有遇到明显阻碍。邮件发送环节，MiniMax-M2.1在浏览器操控上遇到了困难。

由于OpenClaw暂未接入智谱于2月12日发布的最新模型GLM-5，所以，本次测试选择了智谱GLM-4.7。
结果显示，在发送邮件环节，智谱GLM-4.7会在浏览器中输入错误的邮箱网址，导致网页访问失败，需要人工提醒更正。

GPT-5-mini的表现较为稳定和流畅。从文件检索、内容总结、网络搜索、资料补充到邮件发送，全流程几乎无需人工干预和额外提示，仅在个别时候出现了网络连接不稳定的情况。

为了保证测试的严谨性，测试人员对整个流程进行了两次复测。
第二轮测试结果：
Kimi-K2.5：成功检索并读取本地文件，补充网络搜索资料，但在邮件发送环节依旧失败。其报告的错误显示，在读取邮箱网络代码、获取输入框节点时出现问题。

千问Qwen3-max：成功读取文件并补充网络资料，但在邮件发送环节出现明显卡顿，未能成功；

MiniMax-M2.1：完成任务全部流程。

智谱GLM-4.7: 完成任务全部流程。

GPT-5-mini：完成任务全部流程。

第三轮测试结果：
Kimi-K2.5：成功检索并读取本地文件，在网络搜索资料环节出现问题（出现读取网页内容错误，错误的网站访问路径，理解不了浏览器控制台指令等），在邮件发送环节依旧失败。

千问Qwen3-max：成功读取文件，但无法操控浏览器搜索网络资料，在邮件发送环节依旧失败。

MiniMax-M2.1：完成任务全部流程。

智谱GLM-4.7: 完成任务全部流程。

GPT-5-mini：完成任务全部流程。

OpenClaw能力上限取决于大模型，且存在高门槛、高成本和高风险问题，目前难以走向普通用户。
一名使用OpenClaw来辅助运营网店，设计海报、优惠券等宣传物料的程序员告诉每经记者，自己平时都是接入OpenAI的Codex-5.3和Gemini 3 Pro模型，效果比国产大模型好很多。
多位业内人士和资深用户指出，OpenClaw更像一个“任务框架”，其最终表现非常依赖所接入大模型的能力。就像一个指令清晰但能力有限的指挥官，手下士兵（即大模型）的强弱，直接决定了战役的胜败。
非凡产研研究负责人宦家臣向每经记者表示，“模型对OpenClaw的影响其实取决于任务的复杂程度。国际头部大模型上限更高，毕竟Claude太贵了，钱包受不了。”

尽管部分大模型在测试中展现了执行复杂任务的潜力，但OpenClaw离成为一款合格的生产力工具似乎还有不小的距离。
“我感觉，目前版本的OpenClaw并不是一个合格的生产力工具。”前小米OS AI产品专家、现出海AI应用公司ExcelMaster.ai创始人张和在接受每经记者采访时直言，OpenClaw在一定程度上是此前爆火的程序员工具、Anthropic旗下Claude Code的“套壳”，虽然通过聊天界面和内置技能（Skill）做了更好的封装，降低了交互门槛，但在核心能力上并未超越。“我没找到太多OpenClaw能做，而Claude Code做不了的事情。并且，它查询资料的水准，也没有Claude Code好。”
Akamai云和AI产品经理张璐博士也表达了相似的观点。在他看来，OpenClaw若要真正用于生产，还必须经过二次开发和微调，因为目前版本还“有点不成熟，很多时候会卡顿”。

除了对大模型能力的依赖，技术门槛、使用成本和安全风险，让OpenClaw目前难以走向普通用户。
首先是较高的部署和使用门槛。OpenClaw目前并未提供类似“一键安装”的简化部署方案，用户需要在电脑上通过命令行操作，完成本地配置、依赖管理以及权限设置。每经科技开发人员表示，整个过程对使用者的技术背景有一定要求，至少需要具备基本的开发经验，这无疑劝退了绝大多数非技术人员。

高昂的使用成本是另一个现实问题。由于OpenClaw在执行任务时需要频繁调用大模型，token消耗量巨大，堪称“token燃烧器”。有用户向每经记者表示，自己使用智谱GLM-4.7模型，仅仅交互了20多次，就花费了200元。
张璐博士也提到，自己在使用DeepSeek模型时，一天就“烧掉”几十元。如果换成能力更强的模型，账单将更惊人，“一天几百块就出去了”。

高成本使得许多用户只能选择接入免费或更便宜的模型，但这又会影响OpenClaw的实际表现。有用户就向每经记者反映，自己因成本问题选择了Qwen-8B模型，但OpenClaw总是只会回答问题，不会执行操作。

比高门槛和高成本更令人担忧的，是其内在的安全风险。OpenClaw的定位是“做事”而非“聊天”，这意味着它必须获得很高的系统权限，才能操控本地文件和应用。
思科AI威胁研究与安全团队主管Amy Chang直言，从安全角度来看，OpenClaw“是一场噩梦”，它可以在用户的计算机上任意运行shell命令、读写文件和执行脚本。这种高级权限一旦被错误配置或被恶意指令利用，后果不堪设想。
网络安全公司Dvuln的创始人Jamieson O'Reilly也证明了这种风险，他发现OpenClaw存在漏洞，攻击者可借此获取用户数月内的私人消息、账户凭证、API密钥等敏感信息。更可怕的是，用户为了方便AI执行任务而存储的银行账户、加密货币钱包API等信息，都可能以明文形式保存在本地文件中，一旦被黑客入侵，“一秒就可以搬空他们”。
OpenClaw的开发者Peter Steinberger也坦言，这只是一个免费的开源业余项目，需要用户进行仔细的配置才能确保安全。他明确表示：“它并不适合非技术用户。”

		自动登录	找回密码
密码			立即注册

AI Agent工具实战拉垮至极 显示出巨大的危险性

AI Agent工具实战拉垮至极显示出巨大的危险性