机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 121|回复: 0

国产大模型摆摊全破产了

[复制链接]

2万

主题

3万

帖子

20万

积分

超级版主

Rank: 8Rank: 8

积分
207310
发表于 3 天前 | 显示全部楼层 |阅读模式
刚看到的新测试 foodtruckbench,让大模型自己经营一个小吃摊,每天选择到哪里摆摊,菜单卖什么,要不要雇人,甚至还能升级卡车(增加出货量或者更吸引人)。这些都是通过 Agent (Tool Call)提供给大模型调用, 用于测试大模型的Agent和任务规划能力。

从结果看,Claude-Opus-4.6 是SOTA,这个倒不意外,但是比较意外的是,国产模型全都没有到盈亏线以上,全破产了。

为什么赚不到钱?仔细浏览了一圈,发现大部分原因都是成本控制不好:
GLM5是雇佣太多人了,生产力爆表,但是进货却出现了问题,导致人员闲置疯狂支付工资。
Qwen 3.5则是库存管理出现了问题,进了一大堆货,但是放了几天没卖完结果全过期了。
DeepSeek-V3.2则是盲目扩张, 总计2000刀余额结果花了1550刀用来升级餐车...

总结来看, 好的模型在成本控制上表现都很不错, 比如 sonnet-4.6, 食物浪费只有200刀,是这些破产模型均值的一半还不到。
国产模型破产还有个重要原因是食物定价普遍比国外模型低....比如苏打水 GLM-5卖 $2.36,Qwen3.5卖 $2.50,sonnet-4.6 卖 $2.98。 会不会是国产模型以为是参考国内的物价水平定价的所以赚不到钱

榜单在这里,感兴趣的同学可以去凑热闹:foodtruckbench.com

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2026-3-7 11:51 , Processed in 0.110940 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表