机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 73|回复: 0

千问系列模型一贯的刷榜分最高

[复制链接]

2万

主题

3万

帖子

21万

积分

超级版主

Rank: 8Rank: 8

积分
211046
发表于 3 天前 | 显示全部楼层 |阅读模式




智东西4月2日报道,今天,阿里推出了新一代大语言模型Qwen3.6-Plus,这也是Qwen3.6系列的首个模型。与上一代模型相比,Qwen3.6-Plus重点提升了编程Coding能力、智能体Agent能力和工具调用能力,默认支持100万上下文窗口。

智东西立刻上手体验了Qwen3.6-Plus的编程能力,让它在Claude官方的前端设计Skill指导下,打造了一个AI眼镜独立站,历经三轮对话,耗时8分钟左右,消耗2.5万个token(约等于0.15元)。
可以看到在提示词的要求下它打造的网页完成度不错,根据Skill的要求避免了一些老掉牙的AI味设计风格,不过在字体选择上依然是较为常见的类型。


在自然语言能力方面,Qwen3.6-Plus通过融合推理、记忆与执行能力,在编程智能体、通用智能体和工具调用上实现提升。
具体来看,在编程智能体维度其表现较Qwen3.5实现较大幅度的提升,得分略微高于GLM-5和Kimi-K2.5,略低于Claude Opus 4.5。



在实测中,我们的这一案例融合考察了编程与工具调用能力,要求Qwen3.6-Plus统计A股目前股价最高的10家公司,并生成完整统计网页,带有每家公司的跳转链接。
在任务执行过程中,Qwen3.6-Plus调用了7轮搜索工具,统计了数十个网站的数据,最终交付了如下的结果,耗时大概7分钟左右。

Qwen3.6-Plus选择了权威的数据来源,右侧查看详情链接的跳转正常,排名正确,数据则取的是近似值。在思维链中可以看到它多次在同一个问题上反复思考,搜索多次但获得的内容差不多,在任务执行速度和token效率上仍有一定提升空间。
接下来,我们又要求Qwen3.6-Plus生成一个《潜水员戴夫》的同款游戏,不过,Qwen3.6-Plus先是拒绝了这一要求,称它无法直接生成可执行的游戏文件,但可以生成核心概念美术图,并提供一套完整的《潜水员戴夫》风格游戏设计蓝图+开发指南+基础代码框架,作为开发起点。
再次要求后,Qwen3.6-Plus开始了开发,但是在写到200多行代码时出现了问题,于是停止了开发。

之后尝试了通过API调用这一模型,完成同一任务。模型认为,打造《潜水员戴夫》同款独立游戏的核心在于复刻其“白天探索采集+夜晚模拟经营+轻叙事驱动+循环成长”的节奏,而非照搬题材或代码。它决定打造一个白天深入动态雾林采集食材与古物,夜晚经营一家能“烹饪记忆”的森林酒馆的游戏。
最终Qwen3.6-Plus交付的MVP版本(最小可用版本)如下,不过试玩了一下,这一游戏在可玩性上仍然需要持续迭代。


在视觉语言能力方面,Qwen3.6-Plus的主要围绕着多模态推理、指令模式实用性进行改进,其在复杂文档理解、物理世界视觉理解、视频推理和视觉编程等任务上的得分有所提升。
为考察其视觉推理能力,在地铁路径规划任务上加了点难度,假设某一线路遇到了极端天气停运了,看看模型还能不能反应过来。
Qwen3.6-Plus通过较长时间的思考后,得出了两个结论,第一个结论其实是正确的,但是它判断这条路线有点复杂,于是认为可以在“牡丹园站换乘昌平线”,这样更直接。Qwen3.6-Plus的最终结论有个bug,昌平线可能至少要等到2029年才能和19号线在牡丹园换乘。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2026-4-6 21:54 , Processed in 0.107500 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表