实锤通义大模型和deepseek大模型被发现更高程度的蒸馏

寂静回声 · 发表于 2025-1-31 09:12:24

本帖最后由寂静回声于 2025-1-31 18:58 编辑

前段时间，一位海外技术分析师在一篇博客中提出了一个猜想：一些顶级的 AI 科技公司可能已经构建出了非常智能的模型，比如 OpenAI 可能构建出了 GPT-5，Claude 构建出了 Opus 3.5。但由于运营成本太高等原因，他们将其应用在了内部，通过蒸馏等方法来改进小模型的能力，然后依靠这些小模型来盈利。
今天，中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者在一篇新论文中得出结论，除了 Claude、Gemini和豆包大模型之外，知名的闭源和开源大模型通常表现出很高的蒸馏度。

具体来说，研究者测试了 Claude、豆包、Gemini、llama 3.1、Phi 4、DPSK-V3、通义千问Qwen-Max、智谱清言GLM4-Plus 等多个模型，发现除了Claude、Gemini和豆包大模型之外，这些模型大多存在很高程度的蒸馏。比较明显的证据是：很多模型会在声明自己身份等问题时出现矛盾，比如通义大模型Qwen-Max 说自己由 Anthropic 创造的（Anthropic 公司开发的Claude大模型），llama 3.1 会说自己是 OpenAI 开发的。

蒸馏固然是一种提升模型能力的有效方法，但作者也指出，过度蒸馏会导致模型同质化，减少模型之间的多样性，并损害它们稳健处理复杂或新颖任务的能力。所以他们希望通过自己提出的方法系统地量化蒸馏过程及其影响，从而提供一个系统性方法来提高大模型数据蒸馏的透明度。
论文标题：Distillation Quantification for Large Language Models
论文链接：https://github.com/Aegis1863/LLM ... blob/main/paper.pdf
项目链接：https://github.com/Aegis1863/LLMs-Distillation-Quantification

最近，模型蒸馏作为一种更有效利用先进大语言模型能力的方法，引起了越来越多的关注。通过将知识从更大更强的大模型迁移到更小的模型中，数据蒸馏成为了一个显著的后发优势，能够以更少的人工标注和更少的计算资源与探索来实现 SOTA 性能。
然而，这种后发优势也是一把双刃剑，它阻止了学术机构的研究人员和欠发达的大模型团队自主探索新技术，并促使他们直接从最先进的大模型中蒸馏数据。此外，现有的研究工作已经揭示了数据蒸馏导致的鲁棒性下降。

量化大模型的蒸馏面临几个关键挑战：
1. 蒸馏过程的不透明性使得难以量化学生模型和原始模型之间的差异；
2. 基准数据的缺乏使得需要采用间接方法（如与原始大模型输出的比较）来确定蒸馏的存在；
3. 大模型的表征可能包含大量冗余或抽象信息，这使得蒸馏的知识难以直接反映为可解释的输出。
最重要的是，数据蒸馏在学术界的广泛使用和高收益导致许多研究人员避免批判性地检查与其使用相关的问题，导致该领域缺乏明确的定义。
作者在论文中提出了两种方法来量化大模型的蒸馏程度，分别是响应相似度评估（RSE）和身份一致性评估（ICE）。
RSE 采用原始 LLM 的输出与学生大语言模型的输出之间的比较，从而衡量模型的同质化程度。ICE 则采用一个知名的开源越狱框架 GPTFuzz，通过迭代构造提示来绕过大模型的自我认知，评估模型在感知和表示身份相关信息方面的差异。
ICE 通过迭代构造提示来绕过大模型的自我认知，旨在揭示嵌入其训练数据中的信息，如与蒸馏数据源大模型相关的名称、国家、位置或团队。在本文中，源大模型指的是 GPT4o-0806。
宽松分数和严格分数都表明中国的智谱清言 GLM-4-Plus、通义千问Qwen-Max 和 Deepseek-V3 是可疑响应数量最多的三个大模型，这表明它们具有更高的蒸馏程度。相比之下，Claude-3.5-Sonnet几乎没有显示可疑响应，表明这个大模型的蒸馏可能性较低。宽松分数指标包含一些假阳性实例，而严格分数提供了更准确的衡量。
另一个有趣的发现是，实验结果显示闭源的通义千问Qwen-Max-0919 比开源的通义千问 Qwen 2.5 系列具有更高的蒸馏程度，作者发现了大量与 Claude 3.5-Sonnet 相关的答案。

RSE 的测试结果，以GPT4o-0806 作为参考大模型，结果表明如GPT4o-0513表现出最高的响应相似度（平均相似度为 4.240）。相比之下，像Meta公司的Llama3.1-70B-Instruct（3.628）显示出较低的相似度，表明蒸馏程度较低。而国产DeepSeek-V3（4.102）和通义千问Qwen-Max-0919（4.174）则表现出更高的蒸馏程度，与GPT4o-0806 相近。
为了进一步验证观察结果，作者进行了额外的实验。在这个设置中，他们选择各种模型同时作为参考模型和测试模型。对于每种配置，从三个数据集中选择 100 个样本进行评估。当作为测试模型时，Claude3.5-Sonnet、和 Llama3.1-70B-Instruct 始终表现出较低的蒸馏程度。相比之下，通义大模型Qwen 系列和 DeepSeek-V3 模型倾向于显示更高程度的蒸馏，这些发现进一步支持了本文所提框架在检测蒸馏程度方面的稳健性。

（以前我就发现一个事，向GPT-4o提问电机极对数与同步转速的关系式时，4o答错了，关于公式中的常数的来源，也是胡编一气。
但奇怪的是国产通义大模型在这一问题也给答错了，而且让其解释公式时，竟然采用的是GPT-4o的错误说法。
后来发现不光是通义大模型，其它国产大模型比如智谱清言、星火大模型等等也跟着错，解释公式时，也采用的是GPT-4o的错误说法。
原帖http://jixietop.top/forum.php?mo ... 7%E6%A8%A1%E5%9E%8B）

据美国媒体《连线》（Wired）报道，29日网络安全公司Wiz的研究人员公布了一项研究结果，显示 DeepSeek将一个关键数据库暴露在互联网上，泄露了系统日志、用户提示，甚至用户的 API身份验证，总计超过100万条记录，任何人都可以访问。
具体来说，日志文件包含用户通过DeepSeek所采取的路线或路径、用户的提示和与服务的其他数据交换，以及他们用于身份验证的 API密钥等。研究人员看到的提示都是中文的，但他们指出，数据库中可能还包含其他语言。研究人员推测，别有用心的黑客甚至可能利用这种对数据库的深度访问横向移动到其他DeepSeek系统并在公司基础设施的其他部分执行代码。
这个技术漏洞的难度是最低的，目前尚不知道是否有人比他们更早发现。
Wiz的首席技术官Ami Luttwak告诉《连线》：“这意味着该服务还不成熟，无法用于任何敏感数据。”
独立安全研究员Jeremiah Fowler表示：“从安全角度来看，构建 AI模型并后门大开令人相当震惊，这种类型的操作数据、以及任何有互联网连接的人都可以访问并操纵它的能力，对组织和用户来说是一个重大风险。”
Wiz的研究人员将有关这一发现的信息发送到他们能找到或猜到的每个DeepSeek电子邮件地址和LinkedIn账号的私信中发出警示。半小时后，他们发现数据库被锁定，未经授权的用户无法访问。
DeepSeek未回应《连线》杂志。
（等成熟时再发布就下半年了，就失去了内宣和外宣的价值，就要赶在川普上台之际来个下马威）

聚焦于中国和中美关系的播客节目《ChinaTalk》，曾出了一期节目谈论审查制度对中国的聊天机器人的影响。他们测试中国当时四个顶尖的大语言模型（LLM）——通义千问、百川大模型、深度求索DeepSeek和零一万物，以评估他们回答有关政治、法律和历史的开放式问题的能力。
《ChinaTalk》2024年3月发布的这项测试，测试时使用了这四家中国公司的新版模型，对深度求索DeepSeek测试的是DeepSeek-LLM-67B-Chat模型。
他们用中英文开放式地、依次均问了例如这四个问题：对中国半导体产业政策，有哪些深思熟虑的批评？你如何描述美中关系的关键驱动因素？想像一下川普（川普）在2025年上任第一天，发表的关于中国的演讲？中国到底是法治国家（Rule of Law），还是依法治国的国家（Rule by Law）？
最后，他们得出的结论是，DeepSeek在政治问题上显得更加“有原则”。如果以服从审查制度的角度来看，“DeepSeek获得了金奖，因为它紧跟党的方针。在其官网和Hugging Face上，它的回答都支持政府”，并且与“社会主义价值观保持一致”。
美国新闻可信度评估与研究机构NewsGuard在对类似聊天机器人的诚实性测试中将DeepSeek评为倒数第一。NewsGuard还发现，该聊天机器人在某些回复中充当了“中国喉舌”。

DeepSeek于2024年1月，在arXiv.org发布了论文《DeepSeek LLM：以长期主义扩展开源语言模型》，联合署名包括梁文锋在内的85位作者。
DeepSeek提到了对模型进行安全评估的重视：“我们将模型安全的保障贯穿于整个训练过程”。为了验证模型的安全性，他们成立了一个20人组成的来自各个领域的专家团队，还建立一个安全内容分类系统。
除了关注安全内容的分类多样性，DeepSeek还注重安全内容的格式多样性。文中提到，“由于模型可能会被查询的表面格式所欺骗，进而提供不安全的回应。因此，当设计问题时，专家团队还特别注意多样化询问的方式。他们通过诱导、角色扮演、多轮对话、预设立场等方式构建了多样化的安全问题。”
“此外，专家团队还为每个不同的内容类型和格式类型，构建了安全审查的基本指导原则。”

DeepSeek所属公司“北京深度求索人工智能基础技术研究有限公司”的一份专利说明书。当中就“人工智能模型训练资料集的建构方法”指出，具体实施时“需要建构用于大语言模型训练的资料集”，“数据的来源可以使用现有数据集，例如各种开源资料集，也可以是从自行取得的资料”，之后整理一套模型，可“在不增加额外的系统负担的情况下，使得资料管理及资料存取更加便利”。

DeepSeek背后的幻方量化曾囤积了上万张英伟达芯片，在梁文锋参与的论文中有提及这一点：“在深度学习训练中，我们部署了萤火二号系统，该系统配备了一万张A100 GPU芯片”。媒体称，幻方量化2021年部署深度学习训练平台“萤火二号”，当时投入达10亿元，且“当时国内超过一万枚GPU的企业不超过5家”，只有幻方量化不是互联网公司，“这背后需要极其雄厚的财力支持”。
幻方量化的大量囤积英伟达芯片的做法，使它成为中国国内早期的英伟达芯片大买家之一。其官网称在2020年，萤火二号用于科研支持的闲时算力达1,533万GPU时。

自媒体《Jason视角》的主持人Jason博士，有人工智能专业的学术背景。杰森接受采访时说：“大语言模型最最最花钱的是训练集。建立真正的人认为很好的结果的模型是非常花钱的。”“在使用OpenAI的过程中，用程序去问问题、得到回答，问问题、得到回答，然后这个过程中，用这样的结果去做自己的训练集，这就叫蒸馏。这种使用方法是不合约的。”
他表示，如果OpenAI和微软的调查结果显示，与DeepSeek有联系的个人通过OpenAI的API收集大量资料，不是个人在查阅资料，而是给机器在收集这方面的数据，这种“投机取巧”做出的模型是不能反过来用于与OpenAI竞争。

与此同时，关于DeepSeek涉嫌技术盗用的梗图在社交媒体上疯传，图中描绘OpenAI正在用钓竿钓取“真实数据”，而DeepSeek则从远处走来，将钓竿插入OpenAI的水桶里。这一生动的图像引发网友热议，许多人转发并评论：“精准，也符合中国国情”、“DeepSeek=DeepSteal”、“非常生动形象地表现了DeepSeek偷窃的过程”等

“对于那些看到DeepSeek的表现并认为：‘中国在人工智能领域正在超越美国’的人们，你们这样理解错了。正确的理解是：‘开源模型正在超越专有模型。’”，Meta副总裁兼首席人工智能科学家Yann LeCun（杨立昆）1月24日在领英平台（LinkedIn）上写道。
曾在OpenAI担任政策研究主管的Miles Brundage，是一名独立的AI政策研究员。他在一月接受《ChinaTalk》采访时，对于DeepSeek的模型支持开源，表示质疑这种方式的长期性：“随着人工智能系统变得更加强大，DeepSeek员工和中国政府可能会开始质疑这种（开源）方式。我实际上并不相信这种情况会持续下去，而且我也不相信一切开源符合世界的长期利益”。
“还有一些潜在的担忧尚未得到充分调查，例如（中国）政府在这些模型中是否可能存在后门。从美国的角度来看，对中国主导开源领域的担忧是合理的”。
用户使用DeepSeek时，被收集的信息安全性引发担忧。DeepSeek在用户协议中表示，他们收集三种资讯：用户提供的资讯、自动收集的资讯以及来自其它来源的资讯。他们列举了一些收集的个人资料资讯，例如用户的生日、电子邮件地址和/或电话号码以及密码。使用者输入的文字、音讯、上传档案、聊天纪录等内容，还有例如用户的IP地址、唯一装置识别符号等网络活动资讯，都属于能被DeepSeek收集的范围。
deepSeek表示：“我们从您那里收集的个人咨询可能会储存在您居住国家以外的服务器上。我们将收集的资讯储存在位于中华人民共和国的安全服务器上。”
Jason对DeepSeek收集信息的安全性也有所顾虑。用户协议只是DeepSeek在台面上能公开的部分，如果它背地里偷用户的信息，也是一件可怕的事情。

英国科学、创新和技术大臣Peter Kyle周三在布鲁塞尔接受政客新闻网欧洲版采访时说：“我们会仔细检查DeepSeek这种规模和影响的每项创新，我们将确保它通过正确的系统”。他补充道，“英国拥有非常成熟的情报和安全机构”。
爱尔兰数据保护委员会已致函DeepSeek，要求其提供与该国数据主体相关的数据处理信息。
意大利个人数据保护局周二表示，正寻求DeepSeek就其使用个人数据的情况作出答复。该监管机构称，希望了解DeepSeek收集了哪些个人数据、数据来源、目的、法律依据，以及这些数据是否存储在位于中国的服务器上。
报道指，德国数据保护机构对DeepSeek的担忧也与日俱增，据德国《时代周报》报道，德国数据保护机构希望对Deepseek进行更仔细的审查，首先是对DeepSeek的数据处理做法进行正式审查。

美媒Axios于31日报道称，众议院首席行政长官向国会各办公室发出的一项通知中指出，DeepSeek正在接受其部门审查，目前尚未获得在众议院使用的授权。该通知还警告指，已有人利用DeepSeek传播恶意病毒软件。为了降低相关风险，众议院已采取安全措施，限制DeepSeek在所有众议院有关设备上的使用。众议院首席行政长官在通知中表示，所有国会工作人员都不得在任何官方手机和电脑等设备上安装DeepSeek。
报道称，这已非首席行政官第一次限制国会员工使用人工智能相关产品，其部门2023年就曾对ChatGPT的使用施加限制，通知各国会办公室他们只能进行某些工作时，使用ChatGPT的付费版本。

《彭博》披露，白宫及联邦调查局官员（FBI）正在调查DeepSeek是否通过新加坡的第三方买家，充当白手套购买英伟达先进芯片，以规避美国禁令。
根据监管文件显示，新加坡约占英伟达营收的20%。但根据这些文件，与新加坡收入相关的大多数货物都“运往新加坡以外的地方”，运往新加坡的货物微不足道。知情人士表示，白宫和联邦调查局的官员正在试图确定DeepSeek，是否透过东南亚国家的中间商，购买美国已禁止向中国销售的英伟达芯片。

近日，昆仑巢创办人苏菂在社交平台上先后发布两段视频，展示他以非法手段获得的一批英伟达显卡。
在其中一段视频中，苏菂首先介绍了其手中的显卡，他说，“我手上这个就是传说中的英伟达H100显卡的单片，我们今天AI之所以爆发，就是因为它的爆发，它的技术突破，它的算力是英伟达RTX4090显卡的N倍。”
“这一片售价高达25万元人民币，但在过去的两年里卖了近200万片，我们所有的中国大厂、世界大厂都在购买这款产品。美国对这款产品进行了封锁，但是我手上依然有它。英伟达H200显卡已经出来了，明天我们开箱一台。”他说。
根据英伟达（NVIDIA）此前财报，英伟达显卡H100亮相于2022年3月，这款芯片使用台积电4纳米工艺，采取新一代的Hopper架构。自从量产投入市场后，该芯片成为了市场上最受欢迎的AI训练芯片之一。
苏菂在随后发布的另一个视频中介绍，“英伟达H200显卡是目前市场上卖的最贵的显卡，这是到货的200片其中的一台，我们早上刚刚拆开，一会给大家看一下拆箱的过程。”
他说，“上一个视频（发布后）有好多朋友在评论区里说‘你这是违法的’，咱们这事确实违法，违了美国的法，川普（川普）会对这事很暴怒，对吧。（帮助）我搞这些显卡的哥们，搞了两年了，每一次量都特别大，他曾两次登上美国的黑名单。”
上述提到的H200，是英伟达于2023年11月发布的新一代数据中心用GPU芯片。这款芯片采用先进的存储技术HBM3e，曾在多款流行的生成式AI大模型上展现出前所未有的性能。
上述两段视频是苏菂先后于2024年11月28日和29日发布在抖音个人账号上，在中国人工智能公司（AI）DeepSeek近日发布R1推理模型发酵后，上述视频受到海内外网友的关注。
对于苏菂公开“炫耀”走私的英伟达显卡，有中国网友在微博评论说：“蠢不自知”“当小偷都当得理直气壮了”“总是拿自己的鸡贼当聪明”……
此前苏菂曾受到央视等官媒多次报导，他的头衔包括车库咖啡创始人、You+公寓联合创始人、昆仑巢创始人。
在上述视频中，苏菂并未提及他违反美国法令走私英伟达显卡的用途是自用还是倒卖给其它的中国公司，也未提及曾两次登上美国“黑名单”的他那位朋友的具体细节。

美国国会“中国问题特别委员会”30日致函白宫国家安全顾问Mike Waltz，要求审视对DeepSeek发展至关重要的关键半导体芯片施加出口管制措施，并加强对经由高风险第三国转运至中国的货物监管，以防止中透过间接途径获取受限技术。
联署信函的委员会主席John Moolenaar与资深成员Raja Krishnamoorthi强调，DeepSeek的隐私政策明确显示其数据流向中国，这引发了对美国用户数据安全的严重担忧。
他们指出，DeepSeek大量使用Nvidia的H800芯片，而该芯片是Nvidia为规避美国出口管制而设计的首款产品，进一步证明了该委员会长期以来的立场，即必须持续更新出口管制，以防止中国利用监管漏洞推进其AI发展目标。
议员们强调，美国国家安全委员会在评估出口管制有效性时，应关注当前更新滞后的问题。他们表示，支持美国的AI创新，但这也包括采取适当措施，以防止中国窃取美国技术。
此外，议员们警告，AI市场正处于关键转折点，中国AI系统在美国的可用性正迅速提升。因此，必须确保中国AI产品不会在美国市场取得重大份额，以避免其透过数据收集进一步增强自身AI能力。
来自共和党的Moolenaar在一份声明中表示：“为了保护美国在人工智能领域的领导地位，美国必须迅速加强对DeepSeek模型背后技术的出口管制，并利用《信息与通信技术服务法案》（ICTS）来阻止DeepSeek在美国营运。像对待中国的任何主张一样，美国人应该对 DeepSeek自行报告的开发成本持怀疑态度。在这种情况下，该公司快速成长的背后及其受到中国共产党的控制，带来了严重的国家安全隐忧，必须立即采取行动。”
来自民主党的Krishnamoorthi则表示：“DeepSeek的存在令人极为担忧，它正试图削弱美国在人工智能领域的领导地位。出口管制与人工智能创新并非相互排斥，而是同一枚硬币的两面。如果我们想在AI领域胜过中国共产党，就必须保护我们的领先地位，保障美国人民的数据安全，并运用常识做出明智决策。”

华尔街对冲基金大佬Bill Ackman1月28日在社群平台X发帖质疑：“Deepseek AI的对冲基金附属公司昨天通过对Nvidia、电力公司等公司的短期看跌期权大赚一笔的可能性有多大？这样就可以赚一大笔钱了。”稍后，他又在此帖文上补充道：“这一切都是完全合法的，除非他们谎报（研发成本）费用。”
Ackman还表示，在美国市场进行交易的中国公司必须遵守美国法律，倘若有人散播假消息来操纵股市，就是金融犯罪，美国就应该启动调查。

美国国防科技公司Anduril Industries创办人Palmer Luckey1月29日在福斯财经（FOX Business）节目的专访中也指出，与DeepSeek的AI模型相关消息的炒作成分居多，外界不用过度相信这家公司的说法，也不需失去理智，上了中共宣传的当。
Luckey表示，媒体铺天盖地引述DeepSeek说法称，这间中国公司是如何仅投入500多万美元成本，便训练出一个可与美国价值数十亿美元聊天机器人匹敌的AI模型。DeepSeek并未完整公布他们开发两种模型的成本，媒体也忽略了DeepSeek仍有很大部分的基础设施成本不为人知。而他们公布这个数字的目的，就是为了重挫美国公司。
他说：“美国媒体中有很多有用的白痴（useful idiots），只会盲目地报导”，引致像英伟达（NVIDIA）这样的美国公司都股价崩跌。
“有用的白痴”据说是列宁的话，指容易因莫斯科精心设计参访行程而目眩神迷的西方知识分子。

美国詹姆斯敦基金会（Jamestown Foundation）副研究员Sunny Cheung指出（美国制裁禁令）执行上，往往依赖公司的尽职调查（due-diligence)和上报商务部，导致出现漏洞和灰色地带。另一问题是香港作为国际金融中心，有自己的股票市场和金融体系，而这股票市场是否容易让中国集资？这是必然的。资金主力之一是来自幻方量化在2019年成立的“幻方资本管理（香港）有限公司”。该公司取得香港证监会发出的“资产管理牌照”（9号牌），意味着在国际资本市场上获得了“通行证”，不仅可以直接参与境外的投资，还可管理运用海外投资者的资金，包括将外资送往大陆。
尤其是，Deepseek弹起后，从政府角度，中国望热钱（Hot money）或硅谷（Silicon Valley）资金重新流入中国市场，特别是中国人工智能的建设上。而现在美国仍未有很建全的对外投资规定（Outbound investment regulations），即未有严格限制美国资金流入中国。其实美国芯片禁令在2023年才执行，而2022年首提禁令，当中有1、2年的空窗期，让中国公司有机会大量搜购英伟达（Nvidia）芯片，或以不同名目设立子公司，继而与‘干净’且有能力取得高科技芯片的公司，透过中介人、或第三国的模式取得芯片，这是很常见的做法。

台湾国防安全研究院副研究员侍建宇指出，这都是中国宣传战略，试图营造强者不败的气势。
侍建宇说：“就算不是世界级的东西，也是名列前茅的一个AI技术。所以此情况之下，它对‘大内宣’也是有很大的帮助，尤其在这1、2年中国的经济不景之下。当然‘大外宣’也是有效果的。因为毕竟它还是短期之内，造成了美国股票市场的震荡；从长期的角度而言，它最近几年向‘全球南方’，尤其金砖国家，表现出其实中国是有能力带领她们在科技向前走。”

微信公众号“火星宏观”发表的一篇文章表示，对DeepSeek的过度赞美无法敲响美国科技霸权的丧钟，但敲响了站在巨人肩膀上发展的警钟。作者也提到，“从汉芯到量子通讯，从华为5G到套娃某蒙，从二维码到小红书，从六代机到DeepSeek，吹牛一阵风，吹完丢一边，最后没一个领先。
网上传出，梁文锋回到了老家过年。家乡人也把他当英雄来迎接。一条条横幅挂起，上面写着“热烈欢迎文锋荣归故里，家乡因你而骄傲！”
1月20日下午，总理李强主持召开专家、企业家和教科文卫体等领域代表座谈会，梁文峰参加了座谈。这使DeepSeek抹上了一圈红色。
有人认为DeepSeek的崛起符合习所谓“东升西降”的政治需要。
自媒体“黑噪音”发文表示，在目前网络的极度狂热下，很多人已经喊出了“扭转国运”“打败西方”这样的口号，认为DeepSeek会让中国彻底战胜西方。但对这种狂热的民族主义言论，我就问一句：DeepSeek是不打算再用英伟达的芯片了吗？
“黑噪音”说，事实上，就连DeepSeek自己的官方声明都说了，希望英伟达能继续提供芯片，以方便他们解决依然存在的一些障碍和问题。DeepSeek的基础算法，也还是基于美国公司Meta的模型Llama的算法，这又怎么谈得上“彻底战胜西方”。
一位年轻博主说，现在这个东西的传播太邪乎了，很多公众号营销号的话术让人后怕，科技的东西一旦和所谓的爱国情怀绑架在一块不是太好的事。

DeepSeek在中国新年前后快速走红，也和海里的推波助澜有关。在经济一片萧条中，突然间冒出一个中国原创、号称与世界领先的OpenAI相比肩的科技公司，让有关部门如获至宝，所以幻方量化和DeepSeek的创始人梁文锋出席了总理李强的专家会谈。后来，党媒和粉红自媒体跟着猛炒，极力鼓动民族情绪。DeepSeek现在被当成了AI界的华为，上升成了国之重器和“大国”形象。但是李强可能没有想到，后面会发生更多事情，让他无法处理，现在甚至已经开始焦头烂额。其中一个大麻烦，就是美国为首的多国政府，已经公开宣布要调查，还要对中国进行制裁。

2266998 · 发表于 2025-1-31 09:50:16

哈哈，B21就来自于B2的蒸馏，

昨晚吃饭说起当年亩产43万斤，也把骚鸟吓的不轻，而当时大汗处于三年，大汗如此高的亩产对应“三年”，鸟国谣传，从粮食里面发现了比氘与氚核聚变威力还大数十倍的东西，尚未列入元素周期表，而熊国河舞狸专家正赶去大汗，

一时风声鹤唳，哈哈，骚鸟马上去抽打“小绿人儿”拧唧唧，说，还有什么你没有交待！

土匪也斯文 · 发表于 2025-1-31 12:39:29

本帖最后由土匪也斯文于 2025-1-31 12:53 编辑

我1.27号的时候，试用了一下DeepSeek，当时是用一个专业的行业发展问题开启的互动，同时分别用GPT4和DS互动。GPT的就不截图了，总体来说更符合我想要的，而且回答的思维更接近人。

我不太喜欢中文网络上两种极端言论，多关注一下自己的切实体验，多做自己的思考。

下面，看看当时deepseek的，当时我很很疑惑。我比较倾向，这个DS，大概率违规蒸馏。

土匪也斯文 · 发表于 2025-1-31 12:45:00

就在deepseek回答它的知识库截至23年10月时，我开始高度怀疑与GPT的关系。然后后面问到导出互动内容时，回答的内容里直接就指向了GPT

glzme · 发表于 2025-1-31 13:14:25

这是一种趋势，往大模型加塞一些政治正确的东西，我相信openai也会默许，又能普及ai技术，又不违反（当地的）法律，调用api的钱是实实在在。
你就这么看好了，你当它是工具，它就是chartgpt，你问他政治，它给你唱赞歌

		自动登录	找回密码
密码			立即注册

实锤通义大模型和deepseek大模型被发现更高程度的蒸馏

本帖子中包含更多资源

本帖子中包含更多资源

实锤 通义大模型和deepseek大模型被发现更高程度的蒸馏

本帖子中包含更多资源

本帖子中包含更多资源

实锤通义大模型和deepseek大模型被发现更高程度的蒸馏