用户名  找回密码
 注册
搜索
查看: 204|回复: 0

AI美国队输惨了!陆工程院院士揭密DeepSeek狂赢3大关键

[复制链接]
发表于 2025-1-27 08:19 PM | 显示全部楼层 |阅读模式


2025/01/28 中时新闻网 吴美观



专家表示,大陆DeepSeek使用「开源模型」让任何人都能受益。(示意图/达志影像/shutterstock)

大陆AI新创公司DeepSeek(深度求索)凭藉强大的研发能力和低廉的成本优势,不仅让美国科技巨头感到担忧,更进一步撼动美国在AI领域的主导地位。大陆专家指出,DeepSeek成功的关键在于其技术创新、成本低廉以及运用开源模型。

DeepSeek的应用程式在中国和美国的苹果App Store免费APP排行榜上都位居榜首;在美国市场,甚至超越了当红的ChatGPT。

新浪科技引述大陆工程院院士、清华大学电脑系教授郑纬民的看法,点出了DeepSeek成功主要集中在三个面向。

一、技术层面:DeepSeek核心自主研制的DeepSeek-V3和DeepSeek-R1 两个模型,其效能与OpenAI的4o和o1模型相当。

二、成本低廉: DeepSeek研发出的这两个模型成本仅为OpenAI 4o和o1模型的十分之一左右。

三、开源模型: DeepSeek将这两个强大的模型技术开源,让广大的AI团队可以利用这些最先进且成本最低的模型,开发更多具有创新性的AI应用程式。

DeepSeek如何实现模型成本降低呢?郑纬民指出,DeepSeek自主研发的MLA架构和 DeepSeek MOE架构,对于降低其模型训练成本发挥了关键作用。

他表示,「MLA 主要透过改造注意力算子压缩 KV Cache 大小,实现了在相同容量下可以储存更多的KV Cache。此架构与DeepSeek-V3模型中的FFN层改造相配合,实现了一个非常大的稀疏MoE层。这是DeepSeek训练成本低廉的最关键原因。」

据了解,KV Cache是一种优化技术,常用于储存人工智慧模型运作时产生的token的键值对(即key-value数值),以提高运算效率。

在模型运算过程中,KV cache会在模型运算过程中扮演一个记忆体库的角色,以储存模型之前处理过的token键值,透过模型运算计算出注意力分数,有效控制被储存 token 的输入输出,透过「以存换算」避免了大多数大模型运算每次都是从第一个 token 开始运算的重复计算,提升了算力使用效率。

此外,据郑纬民透露,DeepSeek也解决了「非常大且非常稀疏的MoE模型」所使用的性能难题,而这也成为「DeepSeek训练成本低最关键的原因」。

他强调,「DeepSeek的厉害之处是训练MoE的能力,成为公开MoE模型训练中第一个能训练成功这么大MoE的企业。」

图灵奖得主、主导Meta AI研究的首席科学家杨立昆(Yann LeCun)日前表示,DeepSeek成功的最大收穫并非中国对其他国家带来更大威胁,而是AI开源的价值使任何人都能受益。

杨立昆在Threads写道,「对于那些看到DeepSeek表现并认为『中国在AI领域正超越美国』的人而言,你的解读错了;正确解读应是『开源模型正超越专有模型』」。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|www.hutong9.net

GMT-5, 2025-6-6 05:49 AM , Processed in 0.053215 second(s), 15 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表