找回密码
 立即注册
查看: 212|回复: 5

国产之光 DeepSeek 把 AI 大佬全炸出来了,对 AI 行业竞争格局有何影响?

[复制链接]

1

主题

0

回帖

23

积分

新手上路

积分
23
发表于 2025-7-8 17:55:35 | 显示全部楼层 |阅读模式
物联网技术DeepSeek新版模型正式发布,技术大佬们都转疯了!延续便宜大碗特点的基础之上,DeepSeek V3发布即完全开源,直接用了53页论文把训练细节和盘托出的那种。怎么说呢,QLoRA一作的一个词评价就是:优雅。具体来说,DeepSeek V3是一个参数量为671B的MoE模型,激活37B,在14.8T高质量token长进行了预训练。在多项测评上,DeepSeek V3达到了开源SOTA,超越Llama 3.1 405B,能和GPT-4o、Claude 3.5 Sonnet等TOP模型正面掰掰手腕——而其价格比Claude 3.5 Haiku还便宜,仅为Claude 3.5 Sonnet的9%。更重要的是,大师伙儿还第一时间在论文中发现了关键细节:DeepSeek V3整个训练过程仅用了不到280万个GPU小时,对比之下,Llama 3 405B的训练时长是3080万GPU小时(p.s. GPU型号也分歧)。直不雅观地从钱上来对比就是,训练671B的DeepSeek V3的成本是557.6万美元(约合4070万人民币),而只是训练一个7B的Llama 2,就要花费76万美元(约合555万人民币)。OpenAI创始成员Karpathy对此赞道:Meta科学家田渊栋也惊叹DeepSeek V3的训练看上去是“黑科技”:全网热烈实测中先来看官方说法,新模型此次主要有以下几个特点:首先从模型能力来看,其评测跑分不仅超越了Qwen2.5-72B和Llama-3.1-405B等开源模型,甚至还和一些顶尖闭源模型(如GPT-4o以及Claude-3.5-Sonnet)不分伯仲。从实际响应来看,其生成速度提升了3倍,每秒生成60个tokens。在又快又好的同时,DeepSeek V3的API价格也被打下来了。单论价格,正如一开始提到的,它几乎是Claude 3.5 Sonnet的1/53(后者每百万输入3美元、输出15美元)。而如果要平衡性能和成本,它成了DeepSeek官方绘图中独一闯进“最佳性价比”三角区的模型。对了,DeepSeek此次还搞了一个45天优惠价格体验期,也就是在2025年2月8日之前,所有用户使用DeepSeek V3 API的价格分袂下降了80%(输入命中)、50%(输入未命中),75%(输出)。
回复

使用道具 举报

0

主题

2

回帖

3

积分

新手上路

积分
3
发表于 2025-7-8 17:56:26 | 显示全部楼层
只能说中国散户的对手太强了。。。
散户能挣钱真是有鬼了。。
还有一句话就中国真不缺人才。。。把搞金融的高材生拿出10%来搞科研,中国科技就世界第一了。。。
作为一个散户和Ai爱好者。。心情很复杂。
回复

使用道具 举报

0

主题

8

回帖

3

积分

新手上路

积分
3
发表于 2025-7-8 17:56:49 | 显示全部楼层
今天在忙过年前最后的工作,刚看到这道题,简单提几句吧。
DeepSeek 这次引发的讨论度很大,而且这波讨论更多的是技术圈自发的讨论,PR 商稿的水分不多,我觉得这里面其实是很多种因素叠加在一起的。
第一点在于 DeepSeek 开源。

开源在当前是一种正义的大旗,OpenAI 的模型再强,大家也是雾里看山,OpenAI 从 GPT-3 开始就变成了彻头彻尾的 ClosedAI,可以说除了引爆这一轮生成式大语言模型的浪潮外,给大家提供一个模糊的图景外,对开源社区几乎没有帮助。
而 DeepSeek 则不然,DeepSeek 不仅完全开源,而且放出了详细的技术报告;不仅开源了自己最大的 671B R1 模型,还「顺带手」帮大家蒸馏量化好了 1.5B~70B 多个尺寸的模型;不仅是面子上开源,甚至选择了最宽松的 MIT License 协议,允许任何人免费使用、修改、分发,包括用于商业用途。国外很多人为 DeepSeek 举大旗,愿意用户 DeepSeek 为真正的 OpenAI。
LeCun 在蹭 DeepSeek 热度的时候发了这么一篇贴子[1]:


对于那些看到 DeepSeek 表现出色并认为「中国在人工智能上超越了美国」的人,你们理解错了。正确的理解应该是:
「开源模型正在超越私有模型。」
DeepSeek 受益于开放研究和开源(例如 Meta 的 PyTorch 和 Llama)。他们提出了新想法,并在他人的基础上进行构建。因为他们的工作是公开发布并开源的,每个人都能从中获益。
这就是开放研究和开源的力量。
第二,DeepSeek 的训练成本出乎意料的低。

这一点来自于 DeepSeek V3 的技术报告中[2]:
DeepSeek V3 总训练成本为 278.8 万 H800 GPU 小时,仅 557.6 万美元。
这是什么概念呢?一个 Meta 的内部员工匿名爆料说,Meta 的生成式 AI 部门对 DeepSeek 感到恐慌,原因是他们随便一个管理人员的薪资就超过了 DeepSeek V3 的总训练成本,他们根本无法向高管解释这件事。


这也是一些人所说的,DeepSeek V3 很大程度上改变了大模型市场的根本逻辑,过去以为非常烧钱的现在发现未必需要。而这背后是来自于 DeepSeek 在架构和 AI Infra 上的创新工作。
第三是 DeepSeek 模型的性能确实强。

模型评测具有相当的选择性,好用不好用也视使用场景而定,不能有某几个具体的问题去肯定或否定某个模型。DeepSeek V3 能赢 GPT-4o,R1 能赢 o1 也都是某些评测结果。
但我还是要说,考虑到 DeepSeek 免费提供使用,且 API 价格非常便宜,那么综合考虑用户使用成本,DeepSeek 的体验就是 T1 级别的。
这一点有大模型竞技场 Arena 佐证,不过由于 DeepSeek R1 的打分数据量尚少,所以其置信区间相对较大,也意味着成绩可能还不太稳定。


第四,DeepSeek 来自幻方量化而不是传统互联网大厂,更具理想主义气息。

DeepSeek 创始人梁文锋这几天也是关注的焦点,大家说他上新闻联播,翻出来他以前的发言逐字解读,颇有种造神的意味。


但 DeepSeek 相比于其他模型,确实商业气息更少一些,也更像一个小而美的研究机构,而非功利性的 AI 企业。这就天然地带来了话题上的反差,更容易引起讨论。
对于科研组织这一条,有几个方向可供展开。
一是和 OpenAI 特别是早期的 OpenAI,以及商业化后的 OpenAI 作类比,小而精的组织可以快速演进,快速发布,而不像大厂那样有商誉负担,比如 Google 早期研究出大模型后由于幻觉问题以及生成式 AI 对搜索业务的影响而影响了对大模型的研究决策,最终导致延迟发布,错失了先机;而 DeepSeek 现在被幻方包养,暂时没有营收压力,所以看上去也不会像 OpenAI 那样市侩功利。
二是 Meta 员工在匿名发贴中说,生成式 AI 部门本应是一个小而精的部门,但因为 AI 的热度被塞进来太多人而变得臃肿。组织的臃肿当然就会带来效率问题。
三是有人把 DeepSeek 比作幻方量化内部的 Skunk Works(臭鼬工厂)[3],强调其积极的创新能力。
第五,DeepSeek 来自中国。

同样一个模型,同样一句话,国内国外滋味截然不同。
美国现在已经明牌要挑起 AI 军备竞赛了,特朗普在宣布 5000 亿美元投资的星际之门时说,这些投资如果不流向美国,就很可能会流向中国。这里非此即彼的竞争意味非常明确,不少人把星际之门解读为新星球大战计划。
不论是白宫对芯片的禁令,还是 OpenAI 等 AI 企业联合起来的呼吁,都在明确一件事,就是遏制中国的 AI 发展,确保美国的领先地位。
在这个关键时刻,中国企业做出了 DeepSeek,这对于国内来说就是很振奋的事情。叠加上前面讲到的 DeepSeek 训练成本极低,在一定程度上也削弱了对高性能显卡的依赖。
这对于美国来说是不可接受的。但是这件事的的确确真真正正地发生了,这有很有趣了,下一步走向会很微妙,也许 DeepSeek 会成为我们手中的关键一招。
<hr/>在我看来,DeepSeek 的讨论热度大体上是来自于以上几点因素。
不过话说回来,DeepSeek 的模型很好,产品相对来说还是弱了一些,也许是没精力,也许是不在乎。但整体来看,国产 AI 现在真的越来越好,开源的 DeepSeek、Qwen、GLM,产品端的豆包、Kimi,ToB 的智谱、文心,转向医疗的百川,大家都有光明的未来。
所以我之前评论星际之门的时候说,现在的形势和 2023 年 3 月 GPT-4 横空出世时不一样,现在我们不慌,我们完全可以按自己既定的节奏和步骤走,而不必被美国打乱阵脚。
本打算闲扯几句,竟然也写了 2000 多字。以上,欢迎大家批评指正,友好讨论。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

0

主题

4

回帖

10

积分

新手上路

积分
10
发表于 2025-7-8 17:57:08 | 显示全部楼层
也就是说,百度家的文言一心又一次复刻了百度的起个大早赶个晚集这一优良传统了?
也好,起码也起到了一个为全国探索前进方向和人才培养的作用不是吗?
回复

使用道具 举报

0

主题

6

回帖

16

积分

新手上路

积分
16
发表于 2025-7-8 17:57:59 | 显示全部楼层
DeepSeek真的会改变全世界AI的竞争格局
首先 我们先达成个共识,就是AGI不会短期内实现,这个短期是起码十年以上,那么就不会有一个全知全能的AGI模型出现,各个行业还是需要一些根据业务需求定制的多种多样的模型
其次,训练模型的只要成本在于预训练阶段,后训练阶段只占算力成本的10%不到。
传统的 SFT阶段,模型只能吸收来自标注样本的知识,效果很一般,而且容易过拟合。
DeepSeek V3开创了一种新范式
不差钱的理想主义色彩的公司去训练更大更好的模型,然后开源出来
各个行业利用这个更大更好的模型去蒸馏各个领域的专用模型
具体的业务再在蒸馏模型基础上做微调
如果对模型没有太多定制化要求的领域,直接调用API
此后整个行业形成了一条分工协作的产业链,上下游企业各司其职,各自发挥比较优势。
DeepSeek这样的企业有钱有技术,承担超大模型预训练
各个行业的龙头企业有行业知识,有一定算力,做行业领域的蒸馏
各个具体业务组织,具备具体的业务知识和落地场景,做定制化的微调和工程落地
一旦这样的格局形成,那么中国的全产业链优势就能发挥了
算力卡脖子的问题也解决了,反正只有大模型预训练阶段最消耗算力,那么哪怕走私也能给它凑够10万片H200,就够了。蒸馏和微调用国产算力足以。
回复

使用道具 举报

0

主题

3

回帖

19

积分

新手上路

积分
19
发表于 2025-7-8 17:58:21 | 显示全部楼层

大佬啊? 这才是真的大佬啊。


2023年7月,幻方量化宣布成立大模型公司DeepSeek,正式进军通用人工智能领域。据报道,DeepSeek包括创始人梁文锋在内,仅有139名工程师和研究人员。与之对比,OpenAI有1200名研究人员,Anthropic则有500多名研究人员。
其实讨论这个问题,最想说的是初心!
openAI  整天吹自己要AGI ,无数局外人都跟着起哄,
deepseek  说自己的目标是AGI 。大家都不正眼看一下的。你什么水平啊? 你多少人,多少卡?多少科学家?你几个图灵奖得主? 你也搞AGI ?
抄的吧?
<hr/>我很喜欢 LeCun,他谁都喷!管你是马斯克,还是奥特曼。大家都知道他一心搞“世界模型”,认为今天的 LLM 就是垃圾,根本搞不出 AGI,图灵奖得主,又不是开玩笑的。但是大家都知道,他的“世界模型”现在还不完善,但他就是真性情。也许人最难的时候,就是明明看到现有工程有缺陷,但是新的东西还没搞出来的时候。也许“世界模型”他搞不出来,也许未来要他的继承者搞出来,或者永远搞不出来。但他看到 LLM 的问题,他就要喷。


我同样也尊重Deepseek  的团队。139 人咋了? 难道AGI 的路线是靠人多人少决定的吗?R1 猛不猛?强不强?v3 上线的时候,奥特曼还在阴阳怪气。R1迅速上线后,他是不是低调了很多?R1 是真的猛啊。


把谷歌的两个thinking  版本都干翻了! 实在是让人无语了。
谷歌多少人,多少钱,多少算力?
长期看AI 的路还很长,技术几乎总是半年甚至三个月就会有版本迭代,何况DeepSeek 还彻底开源了。就放开了让全世界研究。






真正让人看到希望和光明的是:
这种坚定不移的信心,这种保持初心的兴趣,这种开放包容的格局!至于成就,不过是路上的风景而已 !

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|T9AI - 深度人工智能平台 ( 沪ICP备2023010006号 )

GMT+8, 2025-7-19 01:42 , Processed in 0.051815 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表