一文带你了解DeepSeek爆火事件的来龙去脉

商业2周前更新 小智
14,660 0

春节期间,最具话题热度的当属DeepSeek了,尽管它火遍全网,却仍有很多人不清楚 DeepSeek 到底是什么、为什么这么火、到底有什么过人之处。因此,我们整理了关于 DeepSeek 的八个基础问题,希望能给需要的朋友们一些参考,一起来回顾下整个事件的来龙去脉。

一文带你了解DeepSeek爆火事件的来龙去脉

一 . DeepSeek 是什么?

DeepSeek 中文名「深度求索」,是一家专注实现通用人工智能(以大模型为代表)的科技公司。它由量化资管巨头「幻方量化」创立于 2023 年 7 月。

DeepSeek 也指由 DeepSeek 公司开发的、类似于 ChatGPT 的智能助手。目前,该智能助手在网页端和移动端均已上线,并且以其惊人的速度和实力,在全球范围内引发了一场科技界的“地震”。这款被誉为“国产AI之光”的应用,不仅在美区App Store免费榜上力压 ChatGPT 登顶,也在国内App Store免费榜占据榜首,展现出强大的市场号召力。

此外,外界也将该公司开发一系列大模型产品笼统称为 “DeepSeek”。

二 . DeepSeek 发布了哪些大模型?

DeepSeek 已经发布 13 个大模型,并且都已开源。全球开发者都能使用 DeepSeek 的技术开发自己的模型、应用、产品。

各模型基本情况如下表所示:

一文带你了解DeepSeek爆火事件的来龙去脉

最近引起全世界广泛关注的模型,主要是自研通用大模型 DeepSeek-V3、推理模型 DeepSeek-R1

DeepSeek-V3 是一个通用模型,日常常见的问题,都可以尝试使用 V3。

DeepSeek-R1 是一个推理模型,擅长处理复杂、需要多步思考的问题,适合做深度研究、解决代码问题、数学问题。

一文带你了解DeepSeek爆火事件的来龙去脉

(*DeepSeek 的官方 GitHub 主页:https://github.com/deepseek-ai)

三 . 普通用户如何使用 DeepSeek?哪里能调用 API?

目前,DeepSeek 已经上线官方应用,包括 Web 端和移动端。

普通用户通过注册就能使用 DeepSeek 的产品,目前 Web 和 APP 均免费。

Web 端直接通过访问网址(https://chat.deepseek.com/)对话。在对话框的左下角位置,可以选择是否开启 ” 深度思考 ” 模式。如果勾选,会使用 DeepSeek-R1 模型;如不勾选,则默认使用 DeepSeek-V3 。

一文带你了解DeepSeek爆火事件的来龙去脉

App 直接在应用商店中搜索 “DeepSeek” 即可,需要注意甄选官方开发的版本。

一文带你了解DeepSeek爆火事件的来龙去脉

在 APP 端,用户可以选择同时使用联网和推理功能。

一文带你了解DeepSeek爆火事件的来龙去脉

不过最近 DeepSeek 由于受到网络攻击(或其他因素)时常罢工,需要不断重试才能得到模型的返回结果。

开发者也能通过多种渠道调用 DeepSeek 的 API:

DeepSeek 开发者平台:
访问 DeepSeek 控制台https://platform.deepseek.com/,注册登录并购买获取相应的密钥。

英伟达 NIM 微服务:
https://build.nvidia.com/deepseek-ai/deepseek-r1,支持 API 调用 DeepSeek-R1,需要使用邮箱注册账号。

微软 Azure:
https://ai.azure.com,微软 Azure 可以通过聊天操场,部署 DeepSeek-R1,创建一个聊天机器人。

亚马逊 AWS:
https://aws.amazon.com/cn/blogs/aws/deepseek-r1-models-now-available-on-aws,DeepSeek-R1 现已在 Amazon Bedrock Marketplace 和 Amazon SageMaker JumpStart 中推出,还可以在 Amazon Bedrock Custom Model Import 和 Amazon EC2 实例来使用 DeepSeek-R1-Distill 模型。

硅基流动 SiliconCloud :
https://siliconflow.cn/zh-cn/models,上线了基于华为云昇腾云服务的 DeepSeek-V3、DeepSeek-R1,开发者可以直接调用 SiliconCloud API,价格与 DeepSeek 官方优惠期价格保持一致。

此外,Cerebras、Groq 也可以调用 DeepSeek-R1 的 API。

四 . DeepSeek 能做什么?

DeepSeek 大火后,各路大神纷纷开发了各种用法:

首先是高情商陪聊:

一文带你了解DeepSeek爆火事件的来龙去脉

(* 图源网络)

有非常多的网友把它当算命大师,算起了紫微星。

一文带你了解DeepSeek爆火事件的来龙去脉

还有人把 DeepSeek 当理财顾问。它会直接帮你综合评估,高风险、高回报率方案(DeepSeek 不构成任何投资建议)。

一文带你了解DeepSeek爆火事件的来龙去脉

也有网友综合利用 DeepSeek 的文档总结、文字生成和辅助写代码的功能生成各类社交文案和卡片。

一文带你了解DeepSeek爆火事件的来龙去脉

(* 来自禾刀爱 AI 的案例)

更有网友用 DeepSeek 写起了 PS 的修图脚本实现了一键修图。

一文带你了解DeepSeek爆火事件的来龙去脉
一文带你了解DeepSeek爆火事件的来龙去脉

(* 网友用 DeepSeek 写的 ps 脚本)

一文带你了解DeepSeek爆火事件的来龙去脉

(* 运行脚本后的效果)

五 . 为什么是 V3 和 R1 两款模型受到如此关注?

这两款模型,有以下几个特点:

1. 性能优秀

这两款模型的性能接近甚至在某些场景超越了 ” 公认 ” 的全球标杆公司 OpenAI 的最好产品(DeepSeek-V3 对标 GPT-4o,DeepSeek-R1 对标 o1)。

2. 结合应用

两款模型发布后,均上线 DeepSeek 的 Web/APP,让更多人能切身体验模型效果。

3. 训练成本低,产品性价比高

V3 仅使用了 2048 个 H800 GPU、花费 3.7 天进行训练,使用 GPU 的数量和训练时长颠覆传统认知。

R1 和 V3 都可以在 DeepSeek 官网上免费使用;API 的定价中,R1 输入部分的价格是 o1 的 1.82%,输出部分是 o1 的 3.65%;V3 输入部分的价格是 GPT-4o 的 1.12%,输出部分是 GPT-4o 的 2.8%。

4. 技术创新

DeepSeek-R1 的训练模式颠覆了常规认知。DeepSeek-R1 是首个验证了仅通过 RL(强化学习)无需 SFT (监督微调) 就能得到大幅推理能力增强和涌现的模型。这种训练方式大幅降低了数据标注成本,简化了训练流程,整体训练成本也得到了降低。

5. 开源

目前没有其他在性能上对标 GPT-4o 和 o1 的开源模型。OpenAI 旗下主打的核心模型都没有开源,用户要使用必须通过 APP 或 API 调用。

一文带你了解DeepSeek爆火事件的来龙去脉

(* 官方的测评数据,V3 的综合性能接近 GPT-4o,在许多具体的评测数据集上的分数甚至超过了 4o。)

一文带你了解DeepSeek爆火事件的来龙去脉

(*DeepSeek-R1 对标 OpenAI 的 o1。根据官方评测结果,R1 的性能确实与 o1 接近,一些评测集上的成绩还要略微高于 o1)

一文带你了解DeepSeek爆火事件的来龙去脉

(*DeepSeek-R1 与 OpenAI o1 的 API 调用价格对比)

六 . DeepSeek 为什么让硅谷这么 ” 害怕 “?

1. 中国 AI 公司做出真正的创新,美国科技大厂担心失去领先地位。

在此之前,模型层面的技术革新虽然也并非罕见,但都是美国模型厂商率先推出、其他厂商跟进验证的节奏。这一次 DeepSeek 走到了前面。

首先,DeepSeek 在模型训练和架构上都有创新。

在 DeepSeek-R1 之前,模型较为普遍训练路线是 SFT 结合 RL(监督微调结合强化学习),而 DeepSeek 在本次发布中首次在实验里验证了仅通过 RL 也能带来能力提升。

同时,V3 模型的一个关键架构创新是多头潜在注意力机制(Multi-Head Latent Attention),这能够显著降低推理阶段的成本、提高效率。

这些是美国 AI 公司没有做到的事情。

长期以来,AI 发展依赖于计算能力的积累,可以说是超大规模者之间的竞赛。

对比美国的竞争者,DeepSeek 的创新实现了训练成本和使用价格上数量级的减少,美国公司领先市场的重要优势被削弱了。

2. 开源:生态若能星火燎原,将抢占美国公司市场

DeepSeek 的 R1 不仅通过技术报告公开了训练过程,还开源了模型的权重。

DeepSeek 的推理模型拥有高性能和低价格,使得开发者能将其用于越来越多的场景。

最近,微软、英伟达、AWS 都纷纷接入 DeepSeek-R1。

3. 大模型相关的美国科技股受到巨大冲击,” 威胁 ” 苗头初现

英伟达股价大跌,似乎暗示了 DeepSeek 的真实威胁。

因为 DeepSeek 的路线一定程度上说明,无需最强算力也能训练出高性能大模型,而且 DeepSeek 把高性能模型开源的路线可能让更多公司放弃训练模型,冲击了英伟达核心算力产品(GPU)的需求,影响股价。

并且,市场担忧 DeepSeek 的成功冲击 OpenAI 等美国重点科技公司的市场前景,尤其是闭源模型方向。

一文带你了解DeepSeek爆火事件的来龙去脉

(*DeepSeek 陆续发布的模型对比业内领先模型的性能)

七 . DeepSeek 未来还会在哪些方面迭代?

这部分是外界对 DeepSeek 未来动向做出的猜测。

基于目前的成果,外界认为未来的创新点还是会围绕着成本、性能这两大核心要素。

多模态能力补齐。除夕凌晨,DeepSeek 新发布的 DeepSeek-Janus-Pro 模型是一个多模态模型,同时拥有视觉理解和视觉生成的能力。

但 Janus 系列模型都是小参数量模型,如何通过 Janus 创新的模型框架训练出一个大参数量的多模态模型,可能是未来的重点之一。

DeepSeek 在 2025 年 1 月终于推出面向 C 端用户的 APP 产品,可能未来会探索 / 合作更多应用

八、DeepSeek 爆火 对中美 AI 格局带来的影响?

1. 国内 AI 公司面临进一步限制。

DeepSeek 的低成本训练成果,可能会让美国进一步收缩可供出口的芯片型号。未来,国内模型厂商可用的 GPU 型号越来越少,代际越来越旧。

由于隐私、数据合规等质疑,一些国家和地区已经要求 DeepSeek 停止服务。

X (Twitter)上,一些 AI 科普类博主从之前的无脑捧吹 DeepSeek 的帖子,已经转变为教用户 ” 如何本地化部署一个 DeepSeek R1 来保护自己的数据 ” 这样的帖子。

2. 全球 AI 生态的竞争可能会被重塑。

DeepSeek 得到市场认可,一定程度上说明,算法效率、经济高效将成为未来竞争中的核心要素。

DeepSeek 正推动 AI 行业从 ” 算力军备竞赛 ” 转向 ” 算法效率战争 “,AI 技术进一步普惠化。

那些以往以 ” 算力为重 ” 的公司将要重新审视自己的战略。

3. 硅谷巨头们急迫重新领先。

技术上进行革新、重新夺取领先地位的紧迫感,笼罩着美国的科技巨头们。

据称,目前 Google、Apple、Meta 等公司,已经纷纷开始深度研究 DeepSeek。各家财报的电话会上,DeepSeek 也是一个绕不开的问题。

尽快推出下一个代际的领先模型,是硅谷各家的当务之急。

(注:本文转自腾讯网,原文《八个问题,带你零基础了解DeepSeek》,稍有改动)

© 版权声明

相关文章

暂无评论

none
暂无评论...