DeepSeek
📜网站信息
DeepSeek(深度求索)= 幻方量化旗下、杭州本土、开源免费商用、低成本高性能的国产大模型公司,主打MoE 混合专家架构 + 全栈开源 + 推理比肩 GPT‑4/o1。
一、公司背景(谁在做)
全称:杭州深度求索人工智能基础技术研究有限公司(DeepSeek Inc.)。
成立:2023‑07‑17(不到 3 年)。
母公司 / 金主:幻方量化(国内顶级量化私募,算力 / 资金极强)。
创始人 / CEO:梁文峰(幻方联合创始人)。
总部:浙江杭州拱墅区。
定位:通用 AGI 基础设施公司,专注大语言模型 + 多模态 + 推理 + 代码,坚持开源 + 低成本 + 可商用。
二、发展里程碑(关键节点)
2023‑07:公司成立,背靠幻方算力集群。
2024‑01:**DeepSeek LLM(67B)** 首发,2 万亿 token 训练。
2024‑05:**DeepSeek‑V2(MoE)** 开源,千亿级总参、仅激活约 370B,训练成本极低。
2024‑12:**DeepSeek‑V3(671B MoE)** 发布,14.8 万亿 token,训练成本约 600 万美元(远低于 GPT‑4 的 1 亿美元级)。
2025‑01:**DeepSeek‑R1(推理旗舰)** 上线,比肩 OpenAI o1,数学 / 推理极强。
2025–2026:DeepSeek‑VL(多模态)、DeepSeek‑Coder、DeepSeekMath陆续完善,全系列开源免费商用。
三、核心技术(为什么强)
1)MoE 混合专家架构(最大杀手锏)
总参 671B(V3/R1),但每次只激活约 370B(稀疏激活)。
效果:性能接近千亿模型、成本接近百亿模型,训练 / 推理成本仅行业平均的1/5~1/20。
被称为 **“用小模型钱,买大模型货”**。
2)多头潜在注意力 MLA
优化长文本处理,上下文窗口达 1,128,000 tokens(百万级)。
可直接喂整本书 / 完整代码库 / 百万字合同。
3)群体相对策略优化 GRPO
强化学习训练,推理能力接近 o1,数学竞赛表现优异。
4)全栈开源 + 商用友好
协议:Apache 2.0 / MIT,免费商用、可二次分发、可闭源改造。
权重公开,支持本地部署、私有化、二次微调。
四、核心模型家族(有哪些产品)
1)DeepSeek‑V3(基础大模型,671B MoE)
通用对话、写作、翻译、知识问答。
中文极强,英文优秀,长文本处理顶尖。
2)DeepSeek‑R1(推理旗舰,对标 o1)
数学、逻辑、推理、代码、复杂问题最强。
AIME / 奥数级题目准确率超 GPT‑4。
适合:科研、工程、法律、金融、奥数、复杂编程。
3)DeepSeek‑Coder(代码模型)
支持80 + 编程语言,代码生成准确率超 CodeLlama‑34B。
适合:开发、脚本、自动化、AI 编程助手。
4)DeepSeek‑VL(多模态,图文音视频)
图片理解、OCR、图文生成、视频内容分析。
可用于:漫剧 / 短视频图文生成、内容审核、设计辅助。
5)DeepSeekMath(数学专用)
奥数、竞赛数学、理工科研、公式推导。
五、性能与价格(性价比之王)
推理能力:R1 ≈ GPT‑4o / o1,部分数学任务更强。
训练成本:V3 仅约 600 万美元(GPT‑4 约 1 亿美元)。
推理成本:开源免费,本地部署几乎零费用。
商用授权:永久免费,无 API 费用、无分成、无版权风险。
六、优势 vs 局限(客观)
✅ 优势
国产最强推理模型之一,R1 对标 o1。
全系列开源免费商用,企业 / 个人零门槛。
MoE 架构:性能高、成本低、速度快。
超长上下文:112.8 万 token,处理整本书。
中文优化好,比很多海外模型更懂中文语境。
幻方算力支撑,迭代快、稳定性强。
⚠️ 局限
多模态(VL):弱于 GPT‑4V、Gemini Ultra。
创意 / 情感生成:略弱于 GPT‑4o。
生态:插件 / 工具链不如 OpenAI 丰富。
部署门槛:671B 模型需高算力 GPU(单卡难跑,需多卡 / 集群)。
七、使用方式(怎么用)
官网在线对话:deepseek.net(免费)。
API 调用:官方 API,价格极低。
本地部署:下载权重,** 开源框架(Transformers/vLLM)** 运行。
云服务:阿里云 / 腾讯云 / 华为云均有DeepSeek 镜像。
八、和漫小芽的关系(你之前问过漫小芽)
漫小芽 = AI 漫剧创作平台(应用层)。
DeepSeek = 底层大模型(基础层)。
实际:漫小芽可以接入 DeepSeek‑V3/R1/VL,提升剧本生成、角色描述、分镜逻辑、图文理解能力。
九、一句话总结
DeepSeek = 国产开源免费、MoE 架构、低成本高性能、推理比肩 GPT‑4o 的全能大模型,适合个人创作、企业私有化、AI 应用开发、漫剧 / 短视频文案与逻辑增强。





