DeepSeek

高性能 AI 模型，具备出色的编程和推理能力，成本业界领先。开放权重模型可在宽松许可下本地部署。

Free AvailableChineseOpen SourceAPICoding

访问官网查看教程

月访问量

273.2M

公司

DeepSeek (China)

成立时间

2023

许可证

Open Weight (MIT-like)

API 输入价格

$0.27/1M tokens

上下文窗口

128K tokens

介绍

DeepSeek 是一家中国 AI 公司，由量化对冲基金幻方创始人梁文锋于 2023 年创立。尽管是 AI 领域的新进入者，DeepSeek 通过以极低成本开发高性能大语言模型迅速成为重要力量，挑战了前沿 AI 需要数十亿美元计算投资的假设。

公司的核心策略围绕两大支柱：通过架构创新（混合专家、多头潜在注意力、FP8 训练）实现极致成本效率，以及发布开放权重模型供研究者和开发者本地下载部署。这一组合以仅为竞品 API 成本 1/10-1/20 的价格提供接近 GPT-4 和 Claude 的性能，颠覆了市场。

DeepSeek 的模型已在业界被快速采用，V3 通用聊天模型和 R1 推理模型代表了各自价格区间的最先进水平。R1 模型因在复杂推理任务上匹敌 OpenAI o1 同时成本大幅降低而广受关注。

优点

+出色的编程和数学推理表现
+业界领先的性价比（便宜 10-20 倍）
+开放权重模型可本地部署
+R1 在复杂推理上媲美 OpenAI o1
+自动上下文缓存进一步降低 API 成本
+强大的中英文双语支持
+API 完全兼容 OpenAI SDK
+蒸馏模型可在消费级硬件运行

缺点

-对政治敏感话题有内容过滤
-数据存储在中国服务器引发隐私顾虑
-高峰期平台可能缓慢或不可用
-完整模型本地运行需要企业级硬件
-较新公司，可靠性记录尚不充分
-文档质量参差，主要为中文

核心功能

DeepSeek-V3 Chat

671B 参数混合专家模型（每次查询激活 37B），128K 上下文，在大多数基准上匹配 GPT-4 性能且成本大幅降低

DeepSeek-R1 推理

媲美 OpenAI o1 的高级推理模型，使用显式思维链推理处理复杂数学、编程、逻辑和多步分析

DeepSeek Coder V2

支持 338 种编程语言的专用编程模型，128K 上下文支持项目级代码理解、生成和调试

DeepSeek Math

针对数学推理优化，采用 GRPO 训练方法，在竞赛级数学问题上表现强劲

DeepSeek-VL2

视觉语言模型，用于图像理解、OCR、图表分析、文档解析和跨多种图像类型的视觉定位

开放权重

所有主要模型在 Hugging Face 上可用，宽松许可证支持本地部署。社区可自由微调、蒸馏和构建

上下文缓存

自动 API 缓存对重复上下文前缀降低 75%+ 成本，无需配置，系统自动检测和缓存公共前缀

多平台访问

网页聊天、移动应用（iOS/Android）、API，以及通过 Hugging Face、AWS Bedrock、NVIDIA NIM 和众多 API 聚合器的第三方访问

蒸馏模型

R1-Distill 变体（Qwen-32B、Llama-8B 等）将推理能力压缩到可在消费级硬件（16-24GB 显存）上运行的小模型

非高峰定价

非高峰时段（UTC 16:30-00:30）API 成本降低 50-75%，使批处理和非紧急工作负载更加经济

适合人群

高性价比 AI 开发

以竞品成本的几分之一构建 AI 应用。DeepSeek API 定价（V3 $0.27/百万输入 token，R1 $0.55）比 OpenAI 或 Anthropic 便宜 10-20 倍。自动上下文缓存和非高峰折扣进一步降低成本。

初创企业、独立开发者和注重成本的工程团队

高级编程辅助

DeepSeek 在跨 338 种语言的编程任务上表现出色。Coder V2 以 128K 上下文理解整个项目结构，R1 以逐步推理处理复杂算法挑战。开放权重模型可在隔离环境中本地部署。

软件开发者、数据科学家和 DevOps 工程师

数学与科学推理

R1 在竞赛级数学、物理和逻辑问题上媲美最佳推理模型。思维链输出展示解题步骤，对教育和研究都很有价值。DeepSeek Math 进一步专注数学问题求解。

学生、研究人员、教育工作者和科学家

本地和私有 AI 部署

从 Hugging Face 下载开放权重模型在自有基础设施上运行，实现完全数据隐私。蒸馏 R1 变体可在消费级 GPU（24GB+）上运行，完整模型需要企业硬件。Ollama 和 vLLM 等工具简化本地部署。

注重隐私的组织、研究人员和 AI 爱好者

价格方案

网页和应用

免费访问 V3 和 R1 模型
deepseek.com 网页聊天
iOS 和 Android 移动应用
文件上传与分析
基础使用限制
高峰时段可能排队

API - deepseek-chat (V3)

$0.27

缓存命中：$0.07/百万输入（节省 75%）
非高峰时段（UTC 16:30-00:30）5 折
兼容 OpenAI SDK 端点
128K 上下文窗口
适合通用聊天、内容和编程
函数调用和 JSON 模式支持

API - deepseek-reasoner (R1)

$0.55

缓存命中：$0.14/百万输入（节省 75%）
非高峰时段 75% 折扣
最高 32K 思维链输出
适合数学、编程和复杂推理
透明推理过程
推荐温度：0.5-0.7

本地部署

从 Hugging Face 免费下载
V3、R1、Coder、VL 模型可用
完整模型需 80GB+ 显存（8x A100）
R1-Distill 版本适合消费级硬件（24GB+）
使用 vLLM 或 Ollama 获得最佳性能
完全数据隐私和控制

对比分析

DeepSeek vs ChatGPT

DeepSeek V3 在大多数基准上接近 GPT-4o 性能，API 成本低 10-20 倍。R1 在复杂推理上媲美 o1 且价格同样更低。ChatGPT 提供更精致的消费体验，具备 DALL-E 图像生成、自定义 GPTs、语音模式和网页浏览等 DeepSeek 缺少的功能。

DeepSeek的优势

+API 定价大幅降低（便宜 10-20 倍）
+开放权重模型可本地部署
+R1 在许多复杂推理基准上匹配 o1
+自动上下文缓存和非高峰折扣

ChatGPT的优势

+ChatGPT 消费功能远更丰富（图像生成、语音、插件）
+ChatGPT 网页界面更精致可靠
+ChatGPT 提供带管理控制的团队和企业方案
+ChatGPT 对全球用户内容过滤问题更少

DeepSeek vs Claude

DeepSeek 和 Claude 定位不同。DeepSeek 提供极致性价比和开放权重，Claude 提供卓越的安全性、更低幻觉率和企业级功能。DeepSeek 擅长编程和数学；Claude 擅长细腻分析和审慎推理。

DeepSeek的优势

+所有模型层级 API 定价更低
+开放权重支持本地部署和定制
+跨 338 种语言的强大编程表现
+R1 蒸馏模型可在消费级硬件运行

Claude的优势

+Claude 幻觉率更低、安全性更好
+Claude 上下文窗口更大（20 万 vs 12.8 万 token）
+Claude 有企业功能（SOC 2、HIPAA、SSO）
+Claude 消费体验更精致

1. 网页聊天入门

访问 deepseek.com 点击"开始使用"即可访问免费网页聊天。无需创建账号即可使用 V3（通用聊天）和 R1（推理）模型，但注册可解锁额外功能。使用聊天顶部的模型选择器切换模型。V3 适合日常对话、写作和快速编程任务。R1 适合复杂推理、数学问题和多步分析——它会展示思维链推理过程。 iOS 和 Android 移动应用提供同样的访问体验，界面针对移动端优化。

2. 使用 API

1. 在 platform.deepseek.com 注册获取 API 密钥 2. 安装 OpenAI SDK：pip install openai 3. 将 base URL 设为 DeepSeek 端点： ```python from openai import OpenAI client = OpenAI( api_key="your-deepseek-key", base_url="https://api.deepseek.com" ) response = client.chat.completions.create( model="deepseek-chat", # 或 "deepseek-reasoner" messages=[{"role": "user", "content": "Hello!"}] ) print(response.choices[0].message.content) ``` 上下文缓存是自动的——提示中的重复前缀会命中缓存，成本降低 75%。在非高峰时段（UTC 16:30-00:30）安排批处理可额外节省 50-75%。

3. 选择合适的模型

**deepseek-chat (V3)**：用于日常对话、内容写作、摘要、翻译和标准编程任务。快速、经济，适合大多数用例。 **deepseek-reasoner (R1)**：用于复杂数学问题、多步逻辑推理、高级编程挑战和需要深度分析的任务。输出思维链推理过程。 **Coder V2**：最适合跨 338 种语言的编程任务。通过 OpenRouter 或 Together.ai 等第三方提供商访问。 **R1 使用技巧**：避免系统提示——将所有指令放在用户消息中。明确要求逐步推理以获得最佳结果。使用温度 0.5-0.7 获得最优输出质量。

4. 本地部署

DeepSeek 模型在 Hugging Face 上以宽松许可提供： **完整模型（企业硬件）：** - V3/R1（671B）：需要 8x A100 80GB 或同等配置 - 使用 vLLM 服务框架获得最佳性能 - 可用 FP8 量化减少显存需求 **蒸馏模型（消费级硬件）：** - R1-Distill-Qwen-32B：24GB+ 显存 GPU 可运行 - R1-Distill-Llama-8B：16GB 显存 GPU 可运行 - R1-Distill-Qwen-1.5B：8GB 显存可运行 **使用 Ollama 轻松部署：** ``` ollama pull deepseek-r1:8b ollama run deepseek-r1:8b ``` Ollama 自动处理量化和优化，使任何拥有现代 GPU 的用户都能轻松本地部署。

常见问题

可以，DeepSeek 通过网页聊天和移动应用提供免费访问。API 使用收费但极其经济——相当性能约为 OpenAI 的 1/10-1/20。使用开放权重模型的本地部署完全免费。

DeepSeek V3 在大多数基准上匹配或接近 GPT-4 性能，成本仅为几分之一。R1 在复杂推理任务上媲美 OpenAI o1。DeepSeek 在编程和数学推理上尤其出色，但 ChatGPT 提供更精致的消费体验和更多功能。

DeepSeek 发布"开放权重"模型——可免费下载和使用模型权重用于大多数目的，包括商业用途。这与传统开源略有不同，仅发布权重而非完整训练代码。大多数模型使用类似 MIT 的宽松许可证。

可以，所有主要模型在 Hugging Face 上可用。完整 V3/R1 需要企业级硬件（8x 80GB GPU），但蒸馏版本如 R1-Distill-Qwen-32B 可在 24GB+ 显存的消费级 GPU 上运行。Ollama 使本地部署一条命令即可完成。

V3 和 R1 支持 128K token 上下文，可分析长文档或代码库。R1 推理思维链可扩展到 32K token，为复杂问题提供详细推理过程。

有，DeepSeek 模型会过滤政治敏感内容，尤其是与中国政策相关的话题。官方平台上过滤更严格；本地部署的模型限制可能更少，但仍反映训练数据中的偏见。

DeepSeek 将数据存储在中国服务器上，隐私政策允许广泛的数据收集。敏感用例建议使用开放权重模型进行本地部署，所有处理在自有硬件上进行，实现完全数据隐私。

架构创新包括 MoE（混合专家，每次查询仅激活 671B 中的 37B 参数）、MLA（多头潜在注意力，降低显存需求）和 FP8 训练（降低计算成本）。这些创新使其训练和服务模型的效率远超竞品。

蒸馏模型（R1-Distill 系列）将 R1 的推理能力压缩到基于 Qwen 和 Llama 架构的小模型中。它们保留了 R1 的大部分推理质量，同时可在消费级硬件上运行。提供 1.5B 到 32B 参数的多种尺寸。

DeepSeek API 在高需求时期曾出现可用性问题。生产工作负载建议使用 Together.ai、Fireworks 等第三方托管 DeepSeek 模型的提供商以获得更好的正常运行时间保证，或进行本地部署。