DeepSeek

DeepSeek

高性能 AI 模型,具备出色的编程和推理能力,成本业界领先。开放权重模型可在宽松许可下本地部署。

Free AvailableChineseOpen SourceAPICoding

月访问量

273.2M

公司

DeepSeek (China)

成立时间

2023

许可证

Open Weight (MIT-like)

API 输入价格

$0.27/1M tokens

上下文窗口

128K tokens

介绍

DeepSeek 是一家中国 AI 公司,由量化对冲基金幻方创始人梁文锋于 2023 年创立。尽管是 AI 领域的新进入者,DeepSeek 通过以极低成本开发高性能大语言模型迅速成为重要力量,挑战了前沿 AI 需要数十亿美元计算投资的假设。

公司的核心策略围绕两大支柱:通过架构创新(混合专家、多头潜在注意力、FP8 训练)实现极致成本效率,以及发布开放权重模型供研究者和开发者本地下载部署。这一组合以仅为竞品 API 成本 1/10-1/20 的价格提供接近 GPT-4 和 Claude 的性能,颠覆了市场。

DeepSeek 的模型已在业界被快速采用,V3 通用聊天模型和 R1 推理模型代表了各自价格区间的最先进水平。R1 模型因在复杂推理任务上匹敌 OpenAI o1 同时成本大幅降低而广受关注。

优点

  • +出色的编程和数学推理表现
  • +业界领先的性价比(便宜 10-20 倍)
  • +开放权重模型可本地部署
  • +R1 在复杂推理上媲美 OpenAI o1
  • +自动上下文缓存进一步降低 API 成本
  • +强大的中英文双语支持
  • +API 完全兼容 OpenAI SDK
  • +蒸馏模型可在消费级硬件运行

缺点

  • -对政治敏感话题有内容过滤
  • -数据存储在中国服务器引发隐私顾虑
  • -高峰期平台可能缓慢或不可用
  • -完整模型本地运行需要企业级硬件
  • -较新公司,可靠性记录尚不充分
  • -文档质量参差,主要为中文

核心功能

DeepSeek-V3 Chat

671B 参数混合专家模型(每次查询激活 37B),128K 上下文,在大多数基准上匹配 GPT-4 性能且成本大幅降低

DeepSeek-R1 推理

媲美 OpenAI o1 的高级推理模型,使用显式思维链推理处理复杂数学、编程、逻辑和多步分析

DeepSeek Coder V2

支持 338 种编程语言的专用编程模型,128K 上下文支持项目级代码理解、生成和调试

DeepSeek Math

针对数学推理优化,采用 GRPO 训练方法,在竞赛级数学问题上表现强劲

DeepSeek-VL2

视觉语言模型,用于图像理解、OCR、图表分析、文档解析和跨多种图像类型的视觉定位

开放权重

所有主要模型在 Hugging Face 上可用,宽松许可证支持本地部署。社区可自由微调、蒸馏和构建

上下文缓存

自动 API 缓存对重复上下文前缀降低 75%+ 成本,无需配置,系统自动检测和缓存公共前缀

多平台访问

网页聊天、移动应用(iOS/Android)、API,以及通过 Hugging Face、AWS Bedrock、NVIDIA NIM 和众多 API 聚合器的第三方访问

蒸馏模型

R1-Distill 变体(Qwen-32B、Llama-8B 等)将推理能力压缩到可在消费级硬件(16-24GB 显存)上运行的小模型

非高峰定价

非高峰时段(UTC 16:30-00:30)API 成本降低 50-75%,使批处理和非紧急工作负载更加经济

适合人群

高性价比 AI 开发

以竞品成本的几分之一构建 AI 应用。DeepSeek API 定价(V3 $0.27/百万输入 token,R1 $0.55)比 OpenAI 或 Anthropic 便宜 10-20 倍。自动上下文缓存和非高峰折扣进一步降低成本。

初创企业、独立开发者和注重成本的工程团队

高级编程辅助

DeepSeek 在跨 338 种语言的编程任务上表现出色。Coder V2 以 128K 上下文理解整个项目结构,R1 以逐步推理处理复杂算法挑战。开放权重模型可在隔离环境中本地部署。

软件开发者、数据科学家和 DevOps 工程师

数学与科学推理

R1 在竞赛级数学、物理和逻辑问题上媲美最佳推理模型。思维链输出展示解题步骤,对教育和研究都很有价值。DeepSeek Math 进一步专注数学问题求解。

学生、研究人员、教育工作者和科学家

本地和私有 AI 部署

从 Hugging Face 下载开放权重模型在自有基础设施上运行,实现完全数据隐私。蒸馏 R1 变体可在消费级 GPU(24GB+)上运行,完整模型需要企业硬件。Ollama 和 vLLM 等工具简化本地部署。

注重隐私的组织、研究人员和 AI 爱好者

价格方案

网页和应用

$0
  • 免费访问 V3 和 R1 模型
  • deepseek.com 网页聊天
  • iOS 和 Android 移动应用
  • 文件上传与分析
  • 基础使用限制
  • 高峰时段可能排队

API - deepseek-chat (V3)

$0.27
  • 缓存命中:$0.07/百万输入(节省 75%)
  • 非高峰时段(UTC 16:30-00:30)5 折
  • 兼容 OpenAI SDK 端点
  • 128K 上下文窗口
  • 适合通用聊天、内容和编程
  • 函数调用和 JSON 模式支持

API - deepseek-reasoner (R1)

$0.55
  • 缓存命中:$0.14/百万输入(节省 75%)
  • 非高峰时段 75% 折扣
  • 最高 32K 思维链输出
  • 适合数学、编程和复杂推理
  • 透明推理过程
  • 推荐温度:0.5-0.7

本地部署

$0
  • 从 Hugging Face 免费下载
  • V3、R1、Coder、VL 模型可用
  • 完整模型需 80GB+ 显存(8x A100)
  • R1-Distill 版本适合消费级硬件(24GB+)
  • 使用 vLLM 或 Ollama 获得最佳性能
  • 完全数据隐私和控制

对比分析

DeepSeek vs ChatGPT

DeepSeek V3 在大多数基准上接近 GPT-4o 性能,API 成本低 10-20 倍。R1 在复杂推理上媲美 o1 且价格同样更低。ChatGPT 提供更精致的消费体验,具备 DALL-E 图像生成、自定义 GPTs、语音模式和网页浏览等 DeepSeek 缺少的功能。

DeepSeek的优势

  • +API 定价大幅降低(便宜 10-20 倍)
  • +开放权重模型可本地部署
  • +R1 在许多复杂推理基准上匹配 o1
  • +自动上下文缓存和非高峰折扣

ChatGPT的优势

  • +ChatGPT 消费功能远更丰富(图像生成、语音、插件)
  • +ChatGPT 网页界面更精致可靠
  • +ChatGPT 提供带管理控制的团队和企业方案
  • +ChatGPT 对全球用户内容过滤问题更少

DeepSeek vs Claude

DeepSeek 和 Claude 定位不同。DeepSeek 提供极致性价比和开放权重,Claude 提供卓越的安全性、更低幻觉率和企业级功能。DeepSeek 擅长编程和数学;Claude 擅长细腻分析和审慎推理。

DeepSeek的优势

  • +所有模型层级 API 定价更低
  • +开放权重支持本地部署和定制
  • +跨 338 种语言的强大编程表现
  • +R1 蒸馏模型可在消费级硬件运行

Claude的优势

  • +Claude 幻觉率更低、安全性更好
  • +Claude 上下文窗口更大(20 万 vs 12.8 万 token)
  • +Claude 有企业功能(SOC 2、HIPAA、SSO)
  • +Claude 消费体验更精致

1. 网页聊天入门

访问 deepseek.com 点击"开始使用"即可访问免费网页聊天。无需创建账号即可使用 V3(通用聊天)和 R1(推理)模型,但注册可解锁额外功能。 使用聊天顶部的模型选择器切换模型。V3 适合日常对话、写作和快速编程任务。R1 适合复杂推理、数学问题和多步分析——它会展示思维链推理过程。 iOS 和 Android 移动应用提供同样的访问体验,界面针对移动端优化。

2. 使用 API

1. 在 platform.deepseek.com 注册获取 API 密钥 2. 安装 OpenAI SDK:pip install openai 3. 将 base URL 设为 DeepSeek 端点: ```python from openai import OpenAI client = OpenAI( api_key="your-deepseek-key", base_url="https://api.deepseek.com" ) response = client.chat.completions.create( model="deepseek-chat", # 或 "deepseek-reasoner" messages=[{"role": "user", "content": "Hello!"}] ) print(response.choices[0].message.content) ``` 上下文缓存是自动的——提示中的重复前缀会命中缓存,成本降低 75%。在非高峰时段(UTC 16:30-00:30)安排批处理可额外节省 50-75%。

3. 选择合适的模型

**deepseek-chat (V3)**:用于日常对话、内容写作、摘要、翻译和标准编程任务。快速、经济,适合大多数用例。 **deepseek-reasoner (R1)**:用于复杂数学问题、多步逻辑推理、高级编程挑战和需要深度分析的任务。输出思维链推理过程。 **Coder V2**:最适合跨 338 种语言的编程任务。通过 OpenRouter 或 Together.ai 等第三方提供商访问。 **R1 使用技巧**:避免系统提示——将所有指令放在用户消息中。明确要求逐步推理以获得最佳结果。使用温度 0.5-0.7 获得最优输出质量。

4. 本地部署

DeepSeek 模型在 Hugging Face 上以宽松许可提供: **完整模型(企业硬件):** - V3/R1(671B):需要 8x A100 80GB 或同等配置 - 使用 vLLM 服务框架获得最佳性能 - 可用 FP8 量化减少显存需求 **蒸馏模型(消费级硬件):** - R1-Distill-Qwen-32B:24GB+ 显存 GPU 可运行 - R1-Distill-Llama-8B:16GB 显存 GPU 可运行 - R1-Distill-Qwen-1.5B:8GB 显存可运行 **使用 Ollama 轻松部署:** ``` ollama pull deepseek-r1:8b ollama run deepseek-r1:8b ``` Ollama 自动处理量化和优化,使任何拥有现代 GPU 的用户都能轻松本地部署。

常见问题

可以,DeepSeek 通过网页聊天和移动应用提供免费访问。API 使用收费但极其经济——相当性能约为 OpenAI 的 1/10-1/20。使用开放权重模型的本地部署完全免费。
DeepSeek V3 在大多数基准上匹配或接近 GPT-4 性能,成本仅为几分之一。R1 在复杂推理任务上媲美 OpenAI o1。DeepSeek 在编程和数学推理上尤其出色,但 ChatGPT 提供更精致的消费体验和更多功能。
DeepSeek 发布"开放权重"模型——可免费下载和使用模型权重用于大多数目的,包括商业用途。这与传统开源略有不同,仅发布权重而非完整训练代码。大多数模型使用类似 MIT 的宽松许可证。
可以,所有主要模型在 Hugging Face 上可用。完整 V3/R1 需要企业级硬件(8x 80GB GPU),但蒸馏版本如 R1-Distill-Qwen-32B 可在 24GB+ 显存的消费级 GPU 上运行。Ollama 使本地部署一条命令即可完成。
V3 和 R1 支持 128K token 上下文,可分析长文档或代码库。R1 推理思维链可扩展到 32K token,为复杂问题提供详细推理过程。
有,DeepSeek 模型会过滤政治敏感内容,尤其是与中国政策相关的话题。官方平台上过滤更严格;本地部署的模型限制可能更少,但仍反映训练数据中的偏见。
DeepSeek 将数据存储在中国服务器上,隐私政策允许广泛的数据收集。敏感用例建议使用开放权重模型进行本地部署,所有处理在自有硬件上进行,实现完全数据隐私。
架构创新包括 MoE(混合专家,每次查询仅激活 671B 中的 37B 参数)、MLA(多头潜在注意力,降低显存需求)和 FP8 训练(降低计算成本)。这些创新使其训练和服务模型的效率远超竞品。
蒸馏模型(R1-Distill 系列)将 R1 的推理能力压缩到基于 Qwen 和 Llama 架构的小模型中。它们保留了 R1 的大部分推理质量,同时可在消费级硬件上运行。提供 1.5B 到 32B 参数的多种尺寸。
DeepSeek API 在高需求时期曾出现可用性问题。生产工作负载建议使用 Together.ai、Fireworks 等第三方托管 DeepSeek 模型的提供商以获得更好的正常运行时间保证,或进行本地部署。