DeepSeek

高效能 AI 模型，具備出色的程式設計和推理能力，成本業界領先。開放權重模型可在寬鬆授權下本地部署。

Free AvailableChineseOpen SourceAPICoding

前往官網檢視教學

月訪問量

273.2M

公司

DeepSeek (China)

成立時間

2023

授權

Open Weight (MIT-like)

API 輸入價格

$0.27/1M tokens

上下文視窗

128K tokens

介紹

DeepSeek 是一家中國 AI 公司，由量化對沖基金幻方創辦人梁文鋒於 2023 年創立。儘管是 AI 領域的新進入者，DeepSeek 透過以極低成本開發高效能大型語言模型迅速成為重要力量，挑戰了前沿 AI 需要數十億美元運算投資的假設。

公司的核心策略圍繞兩大支柱：透過架構創新（混合專家、多頭潛在注意力、FP8 訓練）實現極致成本效率，以及發布開放權重模型供研究者和開發者本地下載部署。這一組合以僅為競品 API 成本 1/10-1/20 的價格提供接近 GPT-4 和 Claude 的效能，顛覆了市場。

DeepSeek 的模型已在業界被快速採用，V3 通用聊天模型和 R1 推理模型代表了各自價格區間的最先進水準。R1 模型因在複雜推理任務上匹敵 OpenAI o1 同時成本大幅降低而廣受關注。

優點

+出色的程式設計和數學推理表現
+業界領先的性價比（便宜 10-20 倍）
+開放權重模型可本地部署
+R1 在複雜推理上媲美 OpenAI o1
+自動上下文快取進一步降低 API 成本
+強大的中英文雙語支援
+API 完全相容 OpenAI SDK
+蒸餾模型可在消費級硬體執行

缺點

-對政治敏感話題有內容過濾
-資料儲存在中國伺服器引發隱私顧慮
-尖峰期平台可能緩慢或不可用
-完整模型本地執行需要企業級硬體
-較新公司，可靠性記錄尚不充分
-文件品質參差，主要為中文

核心功能

DeepSeek-V3 Chat

671B 參數混合專家模型（每次查詢啟動 37B），128K 上下文，在大多數基準上匹配 GPT-4 效能且成本大幅降低

DeepSeek-R1 推理

媲美 OpenAI o1 的進階推理模型，使用顯式思維鏈推理處理複雜數學、程式設計、邏輯和多步分析

DeepSeek Coder V2

支援 338 種程式語言的專用程式設計模型，128K 上下文支援專案級程式碼理解、生成和除錯

DeepSeek Math

針對數學推理最佳化，採用 GRPO 訓練方法，在競賽級數學問題上表現強勁

DeepSeek-VL2

視覺語言模型，用於圖像理解、OCR、圖表分析、文件解析和跨多種圖像類型的視覺定位

開放權重

所有主要模型在 Hugging Face 上可用，寬鬆授權支援本地部署。社群可自由微調、蒸餾和建構

上下文快取

自動 API 快取對重複上下文前綴降低 75%+ 成本，無需設定，系統自動偵測和快取公共前綴

多平台存取

網頁聊天、行動應用（iOS/Android）、API，以及透過 Hugging Face、AWS Bedrock、NVIDIA NIM 和眾多 API 聚合器的第三方存取

蒸餾模型

R1-Distill 變體（Qwen-32B、Llama-8B 等）將推理能力壓縮到可在消費級硬體（16-24GB 顯存）上執行的小模型

非尖峰定價

非尖峰時段（UTC 16:30-00:30）API 成本降低 50-75%，使批次處理和非緊急工作負載更加經濟

適合對象

高性價比 AI 開發

以競品成本的幾分之一建構 AI 應用。DeepSeek API 定價（V3 $0.27/百萬輸入 token，R1 $0.55）比 OpenAI 或 Anthropic 便宜 10-20 倍。自動上下文快取和非尖峰折扣進一步降低成本。

新創企業、獨立開發者和注重成本的工程團隊

進階程式設計輔助

DeepSeek 在跨 338 種語言的程式設計任務上表現出色。Coder V2 以 128K 上下文理解整個專案結構，R1 以逐步推理處理複雜演算法挑戰。開放權重模型可在隔離環境中本地部署。

軟體開發者、資料科學家和 DevOps 工程師

數學與科學推理

R1 在競賽級數學、物理和邏輯問題上媲美最佳推理模型。思維鏈輸出展示解題步驟，對教育和研究都很有價值。DeepSeek Math 進一步專注數學問題求解。

學生、研究人員、教育工作者和科學家

本地和私有 AI 部署

從 Hugging Face 下載開放權重模型在自有基礎設施上執行，實現完全資料隱私。蒸餾 R1 變體可在消費級 GPU（24GB+）上執行，完整模型需要企業硬體。Ollama 和 vLLM 等工具簡化本地部署。

注重隱私的組織、研究人員和 AI 愛好者

價格方案

網頁和應用

免費存取 V3 和 R1 模型
deepseek.com 網頁聊天
iOS 和 Android 行動應用
檔案上傳與分析
基礎使用限制
尖峰時段可能排隊

API - deepseek-chat (V3)

$0.27

快取命中：$0.07/百萬輸入（節省 75%）
非尖峰時段（UTC 16:30-00:30）5 折
相容 OpenAI SDK 端點
128K 上下文視窗
適合通用聊天、內容和程式設計
函式呼叫和 JSON 模式支援

API - deepseek-reasoner (R1)

$0.55

快取命中：$0.14/百萬輸入（節省 75%）
非尖峰時段 75% 折扣
最高 32K 思維鏈輸出
適合數學、程式設計和複雜推理
透明推理過程
建議溫度：0.5-0.7

本地部署

從 Hugging Face 免費下載
V3、R1、Coder、VL 模型可用
完整模型需 80GB+ 顯存（8x A100）
R1-Distill 版本適合消費級硬體（24GB+）
使用 vLLM 或 Ollama 取得最佳效能
完全資料隱私和控制

比較分析

DeepSeek vs ChatGPT

DeepSeek V3 在大多數基準上接近 GPT-4o 效能，API 成本低 10-20 倍。R1 在複雜推理上媲美 o1 且價格同樣更低。ChatGPT 提供更精緻的消費體驗，具備 DALL-E 圖像生成、自訂 GPTs、語音模式和網頁瀏覽等 DeepSeek 缺少的功能。

DeepSeek的優勢

+API 定價大幅降低（便宜 10-20 倍）
+開放權重模型可本地部署
+R1 在許多複雜推理基準上匹配 o1
+自動上下文快取和非尖峰折扣

ChatGPT的優勢

+ChatGPT 消費功能遠更豐富（圖像生成、語音、外掛）
+ChatGPT 網頁介面更精緻可靠
+ChatGPT 提供帶管理控制的團隊和企業方案
+ChatGPT 對全球用戶內容過濾問題更少

DeepSeek vs Claude

DeepSeek 和 Claude 定位不同。DeepSeek 提供極致性價比和開放權重，Claude 提供卓越的安全性、更低幻覺率和企業級功能。DeepSeek 擅長程式設計和數學；Claude 擅長細膩分析和審慎推理。

DeepSeek的優勢

+所有模型層級 API 定價更低
+開放權重支援本地部署和自訂
+跨 338 種語言的強大程式設計表現
+R1 蒸餾模型可在消費級硬體執行

Claude的優勢

+Claude 幻覺率更低、安全性更好
+Claude 上下文視窗更大（20 萬 vs 12.8 萬 token）
+Claude 有企業功能（SOC 2、HIPAA、SSO）
+Claude 消費體驗更精緻

1. 網頁聊天入門

造訪 deepseek.com 點擊「開始使用」即可存取免費網頁聊天。無需建立帳號即可使用 V3（通用聊天）和 R1（推理）模型，但註冊可解鎖額外功能。使用聊天頂部的模型選擇器切換模型。V3 適合日常對話、寫作和快速程式設計任務。R1 適合複雜推理、數學問題和多步分析——它會展示思維鏈推理過程。 iOS 和 Android 行動應用提供同樣的存取體驗，介面針對行動裝置最佳化。

2. 使用 API

1. 在 platform.deepseek.com 註冊取得 API 金鑰 2. 安裝 OpenAI SDK：pip install openai 3. 將 base URL 設為 DeepSeek 端點： ```python from openai import OpenAI client = OpenAI( api_key="your-deepseek-key", base_url="https://api.deepseek.com" ) response = client.chat.completions.create( model="deepseek-chat", # 或 "deepseek-reasoner" messages=[{"role": "user", "content": "Hello!"}] ) print(response.choices[0].message.content) ``` 上下文快取是自動的——提示中的重複前綴會命中快取，成本降低 75%。在非尖峰時段（UTC 16:30-00:30）安排批次處理可額外節省 50-75%。

3. 選擇合適的模型

**deepseek-chat (V3)**：用於日常對話、內容寫作、摘要、翻譯和標準程式設計任務。快速、經濟，適合大多數用例。 **deepseek-reasoner (R1)**：用於複雜數學問題、多步邏輯推理、進階程式設計挑戰和需要深度分析的任務。輸出思維鏈推理過程。 **Coder V2**：最適合跨 338 種語言的程式設計任務。透過 OpenRouter 或 Together.ai 等第三方提供商存取。 **R1 使用技巧**：避免系統提示——將所有指令放在使用者訊息中。明確要求逐步推理以取得最佳結果。使用溫度 0.5-0.7 取得最優輸出品質。

4. 本地部署

DeepSeek 模型在 Hugging Face 上以寬鬆授權提供： **完整模型（企業硬體）：** - V3/R1（671B）：需要 8x A100 80GB 或同等配置 - 使用 vLLM 服務框架取得最佳效能 - 可用 FP8 量化減少顯存需求 **蒸餾模型（消費級硬體）：** - R1-Distill-Qwen-32B：24GB+ 顯存 GPU 可執行 - R1-Distill-Llama-8B：16GB 顯存 GPU 可執行 - R1-Distill-Qwen-1.5B：8GB 顯存可執行 **使用 Ollama 輕鬆部署：** ``` ollama pull deepseek-r1:8b ollama run deepseek-r1:8b ``` Ollama 自動處理量化和最佳化，使任何擁有現代 GPU 的使用者都能輕鬆本地部署。

常見問題

可以，DeepSeek 透過網頁聊天和行動應用提供免費存取。API 使用收費但極其經濟——相當效能約為 OpenAI 的 1/10-1/20。使用開放權重模型的本地部署完全免費。

DeepSeek V3 在大多數基準上匹配或接近 GPT-4 效能，成本僅為幾分之一。R1 在複雜推理任務上媲美 OpenAI o1。DeepSeek 在程式設計和數學推理上尤其出色，但 ChatGPT 提供更精緻的消費體驗和更多功能。

DeepSeek 發布「開放權重」模型——可免費下載和使用模型權重用於大多數目的，包括商業用途。這與傳統開源略有不同，僅發布權重而非完整訓練程式碼。大多數模型使用類似 MIT 的寬鬆授權。

可以，所有主要模型在 Hugging Face 上可用。完整 V3/R1 需要企業級硬體（8x 80GB GPU），但蒸餾版本如 R1-Distill-Qwen-32B 可在 24GB+ 顯存的消費級 GPU 上執行。Ollama 使本地部署一條命令即可完成。

V3 和 R1 支援 128K token 上下文，可分析長文件或程式碼庫。R1 推理思維鏈可擴展到 32K token，為複雜問題提供詳細推理過程。

有，DeepSeek 模型會過濾政治敏感內容，尤其是與中國政策相關的話題。官方平台上過濾更嚴格；本地部署的模型限制可能更少，但仍反映訓練資料中的偏見。

DeepSeek 將資料儲存在中國伺服器上，隱私政策允許廣泛的資料蒐集。敏感用例建議使用開放權重模型進行本地部署，所有處理在自有硬體上進行，實現完全資料隱私。

架構創新包括 MoE（混合專家，每次查詢僅啟動 671B 中的 37B 參數）、MLA（多頭潛在注意力，降低顯存需求）和 FP8 訓練（降低運算成本）。這些創新使其訓練和服務模型的效率遠超競品。

蒸餾模型（R1-Distill 系列）將 R1 的推理能力壓縮到基於 Qwen 和 Llama 架構的小模型中。它們保留了 R1 的大部分推理品質，同時可在消費級硬體上執行。提供 1.5B 到 32B 參數的多種尺寸。

DeepSeek API 在高需求時期曾出現可用性問題。正式環境工作負載建議使用 Together.ai、Fireworks 等第三方託管 DeepSeek 模型的提供商以取得更好的正常運行時間保證，或進行本地部署。