DeepSeek

DeepSeek

高效能 AI 模型,具備出色的程式設計和推理能力,成本業界領先。開放權重模型可在寬鬆授權下本地部署。

Free AvailableChineseOpen SourceAPICoding

月訪問量

273.2M

公司

DeepSeek (China)

成立時間

2023

授權

Open Weight (MIT-like)

API 輸入價格

$0.27/1M tokens

上下文視窗

128K tokens

介紹

DeepSeek 是一家中國 AI 公司,由量化對沖基金幻方創辦人梁文鋒於 2023 年創立。儘管是 AI 領域的新進入者,DeepSeek 透過以極低成本開發高效能大型語言模型迅速成為重要力量,挑戰了前沿 AI 需要數十億美元運算投資的假設。

公司的核心策略圍繞兩大支柱:透過架構創新(混合專家、多頭潛在注意力、FP8 訓練)實現極致成本效率,以及發布開放權重模型供研究者和開發者本地下載部署。這一組合以僅為競品 API 成本 1/10-1/20 的價格提供接近 GPT-4 和 Claude 的效能,顛覆了市場。

DeepSeek 的模型已在業界被快速採用,V3 通用聊天模型和 R1 推理模型代表了各自價格區間的最先進水準。R1 模型因在複雜推理任務上匹敵 OpenAI o1 同時成本大幅降低而廣受關注。

優點

  • +出色的程式設計和數學推理表現
  • +業界領先的性價比(便宜 10-20 倍)
  • +開放權重模型可本地部署
  • +R1 在複雜推理上媲美 OpenAI o1
  • +自動上下文快取進一步降低 API 成本
  • +強大的中英文雙語支援
  • +API 完全相容 OpenAI SDK
  • +蒸餾模型可在消費級硬體執行

缺點

  • -對政治敏感話題有內容過濾
  • -資料儲存在中國伺服器引發隱私顧慮
  • -尖峰期平台可能緩慢或不可用
  • -完整模型本地執行需要企業級硬體
  • -較新公司,可靠性記錄尚不充分
  • -文件品質參差,主要為中文

核心功能

DeepSeek-V3 Chat

671B 參數混合專家模型(每次查詢啟動 37B),128K 上下文,在大多數基準上匹配 GPT-4 效能且成本大幅降低

DeepSeek-R1 推理

媲美 OpenAI o1 的進階推理模型,使用顯式思維鏈推理處理複雜數學、程式設計、邏輯和多步分析

DeepSeek Coder V2

支援 338 種程式語言的專用程式設計模型,128K 上下文支援專案級程式碼理解、生成和除錯

DeepSeek Math

針對數學推理最佳化,採用 GRPO 訓練方法,在競賽級數學問題上表現強勁

DeepSeek-VL2

視覺語言模型,用於圖像理解、OCR、圖表分析、文件解析和跨多種圖像類型的視覺定位

開放權重

所有主要模型在 Hugging Face 上可用,寬鬆授權支援本地部署。社群可自由微調、蒸餾和建構

上下文快取

自動 API 快取對重複上下文前綴降低 75%+ 成本,無需設定,系統自動偵測和快取公共前綴

多平台存取

網頁聊天、行動應用(iOS/Android)、API,以及透過 Hugging Face、AWS Bedrock、NVIDIA NIM 和眾多 API 聚合器的第三方存取

蒸餾模型

R1-Distill 變體(Qwen-32B、Llama-8B 等)將推理能力壓縮到可在消費級硬體(16-24GB 顯存)上執行的小模型

非尖峰定價

非尖峰時段(UTC 16:30-00:30)API 成本降低 50-75%,使批次處理和非緊急工作負載更加經濟

適合對象

高性價比 AI 開發

以競品成本的幾分之一建構 AI 應用。DeepSeek API 定價(V3 $0.27/百萬輸入 token,R1 $0.55)比 OpenAI 或 Anthropic 便宜 10-20 倍。自動上下文快取和非尖峰折扣進一步降低成本。

新創企業、獨立開發者和注重成本的工程團隊

進階程式設計輔助

DeepSeek 在跨 338 種語言的程式設計任務上表現出色。Coder V2 以 128K 上下文理解整個專案結構,R1 以逐步推理處理複雜演算法挑戰。開放權重模型可在隔離環境中本地部署。

軟體開發者、資料科學家和 DevOps 工程師

數學與科學推理

R1 在競賽級數學、物理和邏輯問題上媲美最佳推理模型。思維鏈輸出展示解題步驟,對教育和研究都很有價值。DeepSeek Math 進一步專注數學問題求解。

學生、研究人員、教育工作者和科學家

本地和私有 AI 部署

從 Hugging Face 下載開放權重模型在自有基礎設施上執行,實現完全資料隱私。蒸餾 R1 變體可在消費級 GPU(24GB+)上執行,完整模型需要企業硬體。Ollama 和 vLLM 等工具簡化本地部署。

注重隱私的組織、研究人員和 AI 愛好者

價格方案

網頁和應用

$0
  • 免費存取 V3 和 R1 模型
  • deepseek.com 網頁聊天
  • iOS 和 Android 行動應用
  • 檔案上傳與分析
  • 基礎使用限制
  • 尖峰時段可能排隊

API - deepseek-chat (V3)

$0.27
  • 快取命中:$0.07/百萬輸入(節省 75%)
  • 非尖峰時段(UTC 16:30-00:30)5 折
  • 相容 OpenAI SDK 端點
  • 128K 上下文視窗
  • 適合通用聊天、內容和程式設計
  • 函式呼叫和 JSON 模式支援

API - deepseek-reasoner (R1)

$0.55
  • 快取命中:$0.14/百萬輸入(節省 75%)
  • 非尖峰時段 75% 折扣
  • 最高 32K 思維鏈輸出
  • 適合數學、程式設計和複雜推理
  • 透明推理過程
  • 建議溫度:0.5-0.7

本地部署

$0
  • 從 Hugging Face 免費下載
  • V3、R1、Coder、VL 模型可用
  • 完整模型需 80GB+ 顯存(8x A100)
  • R1-Distill 版本適合消費級硬體(24GB+)
  • 使用 vLLM 或 Ollama 取得最佳效能
  • 完全資料隱私和控制

比較分析

DeepSeek vs ChatGPT

DeepSeek V3 在大多數基準上接近 GPT-4o 效能,API 成本低 10-20 倍。R1 在複雜推理上媲美 o1 且價格同樣更低。ChatGPT 提供更精緻的消費體驗,具備 DALL-E 圖像生成、自訂 GPTs、語音模式和網頁瀏覽等 DeepSeek 缺少的功能。

DeepSeek的優勢

  • +API 定價大幅降低(便宜 10-20 倍)
  • +開放權重模型可本地部署
  • +R1 在許多複雜推理基準上匹配 o1
  • +自動上下文快取和非尖峰折扣

ChatGPT的優勢

  • +ChatGPT 消費功能遠更豐富(圖像生成、語音、外掛)
  • +ChatGPT 網頁介面更精緻可靠
  • +ChatGPT 提供帶管理控制的團隊和企業方案
  • +ChatGPT 對全球用戶內容過濾問題更少

DeepSeek vs Claude

DeepSeek 和 Claude 定位不同。DeepSeek 提供極致性價比和開放權重,Claude 提供卓越的安全性、更低幻覺率和企業級功能。DeepSeek 擅長程式設計和數學;Claude 擅長細膩分析和審慎推理。

DeepSeek的優勢

  • +所有模型層級 API 定價更低
  • +開放權重支援本地部署和自訂
  • +跨 338 種語言的強大程式設計表現
  • +R1 蒸餾模型可在消費級硬體執行

Claude的優勢

  • +Claude 幻覺率更低、安全性更好
  • +Claude 上下文視窗更大(20 萬 vs 12.8 萬 token)
  • +Claude 有企業功能(SOC 2、HIPAA、SSO)
  • +Claude 消費體驗更精緻

1. 網頁聊天入門

造訪 deepseek.com 點擊「開始使用」即可存取免費網頁聊天。無需建立帳號即可使用 V3(通用聊天)和 R1(推理)模型,但註冊可解鎖額外功能。 使用聊天頂部的模型選擇器切換模型。V3 適合日常對話、寫作和快速程式設計任務。R1 適合複雜推理、數學問題和多步分析——它會展示思維鏈推理過程。 iOS 和 Android 行動應用提供同樣的存取體驗,介面針對行動裝置最佳化。

2. 使用 API

1. 在 platform.deepseek.com 註冊取得 API 金鑰 2. 安裝 OpenAI SDK:pip install openai 3. 將 base URL 設為 DeepSeek 端點: ```python from openai import OpenAI client = OpenAI( api_key="your-deepseek-key", base_url="https://api.deepseek.com" ) response = client.chat.completions.create( model="deepseek-chat", # 或 "deepseek-reasoner" messages=[{"role": "user", "content": "Hello!"}] ) print(response.choices[0].message.content) ``` 上下文快取是自動的——提示中的重複前綴會命中快取,成本降低 75%。在非尖峰時段(UTC 16:30-00:30)安排批次處理可額外節省 50-75%。

3. 選擇合適的模型

**deepseek-chat (V3)**:用於日常對話、內容寫作、摘要、翻譯和標準程式設計任務。快速、經濟,適合大多數用例。 **deepseek-reasoner (R1)**:用於複雜數學問題、多步邏輯推理、進階程式設計挑戰和需要深度分析的任務。輸出思維鏈推理過程。 **Coder V2**:最適合跨 338 種語言的程式設計任務。透過 OpenRouter 或 Together.ai 等第三方提供商存取。 **R1 使用技巧**:避免系統提示——將所有指令放在使用者訊息中。明確要求逐步推理以取得最佳結果。使用溫度 0.5-0.7 取得最優輸出品質。

4. 本地部署

DeepSeek 模型在 Hugging Face 上以寬鬆授權提供: **完整模型(企業硬體):** - V3/R1(671B):需要 8x A100 80GB 或同等配置 - 使用 vLLM 服務框架取得最佳效能 - 可用 FP8 量化減少顯存需求 **蒸餾模型(消費級硬體):** - R1-Distill-Qwen-32B:24GB+ 顯存 GPU 可執行 - R1-Distill-Llama-8B:16GB 顯存 GPU 可執行 - R1-Distill-Qwen-1.5B:8GB 顯存可執行 **使用 Ollama 輕鬆部署:** ``` ollama pull deepseek-r1:8b ollama run deepseek-r1:8b ``` Ollama 自動處理量化和最佳化,使任何擁有現代 GPU 的使用者都能輕鬆本地部署。

常見問題

可以,DeepSeek 透過網頁聊天和行動應用提供免費存取。API 使用收費但極其經濟——相當效能約為 OpenAI 的 1/10-1/20。使用開放權重模型的本地部署完全免費。
DeepSeek V3 在大多數基準上匹配或接近 GPT-4 效能,成本僅為幾分之一。R1 在複雜推理任務上媲美 OpenAI o1。DeepSeek 在程式設計和數學推理上尤其出色,但 ChatGPT 提供更精緻的消費體驗和更多功能。
DeepSeek 發布「開放權重」模型——可免費下載和使用模型權重用於大多數目的,包括商業用途。這與傳統開源略有不同,僅發布權重而非完整訓練程式碼。大多數模型使用類似 MIT 的寬鬆授權。
可以,所有主要模型在 Hugging Face 上可用。完整 V3/R1 需要企業級硬體(8x 80GB GPU),但蒸餾版本如 R1-Distill-Qwen-32B 可在 24GB+ 顯存的消費級 GPU 上執行。Ollama 使本地部署一條命令即可完成。
V3 和 R1 支援 128K token 上下文,可分析長文件或程式碼庫。R1 推理思維鏈可擴展到 32K token,為複雜問題提供詳細推理過程。
有,DeepSeek 模型會過濾政治敏感內容,尤其是與中國政策相關的話題。官方平台上過濾更嚴格;本地部署的模型限制可能更少,但仍反映訓練資料中的偏見。
DeepSeek 將資料儲存在中國伺服器上,隱私政策允許廣泛的資料蒐集。敏感用例建議使用開放權重模型進行本地部署,所有處理在自有硬體上進行,實現完全資料隱私。
架構創新包括 MoE(混合專家,每次查詢僅啟動 671B 中的 37B 參數)、MLA(多頭潛在注意力,降低顯存需求)和 FP8 訓練(降低運算成本)。這些創新使其訓練和服務模型的效率遠超競品。
蒸餾模型(R1-Distill 系列)將 R1 的推理能力壓縮到基於 Qwen 和 Llama 架構的小模型中。它們保留了 R1 的大部分推理品質,同時可在消費級硬體上執行。提供 1.5B 到 32B 參數的多種尺寸。
DeepSeek API 在高需求時期曾出現可用性問題。正式環境工作負載建議使用 Together.ai、Fireworks 等第三方託管 DeepSeek 模型的提供商以取得更好的正常運行時間保證,或進行本地部署。