月訪問量
273.2M
公司
DeepSeek (China)
成立時間
2023
授權
Open Weight (MIT-like)
API 輸入價格
$0.27/1M tokens
上下文視窗
128K tokens
介紹
DeepSeek 是一家中國 AI 公司,由量化對沖基金幻方創辦人梁文鋒於 2023 年創立。儘管是 AI 領域的新進入者,DeepSeek 透過以極低成本開發高效能大型語言模型迅速成為重要力量,挑戰了前沿 AI 需要數十億美元運算投資的假設。
公司的核心策略圍繞兩大支柱:透過架構創新(混合專家、多頭潛在注意力、FP8 訓練)實現極致成本效率,以及發布開放權重模型供研究者和開發者本地下載部署。這一組合以僅為競品 API 成本 1/10-1/20 的價格提供接近 GPT-4 和 Claude 的效能,顛覆了市場。
DeepSeek 的模型已在業界被快速採用,V3 通用聊天模型和 R1 推理模型代表了各自價格區間的最先進水準。R1 模型因在複雜推理任務上匹敵 OpenAI o1 同時成本大幅降低而廣受關注。
優點
- +出色的程式設計和數學推理表現
- +業界領先的性價比(便宜 10-20 倍)
- +開放權重模型可本地部署
- +R1 在複雜推理上媲美 OpenAI o1
- +自動上下文快取進一步降低 API 成本
- +強大的中英文雙語支援
- +API 完全相容 OpenAI SDK
- +蒸餾模型可在消費級硬體執行
缺點
- -對政治敏感話題有內容過濾
- -資料儲存在中國伺服器引發隱私顧慮
- -尖峰期平台可能緩慢或不可用
- -完整模型本地執行需要企業級硬體
- -較新公司,可靠性記錄尚不充分
- -文件品質參差,主要為中文
核心功能
DeepSeek-V3 Chat
671B 參數混合專家模型(每次查詢啟動 37B),128K 上下文,在大多數基準上匹配 GPT-4 效能且成本大幅降低
DeepSeek-R1 推理
媲美 OpenAI o1 的進階推理模型,使用顯式思維鏈推理處理複雜數學、程式設計、邏輯和多步分析
DeepSeek Coder V2
支援 338 種程式語言的專用程式設計模型,128K 上下文支援專案級程式碼理解、生成和除錯
DeepSeek Math
針對數學推理最佳化,採用 GRPO 訓練方法,在競賽級數學問題上表現強勁
DeepSeek-VL2
視覺語言模型,用於圖像理解、OCR、圖表分析、文件解析和跨多種圖像類型的視覺定位
開放權重
所有主要模型在 Hugging Face 上可用,寬鬆授權支援本地部署。社群可自由微調、蒸餾和建構
上下文快取
自動 API 快取對重複上下文前綴降低 75%+ 成本,無需設定,系統自動偵測和快取公共前綴
多平台存取
網頁聊天、行動應用(iOS/Android)、API,以及透過 Hugging Face、AWS Bedrock、NVIDIA NIM 和眾多 API 聚合器的第三方存取
蒸餾模型
R1-Distill 變體(Qwen-32B、Llama-8B 等)將推理能力壓縮到可在消費級硬體(16-24GB 顯存)上執行的小模型
非尖峰定價
非尖峰時段(UTC 16:30-00:30)API 成本降低 50-75%,使批次處理和非緊急工作負載更加經濟
適合對象
高性價比 AI 開發
以競品成本的幾分之一建構 AI 應用。DeepSeek API 定價(V3 $0.27/百萬輸入 token,R1 $0.55)比 OpenAI 或 Anthropic 便宜 10-20 倍。自動上下文快取和非尖峰折扣進一步降低成本。
進階程式設計輔助
DeepSeek 在跨 338 種語言的程式設計任務上表現出色。Coder V2 以 128K 上下文理解整個專案結構,R1 以逐步推理處理複雜演算法挑戰。開放權重模型可在隔離環境中本地部署。
數學與科學推理
R1 在競賽級數學、物理和邏輯問題上媲美最佳推理模型。思維鏈輸出展示解題步驟,對教育和研究都很有價值。DeepSeek Math 進一步專注數學問題求解。
本地和私有 AI 部署
從 Hugging Face 下載開放權重模型在自有基礎設施上執行,實現完全資料隱私。蒸餾 R1 變體可在消費級 GPU(24GB+)上執行,完整模型需要企業硬體。Ollama 和 vLLM 等工具簡化本地部署。
價格方案
網頁和應用
- 免費存取 V3 和 R1 模型
- deepseek.com 網頁聊天
- iOS 和 Android 行動應用
- 檔案上傳與分析
- 基礎使用限制
- 尖峰時段可能排隊
API - deepseek-chat (V3)
- 快取命中:$0.07/百萬輸入(節省 75%)
- 非尖峰時段(UTC 16:30-00:30)5 折
- 相容 OpenAI SDK 端點
- 128K 上下文視窗
- 適合通用聊天、內容和程式設計
- 函式呼叫和 JSON 模式支援
API - deepseek-reasoner (R1)
- 快取命中:$0.14/百萬輸入(節省 75%)
- 非尖峰時段 75% 折扣
- 最高 32K 思維鏈輸出
- 適合數學、程式設計和複雜推理
- 透明推理過程
- 建議溫度:0.5-0.7
本地部署
- 從 Hugging Face 免費下載
- V3、R1、Coder、VL 模型可用
- 完整模型需 80GB+ 顯存(8x A100)
- R1-Distill 版本適合消費級硬體(24GB+)
- 使用 vLLM 或 Ollama 取得最佳效能
- 完全資料隱私和控制
比較分析
DeepSeek vs ChatGPT
DeepSeek V3 在大多數基準上接近 GPT-4o 效能,API 成本低 10-20 倍。R1 在複雜推理上媲美 o1 且價格同樣更低。ChatGPT 提供更精緻的消費體驗,具備 DALL-E 圖像生成、自訂 GPTs、語音模式和網頁瀏覽等 DeepSeek 缺少的功能。
DeepSeek的優勢
- +API 定價大幅降低(便宜 10-20 倍)
- +開放權重模型可本地部署
- +R1 在許多複雜推理基準上匹配 o1
- +自動上下文快取和非尖峰折扣
ChatGPT的優勢
- +ChatGPT 消費功能遠更豐富(圖像生成、語音、外掛)
- +ChatGPT 網頁介面更精緻可靠
- +ChatGPT 提供帶管理控制的團隊和企業方案
- +ChatGPT 對全球用戶內容過濾問題更少
DeepSeek vs Claude
DeepSeek 和 Claude 定位不同。DeepSeek 提供極致性價比和開放權重,Claude 提供卓越的安全性、更低幻覺率和企業級功能。DeepSeek 擅長程式設計和數學;Claude 擅長細膩分析和審慎推理。
DeepSeek的優勢
- +所有模型層級 API 定價更低
- +開放權重支援本地部署和自訂
- +跨 338 種語言的強大程式設計表現
- +R1 蒸餾模型可在消費級硬體執行
Claude的優勢
- +Claude 幻覺率更低、安全性更好
- +Claude 上下文視窗更大(20 萬 vs 12.8 萬 token)
- +Claude 有企業功能(SOC 2、HIPAA、SSO)
- +Claude 消費體驗更精緻
