Gemini

Google 原生多模態 AI 助手，具備業界領先的 200 萬 token 上下文視窗、深度 Google 生態整合，以及跨文字、圖像、音訊和影片的強大推理能力。

Free AvailableChinese SupportAPIMultimodalGoogle Integration

前往官網檢視教學

月訪問量

2.1B

公司

Google DeepMind

發布時間

December 2023

最大上下文

2M tokens

免費版

Yes

前身

Google Bard

介紹

Gemini 代表了 Google 最雄心勃勃的 AI 計畫，從底層設計為原生多模態模型系列。與將圖像或音訊能力嫁接到文字模型上的系統不同，Gemini 從一開始就被建構為能無縫理解和處理文字、圖像、音訊、影片和程式碼——在單次對話中實現跨不同資訊類型的更自然推理。

Gemini 由合併後的 Google Brain 和 DeepMind 團隊開發，是 LaMDA 和 PaLM 2 的繼任者。Google 大力投資使 Gemini 成為其整個產品生態的 AI 骨幹，從搜尋和 Workspace 到 Android 和 Cloud。

Gemini 的突出特性包括：超大上下文視窗（最高 200 萬 token，可處理整個程式碼庫、書籍或數小時影片）、與 Google 服務的深度整合（Search、Gmail、Docs、Sheets、Drive），以及分層模型系列（Nano、Flash、Pro）。2.5 代引入了「思考」能力以增強複雜問題的推理。

優點

+業界領先的上下文視窗（最高 200 萬 token）
+原生多模態架構實現更好的跨模態推理
+深度 Google 生態整合（Search、Workspace、Cloud）
+透過 Google Search 取得即時資訊
+具競爭力的定價，尤其 Flash 模型的 API 使用
+程式設計和數學任務表現強勁（2.5 Pro）
+免費版包含強大基礎模型和圖像生成
+透過 Google Cloud Vertex AI 提供企業級服務

缺點

-安全過濾有時過於謹慎
-部分功能僅限 Google 生態
-圖像生成品質不夠穩定
-品牌命名複雜（模型系列與應用容易混淆）
-進階功能需 $19.99/月訂閱
-影片生成僅限短片段

核心功能

原生多模態

從底層建構以同時處理文字、圖像、音訊、影片和程式碼——非後期改造，實現更深層的跨模態推理

超大上下文視窗

1-200 萬 token（1.5/2.5 Pro）——在單次對話中處理整本書、程式碼庫、數小時影片或數百份文件

模型系列

Nano（裝置端）、Flash（快速經濟）、Pro（均衡強大），可根據速度、成本和複雜度需求選擇

深度研究

AI 驅動的研究代理進行多步網路搜尋，綜合數十個來源的資訊，生成帶引用的綜合報告

思考模式

Gemini 2.5 模型在回答前進行顯式逐步推理，顯著提升複雜數學、程式設計和分析任務的表現

Google 整合

原生存取 Google Search 取得即時資訊，深度整合 Gmail、Docs、Sheets、Slides、Meet、Drive 和 Calendar

圖像與影片生成

使用 Imagen 3 建立和編輯圖像。進階訂閱用戶可使用 Veo 2 從文字描述或靜態圖像生成短影片

Gemini Code Assist

整合到 VS Code、JetBrains 和 Android Studio 的程式設計助手，具備程式碼庫感知的補全、解釋、除錯和重構建議

多模態即時 API

即時雙向音視訊串流，用於建構低延遲、自然對話流的互動式 AI 應用

Gemini Nano

直接在 Pixel 手機和 Chrome 上執行的輕量模型，支援智慧回覆、通話摘要和語音文字摘要等離線功能

適合對象

長文件與程式碼庫分析

憑藉最高 200 萬 token 的上下文，Gemini 可在單次對話中處理整本書、法律合約、研究論文集或完整程式碼庫。支援跨數百頁理解關係的提問、發現大型文件中的不一致性或進行整個儲存庫的架構審查。

研究人員、法律專業人士、軟體架構師和分析師

Google Workspace 效率提升

Gemini 直接整合到 Gmail、Docs、Sheets、Slides 和 Meet 中。草擬電子郵件、生成會議摘要、從大綱建立簡報、整理試算表資料、搜尋 Drive 內容——無需離開 Google 生態系統。

使用 Google Workspace 的商務專業人士和團隊

多模態研究與學習

同時上傳圖像、影片、音訊和文件進行跨模態分析。Gemini 可分析講座影片、與教科書 PDF 對比並生成學習筆記。深度研究模式可自主在網路上探索主題並生成帶引用的報告。

學生、教育工作者、內容研究人員和知識工作者

AI 應用開發

使用 Gemini API 以具競爭力的價格建構 AI 驅動的應用。Flash 模型提供快速經濟的推理適合大流量應用，Pro 模型處理複雜推理。多模態即時 API 支援即時音視訊 AI 互動。

開發者、新創企業和企業工程團隊

價格方案

免費版

Gemini 2.0 Flash（預設模型）
有限存取 Gemini 2.5 Pro
基礎圖像生成
Google Search 整合
檔案上傳與分析
網頁和行動應用
尖峰時段有使用限制

Advanced

$19.99

Gemini 2.5 Pro（最強模型）
100 萬+ token 上下文視窗
深度研究生成綜合報告
Gems——自訂 AI 助手
Veo 2 影片生成
增強 Workspace 整合
NotebookLM Plus 存取
2TB Google One 雲端儲存
優先體驗新功能

Business

$20

Gemini 整合到 Gmail、Docs、Sheets、Slides、Meet
Docs 和 Gmail 中「幫我寫」
Sheets 中「幫我整理」
Meet 會議摘要
企業安全與合規
管理控制和分析
資料不用於訓練

API - Flash

$0.075

Gemini 2.0 Flash 模型
100 萬 token 上下文視窗
適合大流量低延遲應用
原生工具使用和函式呼叫
慷慨的免費額度
多模態輸入支援

API - Pro

$1.25

Gemini 2.5 Pro 模型
最高 200 萬 token 上下文視窗
思考模式進階推理
適合複雜分析和程式設計
Google AI Studio 或 Vertex AI 存取
支援微調

Enterprise (Vertex AI)

Custom

透過 Google Cloud 存取所有模型
企業安全（IAM、VPC）
資料駐留控制
MLOps 工具鏈整合
Model Garden 存取（100+ 模型）
SLA 和專屬支援
IP 賠償保障

比較分析

Gemini vs ChatGPT

Gemini 和 ChatGPT 是全球最受歡迎的兩大 AI 助手。Gemini 的優勢在於超大上下文視窗、原生 Google 整合和具競爭力的 API 定價。ChatGPT 提供更精緻的消費體驗，擁有自訂 GPTs、DALL-E 圖像生成和更大的第三方生態。

Gemini的優勢

+上下文視窗大得多（200 萬 vs 12.8 萬 token）
+原生 Google Search 和 Workspace 整合
+Flash 模型 API 性價比更高
+免費版包含更強大的基礎模型

ChatGPT的優勢

+ChatGPT 擁有更成熟的外掛和自訂 GPT 生態
+ChatGPT 提供原生 DALL-E 圖像生成
+ChatGPT 消費功能和使用者體驗更精緻
+ChatGPT 進階語音模式更完善

Gemini vs Claude

Gemini 和 Claude 都提供大上下文視窗和強推理能力。Gemini 提供更深的 Google 服務整合和更大的上下文容量（200 萬 vs 20 萬 token）。Claude 在細膩寫作、審慎分析和低幻覺率方面更勝一籌。

Gemini的優勢

+上下文視窗顯著更大（200 萬 vs 20 萬 token）
+深度 Google 生態整合（Search、Workspace、Cloud）
+裝置端模型（Nano）支援離線使用
+內建影片和音訊理解

Claude的優勢

+Claude 在事實任務上幻覺率更低
+Claude 擅長細膩的長篇寫作
+Claude Artifacts 提供互動式程式碼預覽
+Claude Code 提供智慧程式設計能力

1. Gemini 入門

造訪 gemini.google.com 並使用 Google 帳號登入，或下載 iOS/Android 行動應用。直接開始對話——Gemini 擅長研究、分析、程式設計和創意任務。點擊附件圖示上傳圖像、PDF 或其他檔案進行分析，支援同時上傳多個檔案進行跨文件分析。需要即時資訊直接提問——Gemini 可直接存取 Google Search 並引用來源。

2. 理解模型系列

**Gemini 2.5 Pro**：最強模型，具備增強「思考」能力用於複雜推理，適合程式設計、數學、分析和多步研究。Advanced 訂閱用戶可用。 **Gemini 2.0 Flash**：免費版預設模型，快速高效，適合日常任務，在能力和速度間取得良好平衡。 **Gemini Flash-Lite / Flash-8B**：針對成本和延遲最佳化的 API 模型，適合速度優先於推理品質的大流量應用。 **Gemini Nano**：直接在 Pixel 手機和 Chrome 上執行，支援智慧輸入、通話摘要和本地文字摘要等離線功能。

3. 善用長上下文視窗

Gemini 的 1-200 萬 token 上下文為特定工作流帶來變革： **文件分析**：上傳整本書、研究論文或法律文件，提問需要理解全文關係的問題，發現矛盾或生成綜合摘要。 **程式碼庫理解**：分享整個儲存庫，詢問架構問題、跨檔案查錯、追蹤資料流或取得全域重構建議。 **影片/音訊分析**：上傳數小時影片或音訊（或貼上 YouTube 連結），進行摘要、轉錄、基於時間戳記的問答或內容分析。 **多文件研究**：合併多個 PDF、試算表和文件，跨來源綜合洞察。提示：Advanced 用戶可使用深度研究處理複雜主題——它自主進行多次搜尋並生成可匯出的帶引用報告。

4. 使用 API

1. 在 Google AI Studio (ai.google.dev) 取得 API 金鑰 2. 安裝 SDK：pip install google-generativeai 3. 發起首次呼叫： ```python import google.generativeai as genai genai.configure(api_key="your-key") model = genai.GenerativeModel("gemini-2.0-flash") response = model.generate_content("Hello, Gemini!") print(response.text) ``` 免費版包含慷慨的 API 額度用於開發和原型驗證。正式應用建議使用 Google Cloud 上的 Vertex AI 以取得企業安全、SLA 和 MLOps 能力。

常見問題

Gemini 提供更大的上下文視窗（200 萬 vs 12.8 萬 token）和原生 Google Search 整合取得即時資訊。ChatGPT 擁有更成熟的外掛生態和 DALL-E 圖像生成。Gemini 擅長多模態任務和 Workspace 整合，ChatGPT 在消費功能和自訂助手方面可能更強。

數字表示世代（2.5 > 2.0 > 1.5），越高越強。每代中：Pro 最強用於複雜任務，Flash 最佳化速度和成本，Nano 在裝置端執行。Gemini 2.5 Pro 帶「思考」模式代表當前最高能力。

可以，Gemini 原生存取 Google Search，可提供時事、天氣、股票、體育比分等即時資訊並引用來源。深度研究功能（Advanced）可進行全面的多步網路研究。

Gemini 2.5/1.5 Pro 支援最高 200 萬 token——約 150 萬字、數十本書或數小時影片。Flash 模型支援 100 萬 token。這遠超大多數競品。

可以，深度整合。Gemini 整合到 Gmail（幫我寫）、Docs（起草和編輯）、Sheets（幫我整理）、Slides（設計輔助）、Meet（會議摘要）和 Drive（文件搜尋和分析）。Business/Enterprise 方案包含完整 Workspace AI 功能。

可以。免費用戶透過 Imagen 取得基礎圖像生成。Advanced 訂閱用戶取得增強圖像功能和 Veo 2 短影片生成。影片生成目前限於短片段。

免費用戶的對話可能用於改進 Gemini，除非關閉聊天活動。Business、Enterprise 和 API 使用預設不訓練模型。可在 Google 帳號的「Gemini 應用程式活動」中管理資料設定。

Gemini Nano 是設計在 Pixel 手機（8 Pro 及之後）和 Chrome 上直接執行的輕量模型，無需網路即可實現智慧回覆建議、通話摘要和文字摘要等功能。

Gemini 在 150 多個國家可用，但部分功能（如 Workspace 整合和深度研究）可能有地區限制。API 透過 Google AI Studio 和 Vertex AI 全球可用。

NotebookLM 是 Google 基於 Gemini 驅動的獨立產品，可上傳文件並透過 AI 互動。它能生成音訊摘要（播客風格）、回答上傳內容的問題並建立學習指南。Advanced 訂閱者可取得 NotebookLM Plus。