LlamaCloud 服務的 Python SDK,提供知識代理和雲端資料管理解決方案

MITTypeScriptllama_cloud_servicesrun-llama 4.2k Last Updated: October 06, 2025

LlamaCloud Services 專案詳細介紹

專案概述

LlamaCloud Services 是一個由 LlamaIndex 團隊開發的 Python SDK,用於與 LlamaCloud 雲服務進行互動。此專案提供了一套完整的知識代理和資料管理工具,專門為大型語言模型 (LLM) 應用場景設計,包括智慧文件解析、結構化資料提取和雲端索引管理等核心功能。

核心服務元件

🔍 LlamaParse - AI 原生文件解析器

LlamaParse 是世界首個 GenAI 原生文件解析器,專為 LLM 使用案例而建構,具有以下特色:

支援格式

  • 支援 130+ 種文件格式(PDF、DOCX、PPTX、XLSX、ODT、ODS、HTML、EPUB、圖像、EML 等)
  • 專門優化複雜 PDF 文件的表格和圖表解析
  • 支援多模態解析,使用 LLM 和 LVM 處理複雜文件

解析模式

  • Cost Effective: 優化速度和成本,適合文字量大且結構簡單的文件
  • Agentic: 預設選項,適合包含圖像和圖表的文件
  • Agentic Plus: 最高保真度,適合複雜版面、表格和視覺結構
  • Use-case Oriented: 針對特定文件類型(發票、表單、技術履歷、科學論文)的專用解析選項

技術特性

  • 保持文件語義結構的 Markdown 輸出
  • 進階表格、圖表和版面提取
  • 視覺引用功能,可追溯回原始文件位置
  • 版面感知解析,將頁面分解為視覺區塊

📊 LlamaExtract - 智慧資料提取器

LlamaExtract 是一個預建置的智慧資料提取器,可將資料轉換為結構化的 JSON 表示

核心功能

  • 基於使用者定義模式提取結構化資料
  • 支援代理式資料提取工作流程
  • 可處理履歷篩選、表單資料提取等場景
  • 自動化資料驗證和清理

使用情境

  • 履歷和求職申請處理
  • 財務文件資料提取
  • 表單和調查資料結構化
  • 合約和法律文件資訊提取

🗂️ LlamaCloud Index - 雲端索引服務

LlamaCloud Index 是一個高度可客製化的全自動文件攝取管道,同時提供檢索功能

特色

  • 自動化文件攝取和索引
  • 支援多種資料來源整合
  • 提供檢索 API 服務
  • 可擴展的雲端儲存解決方案

📋 LlamaReport - 智慧報告產生器

LlamaReport 是一個預建置的智慧報告建構器,可以從多種資料來源建構報告(目前處於 Beta/邀請制階段)

安裝與使用

基本安裝

pip install llama-cloud-services

基本用法

from llama_cloud_services import (
    LlamaParse,
    LlamaExtract,
    LlamaCloudIndex,
    LlamaReport
)

# 文件解析
parser = LlamaParse(api_key="YOUR_API_KEY")
result = parser.parse("./document.pdf")

# 資料提取
extract = LlamaExtract(api_key="YOUR_API_KEY")
agent = extract.create_agent(name="data-extraction", data_schema=your_schema)

# 雲端索引
index = LlamaCloudIndex(
    "my_index", 
    project_name="default", 
    api_key="YOUR_API_KEY"
)

# 報告生成
report = LlamaReport(api_key="YOUR_API_KEY")

命令列工具

# 取得 API 金鑰後設定環境變數
export LLAMA_CLOUD_API_KEY='llx-...'

# 將文件解析為文字
llama-parse my_file.pdf --result-type text --output-file output.txt

# 將文件解析為 Markdown
llama-parse my_file.pdf --result-type markdown --output-file output.md

# 輸出原始 JSON
llama-parse my_file.pdf --output-raw-json --output-file output.json

整合與相容性

LlamaIndex 整合

from llama_cloud_services import LlamaParse
from llama_index.core import SimpleDirectoryReader

parser = LlamaParse(api_key="YOUR_API_KEY")

# 直接整合到 SimpleDirectoryReader
reader = SimpleDirectoryReader(
    input_files=["./document.pdf"],
    file_extractor={".pdf": parser}
)
documents = reader.load_data()

多語言和地區支援

# 歐盟地區支援
from llama_cloud_services import LlamaParse, EU_BASE_URL

parser = LlamaParse(
    api_key="YOUR_API_KEY", 
    base_url=EU_BASE_URL,
    language="en"  # 支援多種語言
)

技術特點

🚀 效能優化

  • 多工作程序平行處理
  • 非同步解析支援
  • 批次文件處理能力
  • 智慧快取機制

🔧 高度可客製化

  • 彈性的解析參數配置
  • 自訂資料模式定義
  • 多種輸出格式選擇
  • 可配置的品質等級

🛡️ 企業級特色

  • 資料隱私保護
  • 高可用性雲端服務
  • API 限制和配額管理
  • 詳細的使用統計

定價模式

LlamaParse 定價

  • 免費方案: 每日最多 1000 頁
  • 付費方案: 每週 7000 頁免費 + 額外頁面 $0.003/頁
  • 企業方案: 支援大批量和本地部署

使用限制

  • 單一文件最大支援約 3000 頁
  • 支援的最大檔案大小依格式而定
  • API 呼叫頻率限制

應用場景

📚 文件智慧處理

  • 學術論文解析和知識提取
  • 技術文件結構化處理
  • 法律合約資訊提取
  • 財務報告資料分析

🏢 企業資料管理

  • 內部文件知識庫建構
  • 客戶資料提取
  • 業務流程自動化
  • 合規性文件處理

🔬 研究與開發

  • 科研文獻資料探勘
  • 專利文件分析
  • 技術報告處理
  • 資料集建構和清理

開發與部署

開發環境設定

  1. 註冊 LlamaCloud 帳戶:https://cloud.llamaindex.ai/
  2. 取得 API 金鑰
  3. 安裝 Python SDK
  4. 配置環境變數

生產環境部署

  • 支援雲端 API 呼叫
  • 可整合到現有資料管道
  • 支援批次處理工作流程
  • 提供監控和日誌功能

MCP (模型上下文協定) 支援

LlamaCloud Services 還提供 MCP 伺服器支援,可以與支援 MCP 的客戶端(如 Claude Desktop)整合:

# MCP 伺服器整合範例
from llamacloud_mcp import LlamaCloudMCPServer

server = LlamaCloudMCPServer(
    api_key="YOUR_API_KEY",
    indexes=["your_index_name"],
    agents=["your_agent_name"]
)

社群與支援

未來發展

LlamaCloud Services 持續在以下方面進行改進:

  • 更多文件格式支援
  • 增強的圖表和表格解析能力
  • 更好的多語言支援
  • 進階的 AI 代理功能
  • 更多企業級特色

此專案代表了文件處理和知識管理領域的前沿技術,為建構高品質的 LLM 應用提供了強大的資料基礎設施支援。

Star History Chart