run-llama/llama_cloud_servicesView GitHub Homepage for Latest Official Releases
LlamaCloud 服務的 Python SDK,提供知識代理和雲端資料管理解決方案
MITTypeScriptllama_cloud_servicesrun-llama 4.2k Last Updated: October 06, 2025
LlamaCloud Services 專案詳細介紹
專案概述
LlamaCloud Services 是一個由 LlamaIndex 團隊開發的 Python SDK,用於與 LlamaCloud 雲服務進行互動。此專案提供了一套完整的知識代理和資料管理工具,專門為大型語言模型 (LLM) 應用場景設計,包括智慧文件解析、結構化資料提取和雲端索引管理等核心功能。
核心服務元件
🔍 LlamaParse - AI 原生文件解析器
LlamaParse 是世界首個 GenAI 原生文件解析器,專為 LLM 使用案例而建構,具有以下特色:
支援格式:
- 支援 130+ 種文件格式(PDF、DOCX、PPTX、XLSX、ODT、ODS、HTML、EPUB、圖像、EML 等)
- 專門優化複雜 PDF 文件的表格和圖表解析
- 支援多模態解析,使用 LLM 和 LVM 處理複雜文件
解析模式:
- Cost Effective: 優化速度和成本,適合文字量大且結構簡單的文件
- Agentic: 預設選項,適合包含圖像和圖表的文件
- Agentic Plus: 最高保真度,適合複雜版面、表格和視覺結構
- Use-case Oriented: 針對特定文件類型(發票、表單、技術履歷、科學論文)的專用解析選項
技術特性:
- 保持文件語義結構的 Markdown 輸出
- 進階表格、圖表和版面提取
- 視覺引用功能,可追溯回原始文件位置
- 版面感知解析,將頁面分解為視覺區塊
📊 LlamaExtract - 智慧資料提取器
LlamaExtract 是一個預建置的智慧資料提取器,可將資料轉換為結構化的 JSON 表示
核心功能:
- 基於使用者定義模式提取結構化資料
- 支援代理式資料提取工作流程
- 可處理履歷篩選、表單資料提取等場景
- 自動化資料驗證和清理
使用情境:
- 履歷和求職申請處理
- 財務文件資料提取
- 表單和調查資料結構化
- 合約和法律文件資訊提取
🗂️ LlamaCloud Index - 雲端索引服務
LlamaCloud Index 是一個高度可客製化的全自動文件攝取管道,同時提供檢索功能
特色:
- 自動化文件攝取和索引
- 支援多種資料來源整合
- 提供檢索 API 服務
- 可擴展的雲端儲存解決方案
📋 LlamaReport - 智慧報告產生器
LlamaReport 是一個預建置的智慧報告建構器,可以從多種資料來源建構報告(目前處於 Beta/邀請制階段)
安裝與使用
基本安裝
pip install llama-cloud-services
基本用法
from llama_cloud_services import (
LlamaParse,
LlamaExtract,
LlamaCloudIndex,
LlamaReport
)
# 文件解析
parser = LlamaParse(api_key="YOUR_API_KEY")
result = parser.parse("./document.pdf")
# 資料提取
extract = LlamaExtract(api_key="YOUR_API_KEY")
agent = extract.create_agent(name="data-extraction", data_schema=your_schema)
# 雲端索引
index = LlamaCloudIndex(
"my_index",
project_name="default",
api_key="YOUR_API_KEY"
)
# 報告生成
report = LlamaReport(api_key="YOUR_API_KEY")
命令列工具
# 取得 API 金鑰後設定環境變數
export LLAMA_CLOUD_API_KEY='llx-...'
# 將文件解析為文字
llama-parse my_file.pdf --result-type text --output-file output.txt
# 將文件解析為 Markdown
llama-parse my_file.pdf --result-type markdown --output-file output.md
# 輸出原始 JSON
llama-parse my_file.pdf --output-raw-json --output-file output.json
整合與相容性
LlamaIndex 整合
from llama_cloud_services import LlamaParse
from llama_index.core import SimpleDirectoryReader
parser = LlamaParse(api_key="YOUR_API_KEY")
# 直接整合到 SimpleDirectoryReader
reader = SimpleDirectoryReader(
input_files=["./document.pdf"],
file_extractor={".pdf": parser}
)
documents = reader.load_data()
多語言和地區支援
# 歐盟地區支援
from llama_cloud_services import LlamaParse, EU_BASE_URL
parser = LlamaParse(
api_key="YOUR_API_KEY",
base_url=EU_BASE_URL,
language="en" # 支援多種語言
)
技術特點
🚀 效能優化
- 多工作程序平行處理
- 非同步解析支援
- 批次文件處理能力
- 智慧快取機制
🔧 高度可客製化
- 彈性的解析參數配置
- 自訂資料模式定義
- 多種輸出格式選擇
- 可配置的品質等級
🛡️ 企業級特色
- 資料隱私保護
- 高可用性雲端服務
- API 限制和配額管理
- 詳細的使用統計
定價模式
LlamaParse 定價
- 免費方案: 每日最多 1000 頁
- 付費方案: 每週 7000 頁免費 + 額外頁面 $0.003/頁
- 企業方案: 支援大批量和本地部署
使用限制
- 單一文件最大支援約 3000 頁
- 支援的最大檔案大小依格式而定
- API 呼叫頻率限制
應用場景
📚 文件智慧處理
- 學術論文解析和知識提取
- 技術文件結構化處理
- 法律合約資訊提取
- 財務報告資料分析
🏢 企業資料管理
- 內部文件知識庫建構
- 客戶資料提取
- 業務流程自動化
- 合規性文件處理
🔬 研究與開發
- 科研文獻資料探勘
- 專利文件分析
- 技術報告處理
- 資料集建構和清理
開發與部署
開發環境設定
- 註冊 LlamaCloud 帳戶:https://cloud.llamaindex.ai/
- 取得 API 金鑰
- 安裝 Python SDK
- 配置環境變數
生產環境部署
- 支援雲端 API 呼叫
- 可整合到現有資料管道
- 支援批次處理工作流程
- 提供監控和日誌功能
MCP (模型上下文協定) 支援
LlamaCloud Services 還提供 MCP 伺服器支援,可以與支援 MCP 的客戶端(如 Claude Desktop)整合:
# MCP 伺服器整合範例
from llamacloud_mcp import LlamaCloudMCPServer
server = LlamaCloudMCPServer(
api_key="YOUR_API_KEY",
indexes=["your_index_name"],
agents=["your_agent_name"]
)
社群與支援
- 官方文件: https://docs.cloud.llamaindex.ai/
- GitHub 儲存庫: https://github.com/run-llama/llama_cloud_services
- 社群支援: LlamaIndex 社群論壇
- 企業支援: 透過官方聯絡方式取得企業級支援
未來發展
LlamaCloud Services 持續在以下方面進行改進:
- 更多文件格式支援
- 增強的圖表和表格解析能力
- 更好的多語言支援
- 進階的 AI 代理功能
- 更多企業級特色
此專案代表了文件處理和知識管理領域的前沿技術,為建構高品質的 LLM 應用提供了強大的資料基礎設施支援。