run-llama/llama_cloud_servicesView GitHub Homepage for Latest Official Releases

LlamaCloud服务的Python SDK，提供知识代理和云端数据管理解决方案

MITTypeScriptllama_cloud_servicesrun-llama 4.2k Last Updated: October 06, 2025

LlamaCloud Services 项目详细介绍

项目概述

LlamaCloud Services 是一个由 LlamaIndex 团队开发的 Python SDK，用于与 LlamaCloud 云服务进行交互。该项目提供了一套完整的知识代理和数据管理工具，专门为大语言模型(LLM)应用场景设计，包括智能文档解析、结构化数据提取和云端索引管理等核心功能。

核心服务组件

🔍 LlamaParse - AI原生文档解析器

LlamaParse 是世界首个 GenAI 原生文档解析器，专为 LLM 用例而构建，具有以下特点：

支持格式：

支持 130+ 种文件格式（PDF、DOCX、PPTX、XLSX、ODT、ODS、HTML、EPUB、图像、EML 等）
专门优化复杂 PDF 文档的表格和图表解析
支持多模态解析，使用 LLM 和 LVM 处理复杂文档

解析模式：

Cost Effective: 优化速度和成本，适合文本重的简单结构文档
Agentic: 默认选项，适合包含图像和图表的文档
Agentic Plus: 最高保真度，适合复杂布局、表格和视觉结构
Use-case Oriented: 针对特定文档类型（发票、表单、技术简历、科学论文）的专用解析选项

技术特性：

保持文档语义结构的 Markdown 输出
高级表格、图表和布局提取
视觉引用功能，可追溯回原始文档位置
布局感知解析，将页面分解为视觉块

📊 LlamaExtract - 智能数据提取器

LlamaExtract 是一个预构建的智能数据提取器，可将数据转换为结构化的 JSON 表示

核心功能：

基于用户定义的模式提取结构化数据
支持代理式数据提取工作流
可处理简历筛选、表单数据提取等场景
自动化数据验证和清洗

使用场景：

简历和求职申请处理
财务文档数据提取
表单和调查数据结构化
合同和法律文档信息提取

🗂️ LlamaCloud Index - 云端索引服务

LlamaCloud Index 是一个高度可定制的全自动文档摄取管道，同时提供检索功能

特性：

自动化文档摄取和索引
支持多种数据源集成
提供检索 API 服务
可扩展的云端存储解决方案

📋 LlamaReport - 智能报告生成器

LlamaReport 是一个预构建的智能报告构建器，可以从多种数据源构建报告（目前处于 beta/邀请制阶段）

安装和使用

基础安装

pip install llama-cloud-services

基本用法

from llama_cloud_services import (
    LlamaParse,
    LlamaExtract,
    LlamaCloudIndex,
    LlamaReport
)

# 文档解析
parser = LlamaParse(api_key="YOUR_API_KEY")
result = parser.parse("./document.pdf")

# 数据提取
extract = LlamaExtract(api_key="YOUR_API_KEY")
agent = extract.create_agent(name="data-extraction", data_schema=your_schema)

# 云端索引
index = LlamaCloudIndex(
    "my_index", 
    project_name="default", 
    api_key="YOUR_API_KEY"
)

# 报告生成
report = LlamaReport(api_key="YOUR_API_KEY")

命令行工具

# 获取 API 密钥后设置环境变量
export LLAMA_CLOUD_API_KEY='llx-...'

# 解析文档为文本
llama-parse my_file.pdf --result-type text --output-file output.txt

# 解析文档为 Markdown
llama-parse my_file.pdf --result-type markdown --output-file output.md

# 输出原始 JSON
llama-parse my_file.pdf --output-raw-json --output-file output.json

集成和兼容性

LlamaIndex 集成

from llama_cloud_services import LlamaParse
from llama_index.core import SimpleDirectoryReader

parser = LlamaParse(api_key="YOUR_API_KEY")

# 直接集成到 SimpleDirectoryReader
reader = SimpleDirectoryReader(
    input_files=["./document.pdf"],
    file_extractor={".pdf": parser}
)
documents = reader.load_data()

多语言和地区支持

# 欧盟地区支持
from llama_cloud_services import LlamaParse, EU_BASE_URL

parser = LlamaParse(
    api_key="YOUR_API_KEY", 
    base_url=EU_BASE_URL,
    language="en"  # 支持多种语言
)

技术特点

🚀 性能优化

多工作进程并行处理
异步解析支持
批量文件处理能力
智能缓存机制

🔧 高度可定制

灵活的解析参数配置
自定义数据模式定义
多种输出格式选择
可配置的质量级别

🛡️ 企业级特性

数据隐私保护
高可用性云服务
API 限制和配额管理
详细的使用统计

定价模式

LlamaParse 定价

免费计划: 每日最多 1000 页
付费计划: 每周 7000 页免费 + 额外页面 $0.003/页
企业计划: 支持大批量和本地部署

使用限制

单个文件最大支持约 3000 页
支持的最大文件大小根据格式而定
API 调用频率限制

应用场景

📚 文档智能处理

学术论文解析和知识提取
技术文档结构化处理
法律合同信息提取
财务报告数据分析

🏢 企业数据管理

内部文档知识库构建
客户资料数据提取
业务流程自动化
合规性文档处理

🔬 研究和开发

科研文献数据挖掘
专利文档分析
技术报告处理
数据集构建和清洗

开发和部署

开发环境设置

注册 LlamaCloud 账户：https://cloud.llamaindex.ai/
获取 API 密钥
安装 Python SDK
配置环境变量

生产环境部署

支持云端 API 调用
可集成到现有数据管道
支持批量处理工作流
提供监控和日志功能

MCP (Model Context Protocol) 支持

LlamaCloud Services 还提供 MCP 服务器支持，可以与支持 MCP 的客户端（如 Claude Desktop）集成：

# MCP 服务器集成示例
from llamacloud_mcp import LlamaCloudMCPServer

server = LlamaCloudMCPServer(
    api_key="YOUR_API_KEY",
    indexes=["your_index_name"],
    agents=["your_agent_name"]
)

社区和支持

官方文档: https://docs.cloud.llamaindex.ai/
GitHub 仓库: https://github.com/run-llama/llama_cloud_services
社区支持: LlamaIndex 社区论坛
企业支持: 通过官方联系方式获取企业级支持

未来发展

LlamaCloud Services 持续在以下方面进行改进：

更多文件格式支持
增强的图表和表格解析能力
更好的多语言支持
高级的 AI 代理功能
更多企业级特性

该项目代表了文档处理和知识管理领域的前沿技术，为构建高质量的 LLM 应用提供了强大的数据基础设施支持。