LlamaCloud服务的Python SDK,提供知识代理和云端数据管理解决方案

MITTypeScriptllama_cloud_servicesrun-llama 4.2k Last Updated: October 06, 2025

LlamaCloud Services 项目详细介绍

项目概述

LlamaCloud Services 是一个由 LlamaIndex 团队开发的 Python SDK,用于与 LlamaCloud 云服务进行交互。该项目提供了一套完整的知识代理和数据管理工具,专门为大语言模型(LLM)应用场景设计,包括智能文档解析、结构化数据提取和云端索引管理等核心功能。

核心服务组件

🔍 LlamaParse - AI原生文档解析器

LlamaParse 是世界首个 GenAI 原生文档解析器,专为 LLM 用例而构建,具有以下特点:

支持格式

  • 支持 130+ 种文件格式(PDF、DOCX、PPTX、XLSX、ODT、ODS、HTML、EPUB、图像、EML 等)
  • 专门优化复杂 PDF 文档的表格和图表解析
  • 支持多模态解析,使用 LLM 和 LVM 处理复杂文档

解析模式

  • Cost Effective: 优化速度和成本,适合文本重的简单结构文档
  • Agentic: 默认选项,适合包含图像和图表的文档
  • Agentic Plus: 最高保真度,适合复杂布局、表格和视觉结构
  • Use-case Oriented: 针对特定文档类型(发票、表单、技术简历、科学论文)的专用解析选项

技术特性

  • 保持文档语义结构的 Markdown 输出
  • 高级表格、图表和布局提取
  • 视觉引用功能,可追溯回原始文档位置
  • 布局感知解析,将页面分解为视觉块

📊 LlamaExtract - 智能数据提取器

LlamaExtract 是一个预构建的智能数据提取器,可将数据转换为结构化的 JSON 表示

核心功能

  • 基于用户定义的模式提取结构化数据
  • 支持代理式数据提取工作流
  • 可处理简历筛选、表单数据提取等场景
  • 自动化数据验证和清洗

使用场景

  • 简历和求职申请处理
  • 财务文档数据提取
  • 表单和调查数据结构化
  • 合同和法律文档信息提取

🗂️ LlamaCloud Index - 云端索引服务

LlamaCloud Index 是一个高度可定制的全自动文档摄取管道,同时提供检索功能

特性

  • 自动化文档摄取和索引
  • 支持多种数据源集成
  • 提供检索 API 服务
  • 可扩展的云端存储解决方案

📋 LlamaReport - 智能报告生成器

LlamaReport 是一个预构建的智能报告构建器,可以从多种数据源构建报告(目前处于 beta/邀请制阶段)

安装和使用

基础安装

pip install llama-cloud-services

基本用法

from llama_cloud_services import (
    LlamaParse,
    LlamaExtract,
    LlamaCloudIndex,
    LlamaReport
)

# 文档解析
parser = LlamaParse(api_key="YOUR_API_KEY")
result = parser.parse("./document.pdf")

# 数据提取
extract = LlamaExtract(api_key="YOUR_API_KEY")
agent = extract.create_agent(name="data-extraction", data_schema=your_schema)

# 云端索引
index = LlamaCloudIndex(
    "my_index", 
    project_name="default", 
    api_key="YOUR_API_KEY"
)

# 报告生成
report = LlamaReport(api_key="YOUR_API_KEY")

命令行工具

# 获取 API 密钥后设置环境变量
export LLAMA_CLOUD_API_KEY='llx-...'

# 解析文档为文本
llama-parse my_file.pdf --result-type text --output-file output.txt

# 解析文档为 Markdown
llama-parse my_file.pdf --result-type markdown --output-file output.md

# 输出原始 JSON
llama-parse my_file.pdf --output-raw-json --output-file output.json

集成和兼容性

LlamaIndex 集成

from llama_cloud_services import LlamaParse
from llama_index.core import SimpleDirectoryReader

parser = LlamaParse(api_key="YOUR_API_KEY")

# 直接集成到 SimpleDirectoryReader
reader = SimpleDirectoryReader(
    input_files=["./document.pdf"],
    file_extractor={".pdf": parser}
)
documents = reader.load_data()

多语言和地区支持

# 欧盟地区支持
from llama_cloud_services import LlamaParse, EU_BASE_URL

parser = LlamaParse(
    api_key="YOUR_API_KEY", 
    base_url=EU_BASE_URL,
    language="en"  # 支持多种语言
)

技术特点

🚀 性能优化

  • 多工作进程并行处理
  • 异步解析支持
  • 批量文件处理能力
  • 智能缓存机制

🔧 高度可定制

  • 灵活的解析参数配置
  • 自定义数据模式定义
  • 多种输出格式选择
  • 可配置的质量级别

🛡️ 企业级特性

  • 数据隐私保护
  • 高可用性云服务
  • API 限制和配额管理
  • 详细的使用统计

定价模式

LlamaParse 定价

  • 免费计划: 每日最多 1000 页
  • 付费计划: 每周 7000 页免费 + 额外页面 $0.003/页
  • 企业计划: 支持大批量和本地部署

使用限制

  • 单个文件最大支持约 3000 页
  • 支持的最大文件大小根据格式而定
  • API 调用频率限制

应用场景

📚 文档智能处理

  • 学术论文解析和知识提取
  • 技术文档结构化处理
  • 法律合同信息提取
  • 财务报告数据分析

🏢 企业数据管理

  • 内部文档知识库构建
  • 客户资料数据提取
  • 业务流程自动化
  • 合规性文档处理

🔬 研究和开发

  • 科研文献数据挖掘
  • 专利文档分析
  • 技术报告处理
  • 数据集构建和清洗

开发和部署

开发环境设置

  1. 注册 LlamaCloud 账户:https://cloud.llamaindex.ai/
  2. 获取 API 密钥
  3. 安装 Python SDK
  4. 配置环境变量

生产环境部署

  • 支持云端 API 调用
  • 可集成到现有数据管道
  • 支持批量处理工作流
  • 提供监控和日志功能

MCP (Model Context Protocol) 支持

LlamaCloud Services 还提供 MCP 服务器支持,可以与支持 MCP 的客户端(如 Claude Desktop)集成:

# MCP 服务器集成示例
from llamacloud_mcp import LlamaCloudMCPServer

server = LlamaCloudMCPServer(
    api_key="YOUR_API_KEY",
    indexes=["your_index_name"],
    agents=["your_agent_name"]
)

社区和支持

未来发展

LlamaCloud Services 持续在以下方面进行改进:

  • 更多文件格式支持
  • 增强的图表和表格解析能力
  • 更好的多语言支持
  • 高级的 AI 代理功能
  • 更多企业级特性

该项目代表了文档处理和知识管理领域的前沿技术,为构建高质量的 LLM 应用提供了强大的数据基础设施支持。

Star History Chart