run-llama/llama_cloud_servicesView GitHub Homepage for Latest Official Releases
LlamaCloud服务的Python SDK,提供知识代理和云端数据管理解决方案
MITTypeScriptllama_cloud_servicesrun-llama 4.2k Last Updated: October 06, 2025
LlamaCloud Services 项目详细介绍
项目概述
LlamaCloud Services 是一个由 LlamaIndex 团队开发的 Python SDK,用于与 LlamaCloud 云服务进行交互。该项目提供了一套完整的知识代理和数据管理工具,专门为大语言模型(LLM)应用场景设计,包括智能文档解析、结构化数据提取和云端索引管理等核心功能。
核心服务组件
🔍 LlamaParse - AI原生文档解析器
LlamaParse 是世界首个 GenAI 原生文档解析器,专为 LLM 用例而构建,具有以下特点:
支持格式:
- 支持 130+ 种文件格式(PDF、DOCX、PPTX、XLSX、ODT、ODS、HTML、EPUB、图像、EML 等)
- 专门优化复杂 PDF 文档的表格和图表解析
- 支持多模态解析,使用 LLM 和 LVM 处理复杂文档
解析模式:
- Cost Effective: 优化速度和成本,适合文本重的简单结构文档
- Agentic: 默认选项,适合包含图像和图表的文档
- Agentic Plus: 最高保真度,适合复杂布局、表格和视觉结构
- Use-case Oriented: 针对特定文档类型(发票、表单、技术简历、科学论文)的专用解析选项
技术特性:
- 保持文档语义结构的 Markdown 输出
- 高级表格、图表和布局提取
- 视觉引用功能,可追溯回原始文档位置
- 布局感知解析,将页面分解为视觉块
📊 LlamaExtract - 智能数据提取器
LlamaExtract 是一个预构建的智能数据提取器,可将数据转换为结构化的 JSON 表示
核心功能:
- 基于用户定义的模式提取结构化数据
- 支持代理式数据提取工作流
- 可处理简历筛选、表单数据提取等场景
- 自动化数据验证和清洗
使用场景:
- 简历和求职申请处理
- 财务文档数据提取
- 表单和调查数据结构化
- 合同和法律文档信息提取
🗂️ LlamaCloud Index - 云端索引服务
LlamaCloud Index 是一个高度可定制的全自动文档摄取管道,同时提供检索功能
特性:
- 自动化文档摄取和索引
- 支持多种数据源集成
- 提供检索 API 服务
- 可扩展的云端存储解决方案
📋 LlamaReport - 智能报告生成器
LlamaReport 是一个预构建的智能报告构建器,可以从多种数据源构建报告(目前处于 beta/邀请制阶段)
安装和使用
基础安装
pip install llama-cloud-services
基本用法
from llama_cloud_services import (
LlamaParse,
LlamaExtract,
LlamaCloudIndex,
LlamaReport
)
# 文档解析
parser = LlamaParse(api_key="YOUR_API_KEY")
result = parser.parse("./document.pdf")
# 数据提取
extract = LlamaExtract(api_key="YOUR_API_KEY")
agent = extract.create_agent(name="data-extraction", data_schema=your_schema)
# 云端索引
index = LlamaCloudIndex(
"my_index",
project_name="default",
api_key="YOUR_API_KEY"
)
# 报告生成
report = LlamaReport(api_key="YOUR_API_KEY")
命令行工具
# 获取 API 密钥后设置环境变量
export LLAMA_CLOUD_API_KEY='llx-...'
# 解析文档为文本
llama-parse my_file.pdf --result-type text --output-file output.txt
# 解析文档为 Markdown
llama-parse my_file.pdf --result-type markdown --output-file output.md
# 输出原始 JSON
llama-parse my_file.pdf --output-raw-json --output-file output.json
集成和兼容性
LlamaIndex 集成
from llama_cloud_services import LlamaParse
from llama_index.core import SimpleDirectoryReader
parser = LlamaParse(api_key="YOUR_API_KEY")
# 直接集成到 SimpleDirectoryReader
reader = SimpleDirectoryReader(
input_files=["./document.pdf"],
file_extractor={".pdf": parser}
)
documents = reader.load_data()
多语言和地区支持
# 欧盟地区支持
from llama_cloud_services import LlamaParse, EU_BASE_URL
parser = LlamaParse(
api_key="YOUR_API_KEY",
base_url=EU_BASE_URL,
language="en" # 支持多种语言
)
技术特点
🚀 性能优化
- 多工作进程并行处理
- 异步解析支持
- 批量文件处理能力
- 智能缓存机制
🔧 高度可定制
- 灵活的解析参数配置
- 自定义数据模式定义
- 多种输出格式选择
- 可配置的质量级别
🛡️ 企业级特性
- 数据隐私保护
- 高可用性云服务
- API 限制和配额管理
- 详细的使用统计
定价模式
LlamaParse 定价
- 免费计划: 每日最多 1000 页
- 付费计划: 每周 7000 页免费 + 额外页面 $0.003/页
- 企业计划: 支持大批量和本地部署
使用限制
- 单个文件最大支持约 3000 页
- 支持的最大文件大小根据格式而定
- API 调用频率限制
应用场景
📚 文档智能处理
- 学术论文解析和知识提取
- 技术文档结构化处理
- 法律合同信息提取
- 财务报告数据分析
🏢 企业数据管理
- 内部文档知识库构建
- 客户资料数据提取
- 业务流程自动化
- 合规性文档处理
🔬 研究和开发
- 科研文献数据挖掘
- 专利文档分析
- 技术报告处理
- 数据集构建和清洗
开发和部署
开发环境设置
- 注册 LlamaCloud 账户:https://cloud.llamaindex.ai/
- 获取 API 密钥
- 安装 Python SDK
- 配置环境变量
生产环境部署
- 支持云端 API 调用
- 可集成到现有数据管道
- 支持批量处理工作流
- 提供监控和日志功能
MCP (Model Context Protocol) 支持
LlamaCloud Services 还提供 MCP 服务器支持,可以与支持 MCP 的客户端(如 Claude Desktop)集成:
# MCP 服务器集成示例
from llamacloud_mcp import LlamaCloudMCPServer
server = LlamaCloudMCPServer(
api_key="YOUR_API_KEY",
indexes=["your_index_name"],
agents=["your_agent_name"]
)
社区和支持
- 官方文档: https://docs.cloud.llamaindex.ai/
- GitHub 仓库: https://github.com/run-llama/llama_cloud_services
- 社区支持: LlamaIndex 社区论坛
- 企业支持: 通过官方联系方式获取企业级支持
未来发展
LlamaCloud Services 持续在以下方面进行改进:
- 更多文件格式支持
- 增强的图表和表格解析能力
- 更好的多语言支持
- 高级的 AI 代理功能
- 更多企业级特性
该项目代表了文档处理和知识管理领域的前沿技术,为构建高质量的 LLM 应用提供了强大的数据基础设施支持。