SDK Python pour les services LlamaCloud, offrant des solutions d'agents de connaissance et de gestion de données dans le cloud.
Présentation détaillée du projet LlamaCloud Services
Aperçu du projet
LlamaCloud Services est un SDK Python développé par l'équipe LlamaIndex, conçu pour interagir avec les services cloud de LlamaCloud. Ce projet offre une suite complète d'outils de gestion des agents de connaissance et des données, spécialement conçus pour les scénarios d'applications de grands modèles linguistiques (LLM), incluant des fonctionnalités clés telles que l'analyse intelligente de documents, l'extraction de données structurées et la gestion d'index basée sur le cloud.
Composants de service principaux
🔍 LlamaParse - Analyseur de documents natif de l'IA
LlamaParse est le premier analyseur de documents natif de la GenAI au monde, conçu pour les cas d'utilisation des LLM, et présentant les caractéristiques suivantes :
Formats pris en charge :
- Prend en charge plus de 130 formats de fichiers (PDF, DOCX, PPTX, XLSX, ODT, ODS, HTML, EPUB, images, EML, etc.)
- Optimisé spécifiquement pour l'analyse de tableaux et de graphiques dans les documents PDF complexes
- Prend en charge l'analyse multimodale, utilisant les LLM et les LVM pour traiter les documents complexes
Modes d'analyse :
- Économique (Cost Effective) : Optimisé pour la vitesse et le coût, adapté aux documents à structure simple et à forte densité textuelle
- Agentique (Agentic) : Option par défaut, adaptée aux documents contenant des images et des graphiques
- Agentique Plus (Agentic Plus) : Fidélité maximale, adaptée aux mises en page complexes, aux tableaux et aux structures visuelles
- Orienté cas d'utilisation (Use-case Oriented) : Options d'analyse dédiées pour des types de documents spécifiques (factures, formulaires, CV techniques, articles scientifiques)
Caractéristiques techniques :
- Sortie Markdown conservant la structure sémantique du document
- Extraction avancée de tableaux, de graphiques et de mises en page
- Fonctionnalité de référencement visuel, traçable jusqu'à l'emplacement d'origine du document
- Analyse sensible à la mise en page, décomposant les pages en blocs visuels
📊 LlamaExtract - Extracteur de données intelligent
LlamaExtract est un extracteur de données intelligent pré-construit qui convertit les données en une représentation JSON structurée.
Fonctionnalités principales :
- Extraction de données structurées basée sur un schéma défini par l'utilisateur
- Prend en charge les flux de travail d'extraction de données basés sur des agents
- Peut gérer des scénarios tels que le filtrage de CV et l'extraction de données de formulaires
- Validation et nettoyage automatisés des données
Scénarios d'utilisation :
- Traitement des CV et des candidatures
- Extraction de données de documents financiers
- Structuration des données de formulaires et d'enquêtes
- Extraction d'informations de contrats et de documents juridiques
🗂️ LlamaCloud Index - Service d'indexation cloud
LlamaCloud Index est un pipeline d'ingestion de documents entièrement automatisé et hautement personnalisable, offrant également des capacités de récupération.
Caractéristiques :
- Ingestion et indexation automatisées de documents
- Prise en charge de l'intégration de multiples sources de données
- Fournit un service API de récupération
- Solution de stockage cloud évolutive
📋 LlamaReport - Générateur de rapports intelligent
LlamaReport est un générateur de rapports intelligent pré-construit qui peut créer des rapports à partir de diverses sources de données (actuellement en phase bêta/sur invitation uniquement).
Installation et utilisation
Installation de base
pip install llama-cloud-services
Utilisation de base
from llama_cloud_services import (
LlamaParse,
LlamaExtract,
LlamaCloudIndex,
LlamaReport
)
# Analyse de documents
parser = LlamaParse(api_key="YOUR_API_KEY")
result = parser.parse("./document.pdf")
# Extraction de données
extract = LlamaExtract(api_key="YOUR_API_KEY")
agent = extract.create_agent(name="data-extraction", data_schema=your_schema)
# Indexation cloud
index = LlamaCloudIndex(
"my_index",
project_name="default",
api_key="YOUR_API_KEY"
)
# Génération de rapports
report = LlamaReport(api_key="YOUR_API_KEY")
Outils en ligne de commande
# Après avoir obtenu la clé API, définissez la variable d'environnement
export LLAMA_CLOUD_API_KEY='llx-...'
# Analyser un document en texte
llama-parse my_file.pdf --result-type text --output-file output.txt
# Analyser un document en Markdown
llama-parse my_file.pdf --result-type markdown --output-file output.md
# Afficher le JSON brut
llama-parse my_file.pdf --output-raw-json --output-file output.json
Intégration et compatibilité
Intégration LlamaIndex
from llama_cloud_services import LlamaParse
from llama_index.core import SimpleDirectoryReader
parser = LlamaParse(api_key="YOUR_API_KEY")
# Intégration directe dans SimpleDirectoryReader
reader = SimpleDirectoryReader(
input_files=["./document.pdf"],
file_extractor={".pdf": parser}
)
documents = reader.load_data()
Support multilingue et régional
# Support de la région UE
from llama_cloud_services import LlamaParse, EU_BASE_URL
parser = LlamaParse(
api_key="YOUR_API_KEY",
base_url=EU_BASE_URL,
language="en" # Prend en charge plusieurs langues
)
Caractéristiques techniques
🚀 Optimisation des performances
- Traitement parallèle multi-workers
- Support de l'analyse asynchrone
- Capacité de traitement par lots de fichiers
- Mécanisme de mise en cache intelligent
🔧 Hautement personnalisable
- Configuration flexible des paramètres d'analyse
- Définition de schémas de données personnalisés
- Sélection de multiples formats de sortie
- Niveaux de qualité configurables
🛡️ Fonctionnalités de niveau entreprise
- Protection de la confidentialité des données
- Service cloud haute disponibilité
- Gestion des limites et quotas API
- Statistiques d'utilisation détaillées
Modèle de tarification
Tarification LlamaParse
- Plan gratuit : Jusqu'à 1000 pages par jour
- Plan payant : 7000 pages gratuites par semaine + 0,003 $ par page supplémentaire
- Plan entreprise : Prend en charge les gros volumes et le déploiement local
Limites d'utilisation
- Un seul fichier prend en charge un maximum d'environ 3000 pages
- La taille maximale de fichier prise en charge dépend du format
- Limites de fréquence des appels API
Scénarios d'application
📚 Traitement intelligent de documents
- Analyse de documents académiques et extraction de connaissances
- Traitement structuré de documents techniques
- Extraction d'informations de contrats légaux
- Analyse de données de rapports financiers
🏢 Gestion des données d'entreprise
- Construction de bases de connaissances de documents internes
- Extraction de données de profils clients
- Automatisation des processus métier
- Traitement de documents de conformité
🔬 Recherche et développement
- Exploration de données de littérature scientifique
- Analyse de documents de brevets
- Traitement de rapports techniques
- Construction et nettoyage de jeux de données
Développement et déploiement
Configuration de l'environnement de développement
- Créez un compte LlamaCloud : https://cloud.llamaindex.ai/
- Obtenez une clé API
- Installez le SDK Python
- Configurez les variables d'environnement
Déploiement en environnement de production
- Prend en charge les appels API cloud
- Peut être intégré dans les pipelines de données existants
- Prend en charge les flux de travail de traitement par lots
- Offre des fonctionnalités de surveillance et de journalisation
Support du protocole MCP (Model Context Protocol)
LlamaCloud Services offre également un support de serveur MCP, permettant l'intégration avec des clients compatibles MCP (tels que Claude Desktop) :
# Exemple d'intégration de serveur MCP
from llamacloud_mcp import LlamaCloudMCPServer
server = LlamaCloudMCPServer(
api_key="YOUR_API_KEY",
indexes=["your_index_name"],
agents=["your_agent_name"]
)
Communauté et support
- Documentation officielle : https://docs.cloud.llamaindex.ai/
- Dépôt GitHub : https://github.com/run-llama/llama_cloud_services
- Support communautaire : Forum communautaire LlamaIndex
- Support entreprise : Obtenez un support de niveau entreprise via les contacts officiels
Développement futur
LlamaCloud Services continue d'apporter des améliorations dans les domaines suivants :
- Prise en charge de davantage de formats de fichiers
- Capacités améliorées d'analyse de graphiques et de tableaux
- Meilleur support multilingue
- Fonctionnalités avancées d'agents IA
- Davantage de fonctionnalités de niveau entreprise
Ce projet représente une technologie de pointe dans le domaine du traitement de documents et de la gestion des connaissances, offrant un support d'infrastructure de données puissant pour la construction d'applications LLM de haute qualité.