Home
Login

Framework de développement d'applications de données natives de l'IA, basé sur AWEL et multi-agents pour construire des applications d'intelligence des données.

MITPython 16.8keosphoros-ai Last Updated: 2025-06-20

DB-GPT : Cadre de développement d'applications de données natives de l'IA

Aperçu du projet

DB-GPT est un cadre de développement d'applications de données natives de l'IA open source, intégrant AWEL (Agentic Workflow Expression Language) et un système multi-agents. Ce projet vise à construire une infrastructure dans le domaine des grands modèles en développant diverses capacités techniques, telles que la gestion multi-modèles (SMMF), l'optimisation des effets Text2SQL, le cadre RAG et son optimisation, la collaboration de cadres multi-agents, AWEL (orchestration du workflow d'agents), etc., afin de rendre les applications de grands modèles basées sur les données plus simples et plus pratiques.

À l'ère de la Data 3.0, en s'appuyant sur les modèles et les bases de données, les entreprises et les développeurs peuvent construire leurs propres applications personnalisées avec moins de code.

Architecture et capacités fondamentales

Principaux modules fonctionnels

1. RAG (Retrieval-Augmented Generation)

RAG est actuellement le domaine le plus pratique et le plus urgent. DB-GPT a déjà implémenté un cadre basé sur RAG, permettant aux utilisateurs de construire des applications de base de connaissances en utilisant la fonctionnalité RAG de DB-GPT.

2. GBI (Generative Business Intelligence)

La BI générative est l'une des capacités fondamentales du projet DB-GPT, fournissant une technologie d'intelligence de données de base pour la construction d'analyses de rapports d'entreprise et d'informations commerciales.

3. Cadre de fine-tuning

Le fine-tuning de modèles est une capacité indispensable pour toute entreprise mettant en œuvre des domaines verticaux et segmentés. DB-GPT fournit un cadre de fine-tuning complet, intégré de manière transparente au projet DB-GPT. Lors de récents travaux de fine-tuning, une précision de 82,5 % a été atteinte sur la base du jeu de données Spider.

4. Cadre multi-agents piloté par les données

DB-GPT fournit un cadre multi-agents auto-évolutif piloté par les données, conçu pour prendre des décisions et exécuter des actions en continu sur la base des données.

5. Usine de données

L'usine de données est principalement responsable du nettoyage et du traitement des connaissances et des données fiables à l'ère des grands modèles.

6. Intégration des sources de données

Intégration de diverses sources de données, connectant de manière transparente les données opérationnelles de production aux fonctionnalités de base de DB-GPT.

Projets associés

DB-GPT-Hub

DB-GPT-Hub se concentre sur la réalisation de workflows Text-to-SQL haute performance en appliquant le fine-tuning supervisé (SFT) sur les grands modèles de langage (LLMs).

dbgpts

dbgpts est le dépôt officiel, contenant des applications de données, des opérateurs AWEL, des modèles de workflow AWEL et des agents construits sur la base de DB-GPT.

DB-GPT-Plugins

Plugins DB-GPT, qui peuvent exécuter directement les plugins Auto-GPT.

Modèles de langage pris en charge

DB-GPT prend en charge une large gamme de grands modèles de langage, notamment :

  • Modèles open source :

    • LLaMA / LLaMA-2 / LLaMA-3 / LLaMA-3.1
    • BLOOM / BLOOMZ
    • Falcon
    • Baichuan / Baichuan2
    • InternLM
    • Série Qwen (Qwen2.5, Qwen3, etc.)
    • XVERSE
    • ChatGLM2 / GLM-4
    • Série DeepSeek
    • Série Yi
    • Série Gemma
    • Phi-3
    • CodeQwen
    • Mixtral
    • SOLAR
  • Modèles API :

    • Wenxin Yiyan
    • Tongyi Qianwen
    • Zhipu AI
    • Et autres services API

Principales caractéristiques

1. Questions-réponses privées et traitement des données

Le projet DB-GPT fournit une série de fonctionnalités visant à améliorer la construction de bases de connaissances, à réaliser un stockage et une récupération efficaces des données structurées et non structurées. Ces fonctionnalités incluent :

  • Prise en charge intégrée du téléchargement de plusieurs formats de fichiers
  • Capacité d'intégrer des plugins d'extraction de données personnalisés
  • Fonctionnalités unifiées de stockage et de récupération vectoriels

2. Multi-sources de données et GBI

Ce projet facilite l'interaction en langage naturel transparente avec des sources de données diversifiées, notamment Excel, les bases de données et les entrepôts de données. Il simplifie le processus d'interrogation et de récupération d'informations à partir de ces sources, permettant aux utilisateurs de mener des conversations intuitives et d'obtenir des informations. De plus, DB-GPT prend en charge la génération de rapports d'analyse.

3. Multi-agents et plugins

Il offre une prise en charge des plugins personnalisés pour exécuter diverses tâches et intègre nativement le modèle de plugin Auto-GPT. Le protocole d'agent suit la norme Agent Protocol.

4. Fine-tuning automatisé Text2SQL

Nous avons également développé un cadre léger de fine-tuning automatisé centré sur les grands modèles de langage (LLMs), les jeux de données Text2SQL, LoRA/QLoRA/Pturning et d'autres méthodes de fine-tuning. Ce cadre simplifie le fine-tuning Text-to-SQL, le rendant aussi simple qu'un processus de chaîne de montage.

5. SMMF (Cadre de gestion multi-modèles orienté services)

Nous offrons une large prise en charge des modèles, y compris des dizaines de grands modèles de langage (LLMs) provenant d'agents open source et API, tels que LLaMA/LLaMA2, Baichuan, ChatGLM, Wenxin, Tongyi, Zhipu, etc.

Confidentialité et sécurité

Nous assurons la confidentialité et la sécurité des données en mettant en œuvre diverses technologies, notamment la privatisation des grands modèles et la désensibilisation des agents.

Sources de données prises en charge

Dans le fichier de configuration .env, modifiez le paramètre LANGUAGE pour passer à une autre langue. La valeur par défaut est l'anglais (chinois : zh, anglais : en, d'autres langues seront ajoutées ultérieurement).

Architecture technique

DB-GPT adopte une conception d'architecture modulaire, comprenant principalement :

  • Couche d'orchestration du workflow AWEL : Fournit des capacités d'expression et d'orchestration du workflow d'agents
  • Couche de gestion multi-modèles : Gère et planifie de manière unifiée différents grands modèles de langage
  • Couche d'accès aux données : Prend en charge l'accès et le traitement de plusieurs sources de données
  • Couche de collaboration des agents : Réalise la collaboration entre plusieurs agents d'IA
  • Couche de services applicatifs : Fournit des services applicatifs orientés vers les utilisateurs finaux