Login

プライベートなローカルGPTチャットツール。ドキュメントの質問応答、画像・動画処理など、多様な機能をサポートし、100%プライベートな環境で展開できます。

Apache-2.0Python 11.9kh2oaih2ogpt Last Updated: 2025-05-25

h2oGPTプロジェクト詳細

プロジェクト概要

h2oGPTは、H2O.aiが開発したオープンソースプロジェクトで、完全にプライベートなローカルGPTチャット体験を提供し、ドキュメントQ&A、画像・動画処理など、様々な機能をサポートします。このプロジェクトはApache V2ライセンスに基づいており、ユーザーが100%プライベートにデプロイし、利用できることを保証します。

プロジェクトアドレス: https://github.com/h2oai/h2ogpt

デモアドレス: https://gpt.h2o.ai/

コア機能

1. ドキュメント処理能力

h2oGPTは、PDF、Excel、Word、画像、動画フレーム、YouTube、音声、コード、テキスト、MarkDownなど、様々なドキュメントタイプのプライベートなオフラインデータベースをサポートしています。主な特徴は以下の通りです。

  • 永続化データベース:Chroma、Weaviate、またはメモリ内のFAISSを使用してドキュメントを保存
  • 高精度な埋め込み:instructor-large、all-MiniLM-L6-v2などの埋め込みモデルをサポート
  • 効率的なコンテキスト利用:LangChainのfew-shotメソッドなしで、命令チューニングされたLLMを使用
  • 並列処理:並列要約と抽出、13B LLaMa2モデルで毎秒80トークンの出力速度を達成可能
  • HYDE技術:LLM応答に基づく仮説ドキュメント埋め込み技術により、検索能力を強化
  • セマンティックチャンキング:より良いドキュメント分割(GPUサポートが必要)

2. モデルサポート

h2oGPTは、LLaMa2、Mistral、Falcon、Vicuna、WizardLMなど、様々なモデルをサポートし、AutoGPTQ、4ビット/8ビット量子化、LORAなどの技術に対応しています。

  • GPUサポート:HuggingFaceおよびLLaMa.cpp GGMLモデル
  • CPUサポート:HF、LLaMa.cpp、GPT4ALLモデルを使用
  • アテンションメカニズム:任意の長さの生成をサポート(LLaMa-2、Mistral、MPT、Pythia、Falconなど)

3. ユーザーインターフェース

  • Gradio UI:直感的なウェブインターフェースを提供し、ストリーミング出力をサポート
  • CLI:コマンドラインインターフェースで、すべてのモデルのストリーミング処理をサポート
  • ドキュメントのアップロードと閲覧:UIを通じてドキュメントをアップロードおよび閲覧(複数の共同作業または個人コレクションをサポート)

4. マルチモーダル能力

視覚モデル

LLaVa、Claude-3、Gemini-Pro-Vision、GPT-4-Visionなどの視覚モデルをサポート

画像生成

Stable Diffusion(sdxl-turbo、sdxl、SD3)、PlaygroundAI(playv2)、Fluxなどの画像生成モデルをサポート

音声処理

  • STT(音声認識):Whisperを使用してストリーミング音声を変換
  • TTS(音声合成)
    • MITライセンスのMicrosoft Speech T5、複数の音声とストリーミング音声変換をサポート
    • MPL2ライセンスのTTS、音声クローンとストリーミング音声変換を含む
  • AIアシスタント音声制御:ハンズフリー制御のh2oGPTチャットモードをサポート

5. エンタープライズ機能

認証と状態管理

  • UI認証:ユーザー名/パスワードまたはGoogle OAuthによる認証
  • 状態保持:ユーザー名/パスワードによりUIで状態を保持
  • Open Web UI連携:OpenAIプロキシを介してh2oGPTをバックエンドとして使用

APIと連携

  • OpenAI互換API:h2oGPTはOpenAIサーバーの代替として機能
  • 推論サーバーサポート:oLLaMa、HF TGIサーバー、vLLM、Gradio、ExLLaMa、Replicate、Together.ai、OpenAI、Azure OpenAI、Anthropic、MistralAI、Google、Groqなどをサポート

サーバープロキシAPI機能

  • チャットとテキスト補完(ストリーミングおよび非ストリーミング)
  • 音声転写(STT)
  • 音声生成(TTS)
  • 画像生成
  • 埋め込み
  • 関数ツール呼び出しと自動ツール選択
  • AutoGenコード実行エージェント

6. 高度な機能

JSONモードと構造化出力

  • 厳密なスキーマ制御:vLLMを介してoutlinesを使用し、厳密なスキーマ制御を実現
  • マルチプラットフォーム対応:OpenAI、Anthropic、Google Gemini、MistralAIモデルの厳密なスキーマ制御をサポート
  • JSONモード:一部の古いOpenAIまたはGeminiモデル向けにJSONモードを提供

ウェブ検索とエージェント

  • ウェブ検索連携:チャットおよびドキュメントQ&Aと連携したウェブ検索
  • インテリジェントエージェント:検索、ドキュメントQ&A、Pythonコード、CSVフレームワークなどのエージェントをサポート
  • 高品質エージェント:独立したポート上のOpenAIプロキシサーバーを介して高品質エージェントを提供
  • コードファーストエージェント:グラフ生成、研究、視覚モデルによる画像評価など

性能評価

  • 報酬モデル:報酬モデルを使用して性能を評価
  • 品質保証:1000以上の単体テストと統合テスト(24GPU時間以上)を通じて品質を維持

インストールとデプロイ

推奨デプロイ方法

Linux、Windows、MACでのフル機能デプロイにはDockerの使用を推奨します。各プラットフォームのサポート状況:

  • Docker:Linux、Windows、MACでフル機能
  • Linuxスクリプト:フル機能
  • WindowsおよびMACスクリプト:機能が比較的限定的

サポートされるインストール方法

  1. Dockerビルドと実行:Linux、Windows、MACに対応
  2. Linuxインストールと実行:ネイティブLinuxサポート
  3. Windows 10/11インストールスクリプト:Windowsプラットフォームサポート
  4. MACインストールと実行:macOSプラットフォームサポート
  5. クイックスタート:任意のプラットフォームに対応

技術仕様

ハードウェア要件

  • GPUサポート:CUDA、AutoGPTQ、exllama
  • CPUサポート:純粋なCPU実行をサポート
  • メモリ最適化:低メモリモードを提供

オフラインインストール

  • 完全なオフラインインストールをサポート
  • オフラインドキュメント処理能力
  • ローカルモデルデプロイ

開発と拡張

開発環境

  • インストール手順に従って、トレーニングと生成のための開発環境を構築
  • カスタムデータでの任意のLLMモデルのファインチューニングをサポート
  • 完全なテストスイートを提供

テスト

pip install requirements-parser pytest-instafail pytest-random-order playsound==1.3.0
conda install -c conda-forge gst-python -y
sudo apt-get install gstreamer-1.0
pip install pygame
GPT_H2O_AI=0 CONCURRENCY_COUNT=1 pytest --instafail -s -v tests

# 実行中のローカルサーバー上のopenaiサーバーテストの場合
pytest -s -v -n 4 openai_server/test_openai_server.py::test_openai_client

クライアントAPI

  • GradioクライアントAPI
  • OpenAI互換クライアントAPI
  • Pythonクライアントライブラリ

技術アーキテクチャ

コア技術スタック

  • 基盤モデル:LLaMa2、Mistral、Falconなど
  • 埋め込み技術:instructor-large、all-MiniLM-L6-v2
  • ベクトルデータベース:Chroma、Weaviate、FAISS
  • UIフレームワーク:Gradio
  • バックエンド技術:Python、PyTorch、Transformers

データ処理フロー

  1. ドキュメント取り込み:高度なOCR技術(DocTR)を使用
  2. ドキュメント分割:セマンティックチャンキング技術
  3. ベクトル化:高精度な埋め込みモデルを使用
  4. 検索強化:HYDE技術による検索強化
  5. 回答生成:コンテキストに基づいたインテリジェントな回答

商業応用

エンタープライズソリューション

h2oGPTは、エンタープライズグレードの生成AIソリューションを提供します。主な特徴:

  • 完全なプライベートデプロイ:100%プライベートデプロイ、データは企業外に出ません
  • スケーラビリティ:大規模デプロイをサポート
  • セキュリティ:エンタープライズグレードのセキュリティ保証
  • カスタマイズ性:モデルのファインチューニングとカスタマイズをサポート

応用シナリオ

  • ドキュメントQ&Aシステム:企業内部のナレッジベースQ&A
  • コードアシスタンス:コード生成とレビュー
  • データ分析:CSVデータ処理と分析
  • マルチメディア処理:画像、動画、音声処理
  • カスタマーサービス:インテリジェントカスタマーサービスシステム

H2O.aiエコシステム

h2oGPTは、H2O.aiの完全なAIプラットフォームの一部です。H2O.aiは他に以下を提供しています。

  • H2O-3:オープンソース機械学習プラットフォーム
  • H2O Driverless AI:世界をリードするAutoMLプラットフォーム
  • H2O Hydrogen Torch:ノーコード深層学習プラットフォーム
  • Document AI:ドキュメント処理深層学習プラットフォーム
  • H2O MLOps:モデルデプロイと監視プラットフォーム
  • H2O Feature Store:特徴量ストアプラットフォーム

まとめ

h2oGPTは、強力なオープンソースのプライベートGPTソリューションであり、特にデータプライバシーを完全に制御する必要がある企業や個人ユーザーに適しています。商用GPTサービスと同様の機能を提供するだけでなく、ドキュメント処理、マルチモーダルサポート、エンタープライズグレードのセキュリティなどの機能も追加されており、プライベートAIアプリケーションを構築するための理想的な選択肢です。

Star History Chart