プライベートなローカルGPTチャットツール。ドキュメントの質問応答、画像・動画処理など、多様な機能をサポートし、100%プライベートな環境で展開できます。
h2oGPTプロジェクト詳細
プロジェクト概要
h2oGPTは、H2O.aiが開発したオープンソースプロジェクトで、完全にプライベートなローカルGPTチャット体験を提供し、ドキュメントQ&A、画像・動画処理など、様々な機能をサポートします。このプロジェクトはApache V2ライセンスに基づいており、ユーザーが100%プライベートにデプロイし、利用できることを保証します。
プロジェクトアドレス: https://github.com/h2oai/h2ogpt
デモアドレス: https://gpt.h2o.ai/
コア機能
1. ドキュメント処理能力
h2oGPTは、PDF、Excel、Word、画像、動画フレーム、YouTube、音声、コード、テキスト、MarkDownなど、様々なドキュメントタイプのプライベートなオフラインデータベースをサポートしています。主な特徴は以下の通りです。
- 永続化データベース:Chroma、Weaviate、またはメモリ内のFAISSを使用してドキュメントを保存
- 高精度な埋め込み:instructor-large、all-MiniLM-L6-v2などの埋め込みモデルをサポート
- 効率的なコンテキスト利用:LangChainのfew-shotメソッドなしで、命令チューニングされたLLMを使用
- 並列処理:並列要約と抽出、13B LLaMa2モデルで毎秒80トークンの出力速度を達成可能
- HYDE技術:LLM応答に基づく仮説ドキュメント埋め込み技術により、検索能力を強化
- セマンティックチャンキング:より良いドキュメント分割(GPUサポートが必要)
2. モデルサポート
h2oGPTは、LLaMa2、Mistral、Falcon、Vicuna、WizardLMなど、様々なモデルをサポートし、AutoGPTQ、4ビット/8ビット量子化、LORAなどの技術に対応しています。
- GPUサポート:HuggingFaceおよびLLaMa.cpp GGMLモデル
- CPUサポート:HF、LLaMa.cpp、GPT4ALLモデルを使用
- アテンションメカニズム:任意の長さの生成をサポート(LLaMa-2、Mistral、MPT、Pythia、Falconなど)
3. ユーザーインターフェース
- Gradio UI:直感的なウェブインターフェースを提供し、ストリーミング出力をサポート
- CLI:コマンドラインインターフェースで、すべてのモデルのストリーミング処理をサポート
- ドキュメントのアップロードと閲覧:UIを通じてドキュメントをアップロードおよび閲覧(複数の共同作業または個人コレクションをサポート)
4. マルチモーダル能力
視覚モデル
LLaVa、Claude-3、Gemini-Pro-Vision、GPT-4-Visionなどの視覚モデルをサポート
画像生成
Stable Diffusion(sdxl-turbo、sdxl、SD3)、PlaygroundAI(playv2)、Fluxなどの画像生成モデルをサポート
音声処理
- STT(音声認識):Whisperを使用してストリーミング音声を変換
- TTS(音声合成):
- MITライセンスのMicrosoft Speech T5、複数の音声とストリーミング音声変換をサポート
- MPL2ライセンスのTTS、音声クローンとストリーミング音声変換を含む
- AIアシスタント音声制御:ハンズフリー制御のh2oGPTチャットモードをサポート
5. エンタープライズ機能
認証と状態管理
- UI認証:ユーザー名/パスワードまたはGoogle OAuthによる認証
- 状態保持:ユーザー名/パスワードによりUIで状態を保持
- Open Web UI連携:OpenAIプロキシを介してh2oGPTをバックエンドとして使用
APIと連携
- OpenAI互換API:h2oGPTはOpenAIサーバーの代替として機能
- 推論サーバーサポート:oLLaMa、HF TGIサーバー、vLLM、Gradio、ExLLaMa、Replicate、Together.ai、OpenAI、Azure OpenAI、Anthropic、MistralAI、Google、Groqなどをサポート
サーバープロキシAPI機能
- チャットとテキスト補完(ストリーミングおよび非ストリーミング)
- 音声転写(STT)
- 音声生成(TTS)
- 画像生成
- 埋め込み
- 関数ツール呼び出しと自動ツール選択
- AutoGenコード実行エージェント
6. 高度な機能
JSONモードと構造化出力
- 厳密なスキーマ制御:vLLMを介してoutlinesを使用し、厳密なスキーマ制御を実現
- マルチプラットフォーム対応:OpenAI、Anthropic、Google Gemini、MistralAIモデルの厳密なスキーマ制御をサポート
- JSONモード:一部の古いOpenAIまたはGeminiモデル向けにJSONモードを提供
ウェブ検索とエージェント
- ウェブ検索連携:チャットおよびドキュメントQ&Aと連携したウェブ検索
- インテリジェントエージェント:検索、ドキュメントQ&A、Pythonコード、CSVフレームワークなどのエージェントをサポート
- 高品質エージェント:独立したポート上のOpenAIプロキシサーバーを介して高品質エージェントを提供
- コードファーストエージェント:グラフ生成、研究、視覚モデルによる画像評価など
性能評価
- 報酬モデル:報酬モデルを使用して性能を評価
- 品質保証:1000以上の単体テストと統合テスト(24GPU時間以上)を通じて品質を維持
インストールとデプロイ
推奨デプロイ方法
Linux、Windows、MACでのフル機能デプロイにはDockerの使用を推奨します。各プラットフォームのサポート状況:
- Docker:Linux、Windows、MACでフル機能
- Linuxスクリプト:フル機能
- WindowsおよびMACスクリプト:機能が比較的限定的
サポートされるインストール方法
- Dockerビルドと実行:Linux、Windows、MACに対応
- Linuxインストールと実行:ネイティブLinuxサポート
- Windows 10/11インストールスクリプト:Windowsプラットフォームサポート
- MACインストールと実行:macOSプラットフォームサポート
- クイックスタート:任意のプラットフォームに対応
技術仕様
ハードウェア要件
- GPUサポート:CUDA、AutoGPTQ、exllama
- CPUサポート:純粋なCPU実行をサポート
- メモリ最適化:低メモリモードを提供
オフラインインストール
- 完全なオフラインインストールをサポート
- オフラインドキュメント処理能力
- ローカルモデルデプロイ
開発と拡張
開発環境
- インストール手順に従って、トレーニングと生成のための開発環境を構築
- カスタムデータでの任意のLLMモデルのファインチューニングをサポート
- 完全なテストスイートを提供
テスト
pip install requirements-parser pytest-instafail pytest-random-order playsound==1.3.0
conda install -c conda-forge gst-python -y
sudo apt-get install gstreamer-1.0
pip install pygame
GPT_H2O_AI=0 CONCURRENCY_COUNT=1 pytest --instafail -s -v tests
# 実行中のローカルサーバー上のopenaiサーバーテストの場合
pytest -s -v -n 4 openai_server/test_openai_server.py::test_openai_client
クライアントAPI
- GradioクライアントAPI
- OpenAI互換クライアントAPI
- Pythonクライアントライブラリ
技術アーキテクチャ
コア技術スタック
- 基盤モデル:LLaMa2、Mistral、Falconなど
- 埋め込み技術:instructor-large、all-MiniLM-L6-v2
- ベクトルデータベース:Chroma、Weaviate、FAISS
- UIフレームワーク:Gradio
- バックエンド技術:Python、PyTorch、Transformers
データ処理フロー
- ドキュメント取り込み:高度なOCR技術(DocTR)を使用
- ドキュメント分割:セマンティックチャンキング技術
- ベクトル化:高精度な埋め込みモデルを使用
- 検索強化:HYDE技術による検索強化
- 回答生成:コンテキストに基づいたインテリジェントな回答
商業応用
エンタープライズソリューション
h2oGPTは、エンタープライズグレードの生成AIソリューションを提供します。主な特徴:
- 完全なプライベートデプロイ:100%プライベートデプロイ、データは企業外に出ません
- スケーラビリティ:大規模デプロイをサポート
- セキュリティ:エンタープライズグレードのセキュリティ保証
- カスタマイズ性:モデルのファインチューニングとカスタマイズをサポート
応用シナリオ
- ドキュメントQ&Aシステム:企業内部のナレッジベースQ&A
- コードアシスタンス:コード生成とレビュー
- データ分析:CSVデータ処理と分析
- マルチメディア処理:画像、動画、音声処理
- カスタマーサービス:インテリジェントカスタマーサービスシステム
H2O.aiエコシステム
h2oGPTは、H2O.aiの完全なAIプラットフォームの一部です。H2O.aiは他に以下を提供しています。
- H2O-3:オープンソース機械学習プラットフォーム
- H2O Driverless AI:世界をリードするAutoMLプラットフォーム
- H2O Hydrogen Torch:ノーコード深層学習プラットフォーム
- Document AI:ドキュメント処理深層学習プラットフォーム
- H2O MLOps:モデルデプロイと監視プラットフォーム
- H2O Feature Store:特徴量ストアプラットフォーム
まとめ
h2oGPTは、強力なオープンソースのプライベートGPTソリューションであり、特にデータプライバシーを完全に制御する必要がある企業や個人ユーザーに適しています。商用GPTサービスと同様の機能を提供するだけでなく、ドキュメント処理、マルチモーダルサポート、エンタープライズグレードのセキュリティなどの機能も追加されており、プライベートAIアプリケーションを構築するための理想的な選択肢です。