h2oai/h2ogptPlease refer to the latest official releases for information GitHub Homepage

プライベートなローカルGPTチャットツール。ドキュメントの質問応答、画像・動画処理など、多様な機能をサポートし、100%プライベートな環境で展開できます。

Apache-2.0Python 11.9kh2oaih2ogpt Last Updated: 2025-05-25

h2oGPTプロジェクト詳細

プロジェクト概要

h2oGPTは、H2O.aiが開発したオープンソースプロジェクトで、完全にプライベートなローカルGPTチャット体験を提供し、ドキュメントQ&A、画像・動画処理など、様々な機能をサポートします。このプロジェクトはApache V2ライセンスに基づいており、ユーザーが100%プライベートにデプロイし、利用できることを保証します。

プロジェクトアドレス： https://github.com/h2oai/h2ogpt

デモアドレス： https://gpt.h2o.ai/

コア機能

1. ドキュメント処理能力

h2oGPTは、PDF、Excel、Word、画像、動画フレーム、YouTube、音声、コード、テキスト、MarkDownなど、様々なドキュメントタイプのプライベートなオフラインデータベースをサポートしています。主な特徴は以下の通りです。

永続化データベース：Chroma、Weaviate、またはメモリ内のFAISSを使用してドキュメントを保存
高精度な埋め込み：instructor-large、all-MiniLM-L6-v2などの埋め込みモデルをサポート
効率的なコンテキスト利用：LangChainのfew-shotメソッドなしで、命令チューニングされたLLMを使用
並列処理：並列要約と抽出、13B LLaMa2モデルで毎秒80トークンの出力速度を達成可能
HYDE技術：LLM応答に基づく仮説ドキュメント埋め込み技術により、検索能力を強化
セマンティックチャンキング：より良いドキュメント分割（GPUサポートが必要）

2. モデルサポート

h2oGPTは、LLaMa2、Mistral、Falcon、Vicuna、WizardLMなど、様々なモデルをサポートし、AutoGPTQ、4ビット/8ビット量子化、LORAなどの技術に対応しています。

GPUサポート：HuggingFaceおよびLLaMa.cpp GGMLモデル
CPUサポート：HF、LLaMa.cpp、GPT4ALLモデルを使用
アテンションメカニズム：任意の長さの生成をサポート（LLaMa-2、Mistral、MPT、Pythia、Falconなど）

3. ユーザーインターフェース

Gradio UI：直感的なウェブインターフェースを提供し、ストリーミング出力をサポート
CLI：コマンドラインインターフェースで、すべてのモデルのストリーミング処理をサポート
ドキュメントのアップロードと閲覧：UIを通じてドキュメントをアップロードおよび閲覧（複数の共同作業または個人コレクションをサポート）

4. マルチモーダル能力

視覚モデル

LLaVa、Claude-3、Gemini-Pro-Vision、GPT-4-Visionなどの視覚モデルをサポート

画像生成

Stable Diffusion（sdxl-turbo、sdxl、SD3）、PlaygroundAI（playv2）、Fluxなどの画像生成モデルをサポート

音声処理

STT（音声認識）：Whisperを使用してストリーミング音声を変換
TTS（音声合成）：
- MITライセンスのMicrosoft Speech T5、複数の音声とストリーミング音声変換をサポート
- MPL2ライセンスのTTS、音声クローンとストリーミング音声変換を含む
AIアシスタント音声制御：ハンズフリー制御のh2oGPTチャットモードをサポート

5. エンタープライズ機能

認証と状態管理

UI認証：ユーザー名/パスワードまたはGoogle OAuthによる認証
状態保持：ユーザー名/パスワードによりUIで状態を保持
Open Web UI連携：OpenAIプロキシを介してh2oGPTをバックエンドとして使用

APIと連携

OpenAI互換API：h2oGPTはOpenAIサーバーの代替として機能
推論サーバーサポート：oLLaMa、HF TGIサーバー、vLLM、Gradio、ExLLaMa、Replicate、Together.ai、OpenAI、Azure OpenAI、Anthropic、MistralAI、Google、Groqなどをサポート

サーバープロキシAPI機能

チャットとテキスト補完（ストリーミングおよび非ストリーミング）
音声転写（STT）
音声生成（TTS）
画像生成
埋め込み
関数ツール呼び出しと自動ツール選択
AutoGenコード実行エージェント

6. 高度な機能

JSONモードと構造化出力

厳密なスキーマ制御：vLLMを介してoutlinesを使用し、厳密なスキーマ制御を実現
マルチプラットフォーム対応：OpenAI、Anthropic、Google Gemini、MistralAIモデルの厳密なスキーマ制御をサポート
JSONモード：一部の古いOpenAIまたはGeminiモデル向けにJSONモードを提供

ウェブ検索とエージェント

ウェブ検索連携：チャットおよびドキュメントQ&Aと連携したウェブ検索
インテリジェントエージェント：検索、ドキュメントQ&A、Pythonコード、CSVフレームワークなどのエージェントをサポート
高品質エージェント：独立したポート上のOpenAIプロキシサーバーを介して高品質エージェントを提供
コードファーストエージェント：グラフ生成、研究、視覚モデルによる画像評価など

性能評価

報酬モデル：報酬モデルを使用して性能を評価
品質保証：1000以上の単体テストと統合テスト（24GPU時間以上）を通じて品質を維持

インストールとデプロイ

推奨デプロイ方法

Linux、Windows、MACでのフル機能デプロイにはDockerの使用を推奨します。各プラットフォームのサポート状況：

Docker：Linux、Windows、MACでフル機能
Linuxスクリプト：フル機能
WindowsおよびMACスクリプト：機能が比較的限定的

サポートされるインストール方法

Dockerビルドと実行：Linux、Windows、MACに対応
Linuxインストールと実行：ネイティブLinuxサポート
Windows 10/11インストールスクリプト：Windowsプラットフォームサポート
MACインストールと実行：macOSプラットフォームサポート
クイックスタート：任意のプラットフォームに対応

技術仕様

ハードウェア要件

GPUサポート：CUDA、AutoGPTQ、exllama
CPUサポート：純粋なCPU実行をサポート
メモリ最適化：低メモリモードを提供

オフラインインストール

完全なオフラインインストールをサポート
オフラインドキュメント処理能力
ローカルモデルデプロイ

開発と拡張

開発環境

インストール手順に従って、トレーニングと生成のための開発環境を構築
カスタムデータでの任意のLLMモデルのファインチューニングをサポート
完全なテストスイートを提供

テスト

pip install requirements-parser pytest-instafail pytest-random-order playsound==1.3.0
conda install -c conda-forge gst-python -y
sudo apt-get install gstreamer-1.0
pip install pygame
GPT_H2O_AI=0 CONCURRENCY_COUNT=1 pytest --instafail -s -v tests

# 実行中のローカルサーバー上のopenaiサーバーテストの場合
pytest -s -v -n 4 openai_server/test_openai_server.py::test_openai_client

クライアントAPI

GradioクライアントAPI
OpenAI互換クライアントAPI
Pythonクライアントライブラリ

技術アーキテクチャ

コア技術スタック

基盤モデル：LLaMa2、Mistral、Falconなど
埋め込み技術：instructor-large、all-MiniLM-L6-v2
ベクトルデータベース：Chroma、Weaviate、FAISS
UIフレームワーク：Gradio
バックエンド技術：Python、PyTorch、Transformers

データ処理フロー

ドキュメント取り込み：高度なOCR技術（DocTR）を使用
ドキュメント分割：セマンティックチャンキング技術
ベクトル化：高精度な埋め込みモデルを使用
検索強化：HYDE技術による検索強化
回答生成：コンテキストに基づいたインテリジェントな回答

商業応用

エンタープライズソリューション

h2oGPTは、エンタープライズグレードの生成AIソリューションを提供します。主な特徴：

完全なプライベートデプロイ：100%プライベートデプロイ、データは企業外に出ません
スケーラビリティ：大規模デプロイをサポート
セキュリティ：エンタープライズグレードのセキュリティ保証
カスタマイズ性：モデルのファインチューニングとカスタマイズをサポート

応用シナリオ

ドキュメントQ&Aシステム：企業内部のナレッジベースQ&A
コードアシスタンス：コード生成とレビュー
データ分析：CSVデータ処理と分析
マルチメディア処理：画像、動画、音声処理
カスタマーサービス：インテリジェントカスタマーサービスシステム

H2O.aiエコシステム

h2oGPTは、H2O.aiの完全なAIプラットフォームの一部です。H2O.aiは他に以下を提供しています。

H2O-3：オープンソース機械学習プラットフォーム
H2O Driverless AI：世界をリードするAutoMLプラットフォーム
H2O Hydrogen Torch：ノーコード深層学習プラットフォーム
Document AI：ドキュメント処理深層学習プラットフォーム
H2O MLOps：モデルデプロイと監視プラットフォーム
H2O Feature Store：特徴量ストアプラットフォーム

まとめ

h2oGPTは、強力なオープンソースのプライベートGPTソリューションであり、特にデータプライバシーを完全に制御する必要がある企業や個人ユーザーに適しています。商用GPTサービスと同様の機能を提供するだけでなく、ドキュメント処理、マルチモーダルサポート、エンタープライズグレードのセキュリティなどの機能も追加されており、プライベートAIアプリケーションを構築するための理想的な選択肢です。