Text Generation Inference (TGI) は、大規模言語モデル (LLM) の推論サービスをデプロイし、提供するために特別に設計されたツールキットです。Hugging Face によって開発され、本番環境で LLM を効率的に実行する際に直面する課題を解決することを目的としています。TGI は、高性能、使いやすさ、およびスケーラビリティに重点を置いており、開発者が LLM をアプリケーションに簡単に統合できるようにします。
TGI のアーキテクチャは通常、次のコンポーネントで構成されます。
TGI は、次のようないくつかの方法でデプロイできます。
以下は、TGI REST API を使用してテキストを生成する例です。
curl -X POST http://localhost:8080/generate \
-H "Content-Type: application/json" \
-d '{"inputs": "The quick brown fox jumps over the lazy dog.", "parameters": {"max_new_tokens": 50}}'
Text Generation Inference (TGI) は、開発者が本番環境で LLM 推論サービスをデプロイし、提供するのに役立つ強力なツールです。高性能、使いやすさ、およびスケーラビリティを提供し、LLM ベースのアプリケーションを構築するための理想的な選択肢となっています。