Text Generation Inference (TGI)는 대규모 언어 모델 (LLM) 추론 서비스를 배포하고 제공하기 위해 특별히 설계된 툴킷입니다. Hugging Face에서 개발했으며, 생산 환경에서 LLM을 효율적으로 실행하는 데 따르는 어려움을 해결하는 것을 목표로 합니다. TGI는 고성능, 사용 편의성 및 확장성에 중점을 두어 개발자가 LLM을 애플리케이션에 쉽게 통합할 수 있도록 합니다.
TGI의 아키텍처는 일반적으로 다음 구성 요소를 포함합니다.
TGI는 다음과 같은 다양한 방식으로 배포할 수 있습니다.
다음은 TGI REST API를 사용하여 텍스트를 생성하는 예시입니다.
curl -X POST http://localhost:8080/generate \
-H "Content-Type: application/json" \
-d '{"inputs": "The quick brown fox jumps over the lazy dog.", "parameters": {"max_new_tokens": 50}}'
Text Generation Inference (TGI)는 개발자가 생산 환경에서 LLM 추론 서비스를 배포하고 제공하는 데 도움이 되는 강력한 도구입니다. 고성능, 사용 편의성 및 확장성을 제공하므로 LLM 기반 애플리케이션을 구축하는 데 이상적인 선택입니다.