Text Generation Inference (TGI) é um kit de ferramentas projetado especificamente para implantar e servir inferência de modelos de linguagem grandes (LLMs). Desenvolvido pela Hugging Face, ele visa resolver os desafios de executar LLMs de forma eficiente em ambientes de produção. O TGI se concentra em fornecer alto desempenho, facilidade de uso e escalabilidade, permitindo que os desenvolvedores integrem facilmente LLMs em seus aplicativos.
A arquitetura do TGI normalmente inclui os seguintes componentes:
O TGI pode ser implantado de várias maneiras, incluindo:
A seguir, um exemplo de uso da API REST do TGI para geração de texto:
curl -X POST http://localhost:8080/generate \
-H "Content-Type: application/json" \
-d '{"inputs": "The quick brown fox jumps over the lazy dog.", "parameters": {"max_new_tokens": 50}}'
Text Generation Inference (TGI) é uma ferramenta poderosa que pode ajudar os desenvolvedores a implantar e servir serviços de inferência de LLM em ambientes de produção. Ele oferece alto desempenho, facilidade de uso e escalabilidade, tornando-o uma escolha ideal para construir aplicativos baseados em LLM.