huggingface/text-generation-inferencePlease refer to the latest official releases for information GitHub Homepage

Text Generation Inference (TGI) é uma biblioteca Rust para implantação em larga escala de modelos de geração de texto. Ela foi projetada para alto desempenho, baixa latência e utilização eficiente de recursos, especialmente adequada para ambientes de produção.

Apache-2.0Python 10.2khuggingface Last Updated: 2025-06-13

Hugging Face Text Generation Inference (TGI)

Introdução

Text Generation Inference (TGI) é um kit de ferramentas projetado especificamente para implantar e servir inferência de modelos de linguagem grandes (LLMs). Desenvolvido pela Hugging Face, ele visa resolver os desafios de executar LLMs de forma eficiente em ambientes de produção. O TGI se concentra em fornecer alto desempenho, facilidade de uso e escalabilidade, permitindo que os desenvolvedores integrem facilmente LLMs em seus aplicativos.

Principais Características

Inferência de Alto Desempenho:
- Kernels Otimizados: Utiliza técnicas como Flash Attention, Paged Attention para otimizar a velocidade de inferência.
- Paralelismo de Tensores: Suporta paralelismo de tensores em várias GPUs para acelerar a inferência de modelos grandes.
- Quantização: Suporta quantização de modelos (por exemplo, INT8, FP16) para reduzir o uso de memória e aumentar a taxa de transferência.
Fácil de Usar:
- Implantação Simples: Fornece imagens Docker e scripts de implantação Kubernetes para simplificar o processo de implantação.
- API REST: Oferece uma API REST fácil de usar para interagir com os modelos.
- Suporte a gRPC: Suporta o protocolo gRPC, fornecendo comunicação mais eficiente.
Escalabilidade:
- Escalabilidade Horizontal: Pode ser escalado horizontalmente adicionando mais nós de GPU para o serviço de inferência.
- Lote Dinâmico: Agrupa automaticamente várias solicitações para melhorar a taxa de transferência.
Modelos Suportados:
- Suporta uma variedade de LLMs no Hugging Face Hub, incluindo:
  - GPT-2, GPT-Neo, GPT-J
  - BLOOM
  - Llama, Llama 2
  - T5
  - Etc.
- Suporta modelos personalizados.
Recursos Avançados:
- Saída de Streaming: Suporta a geração de texto em streaming, permitindo que os usuários vejam os resultados assim que o modelo os gera.
- Streaming de Tokens: Permite o streaming de saída por token, permitindo um controle mais granular.
- Templates de Prompt: Suporta o uso de templates de prompt para formatar os prompts de entrada.
- Segurança: Fornece recursos de segurança, como autenticação e autorização.
- Monitoramento: Fornece métricas de monitoramento para rastrear o desempenho do serviço de inferência.
- Registro: Fornece registro detalhado para ajudar a depurar problemas.

Arquitetura

A arquitetura do TGI normalmente inclui os seguintes componentes:

Servidor de API: Recebe solicitações de clientes e as encaminha para o mecanismo de inferência.
Mecanismo de Inferência: Responsável por carregar o modelo e executar a inferência.
Armazenamento de Modelos: Armazena os pesos e a configuração do modelo.
Agendador: Responsável por atribuir solicitações aos mecanismos de inferência disponíveis.

Implantação

O TGI pode ser implantado de várias maneiras, incluindo:

Docker: Fornece imagens Docker que podem ser facilmente implantadas em qualquer ambiente que suporte Docker.
Kubernetes: Fornece scripts de implantação Kubernetes que podem ser usados para implantar o TGI em um cluster Kubernetes.
Plataformas de Nuvem: O TGI pode ser implantado em várias plataformas de nuvem, como AWS, Azure e GCP.

Exemplo de Uso

A seguir, um exemplo de uso da API REST do TGI para geração de texto:

curl -X POST http://localhost:8080/generate \
     -H "Content-Type: application/json" \
     -d '{"inputs": "The quick brown fox jumps over the lazy dog.", "parameters": {"max_new_tokens": 50}}'

Vantagens

Alto Desempenho: O TGI é otimizado para fornecer inferência de LLM de alto desempenho.
Fácil de Usar: O TGI fornece APIs e opções de implantação simples, tornando-o fácil de usar.
Escalabilidade: O TGI pode ser escalado horizontalmente para lidar com um grande número de solicitações.
Flexibilidade: O TGI suporta uma variedade de LLMs e ambientes de implantação.
Suporte da Comunidade: O TGI é ativamente mantido e suportado pela comunidade Hugging Face.

Limitações

Requisitos de Recursos: A execução de LLMs requer uma grande quantidade de recursos computacionais, como memória de GPU.
Complexidade: A implantação e o gerenciamento de serviços de inferência de LLM podem ser complexos.
Custo: A execução de serviços de inferência de LLM pode ser cara, especialmente ao usar plataformas de nuvem.

Conclusão

Text Generation Inference (TGI) é uma ferramenta poderosa que pode ajudar os desenvolvedores a implantar e servir serviços de inferência de LLM em ambientes de produção. Ele oferece alto desempenho, facilidade de uso e escalabilidade, tornando-o uma escolha ideal para construir aplicativos baseados em LLM.

Recursos

Repositório GitHub: https://github.com/huggingface/text-generation-inference
Hugging Face Hub: https://huggingface.co/
Documentação: (Consulte o README e a documentação no repositório GitHub)