mlc-ai/mlc-llmPlease refer to the latest official releases for information GitHub Homepage

MLC LLM: Compile, otimize e implemente qualquer LLM localmente em diversos dispositivos.

Apache-2.0Python 20.8kmlc-ai Last Updated: 2025-06-08

mlc-llm

Introdução ao Projeto:

mlc-ai/mlc-llm é um projeto que visa permitir que qualquer modelo seja compilado, executado e implantado localmente em qualquer hardware. Ele se concentra em fornecer inferência de LLM (Large Language Model - Modelo de Linguagem Grande) de alto desempenho para várias plataformas de hardware, incluindo telefones celulares, laptops e servidores. O projeto é mantido pela comunidade MLC (Machine Learning Compilation - Compilação de Aprendizado de Máquina) e tem como objetivo reduzir as barreiras de implantação de LLMs, permitindo que mais desenvolvedores e usuários usem e personalizem LLMs de forma conveniente.

Objetivos Principais:

Universalidade: Suporta várias arquiteturas de LLM, incluindo, entre outras, Llama, GPT, Mistral, etc.
Multiplataforma: Capaz de ser executado em várias plataformas de hardware, incluindo CPU, GPU, dispositivos móveis (Android, iOS) e WebAssembly.
Alto Desempenho: Otimiza modelos por meio de técnicas de compilação de aprendizado de máquina para obter velocidades de inferência eficientes.
Facilidade de Uso: Fornece APIs e ferramentas simples para facilitar a implantação e personalização de LLMs pelos desenvolvedores.
Personalizável: Permite que os usuários personalizem modelos e processos de inferência de acordo com suas necessidades.

Principais Características:

Compilação de Aprendizado de Máquina (MLC): Utiliza a tecnologia MLC para otimizar modelos e melhorar o desempenho da inferência. MLC é uma técnica que converte modelos em código otimizado para hardware específico.
Quantização de Modelo: Suporta a quantização de modelos, reduzindo o tamanho do modelo, diminuindo o uso de memória e aumentando a velocidade de inferência. Métodos de quantização comuns incluem INT8, INT4, etc.
Execução Heterogênea: Capaz de executar diferentes partes do modelo em diferentes dispositivos de hardware, aproveitando ao máximo os recursos de hardware.
Suporte a WebAssembly: Capaz de executar LLMs em navegadores, permitindo inferência local.
API Python: Fornece uma API Python para facilitar o uso e a personalização de LLMs pelos desenvolvedores.
Ferramentas de Linha de Comando: Fornece ferramentas de linha de comando para facilitar a implantação e execução de LLMs pelos usuários.
Modelos Pré-compilados: Fornece modelos pré-compilados para facilitar o início rápido dos usuários.
Personalização de Modelo: Suporta ajuste fino e personalização de modelos para atender às necessidades específicas dos usuários.
Comunidade Ativa: Mantido pela comunidade MLC, fornecendo suporte técnico e uma plataforma de comunicação.

Pilha de Tecnologia:

TVM Unity: Construído com base no TVM Unity, um framework de código aberto para compilação de aprendizado de máquina.
Python: Linguagem de programação principal.
C++: Usado para implementar um mecanismo de inferência de alto desempenho.
WebAssembly: Usado para executar LLMs em navegadores.
CUDA/Metal/OpenCL: Usado para aceleração de GPU.

Casos de Uso:

Inferência de LLM Local: Executa LLMs em dispositivos locais, sem a necessidade de conexão com um servidor em nuvem.
Aplicativos LLM em Dispositivos Móveis: Executa LLMs em dispositivos Android e iOS, permitindo inferência offline.
LLMs em Aplicativos Web: Executa LLMs em navegadores, permitindo inferência local.
Computação de Borda: Executa LLMs em dispositivos de borda, permitindo inferência de baixa latência.
Pesquisa e Desenvolvimento: Usado para pesquisa e desenvolvimento de novas tecnologias de LLM.

Como Começar:

Instalação: Instale o mlc-llm seguindo as instruções na documentação do projeto.
Baixar Modelos Pré-compilados: Baixe modelos pré-compilados, como o Llama 2.
Executar Exemplos: Execute o código de exemplo para experimentar os recursos de inferência do LLM.
Personalizar Modelos: Personalize modelos e processos de inferência de acordo com suas necessidades.
Participar da Comunidade: Junte-se à comunidade MLC para se comunicar e aprender com outros desenvolvedores.

Vantagens:

Reduz as Barreiras de Implantação de LLM: Permite que mais desenvolvedores e usuários usem e personalizem LLMs de forma conveniente.
Melhora o Desempenho da Inferência de LLM: Otimiza modelos por meio de técnicas de compilação de aprendizado de máquina para obter velocidades de inferência eficientes.
Suporta Várias Plataformas de Hardware: Capaz de executar LLMs em várias plataformas de hardware, incluindo CPU, GPU, dispositivos móveis e WebAssembly.
Fornece Ferramentas e APIs Ricas: Fornece APIs e ferramentas simples para facilitar a implantação e personalização de LLMs pelos desenvolvedores.
Suporte Ativo da Comunidade: Mantido pela comunidade MLC, fornecendo suporte técnico e uma plataforma de comunicação.

Conclusão:

mlc-ai/mlc-llm é um projeto muito promissor que visa permitir que qualquer modelo seja compilado, executado e implantado localmente em qualquer hardware. Ele otimiza modelos por meio de técnicas de compilação de aprendizado de máquina para obter velocidades de inferência eficientes e fornece ferramentas e APIs ricas para facilitar a implantação e personalização de LLMs pelos desenvolvedores. Se você estiver interessado na implantação e otimização de LLMs, mlc-ai/mlc-llm é um projeto que vale a pena acompanhar.

MLC LLM: Compile, otimize e implemente qualquer LLM localmente em diversos dispositivos.

mlc-llm

Para todos os detalhes, consulte o site oficial (https://github.com/mlc-ai/mlc-llm)