Pesquisadores da Microsoft afirmam ter desenvolvido o maior modelo de IA de 1 bit em grande escala, também conhecido como “bitnet”, até o momento. Chamado BitNet b1.58 2B4T, ele está disponível sob uma licença MIT e pode ser executado em CPUs, incluindo o Apple M2.
Bitnets são essencialmente modelos comprimidos projetados para rodar em hardware leve. Em modelos padrão, os pesos, ou seja, os valores que definem a estrutura interna de um modelo, são frequentemente quantizados para que os modelos tenham um bom desempenho em uma ampla gama de máquinas. A quantização dos pesos reduz o número de bits – as menores unidades que um computador pode processar – necessários para representar esses pesos, permitindo que os modelos rodem em chips com menos memória, de forma mais rápida.
Os Bitnets quantizam os pesos em apenas três valores: -1, 0 e 1. Na teoria, isso os torna muito mais eficientes em termos de memória e computação do que a maioria dos modelos atuais.

Os pesquisadores da Microsoft afirmam que o BitNet b1.58 2B4T é o primeiro bitnet com 2 bilhões de parâmetros, sendo “parâmetros” em grande parte sinônimo de “pesos”. Treinado em um conjunto de dados de 4 trilhões de tokens – equivalente a cerca de 33 milhões de livros, segundo uma estimativa -, o BitNet b1.58 2B4T supera os modelos tradicionais de tamanhos semelhantes, afirmam os pesquisadores.
O BitNet b1.58 2B4T não supera completamente modelos rivais de 2 bilhões de parâmetros, mas aparentemente se destaca. De acordo com os testes dos pesquisadores, o modelo supera o Llama 3.2 1B da Meta, o Gemma 3 1B do Google e o Qwen 2.5 1.5B do Alibaba em benchmarks, incluindo o GSM8K (uma coleção de problemas matemáticos de nível escolar) e o PIQA (que testa habilidades de raciocínio lógico).
Talvez mais impressionante, o BitNet b1.58 2B4T é mais rápido do que outros modelos de tamanho semelhante – em alguns casos, o dobro da velocidade – enquanto utiliza uma fração da memória. No entanto, há um porém.
Alcançar esse desempenho requer o uso do framework personalizado da Microsoft, bitnet.cpp, que atualmente só funciona com determinados hardwares. Ausentes da lista de chips suportados estão as GPUs, que dominam o cenário de infraestrutura de IA. Isso tudo para dizer que os bitnets podem ter potencial, especialmente para dispositivos com recursos limitados. Mas a compatibilidade é — e provavelmente continuará sendo — um grande ponto de interrogação.
Leave a Reply