Os pesquisadores da Microsoft constroem AI LLM de 1 bit com parâmetros 2B-modelo pequeno o suficiente para ser executado em algumas CPUs

Os pesquisadores da Microsoft acabaram de criar o BitNet B1.58 2B4T, um modelo de linguagem grande de 1 bit de código aberto com dois bilhões de parâmetros e treinado em quatro trilhões de tokens. Mas o que torna esse modelo de IA único é que é leve o suficiente para funcionar com eficiência em uma CPU, com TechCrunch Dizer que um chip Apple M2 pode executá -lo. O modelo também está prontamente disponível em Abraçando o rostopermitindo que alguém experimente.
Os BitNets usam pesos de 1 bit com apenas três valores possíveis: -1, 0 e +1. Isso economiza muita memória em comparação com os modelos de IA convencionais com formatos de ponto flutuante de 32 ou 16 bits, permitindo que eles operem com muito mais eficiência e requerem menos memória e potência computacional. A simplicidade do BitNet tem uma desvantagem, no entanto – é menos preciso em comparação com os modelos de IA maiores. No entanto, o BitNet B1.58 2B4T compensa isso com seus enormes dados de treinamento, estimados em mais de 33 milhões de livros.
A equipe por trás desse modelo leve o comparou com os principais modelos principais, incluindo o LLAMA 3.2 1B da Meta, o Gemma 3 1B do Google e o QWEN 2.5 1,5B do Alibaba. O BitNet B1.58 2B4T marcou relativamente bem contra esses modelos na maioria dos testes e até recebeu as principais honras em alguns benchmarks. Mais importante, ele consumia apenas 400 MB em memória não embebida-menos de 30% do que o próximo modelo mais menor (Gemma 3 1B) usou, que é 1,4 GB.
Benchmark |
BitNet B1.58 2b |
Ligue para 3.2 1b |
Gemma 3 1b |
QWEN 2.5 1,5B |
---|---|---|---|---|
Uso de memória não incorporado |
0,4 GB |
2 GB |
1,4 GB |
2,6 GB |
Latência (decodificação da CPU) |
29ms |
48ms |
41ms |
65ms |
Treinando tokens |
4 trilhões |
9 trilhões |
2 trilhões |
18 trilhões |
Challengo de arco |
49.91 |
37.80 |
38.40 |
46.67 |
Arco-leasy |
74.79 |
63.17 |
63.13 |
76.01 |
Openbookqa |
41.60 |
34.80 |
38.80 |
40,80 |
Boolq |
80.18 |
64.65 |
74.22 |
78.04 |
Hellaswag |
68.44 |
60,80 |
57.69 |
68.28 |
Piqa |
77.09 |
74.21 |
71.93 |
76.12 |
Winogrande |
71.90 |
59.51 |
58.48 |
62.83 |
Commonsenseqa |
71.58 |
58.48 |
42.10 |
76.41 |
Verdadeiro |
45.31 |
43.80 |
38.66 |
46.67 |
Triviaqaqa |
33.57 |
37.60 |
23.49 |
38.37 |
Mmlu |
53.17 |
45.58 |
39.91 |
60.25 |
Humaneval+ |
38.40 |
31.10 |
37.20 |
50.60 |
GSM8K |
58.38 |
38.21 |
31.16 |
56,79 |
Math-500 |
43.40 |
23.00 |
42.00 |
53,00 |
Ifeval |
53.48 |
62.71 |
66.67 |
50.12 |
MT-BANCH |
5.85 |
5.43 |
6.40 |
6.12 |
Média |
54.19 |
44.90 |
43.74 |
55.23 |
No entanto, o LLM deve usar a estrutura de inferência BitNet.CPP para executar isso com eficiência. A equipe disse especificamente que esse modelo não terá os ganhos de eficiência de desempenho “ao usá -lo com a Biblioteca de Transformadores padrão, mesmo com o garfo necessário”.
Você precisará pegar a estrutura disponível em Girub Se você deseja aproveitar seus benefícios no hardware leve. O repositório descreve o BitNet.cpp como oferecendo “um conjunto de kernels otimizados que suportam inferência rápida e sem perdas de modelos de 1,58 bits na CPU (com o suporte à NPU e GPU em seguida). Embora não suporta hardware específico da IA no momento, ainda permite que alguém com um computador experimente a IA com componentes caros.
Os modelos de IA são frequentemente criticados por tomar muita energia para treinar e operar. Mas o Lightweight LLMS, como o BitNet B1.58 2B4T, poderia nos ajudar a executar modelos de IA localmente em hardware menos poderoso. Isso pode reduzir nossa dependência de data centers maciços e até dar às pessoas sem acesso aos processadores mais recentes com NPUs embutidas e as GPUs mais poderosas para usar a inteligência artificial.