Os pesquisadores da Microsoft constroem AI LLM de 1 bit com parâmetros 2B-modelo pequeno o suficiente para ser executado em algumas CPUs

Os pesquisadores da Microsoft acabaram de criar o BitNet B1.58 2B4T, um modelo de linguagem grande de 1 bit de código aberto com dois bilhões de parâmetros e treinado em quatro trilhões de tokens. Mas o que torna esse modelo de IA único é que é leve o suficiente para funcionar com eficiência em uma CPU, com TechCrunch Dizer que um chip Apple M2 pode executá -lo. O modelo também está prontamente disponível em Abraçando o rostopermitindo que alguém experimente.
Os BitNets usam pesos de 1 bit com apenas três valores possíveis: -1, 0 e +1. Isso economiza muita memória em comparação com os modelos de IA convencionais com formatos de ponto flutuante de 32 ou 16 bits, permitindo que eles operem com muito mais eficiência e requerem menos memória e potência computacional. A simplicidade do BitNet tem uma desvantagem, no entanto – é menos preciso em comparação com os modelos de IA maiores. No entanto, o BitNet B1.58 2B4T compensa isso com seus enormes dados de treinamento, estimados em mais de 33 milhões de livros.
A equipe por trás desse modelo leve o comparou com os principais modelos principais, incluindo o LLAMA 3.2 1B da Meta, o Gemma 3 1B do Google e o QWEN 2.5 1,5B do Alibaba. O BitNet B1.58 2B4T marcou relativamente bem contra esses modelos na maioria dos testes e até recebeu as principais honras em alguns benchmarks. Mais importante, ele consumia apenas 400 MB em memória não embebida-menos de 30% do que o próximo modelo mais menor (Gemma 3 1B) usou, que é 1,4 GB.
Benchmark | BitNet B1.58 2b | Ligue para 3.2 1b | Gemma 3 1b | QWEN 2.5 1,5B |
---|---|---|---|---|
Uso de memória não incorporado | 0,4 GB | 2 GB | 1,4 GB | 2,6 GB |
Latência (decodificação da CPU) | 29ms | 48ms | 41ms | 65ms |
Treinando tokens | 4 trilhões | 9 trilhões | 2 trilhões | 18 trilhões |
Challengo de arco | 49.91 | 37.80 | 38.40 | 46.67 |
Arco-leasy | 74.79 | 63.17 | 63.13 | 76.01 |
Openbookqa | 41.60 | 34.80 | 38.80 | 40,80 |
Boolq | 80.18 | 64.65 | 74.22 | 78.04 |
Hellaswag | 68.44 | 60,80 | 57.69 | 68.28 |
Piqa | 77.09 | 74.21 | 71.93 | 76.12 |
Winogrande | 71.90 | 59.51 | 58.48 | 62.83 |
Commonsenseqa | 71.58 | 58.48 | 42.10 | 76.41 |
Verdadeiro | 45.31 | 43.80 | 38.66 | 46.67 |
Triviaqaqa | 33.57 | 37.60 | 23.49 | 38.37 |
Mmlu | 53.17 | 45.58 | 39.91 | 60.25 |
Humaneval+ | 38.40 | 31.10 | 37.20 | 50.60 |
GSM8K | 58.38 | 38.21 | 31.16 | 56,79 |
Math-500 | 43.40 | 23.00 | 42.00 | 53,00 |
Ifeval | 53.48 | 62.71 | 66.67 | 50.12 |
MT-BANCH | 5.85 | 5.43 | 6.40 | 6.12 |
Média | 54.19 | 44.90 | 43.74 | 55.23 |
No entanto, o LLM deve usar a estrutura de inferência BitNet.CPP para executar isso com eficiência. A equipe disse especificamente que esse modelo não terá os ganhos de eficiência de desempenho “ao usá -lo com a Biblioteca de Transformadores padrão, mesmo com o garfo necessário”.
Você precisará pegar a estrutura disponível em Girub Se você deseja aproveitar seus benefícios no hardware leve. O repositório descreve o BitNet.cpp como oferecendo “um conjunto de kernels otimizados que suportam inferência rápida e sem perdas de modelos de 1,58 bits na CPU (com o suporte à NPU e GPU em seguida). Embora não suporta hardware específico da IA no momento, ainda permite que alguém com um computador experimente a IA com componentes caros.
Os modelos de IA são frequentemente criticados por tomar muita energia para treinar e operar. Mas o Lightweight LLMS, como o BitNet B1.58 2B4T, poderia nos ajudar a executar modelos de IA localmente em hardware menos poderoso. Isso pode reduzir nossa dependência de data centers maciços e até dar às pessoas sem acesso aos processadores mais recentes com NPUs embutidas e as GPUs mais poderosas para usar a inteligência artificial.