Rodar IA local virou movimento: o estado da arte em 2026

Modelo aberto chinês domina os downloads, a OpenAI voltou a soltar pesos, e por US$ 4 mil cabe um modelo gigante na sua mesa. Mas a velocidade em casa ainda esbarra num gargalo teimoso. Um mapa direto de onde está a IA que roda sem nuvem.

Por anos, rodar IA no próprio computador foi coisa de entusiasta com placa de vídeo cara e paciência infinita. Em 2026 virou outra coisa. O movimento se apoia em três frentes ao mesmo tempo: os modelos abertos encostaram no que há de melhor, o hardware finalmente comporta modelo grande sem datacenter, e surgiu um motivo de peso para isso importar, que vai de privacidade e soberania de dados a um empurrão regulatório na Europa. O quadro mudou quem precisa mesmo de uma API paga e quem não precisa mais.

O termo que aparece o tempo todo aqui é inferência local: rodar o modelo de IA no seu hardware (laptop, workstation, servidor de casa), com tudo processado ali, sem nada saindo para um servidor de terceiros. O oposto é a nuvem. Você manda o texto para a OpenAI, o Google ou outro, e recebe a resposta de volta.

O ecossistema aberto virou um oceano (e mudou de sotaque)

O melhor termômetro do movimento é o Hugging Face, o repositório onde a comunidade publica modelos abertos. Ele passou de 2 milhões de modelos públicos, e o detalhe geopolítico chama atenção: no último ano, modelos chineses (Qwen, DeepSeek e seus derivados) chegaram a 41% dos downloads do Hub, superando os Estados Unidos em downloads mensais.¹ A família Qwen, da Alibaba, sozinha já tem mais de 113 mil modelos derivados. Pela contagem da própria Hugging Face, "a Alibaba como organização tem mais modelos derivados do que Google e Meta somados".¹

Antes que isso pareça um universo infinito de opções, um dado devolve o pé ao chão. Cerca de metade dos modelos no Hub tem menos de 200 downloads, e os 200 mais baixados (0,01% do total) concentram quase metade de todos os downloads.¹ Traduzindo: são milhões de modelos, mas o uso real se amontoa num punhado deles. A cauda longa é gigante e quase toda silenciosa.

Os modelos de ponta que cabem em casa

O salto de 2025 e 2026 foi de qualidade. Quatro nomes resumem o estado da arte aberto.

gpt-oss (OpenAI). Em 5 de agosto de 2025, a OpenAI soltou seus primeiros pesos abertos desde o GPT-2: o gpt-oss-120b (117 bilhões de parâmetros, dos quais 5,1 bilhões ativos por vez) e o gpt-oss-20b (21 bilhões, 3,6 bilhões ativos), ambos sob licença Apache 2.0, a mais permissiva, livre para uso comercial.² ³ A arquitetura é Mixture-of-Experts (MoE): em vez de acionar o modelo inteiro a cada palavra, ele liga só os "especialistas" relevantes, o que reduz muito o custo de rodar sem sacrificar tamanho. Pela conta da OpenAI, o 120b cabe num único GPU de 80GB e o 20b roda em 16GB de memória, faixa de placa de consumidor.³ A comunidade adotou o 20b como o default confiável de quem tem uma placa mediana.

DeepSeek-V3.2. O laboratório chinês publicou o paper "Pushing the Frontier of Open Large Language Models" no arXiv em 2 de dezembro de 2025.⁴ A novidade técnica é a DeepSeek Sparse Attention (DSA), um jeito de o modelo prestar atenção só nas partes que importam de um texto longo, em vez de tudo de uma vez, o que barateia o processamento de contexto extenso. O paper afirma que a variante de maior poder de cálculo, a DeepSeek-V3.2-Speciale, supera o GPT-5 em parte das avaliações e teve medalha de ouro na IMO e na IOI de 2025 (as olimpíadas internacionais de matemática e de informática).⁴ É claim do próprio laboratório, então cabe o ceticismo de praxe. Ainda assim, o salto de capacidade num modelo aberto é real.

Qwen (Alibaba). Não é o mais espalhafatoso, e é justamente por isso que venceu como aposta segura. Sob Apache 2.0, multilíngue, com um mar de versões ajustadas pela comunidade, virou o motor por trás da explosão de derivados no Hub.¹ ⁵ Quando uma empresa precisa de algo aberto, comercial e estável, é o nome que aparece.

Gemma 3 (Google). Lançado em 12 de março de 2025 nos tamanhos 1B, 4B, 12B e 27B, com janela de contexto de 128 mil tokens (a memória de trabalho do modelo numa conversa) e suporte a mais de 35 idiomas.⁶ O Google posicionou o Gemma 3 27B como "o melhor modelo de acelerador único do mundo", afirmando que ele atinge Elo 1338 no Chatbot Arena "exigindo só um único GPU enquanto outros precisam de até 32".⁶

Para colocar tudo isso para rodar, dois programas fazem o trabalho pesado na casa de quem usa: o Ollama e o llama.cpp. Eles carregam o modelo, dividem o cálculo entre CPU e placa de vídeo, e (o ponto que importa para o movimento) rodam totalmente offline, em máquina sem internet ("air-gapped"). É o que torna a IA local viável fora do laboratório.⁷

O hardware que destravou tudo

A peça que faltava era memória. Modelo grande precisa caber em memória rápida, e foi aí que 2025 e 2026 mudaram o jogo.

A NVIDIA DGX Spark é o símbolo dessa virada. Anunciada como "Project Digits" na CES 2025, foi às vendas em outubro de 2025 por US$ 3.999.⁸ ⁹ É um computadorzinho de mesa com 128GB de memória unificada (memória compartilhada entre CPU e GPU, sem o teto dos 32GB de uma placa de consumidor) capaz de rodar inferência com modelos de até cerca de 200 bilhões de parâmetros.⁸ ⁹ Por volta de fevereiro de 2026, a NVIDIA teria subido o preço para US$ 4.699, atribuindo o aumento à falta de memória LPDDR5x (dado de fonte secundária, ainda a confirmar).⁹

Aqui entra a parte que separa marketing de realidade. O Spark ganha em capacidade (o modelo grande cabe) e perde em velocidade. O gargalo é a largura de banda da memória, ou seja, quão rápido os dados trafegam de e para o chip. Medições de bancada da comunidade (não-oficiais) relatam o gpt-oss-20b rodando a cerca de 50 tokens por segundo no Spark, contra mais de 200 num RTX 5090.¹⁰ O Spark deixa caber o que uma placa comum não comporta, só que responde mais devagar. Para quem precisa de modelo grande, é uma bênção. Para quem precisa de resposta rápida, talvez não fosse a compra certa.

Do lado da Apple, a aposta é a memória unificada do Apple Silicon mais o MLX, o framework de machine learning da própria Apple. Em pesquisa publicada em 19 de novembro de 2025, a Apple mostrou que os Neural Accelerators do GPU do chip M5 entregam até ~4× de speedup no "time-to-first-token" (o tempo até a primeira palavra da resposta) em comparação com o M4, com ganho de 19% a 27% na geração de tokens seguintes.¹¹ De novo, o teto da velocidade contínua é a largura de banda de memória, o mesmo gargalo do Spark.

Por que "aberto" agora também é um argumento jurídico

Tem uma camada que poucos notam: a regulação europeia começou a premiar a abertura. O EU AI Act criou uma isenção para modelos open-source. Modelos de propósito geral (GPAI) sob licença livre e aberta, com pesos, arquitetura e informação de uso públicos e não monetizados, ficam dispensados de parte das exigências pesadas de documentação e de ter representante na União Europeia.¹² Ainda precisam respeitar copyright e publicar um resumo dos dados de treino, mas o recado é claro: abrir o modelo reduz o fardo regulatório.

Há um limite, porém. Modelos treinados acima de 10²⁵ FLOPs (uma medida do poder de cálculo gasto no treino) são presumidos de "risco sistêmico" e perdem a isenção, e aí todas as obrigações voltam a valer.¹² As regras de GPAI começaram a valer em 2 de agosto de 2025, com prazo até 2 de agosto de 2027 para modelos já no mercado se adequarem.¹²

E há o argumento que move boa parte do movimento, antes de qualquer lei: rodar local significa que o dado não sai da sua máquina. Para defesa, governo, saúde e jurídico, isso transforma conformidade com GDPR, HIPAA e afins em algo que existe por construção, não por promessa de fornecedor.

O que a comunidade diz

No r/LocalLLaMA, o fórum-mãe do assunto, o tom de 2026 é menos deslumbramento e mais engenharia de trade-offs. A conversa gira em torno de qual modelo cabe em quanto de memória, qual quantização, quantos tokens por segundo. O momento de maior empolgação coletiva ainda foi o lançamento do DeepSeek R1, em janeiro de 2025, celebrado como "qualidade de raciocínio competindo com modelos muito maiores". (O que segue é opinião agregada da comunidade, não fato verificado por nós.)

O consenso tem três pilares. A memória unificada mudou o jogo ("não é mais questão de GPU, é de arquitetura de memória"). O Qwen virou o pick seguro para uso comercial. E o "newer is almost always better" virou quase mantra: o ritmo de releases é tão rápido que o melhor de seis meses atrás já é mediano.

Onde racha: vale a pena rodar local? Um lado defende privacidade e contas de API que só sobem. O cético rebate que "você comprou um Spark de US$ 4 mil para rodar mais devagar que uma API que custa centavos", e que local só fecha conta em volume alto, uso sensível ou hobby. O segundo racha é o próprio Spark: "Apple moment da NVIDIA" para uns, "decepção de banda" para os céticos do fórum, que resumem com a frase mais repetida, a de que o Spark resolve o problema errado para a maioria. Quem precisava de velocidade deveria ter comprado um 5090. Há ainda um desconforto de fundo, sem consenso, sobre rodar pesos de origem chinesa em ambiente corporativo.

Veredito

2026 é o ano em que IA local deixou de ser hobby e virou infraestrutura para valer, para quem se encaixa nos casos certos. Se o seu motivo é privacidade, soberania de dados, operação offline ou volume alto e previsível, o estado da arte aberto (gpt-oss, Qwen, DeepSeek, Gemma) hoje entrega qualidade que há um ano era impensável fora da nuvem, e o hardware de 128GB finalmente deixa o modelo grande caber na mesa.

Mas vá com a expectativa calibrada. A velocidade em casa ainda esbarra na largura de banda de memória, e nenhuma máquina de US$ 4 mil muda isso por decreto: ela compra capacidade, não necessariamente rapidez. E a maior parte dos 2 milhões de modelos do Hub é ruído. Na prática, você vai viver dentro de meia dúzia de nomes. O movimento é real e o teto subiu muito. Só não confunda "cabe na minha máquina" com "roda na velocidade da nuvem", porque ainda não é a mesma coisa.

Fontes

State of Open Source on Hugging Face: Spring 2026 · Hugging Face · https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026 · 17 mar 2026
Introducing gpt-oss · OpenAI · https://openai.com/index/introducing-gpt-oss/ · 5 ago 2025
gpt-oss (repositório oficial) · OpenAI / GitHub · https://github.com/openai/gpt-oss · 2025
DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models · DeepSeek-AI / arXiv · https://arxiv.org/abs/2512.02556 · 2 dez 2025 · arXiv:2512.02556
Qwen (overview / model cards) · Alibaba Qwen Team / GitHub · https://github.com/QwenLM · 2025–2026
Gemma 3: Google's new open model based on Gemini 2.0 · Google · https://blog.google/innovation-and-ai/technology/developers-tools/gemma-3/ · 12 mar 2025
Local AI Runtime Update: Ollama, vLLM, llama.cpp, MLX, LM Studio · Codersera · https://codersera.com/blog/local-ai-runtimes-may-2026-update/ · 2026 (descrição de capacidade dos runtimes; versões a verificar no GitHub oficial)
NVIDIA starts selling its $3,999 DGX Spark AI developer PC · Engadget · https://www.engadget.com/ai/nvidia-starts-selling-its-3999-dgx-spark-ai-developer-pc-120034479.html · 14 out 2025
NVIDIA DGX Spark — produto oficial · NVIDIA · https://www.nvidia.com/en-us/products/workstations/dgx-spark/ · 2025/2026 (aumento de preço para US$ 4.699 reportado por Constellation Research, secundário, a confirmar)
(comunidade/bancada — NÃO oficial) tokens/s do DGX Spark vs RTX 5090 · Fórum NVIDIA Developer (DGX Spark / GB10) · https://forums.developer.nvidia.com/c/accelerated-computing/dgx-spark-gb10/ · 2025/2026
Exploring LLMs with MLX and the Neural Accelerators in the M5 GPU · Apple Machine Learning Research · https://machinelearning.apple.com/research/exploring-llms-mlx-m5 · 19 nov 2025
What Open-Source Developers Need to Know about the EU AI Act's Rules for GPAI Models · Hugging Face · https://huggingface.co/blog/yjernite/eu-act-os-guideai · 4 ago 2025

Leitura de comunidade (opinião, não fato): r/LocalLLaMA (sentimento agregado) · Fórum NVIDIA Developer — DGX Spark / GB10. Contagens de upvote e tokens/s de bancada são impressões de comunidade, não medições oficiais.

Por Redação · Acta Verum