O que é um "MoE" e por que todo modelo novo de IA virou um

Mixture of experts virou o padrão de fato em 2025. A ideia é antiga, a economia é nova, e tem um mal-entendido sobre VRAM que confunde até quem acompanha de perto. Bora destrinchar.

Se você leu qualquer anúncio de modelo grande no último ano, esbarrou na sigla: Mixtral, DeepSeek-V3, Llama 4, Qwen3, e até o gpt-oss da própria OpenAI. Todos são MoE, mixture of experts, ou mistura de especialistas. De repente parou de ser detalhe de arquitetura e virou a forma padrão de construir um modelo de fronteira. A pergunta natural: o que mudou pra todo mundo fazer a mesma escolha ao mesmo tempo? E, mais útil pra quem roda esses modelos, isso te deixa a vida mais fácil ou mais cara?

A resposta curta: MoE não te dá um modelo melhor de graça. Te dá um modelo grande pelo custo de compute de um modelo pequeno, e a conta vem em memória. Quem entende esse trade-off entende a tendência inteira.

A ideia, em linguagem de gente

Pensa num transformer comum, o tipo de rede que está por baixo de quase todo modelo de linguagem, como uma fábrica onde toda peça passa por todas as estações de trabalho. Cada token que entra, cada pedacinho de texto, é processado por todos os parâmetros do modelo. É o chamado modelo denso (dense): potente, mas caro, porque você sempre liga a fábrica inteira.

O MoE rearranja a linha de produção. A camada que faz o trabalho pesado, a feed-forward, é dividida em vários sub-times paralelos, os "experts". E entra uma peça nova, uma rede de roteamento pequena (o router ou gating) que, pra cada token, escolhe só um punhado de experts pra fazer o serviço. Os outros ficam parados naquele passo. É o chamado modelo esparso (sparse).

Daí vem a distinção que resolve metade da confusão sobre o tema:

Parâmetros totais é o tamanho do modelo no disco e na VRAM, a memória da própria placa de vídeo. Todos os experts precisam estar carregados, mesmo os que ficam parados.
Parâmetros ativos é quanto de fato é computado por token. É isso que determina velocidade e custo de processar.

O Mixtral 8x7B, da francesa Mistral, é o exemplo didático: 8 experts, o router escolhe 2 por token em cada camada. Total de 46,7 bilhões de parâmetros, mas só 12,9 bilhões ativos.¹ A frase da própria Mistral resume a mágica: ele "processa entrada e gera saída na mesma velocidade e custo de um modelo de 12,9B", embora carregue o peso de um modelo bem maior.

E não é ideia nova. A mistura de especialistas foi descrita num paper de 1991, assinado por gente como Geoffrey Hinton.² O que faltava era a versão moderna e esparsa. Ela chegou em 2017, num trabalho do Google que mostrou ganho de mais de 1.000x em capacidade do modelo com custo de compute quase igual.³ Em 2021, o Switch Transformer simplificou o roteamento pra um único expert por token e escalou pra um trilhão de parâmetros.⁴ A teoria estava pronta havia anos. Faltava o mercado precisar dela.

Por que 2025 foi o ano da virada

A virada não foi acadêmica, foi de conta bancária. MoE entrega mais capacidade por dólar gasto em inferência, e a linha do tempo recente conta a história em ordem.

O Mixtral (dezembro de 2023) abriu o caminho no mundo aberto: licença Apache 2.0, batendo o Llama 2 70B na maioria dos benchmarks com inferência cerca de 6x mais rápida, segundo a Mistral.¹ Um ano depois, o DeepSeek-V3 (dezembro de 2024) provou o conceito em escala de fronteira: 671 bilhões de parâmetros totais, só 37 bilhões ativos por token.⁵ Foi o modelo que mostrou que dava pra competir com os gigantes fechados gastando uma fração do compute.

Aqui cabe um aviso de quem mostra a fonte. Aquele número famoso de ~US$ 5,6 milhões de "custo de treino" do DeepSeek-V3 não aparece no paper como custo: é uma estimativa derivada das horas de GPU, e cobre só o treino final, não a pesquisa, as tentativas que falharam, nem o hardware.⁵ É um número real, só que bem mais estreito do que a manchete sugeria.

De 2025 em diante, virou regra da casa. A Meta botou toda a família Llama 4 em MoE, uma guinada e tanto pra quem fazia modelos densos no Llama 2 e 3: o Scout tem 17B ativos e 109B totais com 16 experts; o Maverick, 17B ativos e 400B totais com 128 experts roteados.⁶ O Qwen3 da Alibaba lançou o flagship 235B-A22B (235 bilhões totais, 22 ativos).⁷ E o golpe simbólico veio da OpenAI, que soltou seus primeiros modelos de peso aberto desde o GPT-2, o gpt-oss-120b e o 20b, ambos MoE: o de 120B ativa só 5,1 bilhões de parâmetros por token e cabe num único GPU de 80 GB.⁸ Quando até a OpenAI no aberto escolhe esparso, deixou de ser tendência e virou consenso de engenharia.

O que a comunidade diz

O sentimento na comunidade local, em especial no r/LocalLLaMA, é pragmático com uma veia cética. MoE não gera hype de "AGI chegando". Gera discussão de bancada: "isso roda na minha máquina ou não?". O entusiasmo vem de que MoE democratiza rodar modelos grandes localmente (qualidade de modelo grande pagando compute de modelo pequeno), e os relatos de usuário falam em dezenas a mais de uma centena de tokens por segundo num MoE pequeno rodando em GPU de consumidor (números de usuário, não testados por nós).

Mas é aí que mora a reclamação número um, e o mal-entendido que vale desfazer: MoE devora VRAM. Como todos os experts precisam estar na memória mesmo parados, um modelo "de 3B ativos" não ocupa memória de 3B, ocupa o total. Por isso a pergunta mais repetida em toda thread de lançamento é "denso ou MoE, qual rodar?". A leitura recorrente do r/LocalLLaMA é escolher pelo seu gargalo: se o que te limita é capacidade de VRAM, um denso menor é melhor (carrega fácil, roda devagar); se o que te limita é velocidade, o MoE ganha (carrega pesado, roda rápido).

E tem o contraponto que esfriou o automatismo "virou MoE, logo é melhor": o Llama 4. O tom virou de empolgação de dia de lançamento pra decepção, com a leitura de que os modelos "vão bem no benchmark e mal na vida real". O episódio que pegou mal foi uma build chamada "experimental" liderar o ranking do LMArena enquanto o checkpoint público despencava pra perto do 32º lugar, lido pela comunidade como manipulação de benchmark, mesmo com a Meta negando ter feito "gaming".

Veredito

MoE virou padrão porque resolve um problema concreto e específico: serve modelos enormes sem pagar o compute de modelos enormes. É uma vitória de economia de inferência, e por isso quem opera os modelos em escala aderiu primeiro. Mas não é mágica grátis. Ele é mais eficiente que um denso de mesmo total de parâmetros, e menos eficiente que um denso de mesmo número de ativos, e te cobra a conta toda em memória. Pra quem roda local, a regra prática que a comunidade já cristalizou continua valendo: escolha pelo seu gargalo, não pela sigla da moda. E lembre do Llama 4 toda vez que um anúncio prometer que virar esparso, sozinho, faz um modelo bom.

Fontes

"Mixtral of experts" · Mistral AI · 11/dez/2023 · https://mistral.ai/news/mixtral-of-experts/ (paper: arXiv:2401.04088)
"Adaptive Mixtures of Local Experts" · Jacobs, Jordan, Nowlan, Hinton · Neural Computation 3(1):79–87 · março/1991 · DOI: 10.1162/neco.1991.3.1.79
"Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer" · Shazeer et al. (Google) · arXiv:1701.06538 · 23/jan/2017 · https://arxiv.org/abs/1701.06538
"Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity" · Fedus, Zoph, Shazeer (Google) · arXiv:2101.03961 · 2021 · https://arxiv.org/abs/2101.03961
"DeepSeek-V3 Technical Report" · DeepSeek-AI · arXiv:2412.19437 · dez/2024 · https://arxiv.org/abs/2412.19437
"The Llama 4 herd" · Meta AI · 05/abr/2025 · https://ai.meta.com/blog/llama-4-multimodal-intelligence/
"Qwen3 Technical Report" · Qwen Team, Alibaba Cloud · arXiv:2505.09388 · 29/abr/2025 · https://arxiv.org/abs/2505.09388
"gpt-oss-120b & gpt-oss-20b Model Card" · OpenAI · 05/ago/2025 · arXiv:2508.10925 · https://openai.com/index/introducing-gpt-oss/

Sentimento da comunidade (r/LocalLLaMA e discussões técnicas agregadas) tratado como opinião, não fato. Velocidades de tokens/s citadas são relatos de usuário, não medição nossa.