aMistral, GLM e MiniMax: Os Modelos que Ninguem Espeava

O cenário de LLMs open source em 2025-2026 não é apenas Meta, DeepSeek e Alibaba. Há uma segunda camada de players que vem entregando resultados fora do radar — e que em alguns benchmarks superam até os favoritos.

Mistral AI da França, GLM da Tsinghua University na China, e MiniMax são três casos que merecem atenção de quem acompanha o campo seriamente.

Mistral: Eficiência Francesa com Licença Aberta

A Mistral AI construiu sua reputação na combinação de dois elementos: modelos compactos e altamente eficientes + licença Apache 2.0 — a mais permissiva para uso comercial.

O modelo de referência da linha é o Mixtral 8x22B — 141 bilhões de parâmetros totais, com arquitetura Mixture of Experts de 8 especialistas, ativando apenas 2 por token (~39B ativos). Isso entrega escala de parâmetros com custo de inferência reduzido.

Em benchmarks, o Mixtral 8x22B alcança 77,8% no MMLU e 41,8% no HumanEval (codificação), posicionando-se como um modelo generalista sólido — não o melhor em nenhuma categoria, mas competitivo em todas.

O diferencial da Mistral não está no topo dos benchmarks. Está na viabilidade prática:

Apache 2.0: uso comercial irrestrito, sem as restrições da Meta Community License
Tamanho gerenciável: roda em infraestrutura de médio porte sem otimizações complexas
Fine-tuning documentado: ecossistema maduro para customização

Para empresas que precisam de um modelo base para fine-tuning proprietário — sem restrições de licença — o Mixtral 8x22B continua sendo uma das escolhas mais seguras juridicamente.

GLM-4.7 e GLM-5: O Projeto da Tsinghua

O GLM (General Language Model) é desenvolvido pela Z.ai (anteriormente Zhipu AI), empresa nascida como spinoff da Tsinghua University em 2019 e hoje operando de forma independente, avaliada em aproximadamente US$ 3-4 bilhões. Os resultados recentes chamaram atenção.

O GLM-4.7 alcança:

AIME 2025 (matemática olimpíada): 95,7% — um dos maiores scores registrados
GPQA Diamond (raciocínio científico): 85,7%
LiveCodeBench (codificação real): 84,9%
IFEval (seguimento de instruções): 88,0%
Contexto: 200K tokens

Esses números colocam o GLM-4.7 no topo do leaderboard open source em múltiplas categorias — competindo diretamente com modelos muito maiores.

O GLM-5, sucessor maior, alcançou 1451 pontos no Chatbot Arena — a maior pontuação já registrada por um modelo open source nessa plataforma de preferência humana.

MiniMax M2.5: O Especialista em Engenharia de Software

O MiniMax M2.5 tem um número que nenhum outro modelo no leaderboard conseguiu igualar: 80,2% no SWE-bench Verified — o benchmark que mede a capacidade de resolver problemas reais do GitHub.

Para quem não conhece o SWE-bench: ele submete ao modelo issues reais de repositórios open source, avalia se o modelo consegue escrever um patch que passe nos testes automatizados. É o benchmark mais próximo de trabalho de engenharia real.

Nenhum modelo open source chegou a esse nível antes. Isso coloca o MiniMax M2.5 como a escolha mais forte para agentes de desenvolvimento de software autônomos.

O que Esses Modelos Têm em Comum

Os três — Mistral, GLM e MiniMax — representam um fenômeno importante: a descentralização da fronteira em IA.

A fronteira não está mais concentrada em quatro ou cinco laboratórios americanos. Está distribuída entre Tsinghua, Paris, Shanghai, e dezenas de outros centros de pesquisa que trabalham em silêncio e lançam resultados que surpreendem o mercado.

Para datacenters e times de plataforma, isso significa que a avaliação de modelos precisa ir além dos grandes nomes. GLM-4.7 com 95,7% no AIME não estava no radar de quase ninguém há dois anos.

Conclusão

Mistral, GLM e MiniMax provam que a corrida pelo melhor LLM open source é mais competitiva do que os rankings de popularidade sugerem.

Seguir apenas os modelos com mais estrelas no GitHub é perder resultados que, em casos específicos, são os melhores disponíveis em qualquer categoria — aberta ou fechada.