
aMistral, GLM e MiniMax: Os Modelos que Ninguem Espeava
@nascimentoab
Posted 3d ago · 4 min read
O cenário de LLMs open source em 2025-2026 não é apenas Meta, DeepSeek e Alibaba. Há uma segunda camada de players que vem entregando resultados fora do radar — e que em alguns benchmarks superam até os favoritos.
Mistral AI da França, GLM da Tsinghua University na China, e MiniMax são três casos que merecem atenção de quem acompanha o campo seriamente.
Mistral: Eficiência Francesa com Licença Aberta
A Mistral AI construiu sua reputação na combinação de dois elementos: modelos compactos e altamente eficientes + licença Apache 2.0 — a mais permissiva para uso comercial.
O modelo de referência da linha é o Mixtral 8x22B — 141 bilhões de parâmetros totais, com arquitetura Mixture of Experts de 8 especialistas, ativando apenas 2 por token (~39B ativos). Isso entrega escala de parâmetros com custo de inferência reduzido.
Em benchmarks, o Mixtral 8x22B alcança 77,8% no MMLU e 41,8% no HumanEval (codificação), posicionando-se como um modelo generalista sólido — não o melhor em nenhuma categoria, mas competitivo em todas.
O diferencial da Mistral não está no topo dos benchmarks. Está na viabilidade prática:
Apache 2.0: uso comercial irrestrito, sem as restrições da Meta Community License
Tamanho gerenciável: roda em infraestrutura de médio porte sem otimizações complexas
Fine-tuning documentado: ecossistema maduro para customização
Para empresas que precisam de um modelo base para fine-tuning proprietário — sem restrições de licença — o Mixtral 8x22B continua sendo uma das escolhas mais seguras juridicamente.
GLM-4.7 e GLM-5: O Projeto da Tsinghua
O GLM (General Language Model) é desenvolvido pela Z.ai (anteriormente Zhipu AI), empresa nascida como spinoff da Tsinghua University em 2019 e hoje operando de forma independente, avaliada em aproximadamente US$ 3-4 bilhões. Os resultados recentes chamaram atenção.
O GLM-4.7 alcança:
AIME 2025 (matemática olimpíada): 95,7% — um dos maiores scores registrados
GPQA Diamond (raciocínio científico): 85,7%
LiveCodeBench (codificação real): 84,9%
IFEval (seguimento de instruções): 88,0%
Contexto: 200K tokens
Esses números colocam o GLM-4.7 no topo do leaderboard open source em múltiplas categorias — competindo diretamente com modelos muito maiores.
O GLM-5, sucessor maior, alcançou 1451 pontos no Chatbot Arena — a maior pontuação já registrada por um modelo open source nessa plataforma de preferência humana.
MiniMax M2.5: O Especialista em Engenharia de Software
O MiniMax M2.5 tem um número que nenhum outro modelo no leaderboard conseguiu igualar: 80,2% no SWE-bench Verified — o benchmark que mede a capacidade de resolver problemas reais do GitHub.
Para quem não conhece o SWE-bench: ele submete ao modelo issues reais de repositórios open source, avalia se o modelo consegue escrever um patch que passe nos testes automatizados. É o benchmark mais próximo de trabalho de engenharia real.
Nenhum modelo open source chegou a esse nível antes. Isso coloca o MiniMax M2.5 como a escolha mais forte para agentes de desenvolvimento de software autônomos.
O que Esses Modelos Têm em Comum
Os três — Mistral, GLM e MiniMax — representam um fenômeno importante: a descentralização da fronteira em IA.
A fronteira não está mais concentrada em quatro ou cinco laboratórios americanos. Está distribuída entre Tsinghua, Paris, Shanghai, e dezenas de outros centros de pesquisa que trabalham em silêncio e lançam resultados que surpreendem o mercado.
Para datacenters e times de plataforma, isso significa que a avaliação de modelos precisa ir além dos grandes nomes. GLM-4.7 com 95,7% no AIME não estava no radar de quase ninguém há dois anos.
Conclusão
Mistral, GLM e MiniMax provam que a corrida pelo melhor LLM open source é mais competitiva do que os rankings de popularidade sugerem.
Seguir apenas os modelos com mais estrelas no GitHub é perder resultados que, em casos específicos, são os melhores disponíveis em qualquer categoria — aberta ou fechada.