Transparência é fundamental. Esta página documenta como o SWEN.AI coleta, processa e apresenta dados de benchmark de modelos de inteligência artificial. Nossas fontes são públicas, nosso processo é automatizado e nossos dados são atualizados diariamente.
Por Luis Fernando Roquette • Última revisão: 29 de maio de 2026
O SWEN.AI não tem relação comercial com nenhum provedor de IA. Não recebemos pagamento para posicionar modelos. Os rankings refletem exclusivamente os dados das fontes listadas abaixo.
Todas as fontes de dados são públicas e linkadas. Nosso código de sincronização é documentado. Qualquer pessoa pode verificar os dados nas fontes originais.
Intelligence Index e benchmarks sincronizados automaticamente a cada 6 horas via Artificial Analysis. Novos modelos importados na mesma janela. Preços e especificações técnicas enriquecidos semanalmente.
O SWEN.AI agrega dados de 4 fontes especializadas, cada uma contribuindo com dimensões diferentes de avaliação:
URL: lmarena.ai
O que coletamos: Score ELO por modelo, ranking, contagem de votos
Frequência: Diária
Metodologia da fonte: O LMArena (anteriormente LMSYS Chatbot Arena) opera uma plataforma de votação humana onde usuários comparam respostas anônimas de dois modelos e escolhem o melhor. O sistema ELO, análogo ao ranking de xadrez, calcula uma classificação relativa baseada em milhões de votos cumulativos. É amplamente considerado o benchmark mais confiável da indústria porque reflete preferência humana real, não métricas sintéticas.
URL: artificialanalysis.ai
O que coletamos: Intelligence Index (score composto 0-100), Coding Index, Math Index, MMLU Pro, GPQA Diamond, MATH-500, AIME 2025, LiveCodeBench, SWE Bench Verified, velocidade (tokens/s), latência (TTFT)
Frequência: Diária via API v2
Metodologia da fonte: O Intelligence Index combina 10 avaliações diferentes em um score composto. Artificial Analysis roda cada modelo contra datasets de avaliação padronizados e mede tanto qualidade (accuracy) quanto performance (velocidade, latência). Os dados de speed e latency são medidos em infraestrutura própria com condições controladas.
URL: livebench.ai
O que coletamos: Global Average, Reasoning, Coding, Math, Data Analysis, Language scores (0-100)
Frequência: Diária
Metodologia da fonte: LiveBench é um benchmark auto-atualizável que gera novas questões periodicamente, reduzindo o risco de contaminação (quando modelos memorizam respostas do dataset de treino). As questões são categorias em 6 dimensões e avaliadas automaticamente contra gabaritos verificados.
URL: openrouter.ai
O que coletamos: Preço por milhão de tokens (input/output), context window, max output tokens, modalidades suportadas (texto, imagem, áudio, vídeo), suporte a tool calling, capacidade de reasoning, descrição do modelo
Frequência: Semanal via API pública (sem autenticação)
Metodologia da fonte: OpenRouter é um agregador de APIs de IA que oferece acesso unificado a 300+ modelos. Os dados de preços refletem os valores praticados pelos provedores originais (OpenAI, Anthropic, Google, etc.) com markup do OpenRouter. Os preços no SWEN.AI são os valores reportados pelo OpenRouter, não os preços diretos dos provedores.
Além de agregar benchmarks internacionais, o SWEN.AI mantém um conjunto de tarefas proprietárias em português brasileiro — o único benchmark público focado no mercado local. As tarefas avaliam conhecimento contextual do Brasil, fluência e precisão em português formal e informal.
Exemplos de perguntas usadas no benchmark PT-BR:
"Disserte sobre os impactos sociais do uso de inteligência artificial no mercado de trabalho brasileiro, propondo intervenção social que respeite os direitos humanos."
Critério: Avalia estrutura dissertativo-argumentativa, repertório sociocultural e proposta de intervenção — critérios reais da banca do ENEM.
"Seu cliente teve dados pessoais expostos por vazamento de empresa de e-commerce. Quais são os fundamentos legais para responsabilização com base na LGPD e no Código Civil?"
Critério: Avalia precisão jurídica, citação correta da LGPD (Lei 13.709/2018) e aplicação ao caso concreto. Respostas vagas ou com fundamentação errada são penalizadas.
"Meu boleto venceu ontem mas ainda não consigo gerar a segunda via no site. O que devo fazer?"
Critério: Avalia naturalidade do português brasileiro coloquial, clareza da instrução e empatia — sem jargões técnicos. Modelos treinados majoritariamente em inglês costumam usar expressões estrangeiras ou formais em excesso.
Os resultados completos do benchmark PT-BR estão disponíveis em /benchmark/ptbr.
Se você encontrar dados incorretos, desatualizados ou tiver sugestões para melhorar nossa metodologia, entre em contato:
Correções verificadas são aplicadas em até 24 horas. Agradecemos especialmente contribuições de pesquisadores, desenvolvedores e profissionais do mercado brasileiro de IA.
Sim. Além de agregar dados de fontes especializadas (LMArena, LiveBench, Artificial Analysis), o SWEN.AI mantém um benchmark proprietário em português brasileiro com tarefas aderentes ao mercado local (ENEM, OAB, SAC). Os resultados estão disponíveis em /benchmark/ptbr.
O Intelligence Index e benchmarks são sincronizados automaticamente a cada 6 horas via Artificial Analysis API. Novos modelos são importados automaticamente na mesma janela. Preços e especificações técnicas (context window, suporte a visão) são enriquecidos semanalmente via sync-model-metadata.
Sim. Os dados são agregados de fontes públicas e atribuídos devidamente. Para uso comercial ou integração via API, entre em contato. Planejamos disponibilizar uma API pública em breve.
Se você encontrar dados desatualizados ou incorretos, envie um email para contato@swen.ia.br com o modelo e a correção sugerida. Verificamos e atualizamos em até 24 horas.