O SWEN.AI roda benchmarks próprios?

Sim. Além de agregar dados de fontes especializadas (LMArena, LiveBench, Artificial Analysis), o SWEN.AI mantém um benchmark proprietário em português brasileiro com tarefas aderentes ao mercado local (ENEM, OAB, SAC). Os resultados estão disponíveis em /benchmark/ptbr.

Os dados são em tempo real?

O Intelligence Index e benchmarks são sincronizados automaticamente a cada 6 horas via Artificial Analysis API. Novos modelos são importados automaticamente na mesma janela. Preços e especificações técnicas (context window, suporte a visão) são enriquecidos semanalmente via sync-model-metadata.

Posso usar os dados do SWEN.AI?

Sim. Os dados são agregados de fontes públicas e atribuídos devidamente. Para uso comercial ou integração via API, entre em contato. Planejamos disponibilizar uma API pública em breve.

Metodologia do Benchmark de IA

Q: Como reportar dados incorretos?

Se você encontrar dados desatualizados ou incorretos, envie um email para contato@swen.ia.br com o modelo e a correção sugerida. Verificamos e atualizamos em até 24 horas.

Transparência é fundamental. Esta página documenta como o SWEN.AI coleta, processa e apresenta dados de benchmark de modelos de inteligência artificial. Nossas fontes são públicas, nosso processo é automatizado e nossos dados são atualizados diariamente.

Princípios

Independência

O SWEN.AI não tem relação comercial com nenhum provedor de IA. Não recebemos pagamento para posicionar modelos. Os rankings refletem exclusivamente os dados das fontes listadas abaixo.

Transparência

Todas as fontes de dados são públicas e linkadas. Nosso código de sincronização é documentado. Qualquer pessoa pode verificar os dados nas fontes originais.

Atualização

Intelligence Index e benchmarks sincronizados automaticamente a cada 6 horas via Artificial Analysis. Novos modelos importados na mesma janela. Preços e especificações técnicas enriquecidos semanalmente.

De onde vêm os dados de benchmark?

O SWEN.AI agrega dados de 4 fontes especializadas, cada uma contribuindo com dimensões diferentes de avaliação:

1. LMArena (Chatbot Arena) — ELO Score

URL: lmarena.ai
O que coletamos: Score ELO por modelo, ranking, contagem de votos
Frequência: Diária
Metodologia da fonte: O LMArena (anteriormente LMSYS Chatbot Arena) opera uma plataforma de votação humana onde usuários comparam respostas anônimas de dois modelos e escolhem o melhor. O sistema ELO, análogo ao ranking de xadrez, calcula uma classificação relativa baseada em milhões de votos cumulativos. É amplamente considerado o benchmark mais confiável da indústria porque reflete preferência humana real, não métricas sintéticas.

2. Artificial Analysis — Intelligence Index + Benchmarks Detalhados

URL: artificialanalysis.ai
O que coletamos: Intelligence Index (score composto 0-100), Coding Index, Math Index, MMLU Pro, GPQA Diamond, MATH-500, AIME 2025, LiveCodeBench, SWE Bench Verified, velocidade (tokens/s), latência (TTFT)
Frequência: Diária via API v2
Metodologia da fonte: O Intelligence Index combina 10 avaliações diferentes em um score composto. Artificial Analysis roda cada modelo contra datasets de avaliação padronizados e mede tanto qualidade (accuracy) quanto performance (velocidade, latência). Os dados de speed e latency são medidos em infraestrutura própria com condições controladas.

3. LiveBench — Benchmarks Resistentes a Contaminação

URL: livebench.ai
O que coletamos: Global Average, Reasoning, Coding, Math, Data Analysis, Language scores (0-100)
Frequência: Diária
Metodologia da fonte: LiveBench é um benchmark auto-atualizável que gera novas questões periodicamente, reduzindo o risco de contaminação (quando modelos memorizam respostas do dataset de treino). As questões são categorias em 6 dimensões e avaliadas automaticamente contra gabaritos verificados.

4. OpenRouter — Preços, Especificações e Disponibilidade

URL: openrouter.ai
O que coletamos: Preço por milhão de tokens (input/output), context window, max output tokens, modalidades suportadas (texto, imagem, áudio, vídeo), suporte a tool calling, capacidade de reasoning, descrição do modelo
Frequência: Semanal via API pública (sem autenticação)
Metodologia da fonte: OpenRouter é um agregador de APIs de IA que oferece acesso unificado a 300+ modelos. Os dados de preços refletem os valores praticados pelos provedores originais (OpenAI, Anthropic, Google, etc.) com markup do OpenRouter. Os preços no SWEN.AI são os valores reportados pelo OpenRouter, não os preços diretos dos provedores.

Com que frequência os dados são atualizados?

Sincronização automática: Edge functions (Supabase) executam diariamente, coletando dados das 4 fontes via APIs e web scraping controlado.
Matching de modelos: Um algoritmo de fuzzy matching com 5 níveis de precisão (match exato, normalizado, parcial, alfanumérico, base) mapeia nomes de modelos entre fontes diferentes (ex.: “claude-opus-4-6” ↔ “Anthropic: Claude Opus 4.6”).
Deduplicação: Benchmarks duplicados (mesmo modelo, mesmo benchmark) são resolvidos mantendo o score mais recente.
Validação: Scores fora de faixa esperada (ELO < 800 ou > 2000, Intelligence Index < 0 ou > 100) são descartados automaticamente.
Publicação: Os dados validados são disponibilizados no site via ISR (Incremental Static Regeneration) com cache de 1 hora.

Quais são as limitações dos dados?

Benchmark proprietário em PT/BR disponível. Além de agregar scores de terceiros, o SWEN.AI mantém um benchmark proprietário em português brasileiro. Veja os resultados em /benchmark/ptbr.
Benchmarks em inglês. A maioria dos benchmarks testa modelos apenas em inglês. Performance em português pode variar significativamente e não é capturada nos scores apresentados.
Preços aproximados. Os preços vêm do OpenRouter e podem diferir dos preços diretos dos provedores. Preços em BRL são estimativas com câmbio e IOF (6,38%).
Velocidade e latência variáveis. Métricas de performance dependem da infraestrutura, região, horário e carga. Os valores reportados são médias sob condições controladas.
Conflito potencial. O SWEN.AI não tem conflito de interesse com provedores de IA. Se no futuro houver qualquer relação comercial, será declarada explicitamente nesta página.

O Benchmark Proprietário PT-BR do SWEN.AI

Além de agregar benchmarks internacionais, o SWEN.AI mantém um conjunto de tarefas proprietárias em português brasileiro — o único benchmark público focado no mercado local. As tarefas avaliam conhecimento contextual do Brasil, fluência e precisão em português formal e informal.

Exemplos de perguntas usadas no benchmark PT-BR:

ENEM — Redação

"Disserte sobre os impactos sociais do uso de inteligência artificial no mercado de trabalho brasileiro, propondo intervenção social que respeite os direitos humanos."

Critério: Avalia estrutura dissertativo-argumentativa, repertório sociocultural e proposta de intervenção — critérios reais da banca do ENEM.

OAB — Direito Digital

"Seu cliente teve dados pessoais expostos por vazamento de empresa de e-commerce. Quais são os fundamentos legais para responsabilização com base na LGPD e no Código Civil?"

Critério: Avalia precisão jurídica, citação correta da LGPD (Lei 13.709/2018) e aplicação ao caso concreto. Respostas vagas ou com fundamentação errada são penalizadas.

SAC — Atendimento em Português

"Meu boleto venceu ontem mas ainda não consigo gerar a segunda via no site. O que devo fazer?"

Critério: Avalia naturalidade do português brasileiro coloquial, clareza da instrução e empatia — sem jargões técnicos. Modelos treinados majoritariamente em inglês costumam usar expressões estrangeiras ou formais em excesso.

Os resultados completos do benchmark PT-BR estão disponíveis em /benchmark/ptbr.

Como reportar dados incorretos?

Se você encontrar dados incorretos, desatualizados ou tiver sugestões para melhorar nossa metodologia, entre em contato:

Email: contato@swen.ia.br
Instagram: @swen.ia.br
X/Twitter: @SwenAIBR

Correções verificadas são aplicadas em até 24 horas. Agradecemos especialmente contribuições de pesquisadores, desenvolvedores e profissionais do mercado brasileiro de IA.

Metodologia SWEN.AIComo Avaliamos Modelos de IA

Princípios

Independência

Transparência

Atualização

De onde vêm os dados de benchmark?

1. LMArena (Chatbot Arena) — ELO Score

2. Artificial Analysis — Intelligence Index + Benchmarks Detalhados

3. LiveBench — Benchmarks Resistentes a Contaminação

4. OpenRouter — Preços, Especificações e Disponibilidade

Com que frequência os dados são atualizados?

Quais são as limitações dos dados?

O Benchmark Proprietário PT-BR do SWEN.AI

Como reportar dados incorretos?

Perguntas Frequentes

O SWEN.AI roda benchmarks próprios?

Os dados são em tempo real?

Posso usar os dados do SWEN.AI?

Como reportar dados incorretos?