Qual modelo de IA entrega mais inteligência por dólar gasto? Ranking calculado por AA Intelligence Index ÷ preço/1M tokens — modelos com alta qualidade e baixo custo de API ficam no topo. 30 modelos ranqueados.
Fórmula: (AA Intelligence Index × 10) ÷ preço_input/1M tokens. Fonte: Artificial Analysis, atualizado a cada 6h.
30 modelos com AA Intelligence Index e preço disponíveis.
| # | Modelo | Empresa | Score AA | $/1M in | $/1M out | tok/s | Score C/B |
|---|---|---|---|---|---|---|---|
| 1 | Qwen3.5 0.8B (Reasoning) | Alibaba | 10.5 | $$0.01 | $$0.05 | — | 10,500 |
| 2 | Qwen3.5 0.8B (Non-reasoning) | Alibaba | 9.9 | $$0.01 | $$0.05 | 57 | 9,900 |
| 3 | Qwen3.5 4B (Non-reasoning) | Alibaba | 27.1 | $$0.03 | $$0.15 | 194 | 9,033 |
| 4 | Qwen3.5 2B (Reasoning) | Alibaba | 16.3 | $$0.02 | $$0.10 | 328 | 8,150 |
| 5 | Qwen3.5 4B (Reasoning) | Alibaba | 22.6 | $$0.03 | $$0.15 | 160 | 7,533 |
| 6 | GPT-5 Nano | OpenAI | 26.8 | $$0.05 | $$0.40 | 185 | 5,360 |
| 7 | gpt-oss-20b | OpenAI | 24.5 | $$0.05 | $$0.20 | 271 | 4,900 |
| 8 | NVIDIA Nemotron 3 Nano 30B A3B (Reasoning) | NVIDIA | 24.3 | $$0.06 | $$0.22 | 123 | 4,418 |
| 9 | NVIDIA Nemotron Nano 9B V2 (Reasoning) | NVIDIA | 14.8 | $$0.04 | $$0.16 | 123 | 3,700 |
| 10 | LFM2-24B-A2B | LiquidAI | 10.5 | $$0.03 | $$0.12 | 129 | 3,500 |
| 11 | DeepSeek V4 Flash | DeepSeek | 46.5 | $$0.14 | $$0.28 | 106 | 3,321 |
| 12 | Gemma 3n E4B Instruct | 6.4 | $$0.02 | $$0.04 | 55 | 3,200 | |
| 13 | Amazon: Nova Micro 1.0 | Amazon | 10.3 | $$0.04 | $$0.14 | — | 2,943 |
| 14 | Nova Micro | Amazon | 10.3 | $$0.04 | $$0.14 | 327 | 2,943 |
| 15 | Nemotron 3 Nano Omni 30B A3B Reasoning | NVIDIA | 21.4 | $$0.07 | $$0.30 | 286 | 2,853 |
| 16 | Gemma 4 31B | 39.2 | $$0.14 | $$0.40 | 18 | 2,800 | |
| 17 | GPT-5 nano (minimal) | OpenAI | 13.8 | $$0.05 | $$0.40 | 182 | 2,760 |
| 18 | NVIDIA Nemotron 3 Nano 30B A3B (Non-reasoning) | NVIDIA | 13.2 | $$0.05 | $$0.20 | 62 | 2,640 |
| 19 | NVIDIA Nemotron Nano 9B V2 (Non-reasoning) | NVIDIA | 13.2 | $$0.05 | $$0.20 | 149 | 2,640 |
| 20 | Ling 2.6 Flash | Inclusion AI | 26.2 | $$0.10 | $$0.30 | — | 2,620 |
| 21 | Qwen3.5 Omni Flash | Alibaba | 25.9 | $$0.10 | $$0.80 | 254 | 2,590 |
| 22 | Granite 4.1 8B | IBM | 12.4 | $$0.05 | $$0.10 | 114 | 2,480 |
| 23 | Gemma 4 26B A4B | 31.2 | $$0.13 | $$0.40 | 74 | 2,400 | |
| 24 | Granite 3.3 8B (Non-reasoning) | IBM | 7.0 | $$0.03 | $$0.25 | 405 | 2,333 |
| 25 | gpt-oss-120b | OpenAI | 33.3 | $$0.15 | $$0.60 | 356 | 2,220 |
| 26 | GPT-5.4 Nano | OpenAI | 44.0 | $$0.20 | $$1.25 | 164 | 2,200 |
| 27 | Gemini 2.5 Flash-Lite Preview (Sep '25) (Reasoning) | 21.6 | $$0.10 | $$0.40 | — | 2,160 | |
| 28 | Amazon: Nova Lite 1.0 | Amazon | 12.7 | $$0.06 | $$0.24 | 204 | 2,117 |
| 29 | Nova Lite | Amazon | 12.7 | $$0.06 | $$0.24 | 201 | 2,117 |
| 30 | Mistral: Mistral Small 3.2 24B | Mistral AI | 15.1 | $$0.07 | $$0.20 | — | 2,013 |
Score C/B = (AA Intelligence Index × 10) ÷ preço_input/1M. Maior = melhor custo-benefício.Ver metodologia →
O ranking de custo-benefício não é um substituto para o ranking de qualidade absoluta. Um modelo no topo desta lista não é necessariamente “melhor” — é o que entrega mais qualidade relativa ao seu custo. Para projetos onde a qualidade máxima é crítica (diagnóstico médico, análise jurídica, código de produção), use oranking por inteligência absoluta.
Custo-benefício deve ser o critério dominante quando: (1) volume de tokens é alto (chatbots de WhatsApp com centenas de mensagens/dia); (2) a tarefa tem critérios de qualidade definidos e mensuráveis (respostas corretas em FAQs, extração de dados estruturados); (3) você tem múltiplos modelos passando no critério de qualidade mínimo. Nesses casos, o modelo mais barato que passa é a escolha correta — pagar a mais não adiciona valor.
O preço por token é só parte do custo total. Inclua também: (1) custo de latência — modelos mais baratos tendem a ser mais lentos, impactando a experiência em tempo real; (2) custo de prompt engineering — modelos com menos capacidade requerem prompts mais elaborados; (3) custo de erros — um modelo barato que erra 10% mais pode custar mais em revisão humana; (4) custo de integração — APIs com menor documentação aumentam o custo de desenvolvimento.
(AA Intelligence Index × 10) ÷ preço_input/1M tokens. O Intelligence Index mede raciocínio + código + contexto de 0 a 100 (Artificial Analysis, atualizado a cada 6h); multiplicar por 10 escala a métrica; dividir pelo preço normaliza por custo. Maior score = mais inteligência por dólar.
Qwen3.5 0.8B (Reasoning) lidera em 2026 com Score AA 10.5 por $0.01/1M tokens. Modelos com alto AA Intelligence Index e baixo preço ficam no topo desta lista.
Depende da tarefa. Para volume alto e tarefas simples, modelos baratos entregam 80% da qualidade por 10% do custo. Para análise complexa, o ganho de qualidade pode justificar o preço maior.