mesma entrada. N modelos. dados reais.

Teste cada modelo de IA
no seu caso de uso real.

Monte o teste uma vez — prompts, vozes, áudios — e rode em todos os modelos em paralelo. Compare lado a lado: latência, qualidade, custo e ranking automático.

arena · meu-teste · LLM
Modelo 1Provedor 1
O produto tem avaliações mistas: elogios à bateria e à construção, mas reclamações recorrentes sobre Bluetooth instável.
latência1.2s
tokens312
custo$0.0014
Modelo 2Provedor 2
Opiniões divididas: há consenso em durabilidade e autonomia de bateria. O principal problema é o Bluetooth cair ao mudar de ambiente.
latência0.9s
tokens287
custo$0.0011
Modelo 3Provedor 3
Tom positivo sobre hardware e bateria. Ponto de atenção: em 23% das avaliações aparecem queixas de conectividade sem fio.
latência0.7s
tokens298
custo$0.0003

Benchmarks usam dados genéricos.
O seu produto não é genérico.

O campeão no MMLU ou no HumanEval pode ser péssimo para classificar chamados de suporte, transcrever seus áudios ou ler documentos do seu negócio.

Benchmarks públicos
  • Bases e prompts genéricos
  • Nada de custo no volume que você usa
  • Nada de latência na sua região
  • Não testa o seu system prompt
  • Nada de avaliação com áudio ou voz
Arenas no x-n.dev
  • Seus prompts, seus cenários, seus dados
  • Custo real com suas chaves de API, sem taxa extra em cima do provedor
  • Latência medida em execuções de verdade
  • Teste qualquer system prompt antes de ir para produção
  • LLM, STT e TTS na mesma plataforma

Configure uma vez.
Rode em qualquer modelo.

Três etapas para manter testes organizados, repetíveis e fáceis de compartilhar — em LLM, STT e TTS.

01
Provedores
Escolha quais provedores ficam disponíveis para comparar LLM, STT e TTS.
camada de provedores
02
Cenários
O setup completo do teste. Defina dados de entrada, prompts, saída esperada, idioma e voz no mesmo lugar — ou gere itens com IA a partir de uma descrição curta. Crie uma vez e reaproveite em várias arenas.
setup do teste
03
Arenas
A etapa da comparação: escolha um cenário, conecte vários modelos (OpenAI, Anthropic, Google, AWS, Azure…), execute em paralelo e veja tudo junto — precisão, latência, custo e ranking automático.
camada de comparação

Seu setup de teste.
Uma vez. Reutilize em todo lugar.

Defina prompts, dados de teste, saídas esperadas, áudios ou vozes num Cenário estruturado — e rode em qualquer arena. Ou descreva o que precisa e deixe a IA gerar os itens de teste.

cenário · meu-teste
1Prompts e tipo
2Itens de teste
LLMResumo
System prompt
Você resume avaliações de produto em um parágrafo conciso. Foque em temas recorrentes.
User prompt
Resuma estas avaliações: {{reviews}}
Itens de teste3 itens
Criar com IA
Descreva o que você quer

Mensagens de suporte ao cliente em inglês — misture tons frustrado, neutro e educado. Problemas diferentes: atraso na entrega, item errado, reembolso…

1

Bateria dura dois dias. Bluetooth cai na cozinha.

esperado: misto · bateria ok · problemas BT
2

Ótima construção. Sync do app falha no Android.

esperado: hardware positivo · app ruim
3

Confortável. Cancelamento de ruído funciona bem em voos.

esperado: conforto + ANC elogiados

Escolha N modelos.
Rode em paralelo.

Conecte provedores OpenAI, Anthropic, Google, Deepgram, ElevenLabs e mais. Selecione vários modelos por provedor e rode todos de uma vez.

arena · selecionar modelos
Provedor 1
2/4
Modelo 1
Modelo 2
Modelo 3
Modelo 4
Provedor 2
1/2
Modelo 1
Modelo 2

Decida com dados.
Não no achismo.

Cada run gera um score composto de precisão, velocidade e custo. Favorite outputs, copie tudo ou exporte o relatório nos planos pagos.

arena · meu-teste · execução
Saídas lado a ladoconcluída
Modelo 2

Opiniões divididas: há consenso em durabilidade…

Modelo 1

O produto tem avaliações mistas. Usuários elogiam…

Modelo 3

Tom positivo sobre hardware e bateria…

relatório · ranking
Ranking de modelosscore
🥇
Modelo 2Provedor 2
97%0.9s$0.0011
92
🥈
Modelo 1Provedor 1
94%1.2s$0.0014
87
🥉
Modelo 3Provedor 3
91%0.7s$0.0003
81
Score = 50% precisão · 25% velocidade · 25% custo

Veja quem está na frente.
No mundo real.

Rankings ao vivo a partir de arenas anonimizadas no x-n.dev — LLM, STT e TTS. Não são benchmarks de fornecedor. Recalculados todo dia com avaliações reais.

leaderboard · llm · todo o período
#ProvedorModeloTaxa de acertoExecuções
🥇Provedor 1Modelo 194%1.2k
🥈Provedor 2Modelo 291%980
🥉Provedor 3Modelo 388%740
Mín. 10 execuções para entrar · recalculado diariamente à meia-noite UTC
  • Agregado de avaliações reais na arena, não de benchmarks sintéticos
  • Rankings separados para provedores LLM, STT e TTS
  • Atualizado diariamente — acompanhe modelos subindo e descendo

Pensado para quando você ainda está
escolhendo qual modelo levar para produção.

De builders de voice AI a procurement — quem decide qual modelo usar tem no x-n.dev o seu laboratório.

  • Builders de voice AI
    TTS, STT e LLM são o núcleo do seu produto. Compare cada provedor nas suas ligações reais — latência, qualidade e custo — e escolha o melhor pra cada tarefa.
  • Product engineers & desenvolvedores
    A escolha do modelo é sua. Compare custo, latência e qualidade entre provedores nos seus prompts reais — antes de subir pra produção.
  • Agências e consultorias de IA
    Rode avaliações multi-cliente com as chaves e cenários de cada cliente. Entregue recomendações neutras (vendor-neutral) com dados e relatórios compartilháveis.
  • Procurement e AI ops
    Seleção de modelo enterprise e orientada a compliance. Histórico completo, exports e score objetivo — qualidade, latência, custo e ROI — pra justificar cada decisão.
x-n.dev · o que diferencia
suas chaves
cobrança direta no provedor, sem taxa nossa em cima
reutilizável
cenários compartilháveis
paralelo
todos os modelos de uma vez, sem fila
auditável
histórico completo e exportação
objetivo
precisão · latência · custo · ranking

Quase todo mundo compara só LLM.
E quando o produto fala ou ouve?

O x-n.dev é uma das poucas opções que avalia voz (STT/TTS) com o mesmo rigor que texto — na prática, não só no slide.

LLM
OpenAIAnthropicGoogleMistralDeepSeekCohereMeta · GroqxAI+ mais modelos
STT
OpenAI WhisperAssemblyAIDeepgramGladiaSpeechmaticsAWS Transcribe+ mais modelos
TTS
ElevenLabsCartesiaOpenAI TTSDeepgramLMNTHume AIRime AI+ mais modelos

Seu modelo.
Suas regras. Seus dados.

Conecte qualquer endpoint OpenAI-compatible — Ollama, vLLM, LM Studio, llama.cpp — e compare modelos self-hosted com APIs cloud na mesma arena.

Ollama · vLLM · LM Studio · llama.cppExcluído do leaderboard públicoExponha localmente via ngrok ou Cloudflare Tunnel
provedores · configurações
Custom (self-hosted)

Base URL

https://my-llama.ngrok.io/v1

Precisa ser acessível publicamente. Use ngrok ou Cloudflare Tunnel para modelos locais.

API Key (opcional)

••••••••••••
Informe o model ID nas arenas — llama3.2, mistral, qwen2.5-coder, etc.
Salvar

Cada ferramenta resolve
um tipo de problema.

Nem todo mundo precisa da mesma coisa. Abaixo, onde entramos no jogo.

x-n.dev
Rankings públicos
Frameworks de avaliação
Observabilidade de LLM
Seus prompts e seus dados
~
STT + TTS + LLM
Sem código, sem infra pra montar
Workspace compartilhado
Custo real (sua chave de API)
~
Avaliação pré-produção

~ = parcial ou exige bastante configuração

Escolha um plano.
Pague só o que rodar.

Escolha o plano certo pro seu time e recarregue apenas quando precisar.

Trial
R$0/mês
Sem cartão de crédito
Explore sem cartão. 100 runs pra sentir o valor — acabam só quando você usar todos.
100 runs — para sempreR$0,60 por run extra
  • Até 3 cenários ativos
  • Até 3 arenas ativas
  • 1 arena rodando por vez
  • 1 usuário
  • Todos os provedores — LLM, STT e TTS
  • Traga suas chaves de API
  • Áudio retido por 7 dias
  • Métricas de latência, custo e tokens
  • Múltiplos workspaces (multi-org)
Começar agora
Team
$79/mês
Para empresas e times de produto que avaliam modelos antes de decisões de produção.
1.000 runs / mês$0.05 por run extra
  • Até 50 cenários ativos
  • Até 30 arenas ativas
  • Até 5 arenas simultâneas
  • Até 10 usuários
  • Execução paralela — todos os modelos ao mesmo tempo
  • Comparação lado a lado
  • Áudio retido por 90 dias
  • Exportação de resultados
  • Histórico ilimitado
  • Todos os provedores — LLM, STT e TTS
  • Traga suas chaves de API
  • Múltiplos workspaces (multi-org)
Assinar o Team

Para planos Enterprise sem BYOK — Fale conosco

Agências / Consultorias de IA — Fale conosco

Dúvidas comuns

Sim, de forma criptografada — e só para chamar os provedores em nome da sua conta durante uma arena. Não vão para log, não são compartilhadas nem usadas para outra finalidade. Você pode revogar quando quiser nas configurações.
O custo dos modelos vai direto para OpenAI, Anthropic, Google etc. pelas suas chaves — o x-n.dev não coloca nada em cima. O que você paga pra gente é o plano mensal (Trial, Pro ou Team), que já inclui um pacote de runs. Precisou de mais? É só recarregar.
Mais de 25 entre LLM, STT e TTS — OpenAI, Anthropic, Google, Mistral, AssemblyAI, Deepgram, ElevenLabs, Cartesia e outros. A lista cresce sempre. Faltou o seu? Manda um alô que a gente prioriza.
Dá. Tudo fica no workspace: quem tem acesso vê os mesmos cenários, dados, prompts e configurações, então os testes ficam comparáveis e ninguém reinventa a roda.
Hoje não: é um serviço hospedado. No futuro podemos abrir partes ou SDKs. Se isso é decisivo para você, escreve para a gente — a demanda da comunidade pesa no roadmap.
Aqui você não monta fila, parser nem planilha: paralelismo, latência, tokens, custo e histórico vêm prontos. Você continua dono dos prompts e das configurações, sem reinventar a infraestrutura. E ainda dá para compartilhar o fluxo com o time.
Falhas reembolsáveis e outputs vazios são devolvidos automaticamente ao seu saldo. Runs não são reembolsadas quando o provedor rejeita por limite da conta, quota, rate limit ou modelos indisponíveis/não habilitados na sua conta.

Compare de verdade.
Chega de chutar.

Configure e rode a primeira arena em minutos.

OpenAI
Anthropic
Google
Mistral
xAI
+ mais modelos