Teste cada modelo de IA
no seu caso de uso real.
Monte o teste uma vez — prompts, vozes, áudios — e rode em todos os modelos em paralelo. Compare lado a lado: latência, qualidade, custo e ranking automático.
Benchmarks usam dados genéricos.
O seu produto não é genérico.
O campeão no MMLU ou no HumanEval pode ser péssimo para classificar chamados de suporte, transcrever seus áudios ou ler documentos do seu negócio.
- Bases e prompts genéricos
- Nada de custo no volume que você usa
- Nada de latência na sua região
- Não testa o seu system prompt
- Nada de avaliação com áudio ou voz
- Seus prompts, seus cenários, seus dados
- Custo real com suas chaves de API, sem taxa extra em cima do provedor
- Latência medida em execuções de verdade
- Teste qualquer system prompt antes de ir para produção
- LLM, STT e TTS na mesma plataforma
Configure uma vez.
Rode em qualquer modelo.
Três etapas para manter testes organizados, repetíveis e fáceis de compartilhar — em LLM, STT e TTS.
Seu setup de teste.
Uma vez. Reutilize em todo lugar.
Defina prompts, dados de teste, saídas esperadas, áudios ou vozes num Cenário estruturado — e rode em qualquer arena. Ou descreva o que precisa e deixe a IA gerar os itens de teste.
Mensagens de suporte ao cliente em inglês — misture tons frustrado, neutro e educado. Problemas diferentes: atraso na entrega, item errado, reembolso…
Bateria dura dois dias. Bluetooth cai na cozinha.
esperado: misto · bateria ok · problemas BTÓtima construção. Sync do app falha no Android.
esperado: hardware positivo · app ruimConfortável. Cancelamento de ruído funciona bem em voos.
esperado: conforto + ANC elogiadosEscolha N modelos.
Rode em paralelo.
Conecte provedores OpenAI, Anthropic, Google, Deepgram, ElevenLabs e mais. Selecione vários modelos por provedor e rode todos de uma vez.
Decida com dados.
Não no achismo.
Cada run gera um score composto de precisão, velocidade e custo. Favorite outputs, copie tudo ou exporte o relatório nos planos pagos.
Opiniões divididas: há consenso em durabilidade…
O produto tem avaliações mistas. Usuários elogiam…
Tom positivo sobre hardware e bateria…
Veja quem está na frente.
No mundo real.
Rankings ao vivo a partir de arenas anonimizadas no x-n.dev — LLM, STT e TTS. Não são benchmarks de fornecedor. Recalculados todo dia com avaliações reais.
- Agregado de avaliações reais na arena, não de benchmarks sintéticos
- Rankings separados para provedores LLM, STT e TTS
- Atualizado diariamente — acompanhe modelos subindo e descendo
Pensado para quando você ainda está
escolhendo qual modelo levar para produção.
De builders de voice AI a procurement — quem decide qual modelo usar tem no x-n.dev o seu laboratório.
- Builders de voice AITTS, STT e LLM são o núcleo do seu produto. Compare cada provedor nas suas ligações reais — latência, qualidade e custo — e escolha o melhor pra cada tarefa.
- Product engineers & desenvolvedoresA escolha do modelo é sua. Compare custo, latência e qualidade entre provedores nos seus prompts reais — antes de subir pra produção.
- Agências e consultorias de IARode avaliações multi-cliente com as chaves e cenários de cada cliente. Entregue recomendações neutras (vendor-neutral) com dados e relatórios compartilháveis.
- Procurement e AI opsSeleção de modelo enterprise e orientada a compliance. Histórico completo, exports e score objetivo — qualidade, latência, custo e ROI — pra justificar cada decisão.
Quase todo mundo compara só LLM.
E quando o produto fala ou ouve?
O x-n.dev é uma das poucas opções que avalia voz (STT/TTS) com o mesmo rigor que texto — na prática, não só no slide.
Seu modelo.
Suas regras. Seus dados.
Conecte qualquer endpoint OpenAI-compatible — Ollama, vLLM, LM Studio, llama.cpp — e compare modelos self-hosted com APIs cloud na mesma arena.
Base URL
Precisa ser acessível publicamente. Use ngrok ou Cloudflare Tunnel para modelos locais.
API Key (opcional)
Cada ferramenta resolve
um tipo de problema.
Nem todo mundo precisa da mesma coisa. Abaixo, onde entramos no jogo.
~ = parcial ou exige bastante configuração
Escolha um plano.
Pague só o que rodar.
Escolha o plano certo pro seu time e recarregue apenas quando precisar.
- Até 3 cenários ativos
- Até 3 arenas ativas
- 1 arena rodando por vez
- 1 usuário
- Todos os provedores — LLM, STT e TTS
- Traga suas chaves de API
- Áudio retido por 7 dias
- Métricas de latência, custo e tokens
- Múltiplos workspaces (multi-org)
- Até 20 cenários ativos
- Até 15 arenas ativas
- Até 3 arenas simultâneas
- Até 3 usuários
- Execução paralela — todos os modelos ao mesmo tempo
- Comparação lado a lado
- Áudio retido por 30 dias
- Exportação de resultados
- Histórico ilimitado
- Todos os provedores — LLM, STT e TTS
- Traga suas chaves de API
- Múltiplos workspaces (multi-org)
- Até 50 cenários ativos
- Até 30 arenas ativas
- Até 5 arenas simultâneas
- Até 10 usuários
- Execução paralela — todos os modelos ao mesmo tempo
- Comparação lado a lado
- Áudio retido por 90 dias
- Exportação de resultados
- Histórico ilimitado
- Todos os provedores — LLM, STT e TTS
- Traga suas chaves de API
- Múltiplos workspaces (multi-org)
Para planos Enterprise sem BYOK — Fale conosco
Agências / Consultorias de IA — Fale conosco
Dúvidas comuns
Começar é de graça
Compare de verdade.
Chega de chutar.
Configure e rode a primeira arena em minutos.