Dá para comparar ElevenLabs, Cartesia e Rime lado a lado?

Dá. O x-n.dev suporta ElevenLabs, Cartesia, Rime, OpenAI TTS, Azure, AWS Polly e outros. Crie um Cenário com seu texto, conecte as chaves de API de cada provedor e rode todos em paralelo. Os resultados mostram áudio, latência e custo por caractere lado a lado.

Como comparo Deepgram, AssemblyAI e OpenAI Whisper no meu áudio?

Suba seu arquivo de áudio como Cenário, conecte as chaves de Deepgram, AssemblyAI, OpenAI e outros provedores STT, e rode uma Arena. Você recebe transcrições, comparação de qualidade, latência e custo por minuto de todos os provedores em uma execução.

O x-n.dev suporta BYOK (trazer suas próprias chaves de API)?

Sim — BYOK é o modelo central. Você conecta suas chaves de OpenAI, Anthropic, Google, ElevenLabs, Deepgram e qualquer provedor suportado. O custo dos modelos vai direto para os provedores nas tarifas deles — zero markup.

Agências e consultorias de IA podem usar o x-n.dev em projetos de clientes?

Podem — o x-n.dev foi feito pra avaliação multi-cliente. Rode benchmarks por cliente com cenários e chaves de API próprios, mantenha cada projeto em um workspace separado e exporte relatórios compartilháveis. Agências e consultorias de IA usam o x-n.dev pra justificar escolhas de modelo com dados, comparar provedores de LLM, STT e TTS entre projetos e entregar recomendações neutras (vendor-neutral) que o cliente confia.

mesma entrada. N modelos. dados reais.

Teste cada modelo de IA
no seu caso de uso real.

Monte o teste uma vez — prompts, vozes, áudios — e rode em todos os modelos em paralelo. Compare lado a lado: latência, qualidade, custo e ranking automático.

Teste 7 dias grátis Ver como funciona

arena · meu-teste · LLM

Modelo 1Provedor 1

O produto tem avaliações mistas: elogios à bateria e à construção, mas reclamações recorrentes sobre Bluetooth instável.

latência1.2s

tokens312

custo$0.0014

Modelo 2Provedor 2

Opiniões divididas: há consenso em durabilidade e autonomia de bateria. O principal problema é o Bluetooth cair ao mudar de ambiente.

latência0.9s

tokens287

custo$0.0011

Modelo 3Provedor 3

Tom positivo sobre hardware e bateria. Ponto de atenção: em 23% das avaliações aparecem queixas de conectividade sem fio.

latência0.7s

tokens298

custo$0.0003

Por que não confiar só em benchmarks públicos?

Benchmarks usam dados genéricos.
O seu produto não é genérico.

O campeão no MMLU ou no HumanEval pode ser péssimo para classificar chamados de suporte, transcrever seus áudios ou ler documentos do seu negócio.

Benchmarks públicos

Bases e prompts genéricos
Nada de custo no volume que você usa
Nada de latência na sua região
Não testa o seu system prompt
Nada de avaliação com áudio ou voz

Arenas no x-n.dev

Seus prompts, seus cenários, seus dados
Custo real com suas chaves de API, sem taxa extra em cima do provedor
Latência medida em execuções de verdade
Teste qualquer system prompt antes de ir para produção
LLM, STT e TTS na mesma plataforma

Como funciona

Configure uma vez.
Rode em qualquer modelo.

Três etapas para manter testes organizados, repetíveis e fáceis de compartilhar — em LLM, STT e TTS.

Provedores

Escolha quais provedores ficam disponíveis para comparar LLM, STT e TTS.

camada de provedores

Cenários

O setup completo do teste. Defina dados de entrada, prompts, saída esperada, idioma e voz no mesmo lugar — ou gere itens com IA a partir de uma descrição curta. Crie uma vez e reaproveite em várias arenas.

setup do teste

Arenas

A etapa da comparação: escolha um cenário, conecte vários modelos (OpenAI, Anthropic, Google, AWS, Azure…), execute em paralelo e veja tudo junto — precisão, latência, custo e ranking automático.

camada de comparação

Cenários

Seu setup de teste.
Uma vez. Reutilize em todo lugar.

Defina prompts, dados de teste, saídas esperadas, áudios ou vozes num Cenário estruturado — e rode em qualquer arena. Ou descreva o que precisa e deixe a IA gerar os itens de teste.

cenário · meu-teste

LLMResumo

System prompt

Você resume avaliações de produto em um parágrafo conciso. Foque em temas recorrentes.

User prompt

Resuma estas avaliações: {{reviews}}

Descreva o que você quer

Mensagens de suporte ao cliente em inglês — misture tons frustrado, neutro e educado. Problemas diferentes: atraso na entrega, item errado, reembolso…

Bateria dura dois dias. Bluetooth cai na cozinha.

esperado: misto · bateria ok · problemas BT

Ótima construção. Sync do app falha no Android.

esperado: hardware positivo · app ruim

Confortável. Cancelamento de ruído funciona bem em voos.

esperado: conforto + ANC elogiados

Arenas

Escolha N modelos.
Rode em paralelo.

Conecte provedores OpenAI, Anthropic, Google, Deepgram, ElevenLabs e mais. Selecione vários modelos por provedor e rode todos de uma vez.

arena · selecionar modelos

Provedor 1

2/4

Modelo 1

Modelo 2

Modelo 3

Modelo 4

Provedor 2

1/2

Modelo 1

Modelo 2

Resultados

Decida com dados.
Não no achismo.

Cada run gera um score composto de precisão, velocidade e custo. Favorite outputs, copie tudo ou exporte o relatório nos planos pagos.

arena · meu-teste · execução

Saídas lado a ladoconcluída

Modelo 2

Opiniões divididas: há consenso em durabilidade…

Modelo 1

O produto tem avaliações mistas. Usuários elogiam…

Modelo 3

Tom positivo sobre hardware e bateria…

relatório · ranking

Ranking de modelosscore

🥇

Modelo 2Provedor 2

97%0.9s$0.0011

92♥

🥈

Modelo 1Provedor 1

94%1.2s$0.0014

🥉

Modelo 3Provedor 3

91%0.7s$0.0003

Score = 50% precisão · 25% velocidade · 25% custo

Leaderboard

Veja quem está na frente.
No mundo real.

Rankings ao vivo a partir de arenas anonimizadas no x-n.dev — LLM, STT e TTS. Não são benchmarks de fornecedor. Recalculados todo dia com avaliações reais.

leaderboard · llm · todo o período

#ProvedorModeloTaxa de acertoExecuções

🥇Provedor 1Modelo 194%1.2k

🥈Provedor 2Modelo 291%980

🥉Provedor 3Modelo 388%740

Mín. 10 execuções para entrar · recalculado diariamente à meia-noite UTC

Agregado de avaliações reais na arena, não de benchmarks sintéticos
Rankings separados para provedores LLM, STT e TTS
Atualizado diariamente — acompanhe modelos subindo e descendo

Ver leaderboard

Para quem é

Pensado para quando você ainda está
escolhendo qual modelo levar para produção.

De builders de voice AI a procurement — quem decide qual modelo usar tem no x-n.dev o seu laboratório.

Builders de voice AI
TTS, STT e LLM são o núcleo do seu produto. Compare cada provedor nas suas ligações reais — latência, qualidade e custo — e escolha o melhor pra cada tarefa.
Product engineers & desenvolvedores
A escolha do modelo é sua. Compare custo, latência e qualidade entre provedores nos seus prompts reais — antes de subir pra produção.
Agências e consultorias de IA
Rode avaliações multi-cliente com as chaves e cenários de cada cliente. Entregue recomendações neutras (vendor-neutral) com dados e relatórios compartilháveis.
Procurement e AI ops
Seleção de modelo enterprise e orientada a compliance. Histórico completo, exports e score objetivo — qualidade, latência, custo e ROI — pra justificar cada decisão.

x-n.dev · o que diferencia

suas chaves

cobrança direta no provedor, sem taxa nossa em cima

reutilizável

cenários compartilháveis

paralelo

todos os modelos de uma vez, sem fila

auditável

histórico completo e exportação

objetivo

precisão · latência · custo · ranking

LLM, STT e TTS numa plataforma só

Quase todo mundo compara só LLM.
E quando o produto fala ou ouve?

O x-n.dev é uma das poucas opções que avalia voz (STT/TTS) com o mesmo rigor que texto — na prática, não só no slide.

LLM

OpenAIAnthropicGoogleMistralDeepSeekCohereMeta · GroqxAI+ mais modelos

STT

OpenAI WhisperAssemblyAIDeepgramGladiaSpeechmaticsAWS Transcribe+ mais modelos

TTS

ElevenLabsCartesiaOpenAI TTSDeepgramLMNTHume AIRime AI+ mais modelos

Modelos self-hosted

Seu modelo.
Suas regras. Seus dados.

Conecte qualquer endpoint OpenAI-compatible — Ollama, vLLM, LM Studio, llama.cpp — e compare modelos self-hosted com APIs cloud na mesma arena.

Ollama · vLLM · LM Studio · llama.cppExcluído do leaderboard públicoExponha localmente via ngrok ou Cloudflare Tunnel

provedores · configurações

Custom (self-hosted)

Base URL

https://my-llama.ngrok.io/v1

Precisa ser acessível publicamente. Use ngrok ou Cloudflare Tunnel para modelos locais.

API Key (opcional)

••••••••••••

Informe o model ID nas arenas — llama3.2, mistral, qwen2.5-coder, etc.

Salvar

Onde o x-n.dev se encaixa

Cada ferramenta resolve
um tipo de problema.

Nem todo mundo precisa da mesma coisa. Abaixo, onde entramos no jogo.

x-n.dev

Rankings públicos

Frameworks de avaliação

Observabilidade de LLM

Seus prompts e seus dados

✓

✗

✓

STT + TTS + LLM

✓

✗

Sem código, sem infra pra montar

✓

✗

Workspace compartilhado

✓

✗

✓

Custo real (sua chave de API)

✓

✗

✓

Avaliação pré-produção

✓

✗

~ = parcial ou exige bastante configuração

Preços

Escolha um plano.
Comece com 7 dias grátis.

Traga suas chaves de API — a cobrança dos provedores continua direto nas suas contas. Escolha um plano e teste por 7 dias.

Initial

$19/mês

Para builders e devs que levam modelos para produção.

Traga suas chaves de API
Até 20 cenários ativos
Até 10 arenas ativas
Até 3 arenas simultâneas
Até 3 usuários
Áudio retido por 30 dias
Execução paralela — todos os modelos ao mesmo tempo
Comparação lado a lado
Exportação de resultados
Histórico ilimitado
Todos os provedores — LLM, STT e TTS

Teste 7 dias grátis

Mais popular

Pro

$49/mês

Para empresas e times de produto que avaliam modelos antes de decisões de produção.

Traga suas chaves de API
Até 50 cenários ativos
Até 30 arenas ativas
Até 5 arenas simultâneas
Até 10 usuários
Áudio retido por 90 dias
Execução paralela — todos os modelos ao mesmo tempo
Comparação lado a lado
Exportação de resultados
Histórico ilimitado
Todos os provedores — LLM, STT e TTS

Teste 7 dias grátis

Enterprise

Sob consulta

Para times que querem a x-n.dev como parceira operacional na avaliação de modelos.

Sem custo de API key para o seu time — o uso dos provedores fica custeado por nós
Gerente de conta dedicado
Montagem e execução das arenas sob demanda
Canal dedicado no Slack
Acesso ao time de engenharia
Sem limites de conta e features personalizadas
Acesso antecipado a novas features
Desenho de cenários, análise dos resultados e recomendações junto com seu time
Otimização contínua de cenários, arenas e escolha dos modelos

Fale conosco

Agências / Consultorias de IA com multi-contas — Fale conosco

FAQ

Dúvidas comuns

Sim, de forma criptografada — e só para chamar os provedores em nome da sua conta durante uma arena. Não vão para log, não são compartilhadas nem usadas para outra finalidade. Você pode revogar quando quiser nas configurações.

O custo dos modelos vai direto para OpenAI, Anthropic, Google etc. pelas suas chaves — o x-n.dev não coloca nada em cima. Você paga a assinatura da plataforma, e os planos pagos começam com 7 dias de teste gerenciados pela Stripe.

Mais de 25 entre LLM, STT e TTS — OpenAI, Anthropic, Google, Mistral, AssemblyAI, Deepgram, ElevenLabs, Cartesia e outros. A lista cresce sempre. Faltou o seu? Manda um alô que a gente prioriza.

Dá. Tudo fica no workspace: quem tem acesso vê os mesmos cenários, dados, prompts e configurações, então os testes ficam comparáveis e ninguém reinventa a roda.

Hoje não: é um serviço hospedado. No futuro podemos abrir partes ou SDKs. Se isso é decisivo para você, escreve para a gente — a demanda da comunidade pesa no roadmap.

Aqui você não monta fila, parser nem planilha: paralelismo, latência, tokens, custo e histórico vêm prontos. Você continua dono dos prompts e das configurações, sem reinventar a infraestrutura. E ainda dá para compartilhar o fluxo com o time.

Falhas do provedor ainda podem aparecer na sua conta do provedor, dependendo das regras de cobrança dele. O x-n.dev não coloca markup no uso dos modelos; você paga apenas a assinatura da plataforma.

7 dias grátis

Compare de verdade.
Chega de chutar.

Configure e rode a primeira arena em minutos.

Teste 7 dias grátis

OpenAI

Anthropic

Google

Mistral

xAI

+ mais modelos

Teste cada modelo de IAno seu caso de uso real.

Benchmarks usam dados genéricos.O seu produto não é genérico.

Configure uma vez.Rode em qualquer modelo.

Seu setup de teste.Uma vez. Reutilize em todo lugar.

Escolha N modelos.Rode em paralelo.

Decida com dados.Não no achismo.

Veja quem está na frente.No mundo real.

Pensado para quando você ainda estáescolhendo qual modelo levar para produção.

Quase todo mundo compara só LLM.E quando o produto fala ou ouve?

Seu modelo.Suas regras. Seus dados.

Cada ferramenta resolveum tipo de problema.

Escolha um plano.Comece com 7 dias grátis.

Dúvidas comuns

Compare de verdade.Chega de chutar.

Teste cada modelo de IA
no seu caso de uso real.

Benchmarks usam dados genéricos.
O seu produto não é genérico.

Configure uma vez.
Rode em qualquer modelo.

Seu setup de teste.
Uma vez. Reutilize em todo lugar.

Escolha N modelos.
Rode em paralelo.

Decida com dados.
Não no achismo.

Veja quem está na frente.
No mundo real.

Pensado para quando você ainda está
escolhendo qual modelo levar para produção.

Quase todo mundo compara só LLM.
E quando o produto fala ou ouve?

Seu modelo.
Suas regras. Seus dados.

Cada ferramenta resolve
um tipo de problema.

Escolha um plano.
Comece com 7 dias grátis.

Compare de verdade.
Chega de chutar.