15 providers LLM comparés : free tier vs payant
Trop de choix tue le choix. En 2026 on a 15+ providers LLM serieusement utilisables. Ce guide comparé leurs forces, leurs limites et leurs tarifs, avec des recommandations concretes par cas d'usage.
Les 4 catégories de providers
Pour y voir clair, je range les providers en 4 catégories selon leur modèle economique :
- Free tier genereux (Groq, Gemini, Mistral, Cerebras) — utilisables en prod avec leurs quotas gratuits
- Free tier limite (Cohere, NVIDIA, AI21, OpenRouter) — pour tester, pas pour la prod
- Credits offerts (Together, SambaNova) — $1-5 au signup puis paiement
- Purement payants (OpenAI, Anthropic, Arcee) — qualité top, prix correspondant
Les free tiers genereux
Groq — le plus fiable
Free : 1000 req/jour sur llama-3.3-70b-versatile. Latence imbattable (~200ms en p50).
- ✓ API OpenAI-compatible
- ✓ Modèles open-source de qualité (Llama 3.3 70B, Kimi, Qwen)
- ✓ Latence ultra-basse
- ✗ Pas de vision, pas d'embeddings
Gemini — le plus genereux en nombre
Free : 1500 req/jour sur Gemini 2.0 Flash. Google sait faire.
- ✓ Vision incluse dans le free tier
- ✓ Context window 1M tokens
- ✓ Gemini 2.5 Pro disponible mais avec quotas plus bas
- ✗ API non-OpenAI (Routtx s'en charge)
Mistral — l'europeen rassurant
Free : 1 RPS (~60 RPM) sur Mistral Small. Pas de limite daily publiee.
- ✓ Hébergement EU, conforme RGPD
- ✓ Modèles open-source (Mistral 7B, Mixtral)
- ✓ Codestral pour le code, Mistral Small pour le general
Cerebras — le plus rapide
Free : 30 RPM. Utilise leur hardware dédié (wafer-scale) pour des latences de 150ms.
- ✓ Latence ~150ms, le meilleur du marche
- ✓ Llama 3.1 8B, GPT-OSS 120B
- ✗ Quotas par minute strictes (burst rate limited)
Les free tiers limites
Cohere — le bon RAG
Free : 20 RPM, 1000 req/mois. Specialise dans les taches de retrieval et RAG.
- ✓ Excellent sur les embeddings
- ✓ Rerank API unique sur le marche
- ✗ 1000 req/mois, ca part vite
NVIDIA NIM — gratuit mais phone-verified
Free : 40 RPM. Host des modèles open-source (Llama, Mixtral, Gemma).
- ✓ Beaucoup de modèles disponibles
- ✓ API OpenAI-compatible
- ✗ Verification téléphone obligatoire
AI21 Labs — Jamba, une architecture differente
Free : 200 RPM. Modèles Jamba (architecture hybride Mamba + Transformer).
- ✓ Context window 256K natif
- ✓ Bon pour la comprehension de longs documents
- ✗ Ecosysteme moins developpe que Llama ou Mistral
OpenRouter — le meta-provider
Free : ~50 req/jour sur les modèles :free. Proxy vers 100+ modèles.
- ✓ Accès a des modèles rares (Kimi, Qwen, GLM)
- ✓ Tarification unifiee pour les modèles payants
- ✗ Free tier très limite sans credits
Les credits offerts
Together AI — $1 offerts
Hébergé 100+ modèles open-source. Bonne option pour tester les derniers modèles avant leur arrivee chez Groq.
SambaNova — $5 offerts
Comme Cerebras, hardware dédié ultra-rapide. DeepSeek-R1 disponible.
Les payants
OpenAI — la reference, le prix
GPT-4o : $2.50 input / $10 output par 1M tokens. Le standard du marche, la reference qualité.
- ✓ Qualité de reference pour les taches complexes
- ✓ Function calling le plus mature
- ✓ Vision + audio + RAG
- ✗ Le plus cher
Anthropic Claude — le plus "smart"
Claude Sonnet 4.6 : $3 input / $15 output. Meilleur qu'OpenAI pour le raisonnement complexe et la programmation.
- ✓ Excellent en code (mieux que GPT-4o sur les benchmarks recents)
- ✓ Safeguards natifs (equivalent Llama Guard)
- ✓ Context window 200K
Arcee — specialise métier
Modèles Trinity-Mini (26B) et Trinity-Large (400B). Focus sur les use-cases entreprise.
Recommandations par cas d'usage
| Cas d'usage | Provider recommande | Pourquoi |
|---|---|---|
| Chatbot support client | Groq + Gemini (fallback) | Latence basse, gratuit, assez bon pour du support |
| Code génération | Groq (Llama 3.3 70B) | Rapide, gratuit, qualité code très correcte |
| Raisonnement complexe | Claude Sonnet ou GPT-4o | Payants mais qualité top |
| RAG / recherche | Cohere (embeddings + rerank) + Gemini pour la génération | Cohere est le specialiste RAG |
| Documents longs | Gemini 1.5 (1M context) ou AI21 Jamba (256K) | Seuls a avoir des contexts aussi grands |
| Traitement d'images | Gemini ou Claude | Bonne qualité, API propre |
| Hébergement EU | Mistral uniquement | Seul provider serieux 100% EU |
Le setup que j'utilise en production
Pour notre chatbot support client (10K req/mois), voici la config Routtx :
- Groq (principal pour le code)
- Gemini (principal pour l'ecriture)
- Mistral (principal pour les resumes)
- OpenAI GPT-4o (fallback pour cas complexes ~6% des req)
Cout mensuel : 6EUR. Latence moyenne : 600ms. Availability : 99.9% grace au fallback multi-provider.
Testez les 15 providers
Ajoutez vos clés gratuites en 5 minutes et laissez Routtx choisir le meilleur pour chaque requête.
Commencer