Comment fonctionne le routage d'OpenRouter et comment puis-je le personnaliser ?

OpenRouter route vers les meilleurs fournisseurs en fonction de tes préférences (coût, performance, latence), équilibre la charge entre les fournisseurs principaux par défaut, et priorise les fournisseurs sans panne dans les 10 dernières secondes. Tu peux influencer ce routage via des paramètres dans ta requête API, mais le contrôle total sans code custom reste limité.

Quel est le point fort principal de Together AI ?

Leur point fort est l'inférence à coût très compétitif pour les modèles open-source, avec des économies allant de 40 à 70%. Ils supportent également le 'self-financing' de modèles, ce qui est unique.

Lequel des deux propose le plus de modèles ?

OpenRouter offre une bibliothèque beaucoup plus large avec 314 modèles contre 173 pour Together AI.

Puis-je utiliser les versions gratuites d'OpenRouter ou Together AI en production ?

Les deux ont des versions gratuites ou des essais, mais pour une utilisation en production à l'échelle, tu devras passer à un modèle pay-per-token. OpenRouter propose une option de paiement unique de 2$ pour débloquer certaines fonctionnalités, mais ce n'est pas une solution de production à grande échelle.

Comment se comparent les latences entre OpenRouter et Together AI ?

OpenRouter est légèrement plus rapide sur les prompts courts (0.40s FTL). Together AI peut être plus rapide sur certains benchmarks spécifiques, mais les deux sont modérés comparés à des solutions ultra-rapides comme Groq. Les deux souffrent de latences plus élevées sur les prompts longs.

OpenRouter vs Together AI : Comparatif Complet 2024

Tarifs vérifiés : 16 avril 2026

On va pas se mentir, le monde des APIs LLM, c'est un peu la jungle. Entre les modèles qui sortent tous les quatre matins, les prix qui fluctuent, et les promesses marketing qui s'envolent dès qu'on touche à la réalité, difficile de s'y retrouver. Aujourd'hui, on va parler de deux acteurs qui reviennent souvent : OpenRouter et Together AI. J'ai passé des heures à les décortiquer, à lire les retours des vrais développeurs, et à tester leurs offres. Accroche-toi, je vais te dire exactement ce qu'il faut choisir et pourquoi.

Le Problème : Trop de Choix, Pas Assez de Clarté

Tu veux intégrer un LLM dans ton appli ? Super. Tu cherches une API. Et là, c'est le déluge. Tu peux aller direct chez OpenAI, Anthropic, Cohere, ou te tourner vers des plateformes comme OpenRouter ou Together AI qui agrègent plein de modèles. La promesse de ces agrégateurs ? Simplifier l'accès, optimiser les coûts, et assurer une disponibilité maximale. Mais est-ce que ça tient la route ?

OpenRouter : Le Routeur Intelligent pour Tes LLMs

OpenRouter se positionne comme un hub centralisé. L'idée est simple : tu envoies ta requête à une seule API, et OpenRouter se charge de la router vers le meilleur modèle disponible, en fonction de tes préférences (coût, performance, latence) et de l'état du réseau. Ils promettent des économies de 30 à 50% grâce à ce routage intelligent sur plusieurs fournisseurs.

Ce qui claque chez OpenRouter :

Accès à une tonne de modèles : Fin 2025, ils annonçaient plus de 314 modèles provenant de plus de 50 fournisseurs. Tu as accès à des pépites que tu ne trouverais pas ailleurs, comme les dernières séries Gemma 3 et 4 optimisées.
API Unifiée : C'est leur gros point fort. Une seule API compatible OpenAI, donc l'intégration est un jeu d'enfant. Tu peux même récupérer les détails des modèles, leurs prix et leurs limites via leur API.
Routage Intelligent : Ils font du load-balancing entre les meilleurs fournisseurs et essaient d'éviter les pannes. Si un modèle est HS, ils basculent automatiquement. C'est censé te garantir une disponibilité maximale.

Mais attention, c'est pas tout rose :

Latence : Sur les prompts courts, c'est plutôt rapide (0.40s FTL - First Token Latency). Mais dès que ça se complique, la latence peut monter. J'ai vu des retours parlant de 25 secondes pour les prompts longs. C'est beaucoup trop pour une expérience utilisateur fluide.
Disponibilité Variable : Même avec leur routage, j'ai lu des plaintes sur Reddit où des utilisateurs voient des modèles critiques disparaître de leur liste en pleine journée, sans aucun avertissement. C'est un vrai cauchemar pour la production.
Coûts Cachés : Si tu utilises les plans inférieurs, OpenRouter peut te router vers les fournisseurs les moins chers (et donc souvent les plus lents) quand il y a de la contention. Pas idéal si tu vises la performance.

Together AI : L'Expert de l'Inférence Coût-Efficace

Together AI, de son côté, met l'accent sur l'inférence à bas coût, surtout pour les modèles open-source. Ils se vantent de faire économiser entre 40 et 70% sur l'inférence de ces modèles. Ils ont aussi une approche plus flexible en termes de déploiement, allant du web à l'on-premises.

Ce qui fait la force de Together AI :

Prix Imbattables sur l'Open-Source : Si tu utilises des modèles comme Llama-3-8B, leurs prix sont vraiment agressifs. En avril 2026, on parle de 0.0008 $/1K tokens pour Llama-3-8B. C'est difficile à battre.
Flexibilité de Déploiement : Tu peux déployer leurs modèles via leur plateforme web, mais aussi en on-premises, sur mobile, ou desktop. C'est un gros plus si tu as des contraintes de sécurité ou de latence très strictes.
Modèles Auto-financés : Ils te permettent de "self-financer" tes propres modèles, ce qui ouvre des portes pour des cas d'usage très spécifiques.

Les points faibles à ne pas négliger :

Latence sur les Prompts Longs : Si OpenRouter est moyen sur les prompts longs, Together AI peut être pire. J'ai vu des benchmarks qui annoncent 11 secondes, et des plaintes sur des forums qui parlent de 30 secondes et plus sans préavis. C'est rédhibitoire pour beaucoup d'applications temps réel.
Moins de Modèles : Ils ont une sélection solide, mais c'est moins que OpenRouter. 173 modèles contre 314, ça peut faire une différence si tu cherches une pépite rare.
Moins de Flexibilité de Routage : Comparé à un gateway comme OpenRouter, leur flexibilité pour choisir entre différents fournisseurs est plus limitée.

Le Comparatif Direct : Prix, Fonctionnalités, et Vrais Problèmes

Pour y voir plus clair, voici un tableau comparatif.

Feature	OpenRouter	Together AI
Nombre de modèles	314+	173
API Unifiée (OpenAI-compatible)	Oui	Partiellement (nécessite adaptation pour certains modèles)
Routage multi-fournisseurs	Oui (automatique et configurable)	Non (focalisé sur leurs propres infrastructures)
Déploiement On-Premises	Non	Oui
Économies promises (Open Source)	Jusqu'à 30-50% (via routage)	40-70% (sur leur infra)
Latence FTL (prompts courts)	0.40s	0.43s (variable)
Latence (prompts longs)	Jusqu'à 25s	Jusqu'à 11s (et plus)

Les Prix en Avril 2026

C'est là que ça devient intéressant. Les deux proposent des modèles pay-as-you-go, mais avec des structures différentes.

OpenRouter :

Gratuit : Une version gratuite est disponible, avec une option de paiement unique de 2$ pour débloquer plus de fonctionnalités. Pas pour la prod à grande échelle, évidemment.
Pay-per-use : À partir de 0.0001$ par 1k tokens. C'est le tarif de base.
Modèles spécifiques : Les prix varient énormément. Par exemple, DeepSeek V3 coûte 0.320$/1M tokens en entrée et 0.890$/1M tokens en sortie.
Entreprise : Tarifs personnalisés via API pour les modèles, les limites et les préférences de fournisseurs.

Together AI :

Gratuit : Version gratuite et essai gratuit disponibles.
Pay-per-use : Modèle spécifique. Gemma 3n 4B coûte 0.020$/1M tokens en entrée et 0.040$/1M tokens en sortie.
Pro : Tarifs compétitifs pour l'inférence. Llama-3-8B est à 0.0008$/1K tokens.
Entreprise : Options personnalisées pour les modèles auto-financés et le déploiement on-premises.

OpenRouter - Base

0.0001 $/1k tokens/par utilisation

Accès à 314 modèles

Routage intelligent

Together AI - Llama-3-8B

0.0008 $/1K tokens/par utilisation

Inférence optimisée

Modèles open-source

Together AI - Gemma 3n 4B

0.020 $/1M tokens (input)/par utilisation

Modèles récents

Inférence rapide

Les Vrais Problèmes : Ce Que les Pages Marketing Ne Disent Pas

On lit beaucoup de choses positives, mais la réalité est souvent plus complexe.

1. Les Plaintes sur OpenRouter :

Routage aléatoire : Un utilisateur sur Reddit a râlé parce que le routage automatique d'OpenRouter choisissait parfois des fournisseurs plus lents, même quand il avait spécifié ses préférences. Ça lui a coûté des crédits pour des réponses qui mettaient une éternité. C'est exactement le genre de truc qui te fait perdre du temps et de l'argent.
Disponibilité chaotique : Sur G2, un avis mentionne que la disponibilité des modèles chez OpenRouter "flue par heure". Un modèle critique peut disparaître en pleine journée, sans préavis. Imagine ton appli qui tombe en panne parce que ton fournisseur d'API a décidé de retirer un modèle sans prévenir. C'est un cauchemar logistique.
Fallback qui échoue : Sur Reddit encore, un autre développeur a vu sa queue entière se bloquer lors d'une panne d'un fournisseur unique, car le système de fallback d'OpenRouter n'a pas fonctionné comme prévu pendant les heures de pointe. La promesse de haute disponibilité prend un sacré coup.

2. Les Pièges de Together AI :

Comptes de tokens imprévus : Sur HackerNews, un utilisateur a vu ses factures doubler par rapport aux estimations, car les comptes de tokens de Together AI "s'emballaient" sur des cas limites, même avec les mêmes prompts. Ça rend la prévision des coûts très compliquée.
Latence qui se dégrade : Sur un forum, quelqu'un a constaté que la latence de Together AI passait silencieusement de 11s à plus de 30s sur les prompts longs, sans aucune notification ou mise à niveau de leur tier. C'est une dégradation de service qui peut passer inaperçue jusqu'à ce que ton application devienne inutilisable.
Migration coûteuse : Les clés API ne sont pas portables. Si tu décides de migrer depuis une autre plateforme vers Together AI, tu devras réécrire une partie de ton SDK. C'est un coût caché en temps de développement.

Voici ce qui se passe réellement quand tu essaies de faire du multi-modèle avec OpenRouter :

Tu lances ton application qui utilise OpenRouter pour interagir avec plusieurs LLMs. Tu as configuré tes préférences : d'abord le modèle le plus rapide et le moins cher, puis un backup si le premier est indisponible. Tu envoies une requête complexe. OpenRouter, au lieu de te router vers le modèle le plus performant que tu as spécifié, te dirige vers un fournisseur moins cher mais plus lent, parce que son algorithme de routage a détecté une légère surcharge sur le premier. Résultat : ta réponse arrive 15 secondes plus tard que prévu, et ton utilisateur est frustré. Tu passes ensuite 2 heures à essayer de comprendre pourquoi ton routage préféré n'a pas été appliqué, pour finalement te rendre compte que les "préférences" sont plus des suggestions que des règles strictes dans certains scénarios de contention.

Les Gotchas : Ce Que Tu Ne Trouves Pas sur les Sites Officiels

OpenRouter : Limites de Taux (RPM) Variables : Même s'ils promettent une API unifiée, les limites de taux (RPM) varient énormément selon le fournisseur sous-jacent. Sur des modèles populaires, tu peux te retrouver bloqué à 10 000 RPM, bien avant ce que la promesse de l'API unifiée pourrait laisser penser. C'est un point de friction majeur pour les applications à fort trafic.
Together AI : Tokenisation Surprise sur les Langues Non-Anglaises : Les prompts dans des langues autres que l'anglais peuvent être tokenisés de manière beaucoup plus agressive. Ce qui semble être 1800 tokens peut facilement devenir 3000+ tokens, faisant exploser tes coûts sans que tu comprennes pourquoi. C'est un piège à éviter si tu travailles avec une clientèle internationale.
Les Deux : Fenêtre d'Oubli de 10 Secondes : Les deux plateformes ont une sorte de "fenêtre d'oubli" de 10 secondes dans leur logique de routage. Si un fournisseur tombe en panne pendant cette fenêtre, le système peut avoir du mal à basculer correctement, créant des chaînes de délais entre les fournisseurs.

Les Questions Qui Restent Sans Réponse Claire

Beaucoup de développeurs se posent des questions précises qui ne sont pas toujours abordées dans la documentation.

Comment forcer OpenRouter à éviter certains fournisseurs comme Together AI sans code personnalisé ? C'est une question légitime. Si tu as des problèmes de fiabilité avec un fournisseur spécifique, tu veux pouvoir le blacklister facilement. Actuellement, ça demande souvent du code custom pour filtrer les réponses ou des configurations avancées qui ne sont pas toujours documentées.
Quelles sont les limites réelles de RPM sur le Llama-3-8B de Together AI, au-delà de ce qui est écrit dans la documentation ? Les chiffres officiels sont une chose, mais la réalité du throttling en production en est une autre. Les développeurs ont besoin de savoir quand ils vont être limités pour pouvoir anticiper et mettre en place des stratégies de retry efficaces.

Les Points Forts pour des Cas d'Usage Spécifiques

Pros

OpenRouter : Accès à une diversité de modèles inégalée, API unifiée pour simplifier l'intégration multi-LLM.

OpenRouter : Fiabilité accrue grâce au routage automatique et au fallback entre fournisseurs.

Together AI : Coût d'inférence très bas sur les modèles open-source, idéal pour les budgets serrés.

Together AI : Options de déploiement flexibles, y compris on-premises, pour un contrôle total.

Cons

OpenRouter : Latence potentiellement élevée sur les prompts longs, disponibilité des modèles parfois fluctuante.

OpenRouter : Coûts parfois plus élevés sur certains modèles par rapport à un accès direct.

Together AI : Moins de modèles disponibles, latence sur les prompts longs peut être problématique.

Together AI : Moins de flexibilité dans le choix des fournisseurs externes.

Le Verdict : Qui Gagne et Quand ?

Il n'y a pas de réponse unique, mais voici ce que je te recommande :

Our Verdict

Choose this if…

OpenRouter

Tu as besoin d'accéder à une large gamme de modèles, y compris des modèles propriétaires ou moins courants. Tu privilégies une API unifiée et une intégration rapide. La fiabilité grâce au fallback automatique est une priorité, même si cela implique une latence légèrement plus élevée sur certains cas.

Choose this if…

Together AI

Ton objectif principal est de réduire les coûts d'inférence sur les modèles open-source. Tu as besoin de flexibilité de déploiement, y compris on-premises. La latence sur les prompts longs n'est pas un facteur bloquant critique pour ton application.

FAQ

Frequently Asked Questions

Conclusion

OpenRouter est ton meilleur allié si tu veux explorer un maximum de modèles avec une API simple et une bonne fiabilité grâce au routage. Together AI est imbattable si ton budget est serré et que tu te concentres sur les modèles open-source, avec la possibilité de déployer où tu veux.

Ne te laisse pas aveugler par le marketing. Teste, compare, et surtout, lis les retours des autres développeurs. C'est comme ça que tu trouveras la meilleure solution pour ton projet.