
À l'heure où vous lisez ces lignes, plusieurs dispositifs Ask Mona en production tournent sur Mistral Medium 3.5. D'autres sur GPT-5.4. D'autres encore sur Claude Sonnet 4.5. Le choix du modèle ne se décide pas en amont, il se fait projet par projet, à partir des contraintes réelles du dispositif à construire.
Cette logique structure le travail des équipes Ask Mona depuis l'origine. Conçue dans le secteur culturel en 2017, l'entreprise a déployé plus de 200 agents conversationnels pour des institutions et des marques aux exigences très différentes.
Un agent conversationnel est une architecture. Plusieurs briques s'orchestrent côté technique : la base de connaissances du client, le moteur de recherche, le système de routage des requêtes, et un ou plusieurs grands modèles de langage qui formulent la réponse finale.
Le choix de ces modèles tient compte de paramètres concrets :
• Quelle est la nature des données traitées
• Où elles doivent être hébergées
• Dans combien de langues l'agent doit répondre
• Quel niveau de raisonnement la conversation exige
• Quelle latence l'expérience visiteur peut tolérer
Ces questions ne sont pas techniques au sens étroit. Elles sont d'abord métier. Un musée qui ouvre son fonds documentaire à l'IA générative ne pose pas les mêmes contraintes qu'une marque qui équipe ses produits d'un objet conversationnel. Un office de tourisme régional n'a pas les mêmes besoins qu'un service public sous tutelle. C'est ce qui fait du choix du modèle un arbitrage de projet, conduit au cas par cas.
Quatre dimensions reviennent dans la plupart des arbitrages :
• La souveraineté et l'hébergement des données :
Certains projets exigent que les requêtes utilisateurs soient traitées sur des infrastructures européennes, voire françaises. C'est le cas pour des bases documentaires internes, ou pour des dispositifs qui traitent des contenus sensibles. Dans ces contextes, les modèles de Mistral apportent une réponse adaptée.
• La qualité conversationnelle dans une langue donné :
Tous les modèles ne se valent pas selon la langue. Un agent qui doit répondre en japonais, en arabe ou en mandarin avec la même qualité qu'en français demande de tester plusieurs options avant de trancher. Selon les cas, GPT-5.5, Claude Opus 4.8 ou Gemini 3.1 Pro offrent des comportements différents.
• Les capacités multimodales :
Reconnaître une œuvre à partir d'une photo, identifier un produit dans un rayon : ces tâches mobilisent des modèles dotés de vision. Le marché évolue vite sur ces capacités, et la palette d'Ask Mona suit ces évolutions à mesure que les modèles s'améliorent.
• Les coûts d'inférence et la latence :
Un agent grand public déployé sur des dizaines de milliers d'interactions par mois ne peut pas mobiliser indistinctement les modèles les plus lourds. L'arbitrage économique fait partie de la conception, au même titre que le choix d'un hébergeur ou d'une infrastructure cloud.
À date, le backoffice Ask Mona donne accès à quatre familles de modèles, sélectionnables à l'échelle de chaque projet :
• Dans la famille OpenAI, les modèles disponibles sont GPT-5.4 Mini, GPT-5.4, GPT-5.2 et GPT-5 Mini.
• Dans la famille Anthropic, la palette comprend Claude Opus 4.5, Claude Haiku 4.5 et Claude Sonnet 4.5.
• Côté Google, les modèles accessibles sont Gemini 3.5 Flash, Gemini 3.1 Pro, Gemini 3.1 Flash Lite et Gemini 3 Flash.
• Enfin, dans la famille Mistral, les modèles disponibles sont Mistral Medium 3.5, Mistral Large 3 et Mistral Medium 3.
Cette palette n'est pas figée. Chaque sortie significative donne lieu à une évaluation : performance comparée, comportement sur les langues prioritaires, coûts, stabilité. Les modèles utiles entrent dans le backoffice et deviennent disponibles pour les équipes en charge des projets clients. Mistral Medium 3.5 est aujourd'hui le modèle par défaut sur une part significative des déploiements en production.
Cette ouverture sert deux objectifs :
• Le premier, immédiat : adapter chaque dispositif à son contexte réel. Sur un déploiement récent pour une institution culturelle européenne, l'agent conversationnel mobilise un modèle souverain pour traiter les requêtes liées aux données internes du client, et un modèle généraliste de pointe pour la qualité conversationnelle dans une dizaine de langues. Le visiteur ne perçoit qu'une seule conversation. La complexité est absorbée côté architecture.
• Le second objectif est de durée : les modèles d'IA progressent à un rythme qui impose une architecture évolutive. Ce qui est de pointe ce trimestre ne le sera plus dans six mois. Une architecture ouverte protège les investissements de nos clients : quand un nouveau modèle apporte un gain net, on l'intègre. Quand une exigence client évolue, on ajuste. L'infrastructure reste, les composants se renouvellent.
C'est ce qui permet de tenir une promesse que nous portons depuis 2017 : chaque agent conversationnel Ask Mona est conçu à partir du contexte du client, et il évolue avec lui. Choisir le modèle adapté à chaque dispositif fait partie de ce travail de conception. C'est une décision de métier, et c'est ce qui structure notre architecture depuis l'origine.