L’IA fait désormais partie du quotidien au travail. Résumer une réunion, extraire des données d’un tableau, rédiger un e-mail client – les résultats sont souvent étonnamment bons. Jusqu’à ce que les questions deviennent plus précises.
Demande à l’IA quelle est la politique tarifaire actuelle de ton entreprise et elle pourrait citer une version vieille de deux ans. Demande-lui une étude de cas avec de vrais chiffres de retour sur investissement et elle pourrait en générer une qui semble plausible, mais qui ne s’est jamais réellement produite. C’est ce qu’on appelle une hallucination – ou une dérive quand le schéma se répète.
Pourquoi ça arrive ? Le modèle a été entraîné sur des données qui existaient avant ta question. Il n’a pas accès à ce que tu as rédigé en interne, mis à jour récemment ou stocké dans tes systèmes – et même si certains modèles peuvent interroger le Web pour combler les lacunes, ce n’est ni fiable ni efficace pour les connaissances propres à ton entreprise. Il comble donc les lacunes avec la réponse statistiquement la plus probable, qui n’est pas toujours la bonne.
Le RAG – abréviation de Retrieval-Augmented Generation – est la solution la plus pratique à ce problème. Au lieu de se fier à la mémoire du modèle, le RAG le connecte à ta vraie base de connaissances en temps réel. Politiques d’entreprise, documents commerciaux, manuels internes, FAQ – quand quelqu’un pose une question, le système trouve d’abord les passages pertinents dans ton contenu, les ajoute comme contexte, puis génère une réponse sur cette base.
C’est vraiment puissant. Ta documentation interne peut devenir une sorte d’oracle opérationnel, capable de répondre en langage clair. Mais ce n’est pas de la magie, et ce n’est pas l’outil adapté à toutes les situations.
À la fin de cet article, tu sauras ce que fait réellement le RAG, comment préparer ton contenu pour l’utiliser, et quand c’est le bon choix – et quand tu as besoin de quelque chose de plus structuré.
Comment fonctionne le RAG (sans jargon)
Le RAG s’intercale de manière invisible entre ta question et la réponse de l’IA. Le modèle ne répond pas uniquement depuis sa mémoire – il récupère d’abord les informations pertinentes dans ta base de connaissances et s’en sert comme base pour sa réponse.
Voici le processus, en quelques mots :
- Préparation du contenu : tu charges tes documents (politiques, FAQ, procédures) dans le système dans un format structuré et lisible.
- Indexation : le système traite ce contenu avec deux approches complémentaires – la recherche classique par mots-clés et la recherche sémantique (on y revient plus bas).
- Extraction : quand une question arrive, l’index extrait les passages les plus pertinents.
- Génération : l’IA produit une réponse en s’appuyant sur ces passages extraits, combinés à ses connaissances générales.
Le résultat, c’est une réponse ancrée dans ton contenu réel, et non générée de toutes pièces.
Pourquoi la recherche hybride est importante
La recherche par mots-clés fonctionne bien quand quelqu’un utilise exactement le terme qui apparaît dans un document. La recherche sémantique va plus loin : elle comprend le sens, pas seulement les mots.
Par exemple : « comment augmenter la marge de l’entreprise » et « réduire les frais d’exploitation » renvoient au même concept, mais ne partagent presque aucun mot-clé. La recherche sémantique trouve du contenu pertinent même quand la formulation est différente. En pratique, les systèmes RAG bien conçus utilisent les deux approches ensemble. Les mots-clés capturent les références précises, les codes produit et les noms propres. La recherche sémantique gère tout ce qui relève de l’intention plutôt que de la formulation exacte.
RAG vs. réglage fin
Ces deux concepts sont souvent confondus. Le RAG ne modifie pas le modèle lui-même – il utilise un LLM prêt à l’emploi (comme Claude ou GPT) et lui transmet les bons extraits de ta base de connaissances pour chaque question. Mets à jour la base de connaissances, réindexe-la, et les réponses restent à jour.
Le fine-tuning, c’est différent. Il ajuste de manière permanente le comportement ou le langage du modèle. C’est utile quand tu as besoin d’un style cohérent ou d’un comportement spécifique à un domaine – pas quand tu as surtout besoin de réponses précises et actuelles issues de documents.
Une chose importante à garder en tête : la qualité du RAG dépend de la qualité de son extraction. Un mauvais contexte en entrée donne une réponse assurée mais fausse en sortie. Plus de contenu extrait signifie aussi plus de tokens traités, ce qui augmente les coûts. Cet équilibre se conçoit délibérément – ce n’est pas une question de « plus de documents = meilleures réponses ».
Chez what., on ne construit pas toujours le RAG de zéro. On choisit l’approche qui correspond au besoin réel – RAG sur mesure, solutions de recherche gérées, ou une combinaison des deux – pour que tu investisses là où ça rapporte vraiment.
| Le RAG extrait le contenu pertinent de ta base de connaissances et le transmet à l’IA en tant que contexte avant de générer une réponse. Il utilise une combinaison de recherche par mots-clés et de recherche sémantique. Il ne réentraîne pas le modèle – il connecte un LLM standard à tes documents en temps réel. La qualité de l’extraction détermine la qualité des réponses. |

À lire aussi : Pourquoi as-tu besoin de l’IA pour automatiser tes processus ?
Préparer ta base de connaissances IA : pourquoi le format compte plus que tu ne le penses
Le RAG extrait ce que tu as écrit. Si tes documents sont désordonnés, fragmentés ou mal structurés, le système ne comprendra pas ton activité comme par magie – il trouvera des fragments faibles et le modèle comblera les lacunes avec assurance. C’est là que les hallucinations refont surface.
La qualité de l’extraction dépend presque autant de ton contenu que de l’algorithme qui le sous-tend.
Markdown vs. PDF
Les PDF sont parfaits pour la lecture et le partage. Pour le RAG, ils sont souvent un casse-tête. Mises en page complexes, tableaux cassés, pages numérisées – tout ça nécessite un OCR ou une étape d’analyse avant de pouvoir être indexé. Ça ajoute des coûts, du temps de traitement et un risque réel de voir du texte déformé se retrouver dans ta base de connaissances. Des outils comme LlamaIndex sont largement utilisés pour gérer ça quand le PDF est inévitable, mais c’est toujours plus d’efforts qu’un texte structuré propre.
Le Markdown fonctionne mieux parce que la structure est explicite : les titres, les sections et les listes indiquent au système d’indexation exactement où un sujet se termine et où un autre commence. Pour un modèle d’IA qui tente de récupérer le bon fragment, cette clarté fait une vraie différence.
Le Markdown est aussi indépendant du format. Il se convertit proprement en HTML, Word, PDF et la plupart des exports CMS, ce qui évite que ton pipeline RAG ne soit lié à un fournisseur ou un outil spécifique. Et c’est la norme dans la documentation logicielle depuis des années, précisément parce qu’il s’agit de texte brut, facile à versionner et simple à maintenir.
La règle pratique : garde les PDF pour l’archivage et la distribution. Utilise le Markdown (ou un texte structuré équivalent) comme format de travail pour tout ce qui va dans le RAG. Si tu n’as que des PDF numérisés, prévois un budget pour l’extraction – c’est faisable, mais ça coûte plus cher et ça augmente le risque d’erreurs.
Comment structurer tes documents pour la recherche
Quelques habitudes simples font une vraie différence dans les performances du RAG :
- Un sujet par section. Utilise des titres clairs. Évite les fichiers volumineux qui couvrent tout – privilégie les documents thématiques ou les sections bien séparées pour que la recherche renvoie des blocs cohérents plutôt qu’un demi-chapitre mélangé à du contenu sans rapport.
- Des titres descriptifs et précis. « Introduction » ou « Annexe » n’aident pas la recherche. « Politique de télétravail – Suisse » ou « Gestion des objections sur les prix – clients enterprise », oui. Le titre est souvent ce qui est repéré en premier.
- Place les codes et les références dès le début. Si tu utilises des codes de procédure internes, des noms de modules ou des références produit, inclus-les dans le titre ou la première ligne. Ça permet à la recherche par mots-clés de trouver immédiatement ce qu’il faut.
- Utilise des listes numérotées pour les processus. Les procédures étape par étape sont plus faciles à retrouver et à citer que des paragraphes denses. S’il y a une séquence, présente-la comme une séquence.
- Élimine le bruit. En-têtes et pieds de page répétés, mentions légales sur chaque page, versions en double d’un même document – tout ça pollue ton index. Un contenu épuré se retrouve plus facilement.
Une remarque sur le découpage
Les longs documents sont divisés en morceaux plus petits pour l’indexation. Les morceaux trop grands génèrent trop de bruit ; ceux trop petits perdent le fil du sens. Le découpage au niveau des titres Markdown permet naturellement de regrouper les contenus liés et réduit le risque de couper un concept en deux.
Les bons pipelines d’indexation utilisent aussi le chevauchement – quelques lignes des sections adjacentes sont incluses dans chaque fragment pour que le modèle ne perde pas le contexte aux limites. Si un document est court et toujours pertinent dans un flux donné, l’inclure en entier est parfois plus efficace que de se fier uniquement aux fragments extraits.
La vraie question à se poser avant d’acheter un modèle ou une plateforme plus coûteux : ta base de connaissances est-elle réellement consultable ? Un RAG bien conçu sur du contenu propre surpassera systématiquement une configuration médiocre sur des PDF chaotiques, pour un coût d’API identique.
Tout ne trouve pas sa place dans le RAG de la même manière
Ça vaut la peine de réfléchir à ce qui va où. Trois catégories sont utiles :
| Type | Exemple | Comment le traiter |
|---|---|---|
| Règles non négociables | Voix de marque, limites légales, identité fondamentale | Toujours injecter dans le contexte – ne pas laisser à la récupération aléatoire |
| Procédures ordonnées | Guides, étapes de conformité | Privilégier l’orchestration ; le RAG ne garantit pas l’ordre des étapes |
| Connaissances de soutien | Cadres, études de cas, FAQ approfondies | Le RAG excelle ici – extraire quand la question le nécessite |
Une erreur courante consiste à intégrer des procédures étape par étape critiques dans le RAG en espérant que le modèle les suivra dans l’ordre. Ce ne sera pas le cas de manière fiable. La recherche trouve des fragments pertinents – elle ne remplace pas un moteur de workflow avec un enchaînement imposé.
| Le format est aussi important que l’algorithme. Privilégie le Markdown au PDF quand c’est possible. Rédige des titres de section clairs et descriptifs. Un sujet par section. Élimine le bruit et les doublons. Tout ne doit pas être intégré au RAG de la même manière – les règles critiques doivent toujours être injectées, pas extraites. |
À lire aussi : Avant de te lancer dans l’IA, commence par améliorer tes processus.
Quand le RAG suffit – et quand tu as besoin de plus
C’est la question qui évite aux équipes de surdimensionner ou de sous-dimensionner leurs solutions.
Le RAG associé à un LLM est la bonne configuration quand quelqu’un pose une question et a besoin d’une réponse ancrée. Ce n’est pas la bonne configuration quand l’interaction nécessite un processus avec des étapes obligatoires, un état suivi d’une session à l’autre, ou des décisions séquentielles qui ne peuvent pas être ignorées.
Deux modèles mentaux :
| RAG + LLM uniquement | Orchestration + RAG + LLM |
|---|---|
| Question → extraction → réponse | État du processus + extraction → réponse à la bonne étape |
| Idéal pour s’informer | Nécessaire quand tu dois aussi effectuer des actions dans le bon ordre |
Règle rapide : une question, une réponse, pas de séquence obligatoire entre les sessions – commence par RAG et un LLM. Même utilisateur, plusieurs échanges, étapes qui ne peuvent pas être ignorées – ajoute l’orchestration. Le RAG sert alors de bibliothèque de soutien, pas de pilier du processus.
Trois cas où RAG + LLM est la bonne solution
- FAQ interne ou politique RH. « Quelle est notre politique de télétravail pour les employés basés en Suisse ? » – Un corpus bien indexé, une réponse ancrée dans le document de politique réel, aucun parcours en plusieurs étapes requis. On trouve, on explique, c’est fait.
- Aide à la vente. « Avons-nous une étude de cas logistique avec un retour sur investissement ? » – Une bibliothèque de documents commerciaux que les utilisateurs explorent selon leur intention, pas un script fixe. Le RAG gère ça naturellement.
- Assistance produit (L1). « Comment réinitialiser la connexion sur l’appareil X ? » – Une question, une réponse, directement liée au manuel. Si la recherche échoue, corrige le document, pas toute l’architecture.
Trois cas où tu as besoin d’une architecture plus solide
- Coaching ou conseil numérique avec un guide pratique. Des missions de plusieurs semaines où tu suis des objectifs, passes en revue les options et conclus avec un plan. Les règles relatives à l’étape et à la session en cours doivent exister en dehors du modèle – dans une base de données ou une machine à états. Le RAG fournit des cadres et des exemples quand l’étape le demande. Sans orchestration, l’IA saute des phases ou oublie ce qui a été convenu deux sessions plus tôt.
- Intégration d’un employé ou d’un partenaire. Semaine 1 : documents. Semaine 2 : formation. Semaine 3 : évaluation des compétences. Cet ordre peut être contractuel ou dicté par la conformité. Trouver le bon PDF ne suffit pas – tu ne peux pas ouvrir le module 3 tant que le module 2 n’est pas terminé. Le RAG fournit le contenu ; une machine à états guide le parcours.
- Découverte commerciale guidée. Qualification, puis analyse des besoins, puis proposition – avec des questions obligatoires à chaque étape. Le RAG récupère les tarifs, les argumentaires et les réponses aux objections. Un orchestrateur impose la séquence : « pas de discussion sur les tarifs avant que les besoins ne soient déclarés ». Sans ça, l’IA propose des devis trop tôt ou invente un cadre qui n’est pas le tien.
| RAG + LLM suffit pour les cas d’usage de type questions-réponses : FAQ, recherche de politiques, aide à la vente, support de niveau 1. Ajoute l’orchestration quand tu as besoin de séquences imposées, d’un état de session ou de processus en plusieurs étapes. Le RAG est une bibliothèque de recherche, pas un moteur de workflow. |
Corrige ton contenu avant de blâmer le modèle
Quand le RAG ne donne pas les résultats escomptés, la tentation est de mettre à niveau le modèle ou de passer à une plateforme plus coûteuse. En général, c’est la mauvaise décision.
La plupart des problèmes de recherche sont dus à la qualité du contenu, pas aux capacités du modèle. Des documents trop longs, mal intitulés ou dupliqués entre différentes versions vont semer la confusion même dans le meilleur système de recherche. La solution est d’ordre éditorial, pas architectural.
Avant d’investir dans l’infrastructure, vérifie trois choses :
- Le contenu est-il prêt ? Structuré, géré, à jour – pas un mélange de PDF éparpillés et de six versions du même document de politique.
- S’agit-il d’un problème de recherche-réponse ou de suivi de parcours ? Les FAQ et les politiques nécessitent généralement RAG + LLM. Les guides pratiques et les processus d’intégration en plusieurs étapes nécessitent aussi une orchestration.
- La réussite est-elle clairement définie ? « Des réponses utiles liées à des sources » est un critère de réussite. « Ça a l’air intelligent » ne l’est pas.
Un moyen rapide de trouver le vrai goulot d’étranglement : choisis un domaine, sélectionne 20 à 30 documents, note 10 questions réelles que ton équipe pose vraiment. Lance le test. En quelques jours, tu sauras si le problème vient de la recherche, de la qualité du contenu ou de l’architecture – et tu n’auras presque rien dépensé pour le découvrir.
Tu veux des workflows d’IA fiables de bout en bout, et pas seulement au niveau de la recherche ? Nos services d’intégration d’outils aident à connecter les systèmes dont dépend ton pipeline RAG – pour que les données s’intègrent proprement dans ta base de connaissances et restent à jour sans effort manuel.
| Une recherche médiocre est généralement un problème de contenu, pas un problème de modèle. Vérifie la qualité du contenu avant de mettre à niveau l’infrastructure. Lance d’abord un petit projet pilote – 20 à 30 documents, 10 questions réelles – pour identifier le véritable goulot d’étranglement. |
Prêt à construire une base de connaissances qui fonctionne vraiment ?
La bonne question n’est pas « quelle plateforme d’IA dois-je acheter ? », mais « est-ce que j’ai une base de connaissances qui vaut la peine d’être exploitée – et un processus qui sait quand s’appuyer sur le RAG et quand ne pas le faire ? »
C’est exactement le genre de question sur laquelle on aide les équipes à se pencher. En tant qu’agence d’automatisation IA, what. collabore avec les entreprises pour concevoir des configurations RAG adaptées au cas d’usage réel – ni plus complexes que nécessaire, ni sous-dimensionnées pour la tâche. Qu’il s’agisse d’une configuration légère exclusivement RAG ou d’un workflow IA entièrement orchestré, on t’aide à déterminer le bon niveau de complexité avant de construire quoi que ce soit.
Contacte-nous pour un entretien ciblé. Pas de discours commercial – juste une analyse honnête pour déterminer si le RAG est la solution adaptée et ce qu’il faudrait pour qu’il fonctionne bien.