Conception de systèmes RAG fiables : les leçons d'un hackathon

March 30, 2026
January 5, 2026
5
min read

En octobre 2025, nous avons organisé l'Argusa AI Challenge, un concours réunissant des étudiants et des passionnés de données pour aborder un cas d'utilisation réaliste de la génération augmentée par extraction. L'événement a mis en lumière la rapidité avec laquelle l'intérêt pour RAG croît, mais aussi la facilité avec laquelle les premières initiatives sous-estiment la profondeur d'ingénierie requise pour des systèmes fiables, sécurisés et adaptés à l'entreprise.

Ce travail présente les informations issues d'un processus de développement rigoureux : nous avons d'abord construit et testé le défi en interne sur cinq itérations, en explorant plusieurs architectures et outils de développement, nécessitant également le développement simultané d'une méthode d'évaluation formelle. Cette phase a prouvé la faisabilité du défi tout en exposant des contraintes critiques, notamment en matière d'évaluation automatisée, et a établi un cadre formel pour le développement du RAG dans les environnements d'entreprise. Le processus qui en a résulté a ensuite été testé dans le cadre d'un concours public auquel ont participé des dizaines de participants externes au cours de Défi Argusa AI

La complexité cachée du RAG d'entreprise

Bien que le RAG promet des réponses fondées et une prise de décision plus rapide, les conditions réelles compliquent rapidement la mise en œuvre. Les données d'entreprise sont bruyantes, contradictoires et éparpillées dans des systèmes hétérogènes régis par des autorisations strictes. La plupart des premiers efforts se concentrent uniquement sur la récupération ou l'incitation, sans tenir compte de la façon dont l'ingestion, le prétraitement, l'indexation, la récupération et l'évaluation forment une chaîne interdépendante. À n'importe quel stade, la faiblesse se propage en aval. L'expérience a immédiatement révélé cette nature systémique. Une logique d'ingestion incomplète, des métadonnées incohérentes, un découpage sous-optimal et une fragilité de récupération ont tous nui à la fiabilité des réponses. La leçon principale est que le RAG doit être traité comme un système technique et non comme un composant isolé.

Construire un corpus réaliste mais sûr

Dans le cadre de ce hackathon, il nous a été impossible d'exposer publiquement des données internes. Pour explorer ces défis en toute sécurité, nous avons construit un corpus synthétique représentant une entreprise fictive dotée de processus, de personnel et de produits cohérents. Cet ensemble de données reproduisait la véritable complexité de l'entreprise : PDF, diaporamas, fichiers structurés et semi-structurés, e-mails, journaux, archives et images. Il incluait intentionnellement de l'ambiguïté, de la redondance et des incohérences partielles. Cela a obligé les équipes à concevoir des pipelines d'ingestion capables de gérer divers formats, de récupérer du texte de manière fiable et de préserver la traçabilité. Le processus a révélé un point de vue critique. L'ingestion automatique n'est pas totalement fiable. La supervision humaine reste nécessaire pour garantir la cohérence et corriger les écarts avant que les données ne soient intégrées à la mémoire sémantique du système.

Exploration de plusieurs architectures RAG lors de tests internes

En interne, lors de l'élaboration du hackathon, nous avons mis en œuvre des pipelines de bout en bout à l'aide de différentes technologies, notamment des boîtes à outils natives du cloud, des bases de données vectorielles et des orchestrations Python personnalisées. Aucune approche unique ne s'est révélée universellement optimale. Les performances dépendaient des caractéristiques des données, de la qualité du découpage, de la stratégie de récupération et des choix d'intégration. Les scores de précision variaient entre 65 % et 80 %, même dans des conditions contrôlées. Cela a confirmé que les performances du RAG découlaient de décisions d'ingénierie complexes plutôt que d'un choix technologique isolé. Il a également mis en évidence la nécessité de disposer d'architectures flexibles qui s'adaptent aux données, à l'infrastructure et aux contraintes commerciales.

Le pipeline RAG en tant que flux de travail d'ingénierie

Ce travail exploratoire sur les solutions RAG a révélé six étapes fondamentales qui constituent l'échafaudage inévitable de tout système performant : quels que soient les outils ou la technologie, chaque pipeline RAG efficace repose en fin de compte sur ces étapes, même si les implémentations apportent des améliorations ou ajoutent de la complexité.

  • L'ingestion convertit des documents hétérogènes en texte tout en garantissant une couverture complète et une traçabilité complète. Les dossiers manquants à ce stade entraînent des lacunes permanentes dans les connaissances.
  • Le prétraitement normalise le contenu, le segmente en unités cohérentes et enrichit chaque segment avec des métadonnées. La fragmentation excessive dilue le sens, tandis que la faiblesse des métadonnées réduit l'interprétabilité et nuit à la récupération.
  • L'indexation intègre des segments dans l'espace vectoriel. Les choix concernant les modèles d'intégration et la taille des blocs influent directement sur la qualité de récupération, le coût et l'évolutivité du système.
  • La récupération détermine les informations que le modèle voit. Il est essentiel d'équilibrer la similitude sémantique, la correspondance littérale et la sélection des morceaux pour éviter de manquer le contexte pertinent ou de surcharger le modèle de bruit.
  • Generation synthétise les informations récupérées en réponses fondées tout en évitant les hallucinations, en maintenant la traçabilité et en signalant l'incertitude si nécessaire.
  • L'auto-évaluation ferme la boucle en identifiant les défauts de récupération, de raisonnement ou de stabilité avant que les systèmes n'atteignent les utilisateurs finaux.

Ce blog fournit une synthèse de haut niveau, et les lecteurs qui souhaitent obtenir une description détaillée de chacune des six étapes peuvent télécharger le livre blanc complet à la fin.

Comprendre les modes de défaillance pour améliorer la récupération

Certains types de questions ont constamment mis en évidence des faiblesses structurelles, telles que :

  • Les questions de la liste exhaustive (« Dressez la liste de tous les projets qui... ») ont révélé des angles morts en matière de récupération, seuls les éléments les plus importants étant apparus.
  • Les requêtes nécessitant une compréhension implicite ont révélé des incohérences sémantiques dans la recherche basée sur l'intégration
  • Les pièges du raisonnement ont montré comment l'absence de contexte permet de tirer des conclusions confiantes mais incorrectes.

Ces modèles soulignent que la récupération est (l'un des) principaux leviers de performance.

Évaluation systématique pour garantir la confiance

L'évaluation des systèmes RAG est intrinsèquement difficile, car elle nécessite de convertir des réponses ouvertes en signaux quantitatifs pouvant être audités et fiables. Aucune métrique ne permet de mesurer à elle seule la précision, l'exhaustivité et la qualité du raisonnement, et les évaluateurs basés sur le LLM introduisent de la variabilité. Les contrôles d'autocohérence entre les variantes rapides et la notation à double modèle aident à stabiliser les évaluations mais ne peuvent pas lever l'ambiguïté. La notation automatique fournit une échelle et une structure, mais elle reste insuffisante à elle seule. Elle doit être associée à une supervision humaine ciblée pour interpréter les cas extrêmes et corriger les erreurs de jugement. La confiance des entreprises découle de cette interaction : l'automatisation garantit la répétabilité, tandis que l'évaluation humaine protège contre les modes de défaillance cachés et assure la gouvernance.

Conclusion

Les systèmes RAG fiables nécessitent une ingénierie de pipeline rigoureuse et des méthodes d'évaluation structurées qui vont au-delà de la simple preuve de concept. Ce processus rigoureux a permis de développer systématiquement une expertise à la fois dans la mise en œuvre technique et dans les complexités de gouvernance qui apparaissent dans la production des entreprises, contraintes que les expériences isolées ignorent généralement. En outre, la capacité à générer des corpus synthétiques réalistes s'est révélée stratégiquement utile, car elle a permis de réaliser des tests de résistance sans exposer de données sensibles.

Tous ces aspects sont présentés plus en détail dans notre livre blanc. Téléchargez le document complet pour en savoir plus sur l'architecture, les informations techniques et les leçons apprises tout au long du processus de développement.

Auteur

Solange Flatt

IA et automatisation
IA et automatisation
IA et automatisation

En octobre 2025, nous avons organisé l'Argusa AI Challenge, un concours réunissant des étudiants et des passionnés de données pour aborder un cas d'utilisation réaliste de la génération augmentée par extraction. L'événement a mis en lumière la rapidité avec laquelle l'intérêt pour RAG croît, mais aussi la facilité avec laquelle les premières initiatives sous-estiment la profondeur d'ingénierie requise pour des systèmes fiables, sécurisés et adaptés à l'entreprise.

Ce travail présente les informations issues d'un processus de développement rigoureux : nous avons d'abord construit et testé le défi en interne sur cinq itérations, en explorant plusieurs architectures et outils de développement, nécessitant également le développement simultané d'une méthode d'évaluation formelle. Cette phase a prouvé la faisabilité du défi tout en exposant des contraintes critiques, notamment en matière d'évaluation automatisée, et a établi un cadre formel pour le développement du RAG dans les environnements d'entreprise. Le processus qui en a résulté a ensuite été testé dans le cadre d'un concours public auquel ont participé des dizaines de participants externes au cours de Défi Argusa AI

La complexité cachée du RAG d'entreprise

Bien que le RAG promet des réponses fondées et une prise de décision plus rapide, les conditions réelles compliquent rapidement la mise en œuvre. Les données d'entreprise sont bruyantes, contradictoires et éparpillées dans des systèmes hétérogènes régis par des autorisations strictes. La plupart des premiers efforts se concentrent uniquement sur la récupération ou l'incitation, sans tenir compte de la façon dont l'ingestion, le prétraitement, l'indexation, la récupération et l'évaluation forment une chaîne interdépendante. À n'importe quel stade, la faiblesse se propage en aval. L'expérience a immédiatement révélé cette nature systémique. Une logique d'ingestion incomplète, des métadonnées incohérentes, un découpage sous-optimal et une fragilité de récupération ont tous nui à la fiabilité des réponses. La leçon principale est que le RAG doit être traité comme un système technique et non comme un composant isolé.

Construire un corpus réaliste mais sûr

Dans le cadre de ce hackathon, il nous a été impossible d'exposer publiquement des données internes. Pour explorer ces défis en toute sécurité, nous avons construit un corpus synthétique représentant une entreprise fictive dotée de processus, de personnel et de produits cohérents. Cet ensemble de données reproduisait la véritable complexité de l'entreprise : PDF, diaporamas, fichiers structurés et semi-structurés, e-mails, journaux, archives et images. Il incluait intentionnellement de l'ambiguïté, de la redondance et des incohérences partielles. Cela a obligé les équipes à concevoir des pipelines d'ingestion capables de gérer divers formats, de récupérer du texte de manière fiable et de préserver la traçabilité. Le processus a révélé un point de vue critique. L'ingestion automatique n'est pas totalement fiable. La supervision humaine reste nécessaire pour garantir la cohérence et corriger les écarts avant que les données ne soient intégrées à la mémoire sémantique du système.

Exploration de plusieurs architectures RAG lors de tests internes

En interne, lors de l'élaboration du hackathon, nous avons mis en œuvre des pipelines de bout en bout à l'aide de différentes technologies, notamment des boîtes à outils natives du cloud, des bases de données vectorielles et des orchestrations Python personnalisées. Aucune approche unique ne s'est révélée universellement optimale. Les performances dépendaient des caractéristiques des données, de la qualité du découpage, de la stratégie de récupération et des choix d'intégration. Les scores de précision variaient entre 65 % et 80 %, même dans des conditions contrôlées. Cela a confirmé que les performances du RAG découlaient de décisions d'ingénierie complexes plutôt que d'un choix technologique isolé. Il a également mis en évidence la nécessité de disposer d'architectures flexibles qui s'adaptent aux données, à l'infrastructure et aux contraintes commerciales.

Le pipeline RAG en tant que flux de travail d'ingénierie

Ce travail exploratoire sur les solutions RAG a révélé six étapes fondamentales qui constituent l'échafaudage inévitable de tout système performant : quels que soient les outils ou la technologie, chaque pipeline RAG efficace repose en fin de compte sur ces étapes, même si les implémentations apportent des améliorations ou ajoutent de la complexité.

  • L'ingestion convertit des documents hétérogènes en texte tout en garantissant une couverture complète et une traçabilité complète. Les dossiers manquants à ce stade entraînent des lacunes permanentes dans les connaissances.
  • Le prétraitement normalise le contenu, le segmente en unités cohérentes et enrichit chaque segment avec des métadonnées. La fragmentation excessive dilue le sens, tandis que la faiblesse des métadonnées réduit l'interprétabilité et nuit à la récupération.
  • L'indexation intègre des segments dans l'espace vectoriel. Les choix concernant les modèles d'intégration et la taille des blocs influent directement sur la qualité de récupération, le coût et l'évolutivité du système.
  • La récupération détermine les informations que le modèle voit. Il est essentiel d'équilibrer la similitude sémantique, la correspondance littérale et la sélection des morceaux pour éviter de manquer le contexte pertinent ou de surcharger le modèle de bruit.
  • Generation synthétise les informations récupérées en réponses fondées tout en évitant les hallucinations, en maintenant la traçabilité et en signalant l'incertitude si nécessaire.
  • L'auto-évaluation ferme la boucle en identifiant les défauts de récupération, de raisonnement ou de stabilité avant que les systèmes n'atteignent les utilisateurs finaux.

Ce blog fournit une synthèse de haut niveau, et les lecteurs qui souhaitent obtenir une description détaillée de chacune des six étapes peuvent télécharger le livre blanc complet à la fin.

Comprendre les modes de défaillance pour améliorer la récupération

Certains types de questions ont constamment mis en évidence des faiblesses structurelles, telles que :

  • Les questions de la liste exhaustive (« Dressez la liste de tous les projets qui... ») ont révélé des angles morts en matière de récupération, seuls les éléments les plus importants étant apparus.
  • Les requêtes nécessitant une compréhension implicite ont révélé des incohérences sémantiques dans la recherche basée sur l'intégration
  • Les pièges du raisonnement ont montré comment l'absence de contexte permet de tirer des conclusions confiantes mais incorrectes.

Ces modèles soulignent que la récupération est (l'un des) principaux leviers de performance.

Évaluation systématique pour garantir la confiance

L'évaluation des systèmes RAG est intrinsèquement difficile, car elle nécessite de convertir des réponses ouvertes en signaux quantitatifs pouvant être audités et fiables. Aucune métrique ne permet de mesurer à elle seule la précision, l'exhaustivité et la qualité du raisonnement, et les évaluateurs basés sur le LLM introduisent de la variabilité. Les contrôles d'autocohérence entre les variantes rapides et la notation à double modèle aident à stabiliser les évaluations mais ne peuvent pas lever l'ambiguïté. La notation automatique fournit une échelle et une structure, mais elle reste insuffisante à elle seule. Elle doit être associée à une supervision humaine ciblée pour interpréter les cas extrêmes et corriger les erreurs de jugement. La confiance des entreprises découle de cette interaction : l'automatisation garantit la répétabilité, tandis que l'évaluation humaine protège contre les modes de défaillance cachés et assure la gouvernance.

Conclusion

Les systèmes RAG fiables nécessitent une ingénierie de pipeline rigoureuse et des méthodes d'évaluation structurées qui vont au-delà de la simple preuve de concept. Ce processus rigoureux a permis de développer systématiquement une expertise à la fois dans la mise en œuvre technique et dans les complexités de gouvernance qui apparaissent dans la production des entreprises, contraintes que les expériences isolées ignorent généralement. En outre, la capacité à générer des corpus synthétiques réalistes s'est révélée stratégiquement utile, car elle a permis de réaliser des tests de résistance sans exposer de données sensibles.

Tous ces aspects sont présentés plus en détail dans notre livre blanc. Téléchargez le document complet pour en savoir plus sur l'architecture, les informations techniques et les leçons apprises tout au long du processus de développement.

Auteur

Solange Flatt

Livre blanc - RAG Hackathon

By clicking Download you're confirming that you agree with our privacy policy.
Thank you!
Oops! Something went wrong while submitting the form.
By clicking “Accept All Cookies”, you agree to the storing of cookies on your device to enhance site navigation, analyze site usage, and assist in our marketing efforts. View our Privacy Policy for more information.