Indexe Clair.
Méthode de recherche

Suivre la récupération avant la synthèse de réponse

Indexe Clair étudie la recherche par IA comme une suite de petits choix. Un robot d’exploration trouve une page et en manque une autre. Un système préfère un annuaire à une page de service à jour. Une requête en français fait ressortir une fiche d’entreprise, tandis qu’une version anglaise tire une autre piste. La méthode ralentit ce processus afin que chaque étape de récupération soit visible avant que la réponse soit jugée.

Dans le cas fondateur du laboratoire, un fournisseur situé près de Tours avait un site français propre, des horaires à jour, des pages produits et des mentions locales, et apparaissait pourtant dans la recherche par IA à travers une ancienne page d’annuaire. C’est ce type de décalage qui sert de point de départ à Indexe Clair. Le laboratoire ne considère pas une réponse fluide comme son principal objet d’étude. Il demande ce qui a dû se produire avant que cette réponse apparaisse : quelles pages ont été découvertes, quelle entité a été indexée, quelles preuves ont été classées et quelle source a finalement été sélectionnée.

Pour le laboratoire, une observation est un événement de récupération visible. Il peut s’agir d’un nom d’entreprise qui apparaît dans une réponse, d’une page listée comme source, d’un signal géographique qui survit à la requête ou d’une fiche périmée qui passe devant un site propre. La conclusion vient ensuite. L’équipe ne passe de l’observation à la conclusion qu’après avoir vu le même motif dans des requêtes, systèmes ou fenêtres temporelles comparables. Cela évite que le travail devienne une série de captures d’écran accompagnées de légendes trop appuyées.

Les échantillons sont constitués autour de catégories d’entreprises françaises dont les preuves sont déjà dispersées dans plusieurs espaces publics. Une petite entreprise de service peut avoir un site propre, un profil d’avis, une mention municipale, une fiche sectorielle et quelques références régionales. Indexe Clair ne prétend pas qu’un seul cas de ce type représente tout le commerce français. L’échantillon est utile parce qu’une même entreprise laisse différentes traces, et les systèmes de recherche par IA montrent souvent quelles traces ils peuvent atteindre et lesquelles ils jugent plus fiables.

La répétabilité est traitée comme un carnet de terrain aux marges strictes. La même formulation de requête est conservée, la langue est notée, le cadrage géographique est consigné et les conditions du système sont décrites aussi clairement que l’interface le permet. La variation est attendue. La recherche par IA n’est pas un distributeur automatique. Ce qui compte, c’est de savoir si la variation change l’entreprise récupérée, la source sélectionnée ou l’ordre de classement. Une phrase différente est moins importante qu’une piste de preuves différente.

Le laboratoire sépare aussi la récupération de la synthèse de réponse. Une entreprise peut être mentionnée sans qu’il soit prouvé que son propre site a été récupéré. Une entreprise peut être absente d’une réponse tout en restant présente quelque part dans l’index. Une source peut être sélectionnée parce qu’elle est explorable, fraîche, structurée, populaire, géographiquement claire ou simplement plus facile à analyser pour le système. Indexe Clair consigne ces possibilités sans les réduire à une règle rapide.

Les limites sont indiquées dans le travail lui-même. Les interfaces de recherche par IA changent. La personnalisation peut être partiellement cachée. La récupération en direct peut se mêler à des connaissances en cache. Certains systèmes exposent clairement les pistes de sources, tandis que d’autres ne montrent qu’une réponse finale. Les prévisions sont donc signalées comme interprétation, non comme résultat. Lorsque le laboratoire suggère qu’un signal peut aider la récupération, il décrit le mécanisme observé et l’incertitude qui l’entoure. Une affirmation utile doit laisser une prise pour qu’une autre personne puisse la tester.

Principes de travail

  1. Observation avant conclusion

    Une page visible, une fiche, une piste de sources ou un signal d’entreprise est enregistré avant que le laboratoire explique ce que cela peut signifier. L’explication reste liée à la trace.

  2. La récupération reste séparée

    Indexe Clair distingue le fait d’être récupéré du fait d’être bien décrit. Une réponse bien formulée ne suffit pas à prouver que la bonne source a été trouvée.

  3. Les exécutions doivent être comparables

    Les requêtes sont consignées avec leur formulation, leur langue, leur cadrage géographique et les conditions du système. Le laboratoire s’attend à des variations, mais il vérifie si le chemin de récupération sous-jacent change.

  4. Les conflits sont conservés

    Les doublons, fiches périmées et décalages régionaux ne sont pas nettoyés trop tôt. L’équipe note d’abord quelle source a été choisie, laquelle a été ignorée et quel type de conflit a orienté le résultat.

Une méthode n’est utile que si un autre lecteur peut la suivre.

Indexe Clair publie ses recherches avec assez de détails de trace pour montrer où commence chaque affirmation.

Lire l’index →