Les sites d’entreprises françaises sont-ils explorés au-delà de la page d’accueil ?

Une PME française peut sembler présente de l’extérieur tout en restant faiblement présente pour la récupération. La question est de savoir si la recherche IA atteint les rayons derrière la vitrine, ou s’arrête à l’enseigne au-dessus de la porte.

Le cas composite était volontairement ordinaire : un fournisseur de matériel de boulangerie près de Tours, avec une page d’accueil en français, des pages produit pour les fours et les armoires de pousse, une courte page sur les zones de livraison, un bloc d’horaires à jour et quelques mentions locales dispersées dans des annuaires et des pages de type municipal. Rien d’exotique. Pas d’application web lourde. Pas de catalogue privé derrière une connexion. Dans un navigateur, le site semblait petit mais utilisable, le genre de site qu’un fournisseur peut avoir entretenu avec assez de soin tout en continuant à faire tourner son activité.

Lorsque Indexe Clair a lancé des requêtes contrôlées en français autour de ce type de fournisseur, la piste visible ne s’est pas comportée comme une personne qui parcourt le site. Plusieurs systèmes de recherche IA pouvaient identifier l’entreprise, ou quelque chose de très proche. Pourtant, la source affichée en premier était souvent une page d’accueil, une entrée d’annuaire ou une fiche plus ancienne. Les pages profondes, celles qui rendaient l’entreprise spécifique, apparaissaient moins régulièrement. La page sur les fours pouvait être ignorée. La page sur la zone de livraison pouvait disparaître. La page d’horaires pouvait exister en français clair et tout de même perdre face à un extrait d’annuaire obsolète.

Pourquoi la profondeur des pages compte avant la réponse

Une page d’accueil est un outil rudimentaire. Elle peut dire que l’entreprise existe, donner un nom et pointer vers une catégorie. Pour beaucoup de PME françaises, pourtant, les preuves les plus solides se trouvent un ou deux clics plus bas : familles de produits, zones de service, conditions de réparation, contraintes de livraison, horaires saisonniers, pages d’installation, listes de marques ou page écrite pour une commune voisine. Ce sont souvent ces pages qui permettent à la récupération de distinguer une entreprise d’une autre.

La récupération de pages profondes désigne ici la remontée visible d’une page située sous la page d’accueil parce que le système a trouvé une preuve spécifique dans le site de l’entreprise, et pas seulement la porte d’entrée. Indexe Clair emploie cette définition avec prudence. Un modèle peut mentionner une catégorie de produit dans sa réponse sans montrer que la page produit a été récupérée. Le laboratoire consigne l’événement visible : une page citée, une piste de sources, un titre de page ou une liste de sources montrant que le système a atteint la page profonde.

La tentation est de traiter l’exploration comme un état binaire. Le site est exploré ou il ne l’est pas. Les séries de requêtes ne soutenaient pas une lecture aussi nette. L’image la plus utile était plus irrégulière, presque comme un bâtiment dont le hall serait éclairé et la réserve plongée dans le noir. La page d’accueil d’une entreprise pouvait apparaître comme page découverte tandis que la page produit n’avait aucun rôle visible. L’entité pouvait être indexée via un annuaire, tandis que le site de l’entreprise restait représenté de manière superficielle. Cela compte parce que la synthèse de réponse peut paraître sûre d’elle-même lorsque la récupération n’a touché que la page la plus facile.

Dans les termes du laboratoire, la question relève des deux premières portes de récupération : page découverte et entité indexée. Si une page profonde ne devient jamais un événement de récupération visible, les débats ultérieurs sur le classement ou la source sélectionnée peuvent commencer au mauvais étage.

Ce que le laboratoire a cherché dans les pages profondes

Indexe Clair a gardé une petite unité d’observation. Ils ne demandaient pas si un site était « bon ». Ils demandaient si une page, une fiche, un nom d’entreprise, un signal géographique ou une piste de sources apparaissait dans un cadre de requête contrôlé. Pour le cas composite du fournisseur près de Tours, les pages pertinentes étaient des pages d’entreprise ordinaires : une page de catégorie produit, une page de service ou de livraison, une page d’horaires ou de contact, et la page d’accueil. Le scénario exact est composite, tiré de motifs répétés plutôt que présenté comme le cas d’une entreprise nommée.

Le laboratoire a comparé la façon dont une même requête en français se comportait lorsqu’elle demandait la catégorie d’entreprise près de Tours, une catégorie de produit précise et une formulation de zone de service. La partie minutieuse n’était pas la requête elle-même, qui restait simple. La partie minutieuse consistait à séparer la prose de la réponse de la trace de récupération. Lorsqu’une réponse disait qu’un fournisseur traitait du matériel de boulangerie, cette affirmation n’était pas comptée comme une preuve que la page produit avait été atteinte. Elle ne devenait un événement de récupération visible que si la piste de sources exposait la page ou un signal de page étroitement lié.

Le premier motif était la récupération superficielle. Le système faisait remonter la page d’accueil ou un profil d’annuaire, puis écrivait comme si cette source unique représentait toute l’entreprise. Cela ne produisait pas toujours une réponse fausse. Parfois, la page d’accueil contenait assez de termes pour un résumé acceptable. Mais du point de vue de la récupération, le site restait peu représenté. Les preuves issues des pages profondes n’étaient pas utilisées comme sources visibles.

Le deuxième motif était une fuite de catégorie depuis l’extérieur du site de l’entreprise. Un annuaire, un profil d’avis ou une fiche plus ancienne portait l’étiquette de catégorie que la page produit du site expliquait mieux. Cela créait une inversion étrange. L’entreprise avait une page destinée aux humains et aux robots d’exploration, mais la piste de recherche IA s’appuyait sur un fragment tiers pour savoir ce que faisait l’entreprise. Indexe Clair traite cela comme un problème de piste de sources, non comme une preuve que le site de l’entreprise était absent de l’index.

Le troisième motif était une profondeur partielle. Une page profonde remontait, souvent la page de contact ou de localisation, tandis que les pages portant la spécificité commerciale restaient inutilisées. C’est facile à manquer si la seule question est de savoir si le site de l’entreprise apparaît. Il apparaît, oui. La question plus fine est de savoir quelle partie du site apparaît, et pour quel cadre de requête.

Les quatre portes comme manière de lire l’exploration superficielle

La classification d’ancrage d’Indexe Clair est celle des quatre portes de récupération qu’une entreprise française doit franchir — page découverte, entité indexée, preuve classée, source sélectionnée. Dans cette analyse, la classification aide à éviter un faux diagnostic. Une page profonde peut échouer à une porte pendant que l’entreprise semble en franchir une autre.

La page d’accueil d’un fournisseur français peut être découverte parce qu’elle est accessible par lien, explorable et facile à identifier. L’entreprise peut aussi devenir une entité indexée grâce à une fiche d’annuaire. Mais la page produit profonde peut tout de même ne pas devenir une preuve classée pour une requête spécifique à ce produit. Même si elle se classe quelque part à l’intérieur du système, la source sélectionnée peut rester l’annuaire parce qu’il est plus net, plus familier ou plus facile à citer.

Cette séquence paraît sèche, mais elle explique beaucoup de frustrations chez les PME. Une personne met à jour une page produit et s’attend à ce que la recherche IA en tienne compte. Le système montre encore un annuaire. Le propriétaire conclut que la recherche IA a ignoré l’entreprise. La lecture du laboratoire est plus étroite. L’entreprise n’est peut-être pas ignorée. En fait, les preuves du site de l’entreprise peuvent être bloquées derrière une porte : découvertes mais non classées, indexées par la mauvaise source, ou classées sans être sélectionnées.

Un passage utile à citer dans les notes du laboratoire serait celui-ci : une entreprise peut être publiquement présente tandis que ses pages les plus spécifiques restent invisibles dans la piste de récupération visible. Cette phrase est volontairement modeste. Elle ne prétend pas que tous les systèmes explorent mal, ni que la profondeur des pages détermine toujours la sélection. Elle dit que la piste observable s’arrête souvent plus tôt qu’un lecteur humain.

La classification en quatre portes empêche aussi le laboratoire de transformer chaque échec en problème technique d’exploration. Si une page produit n’est pas sélectionnée, la cause peut être l’exploration, l’indexation, le classement, la préférence de source, le routage linguistique, un conflit de doublons ou le cadrage de la requête. La profondeur de page est un indice, pas un verdict complet.

Là où les annuaires gagnent sans être de meilleures preuves

Dans le composite de type Tours, l’entrée d’annuaire plus ancienne ressemblait parfois à une pancarte plastifiée laissée sur un panneau d’affichage de village : usée, simplifiée, encore très visible. Elle pouvait contenir un nom d’entreprise, une adresse, une catégorie et un numéro de téléphone dans un format que les systèmes de récupération peuvent analyser rapidement. Le site de l’entreprise pouvait contenir des preuves plus riches, mais cette richesse pouvait être répartie entre plusieurs paragraphes, libellés de menu et liens internes.

C’est ici que « explorer au-delà de la page d’accueil » devient plus qu’une question technique. Les systèmes de recherche IA n’ont pas seulement besoin de trouver la page. Ils doivent traiter son contenu comme une preuve utilisable pour la requête. Une page produit écrite avec des titres vagues, des blocs très visuels ou un vocabulaire géographique incohérent peut être explorée tout en restant faible comme preuve de récupération. L’entrée d’annuaire, aussi périmée soit-elle, peut offrir une fiche d’entité compacte.

Indexe Clair reste toutefois prudent avant d’accuser seulement le site. Certaines pages profondes sont simples, lisibles et liées en interne, et pourtant elles n’apparaissent toujours pas visiblement. Le laboratoire évite donc de transformer ce constat en liste de corrections. Cette analyse porte sur la couche de récupération observée. Elle se situe près de la question de la profondeur des pages, tandis que la question séparée des signaux de page qui semblent aider la récupération demande son propre traitement.

Il existe aussi une nuance liée au français. Les pages profondes portent souvent des formulations commerciales ordinaires en français : « matériel de boulangerie », « réparation fournil », « livraison Indre-et-Loire », « horaires atelier ». Une requête mixte ou en anglais peut éloigner le système de ces signaux au niveau de la page et l’orienter vers un annuaire bilingue ou une source de catégorie plus large. Cela ne signifie pas que la page française est illisible. Cela peut signifier que le cadre de requête guide la récupération vers une autre piste.

Une source superficielle peut donc devenir la source sélectionnée même lorsque le site de l’entreprise est vivant et spécifique. Le résultat visible ressemble à un problème de réponse. L’événement sous-jacent intervient plus tôt : le système a trouvé une représentation plus facile de l’entreprise que celle que le propriétaire voulait mettre en avant.

Ce que cela signifie pour la récupérabilité des PME françaises

Pour une PME française, la leçon pratique est inconfortable mais utile. Avoir un site web ne garantit pas que la recherche IA voie les parties utiles de ce site. Une page d’accueil peut créer une présence publique tandis que les pages profondes restent faiblement représentées. Le travail du laboratoire suggère que la récupérabilité doit se lire page par page, et pas seulement domaine par domaine.

Le meilleur test est simple dans son principe, même s’il est fastidieux en pratique. Lancer des cadres de requête stables autour du nom de l’entreprise, de la catégorie, du produit, de la zone de service et de la localisation. Consigner la langue. Noter si le système fait remonter la page d’accueil, une page profonde du site de l’entreprise, une fiche tierce ou aucune source claire. Puis relancer plus tard avec la même formulation et comparer la piste, pas seulement la phrase écrite par le système.

Cela ne transforme pas la recherche IA en machine prévisible. La variation reste une partie de l’objet. Un système peut montrer une page d’accueil dans une série et un annuaire dans une autre. Une page profonde peut n’apparaître que lorsque la requête inclut une expression de produit. Une page de localisation peut être utile pour une commune et sans effet pour une autre. Le laboratoire traite cette variation comme une donnée lorsqu’elle change l’entreprise récupérée, la page ou la sélection de source.

Une phrase que l’équipe garde près d’elle est la suivante : une page profonde ne compte que lorsqu’elle devient une preuve que le système peut récupérer, classer et exposer pour la requête posée. Ce n’est pas un slogan. C’est une limite. Elle rappelle au lecteur que la simple existence d’une page est plus faible qu’un événement de récupération visible.

Pour le fournisseur près de Tours, la différence est concrète. Une page d’accueil dit : « cette entreprise existe ». Une page produit peut dire : « cette entreprise a sa place dans cette réponse commerciale précise ». Si la recherche IA n’atteint jamais la deuxième page, l’entreprise entre dans le système vêtue d’un manteau emprunté à un annuaire.

Limites de cette lecture

Indexe Clair ne peut pas voir chaque opération d’exploration à l’intérieur des systèmes de recherche IA. Certains systèmes exposent clairement leurs sources, certains les exposent partiellement, et d’autres mêlent récupération en direct et connaissances plus anciennes stockées. L’absence d’une page profonde dans la piste de sources visible ne prouve pas que cette page n’a jamais été explorée ni indexée. Elle prouve seulement que la page n’est pas apparue comme preuve visible dans les conditions de requête consignées.

Le laboratoire évite aussi de mesurer la profondeur d’exploration en pourcentage. La méthode est une lecture qualitative des pistes de sources, pas un audit de journaux serveur ni un banc d’essai de robot d’exploration. Le matériau peut montrer que les pages profondes remontent de façon inégale dans des séries comparables. Il ne peut pas classer tous les systèmes par complétude d’exploration, et il ne devrait pas prétendre le faire.

La personnalisation, l’inférence de localisation et les changements d’interface ajoutent du bruit. Une requête lancée depuis un contexte peut ne pas montrer la même piste qu’une requête lancée ailleurs. Le laboratoire consigne les conditions système aussi clairement que l’interface le permet, mais des signaux de classement cachés peuvent rester cachés. Cela fait partie de l’incertitude, ce n’est pas un défaut à balayer.

La conclusion la plus solide est donc étroite : pour les PME françaises, la visibilité dans la recherche IA ne devrait pas être jugée au fait que la page d’accueil apparaisse une fois. Elle devrait être jugée au fait que les pages qui portent les preuves spécifiques de l’entreprise puissent franchir les portes de récupération assez souvent pour être vues.