Qu’est-ce qu’un robot d’exploration Web et comment Fonctionne-t-Il ?

  • Vann Vicente

    @vannvicente

  • 9 Juillet 2021, 9h30 HAE
  •  Une araignée faite de uns et de zéros.
    Enzozo /

    Avez-vous déjà cherché quelque chose sur Google et vous êtes-vous demandé: “Comment sait-il où chercher?”La réponse est “robots d’exploration Web”, qui recherchent le Web et l’indexent afin que vous puissiez trouver des choses facilement en ligne. Nous vous expliquerons.

    Moteurs de recherche et robots d’exploration

    Lorsque vous effectuez une recherche à l’aide d’un mot-clé sur un moteur de recherche comme Google ou Bing, le site passe au crible des milliards de pages pour générer une liste de résultats liés à ce terme. Comment ces moteurs de recherche ont-ils exactement toutes ces pages dans le fichier, savent-ils les rechercher et génèrent-ils ces résultats en quelques secondes?

    La réponse est celle des robots d’exploration Web, également appelés araignées. Ce sont des programmes automatisés (souvent appelés “robots” ou “robots”) qui “explorent” ou naviguent sur le Web afin qu’ils puissent être ajoutés aux moteurs de recherche. Ces robots indexent les sites Web pour créer une liste de pages qui apparaissent éventuellement dans vos résultats de recherche.

    Les robots d’exploration créent et stockent également des copies de ces pages dans la base de données du moteur, ce qui vous permet d’effectuer des recherches presque instantanément. C’est aussi la raison pour laquelle les moteurs de recherche incluent souvent des versions en cache de sites dans leurs bases de données.

    CONNEXES: Comment accéder à une Page Web Lorsqu’elle est en panne

    Cartes et sélection du site

     Une illustration d'un homme devant un organigramme.
    Griboïedov /

    Alors, comment les robots d’exploration choisissent-ils les sites Web à explorer? Eh bien, le scénario le plus courant est que les propriétaires de sites Web souhaitent que les moteurs de recherche explorent leurs sites. Ils peuvent y parvenir en demandant à Google, Bing, Yahoo ou un autre moteur de recherche d’indexer leurs pages. Ce processus varie d’un moteur à l’autre. En outre, les moteurs de recherche sélectionnent fréquemment des sites Web populaires et bien liés à explorer en suivant le nombre de fois où une URL est liée sur d’autres sites publics.

    Publicité

    Les propriétaires de sites Web peuvent utiliser certains processus pour aider les moteurs de recherche à indexer leurs sites Web, tels que
    télécharger un plan du site. Il s’agit d’un fichier contenant tous les liens et pages qui font partie de votre site Web. Il est normalement utilisé pour indiquer les pages que vous souhaitez indexer.

    Une fois que les moteurs de recherche ont déjà exploré un site Web une fois, ils exploreront automatiquement ce site à nouveau. La fréquence varie en fonction de la popularité d’un site Web, entre autres mesures. Par conséquent, les propriétaires de sites tiennent fréquemment des cartes de sites à jour pour informer les moteurs des nouveaux sites Web à indexer.

    Les robots et le facteur de politesse

    " Des robots.txt" écrit sur des blocs de bois.
    Devenorr /

    Que se passe-t-il si un site Web ne veut pas que certaines ou toutes ses pages apparaissent sur un moteur de recherche? Par exemple, vous ne souhaitez peut-être pas que les utilisateurs recherchent une page réservée aux membres ou voient votre page d’erreur 404. C’est là que se trouve la liste d’exclusion d’exploration, également connue sous le nom de robots.txt, entre en jeu. Il s’agit d’un simple fichier texte qui dicte aux robots d’exploration les pages Web à exclure de l’indexation.

    Publicité

    Une autre raison pour laquelle les robots.txt est important, c’est que les robots d’exploration Web peuvent avoir un effet significatif sur les performances du site. Parce que les robots d’exploration téléchargent essentiellement toutes les pages de votre site Web, ils consomment des ressources et peuvent provoquer des ralentissements. Ils arrivent à des moments imprévisibles et sans approbation. Si vous n’avez pas besoin que vos pages soient indexées à plusieurs reprises, l’arrêt des robots d’exploration peut aider à réduire une partie de la charge de votre site Web. Heureusement, la plupart des robots d’exploration arrêtent d’explorer certaines pages en fonction des règles du propriétaire du site.

    La meilleure newsletter technologique du monde

    Rejoignez 425 000 abonnés et obtenez un résumé quotidien des fonctionnalités, des articles, des actualités et des anecdotes.

    En soumettant votre e-mail, vous acceptez les Conditions d’utilisation et la Politique de confidentialité.

    Metadata Magic

     Google Search HowToGeek

    Sous l’URL et le titre de chaque résultat de recherche dans Google, vous trouverez une brève description de la page. Ces descriptions sont appelées extraits. Vous remarquerez peut-être que l’extrait d’une page dans Google ne correspond pas toujours au contenu réel du site Web. En effet, de nombreux sites Web ont ce qu’on appelle des “balises méta”, qui sont des descriptions personnalisées que les propriétaires de sites ajoutent à leurs pages.

    Les propriétaires de sites proposent souvent des descriptions de métadonnées alléchantes écrites pour vous donner envie de cliquer sur un site Web. Google répertorie également d’autres méta-informations, telles que les prix et la disponibilité des stocks. Ceci est particulièrement utile pour ceux qui exécutent des sites Web de commerce électronique.

    Votre recherche

    La recherche sur le Web est une partie essentielle de l’utilisation d’Internet. La recherche sur le Web est un excellent moyen de découvrir de nouveaux sites Web, magasins, communautés et intérêts. Chaque jour, les robots d’exploration Web visitent des millions de pages et les ajoutent aux moteurs de recherche. Bien que les robots d’exploration présentent certains inconvénients, comme l’utilisation des ressources du site, ils sont inestimables pour les propriétaires de sites et les visiteurs.

    LIÉS: Comment supprimer les 15 dernières Minutes de l’historique de recherche Google

    Vann Vicente
    Vann Vicente est rédacteur technologique depuis quatre ans, en mettant l’accent sur les explicateurs destinés aux consommateurs moyens. Il travaille également en tant que spécialiste du marketing numérique pour un site de commerce électronique régional. Il a investi dans la culture Internet, les médias sociaux et la façon dont les gens interagissent avec le Web.Lire la Bio complète ”

    Leave a Reply