Wat Is een webcrawler, en hoe werkt het?

  • Vann Vicente

    @vannvicente

  • 9 juli 2021, 9: 30 am EDT
  • een spin gemaakt van enen en nullen.
    Enzozo /

    heb je ooit gezocht naar iets op Google en vroeg zich af, ” Hoe weet het waar te kijken?”Het antwoord is” web crawlers, ” die zoeken op het web en indexeren, zodat u dingen gemakkelijk online kunt vinden. We leggen het uit.

    zoekmachines en Crawlers

    wanneer u zoekt met behulp van een trefwoord op een zoekmachine zoals Google of Bing, de site zeven door biljoenen pagina ‘ s om een lijst met resultaten met betrekking tot die term te genereren. Hoe precies hebben deze zoekmachines al deze pagina ‘ s in het bestand, weten hoe ze te zoeken, en het genereren van deze resultaten binnen enkele seconden?

    het antwoord is web crawlers, ook bekend als spiders. Dit zijn geautomatiseerde programma ‘ s (vaak “robots” of “bots” genoemd) die “kruipen” of surfen over het web, zodat ze kunnen worden toegevoegd aan zoekmachines. Deze robots index websites om een lijst van pagina ‘ s die uiteindelijk verschijnen in uw zoekresultaten te creëren.

    Crawlers maken en slaan ook kopieën van deze pagina ‘ s op in de database van de engine, waardoor u vrijwel direct kunt zoeken. Het is ook de reden waarom zoekmachines vaak in de cache versies van sites in hun databases.

    gerelateerd: hoe toegang te krijgen tot een webpagina als deze niet is

    Sitekaarten en selectie

    een illustratie van een man voor een stroomdiagram.
    Gribojedov /

    dus, hoe doen crawlers kiezen welke websites te crawlen? Nou, het meest voorkomende scenario is dat website-eigenaren willen zoekmachines om hun sites te kruipen. Ze kunnen dit bereiken door Google, Bing, Yahoo of een andere zoekmachine aan te vragen om hun pagina ‘ s te indexeren. Dit proces varieert van motor tot motor. Ook, zoekmachines vaak selecteren populaire, goed gelinkte websites te crawlen door het bijhouden van het aantal keren dat een URL is gekoppeld op andere openbare sites.

    advertentie

    Website-eigenaren kunnen bepaalde processen gebruiken om zoekmachines te helpen hun websites te indexeren, zoals
    het uploaden van een sitekaart. Dit is een bestand met alle links en pagina ‘ s die deel uitmaken van uw website. Het wordt normaal gesproken gebruikt om aan te geven welke pagina ‘ s u wilt indexeren.

    zodra zoekmachines een website al eens hebben gekropen, zullen ze die site automatisch opnieuw doorzoeken. De frequentie varieert afhankelijk van hoe populair een website is, onder andere metrics. Daarom houden site-eigenaren regelmatig bijgewerkte site kaarten om motoren te laten weten welke nieuwe websites te indexeren.

    Robots en de Beleefdheidsfactor

    "Robots.txt " gespeld op houten blokken.
    Devenorr /

    wat als een website niet wil dat sommige of alle pagina ‘ s op een zoekmachine verschijnen? U wilt bijvoorbeeld niet dat mensen naar een pagina met alleen leden zoeken of uw 404-foutpagina zien. Dit is waar de crawl uitsluiting lijst, ook bekend als robots.txt, komt in het spel. Dit is een eenvoudig tekstbestand dat aan crawlers dicteert welke webpagina ‘ s moeten worden uitgesloten van indexering.

    advertentie

    een andere reden waarom robots.txt is belangrijk is dat webcrawlers een significant effect op de prestaties van de site kan hebben. Omdat crawlers zijn in wezen het downloaden van alle pagina ‘ s op uw website, ze verbruiken middelen en kunnen vertragingen veroorzaken. Ze komen op onvoorspelbare tijden en zonder goedkeuring. Als je niet nodig hebt uw pagina ‘ s herhaaldelijk geïndexeerd, dan stoppen crawlers kan helpen verminderen sommige van uw website belasting. Gelukkig stoppen de meeste crawlers met het crawlen van bepaalde pagina ‘ s op basis van de regels van de site-eigenaar.

    The Best Tech Newsletter Anywhere

    Word lid van 425.000 abonnees en ontvang dagelijks een overzicht van functies, artikelen, nieuws en trivia.

    door uw e-mail te versturen, gaat u akkoord met de gebruiksvoorwaarden en het Privacybeleid.

    metadata Magic

    Google Search HowToGeek

    onder de URL en titel van elk zoekresultaat in Google vindt u een korte beschrijving van de pagina. Deze beschrijvingen worden snippets genoemd. Je zou kunnen merken dat het fragment van een pagina in Google niet altijd in lijn met de werkelijke inhoud van de website. Dit komt omdat veel websites hebben iets genaamd” meta-tags, “die aangepaste beschrijvingen die site-eigenaren toe te voegen aan hun pagina’ s zijn.

    Site-eigenaren komen vaak met verleidelijke metadata beschrijvingen geschreven om u wilt klikken op een website. Google geeft ook andere meta-informatie weer, zoals prijzen en beschikbaarheid van voorraden. Dit is vooral handig voor degenen die e-commerce websites.

    uw zoekopdracht

    zoeken op het Web is een essentieel onderdeel van het gebruik van het internet. Zoeken op het web is een geweldige manier om nieuwe websites te ontdekken, winkels, gemeenschappen, en interesses. Elke dag bezoeken webcrawlers miljoenen pagina ‘ s en voegen ze toe aan zoekmachines. Terwijl crawlers hebben een aantal nadelen, zoals het nemen van site resources, ze zijn van onschatbare waarde voor zowel site-eigenaren en bezoekers.

    gerelateerd: hoe de laatste 15 minuten van de zoekgeschiedenis van Google te verwijderen

    Vann Vicente
    Vann Vicente is al vier jaar een technologieschrijver, met een focus op verklikkers gericht op de gemiddelde consument. Hij werkt ook als digitale marketeer voor een regionale e-commerce website. Hij investeerde in internetcultuur, sociale media en hoe mensen omgaan met het web.Lees Volledige Bio ”

    Leave a Reply