Wat Is een webcrawler / Spider en hoe werkt het?

Google-feature-1680x840 Google-feature-1680x840 Google-feature-1680x840 Google-feature-1680x840
– geen naamsvermelding vereist

zoekmachines zoals Google maken deel uit van wat het internet zo krachtig maakt. Met een paar toetsaanslagen en een klik op de knop verschijnen de meest relevante antwoorden op uw vraag. Maar heb je je ooit afgevraagd hoe zoekmachines werken? Webcrawlers zijn een deel van het antwoord.

dus, wat is een webcrawler, en hoe werkt het?

Wat Is een webcrawler?

funnel-web-spider-4865535_1920
– geen attributie vereist

wanneer u iets zoekt in een zoekmachine, moet de motor snel miljoenen (of miljarden) webpagina ‘ s scannen om de meest relevante resultaten weer te geven. Web crawlers (ook bekend als spiders of zoekmachine bots) zijn geautomatiseerde programma ‘ s die “crawlen” het internet en compileren van informatie over webpagina ‘ s op een gemakkelijk toegankelijke manier.

het woord “crawlen” verwijst naar de manier waarop webcrawlers het internet doorkruisen. Web crawlers zijn ook bekend als ” spiders.”Deze naam komt van de manier waarop ze kruipen het web—zoals hoe spinnen kruipen op hun spinnenwebben.

webcrawlers beoordelen en compileren gegevens op zoveel mogelijk webpagina ‘ s. Ze doen dit zodat de gegevens gemakkelijk toegankelijk en doorzoekbaar zijn, vandaar waarom ze zo belangrijk zijn voor zoekmachines.

zie een webcrawler als de editor die de index aan het einde van het boek samenstelt. De taak van de index is om de lezer te informeren waar in het boek elk belangrijk onderwerp of elke zin voorkomt. Ook een webcrawler creëert een index die een zoekmachine gebruikt om snel relevante informatie over een zoekopdracht te vinden.

Wat Is Zoeken Indexeren?

zoals we al zeiden, is zoekindexering vergelijkbaar met het samenstellen van de index achter in een boek. Op een bepaalde manier, zoeken indexeren is als het creëren van een vereenvoudigde kaart van het internet. Wanneer iemand een zoekmachine een vraag stelt, loopt de zoekmachine deze door hun index, en de meest relevante pagina ‘ s verschijnen als eerste.

maar hoe weet de zoekmachine welke pagina ‘ s relevant zijn?

zoekindexering richt zich voornamelijk op twee dingen: de tekst op de pagina en de metagegevens van de pagina. De tekst is alles wat je ziet als een lezer, terwijl de metadata informatie is over die pagina die door de maker van de pagina wordt ingevoerd, bekend als “meta tags.”De meta tags bevatten dingen zoals de pagina beschrijving en meta titel, die verschijnen in de zoekresultaten.

zoekmachines zoals Google zullen alle tekst op een webpagina indexeren (met uitzondering van bepaalde woorden zoals ” the “En” a ” in sommige gevallen). Dan, wanneer een term wordt gezocht in de zoekmachine, zal het snel schuren zijn index voor de meest relevante pagina.

Hoe werkt een webcrawler?

google-485611_1920
– geen naamsvermelding vereist

een webcrawler werkt zoals de naam al doet vermoeden. Ze beginnen bij een bekende webpagina of URL en indexeren elke pagina op die URL (meestal, website-eigenaren vragen zoekmachines om bepaalde URL ‘ s te crawlen). Als ze komen over hyperlinks op die pagina ‘ s, zullen ze een “to-do” lijst van pagina ‘ s die ze hierna zullen kruipen compileren. De webcrawler zal dit voor onbepaalde tijd voortzetten, volgens specifieke regels over welke pagina ‘ s te doorzoeken en welke te negeren.

webcrawlers doorzoeken niet elke pagina op het internet. In feite, het is geschat dat slechts 40-70% van het internet is zoeken geïndexeerd (dat is nog steeds miljarden pagina ‘ s). Veel webcrawlers zijn ontworpen om zich te concentreren op pagina ‘ s waarvan gedacht wordt dat ze meer “gezaghebbend zijn.”Gezaghebbende pagina’ s voldoen aan een handvol criteria waardoor ze meer kans om hoge kwaliteit of populaire informatie te bevatten. Webcrawlers moeten ook consequent pagina ‘ s opnieuw bezoeken als ze worden bijgewerkt, verwijderd of verplaatst.

een laatste factor die bepaalt welke pagina ‘ s een webcrawler zal doorzoeken is de robots.txt protocol of robots exclusion protocol. De server van een webpagina zal een robot hosten.txt-bestand dat de regels voor elke webcrawler of andere programma ‘ s die toegang tot de pagina legt. Het bestand zal uitsluiten dat bepaalde pagina ‘ s worden gekropen en welke links de crawler kan volgen. Eén doel van de robots.txt-bestand is om de spanning die bots op de server van de website te beperken.

om te voorkomen dat een webcrawler toegang krijgt tot bepaalde pagina ‘ s op uw website, kunt u de tag “disallow” toevoegen via de robots.txt bestand of voeg de noindex meta tag aan de pagina in kwestie.

Wat is het verschil tussen kruipen en schrapen?

web scraping is het gebruik van bots om gegevens van een website te downloaden zonder toestemming van die website. Vaak, web schrapen wordt gebruikt voor kwaadaardige redenen. Web scraping neemt vaak alle HTML-code van specifieke websites, en meer geavanceerde scrapers zal ook de CSS en JavaScript elementen. Web scraping tools kunnen worden gebruikt om snel en eenvoudig informatie over bepaalde onderwerpen samen te stellen (bijvoorbeeld een productlijst), maar kan ook dwalen in grijze en illegale gebieden.

web crawling is daarentegen het indexeren van informatie op websites met toestemming, zodat deze gemakkelijk in zoekmachines kunnen worden weergegeven.

Webcrawler voorbeelden

elke grote zoekmachine heeft een of meer webcrawlers. Bijvoorbeeld::

  • Google heeft Googlebot
  • Bing heeft Bingbot
  • DuckDuckGo heeft DuckDuckBot.

Grotere zoekmachines zoals Google hebben specifieke bots voor verschillende focus, waaronder Googlebot Images, Googlebot video ‘ s en AdsBot.

hoe beïnvloedt Webcrawling SEO?

seo-758264_1920
– geen naamsvermelding vereist

Als u wilt dat uw pagina in zoekmachineresultaten wordt weergegeven, moet de pagina toegankelijk zijn voor webcrawlers. Afhankelijk van uw websiteserver, kunt u een bepaalde frequentie van crawling toewijzen, welke pagina ‘ s voor de crawler te scannen, en hoeveel druk ze kunnen zetten op uw server.

in principe wilt u dat de webcrawlers zich aanpassen op pagina ‘s die gevuld zijn met inhoud, maar niet op pagina’ s zoals Dank u berichten, admin pagina ‘ s en interne zoekresultaten.

informatie binnen handbereik

het gebruik van zoekmachines is voor de meesten van ons een tweede natuur geworden, maar de meesten van ons hebben geen idee hoe ze werken. Web crawlers zijn een van de belangrijkste onderdelen van een effectieve zoekmachine en effectief indexeren informatie over miljoenen belangrijke websites elke dag. Ze zijn een onschatbare tool voor website-eigenaren, bezoekers, en zoekmachines gelijk.

Jake Harfield (40 artikelen gepubliceerd)

Jake Harfield is een freelance schrijver uit Perth, Australië. Als hij niet schrijft, fotografeert hij in de bush de lokale fauna. U kunt hem bezoeken op www.jakeharfield.com

meer van Jake Harfield

Leave a Reply