Vad är en Web Crawler/Spider och hur fungerar det?

Google-feature-1680x840 Google-feature-1680x840 Google-feature-1680x840 Google-feature-1680x840
– ingen tillskrivning krävs

sökmotorer som Google är en del av det som gör internet så kraftfullt. Med några tangenttryckningar och ett klick på en knapp visas de mest relevanta svaren på din fråga. Men har du någonsin undrat hur sökmotorer fungerar? Sökrobotar är en del av svaret.

så, vad är en webbsökare, och hur fungerar det?

Vad är en sökrobot?

funnel-web-spider-4865535_1920
– Ingen attribution krävs

när du söker efter något i en sökmotor måste motorn snabbt skanna miljoner (eller miljarder) webbsidor för att visa de mest relevanta resultaten. Webbsökare (även kända som spindlar eller sökmotorrobotar) är automatiserade program som “kryper” på internet och sammanställer information om webbsidor på ett lättillgängligt sätt.

ordet “genomsökning” hänvisar till det sätt som sökrobotar korsa internet. Web crawlers är också kända som ” spindlar.”Det här namnet kommer från hur de kryper på webben-som hur spindlar kryper på sina spindelväv.

webbsökare bedömer och sammanställer data på så många webbsidor som möjligt. De gör detta så att uppgifterna är lättillgängliga och sökbara, varför de är så viktiga för sökmotorer.

Tänk på en webbsökare som redaktören som sammanställer indexet i slutet av boken. Indexets uppgift är att informera läsaren var i boken varje nyckelämne eller fras visas. På samma sätt skapar en sökrobot ett index som en sökmotor använder för att snabbt hitta relevant information om en sökfråga.

Vad Är Sökindexering?

som vi har nämnt är sökindexering jämförbar med att sammanställa indexet på baksidan av en bok. På ett sätt är sökindexering som att skapa en förenklad karta över internet. När någon frågar en sökmotor en fråga, kör sökmotorn den genom sitt index och de mest relevanta sidorna visas först.

men hur vet sökmotorn vilka sidor som är relevanta?

sökindexering fokuserar främst på två saker: texten på sidan och sidans metadata. Texten är allt du ser som en läsare, medan metadata är information om den sidinmatningen av sidskaparen, känd som “metataggar.”Metataggarna innehåller saker som sidbeskrivningen och metatiteln, som visas i sökresultaten.

sökmotorer som Google indexerar all text på en webbsida (förutom vissa ord som “the” och “a” i vissa fall). Sedan, när en term söks in i sökmotorn, det kommer snabbt skura sitt index för den mest relevanta sidan.

Hur fungerar en sökrobot?

google-485611_1920
– Ingen attribution krävs

en sökrobot fungerar som namnet antyder. De börjar på en känd webbsida eller URL och indexerar varje sida på den webbadressen (för det mesta begär webbplatsägare sökmotorer att genomsöka vissa webbadresser). När de stöter på hyperlänkar på dessa sidor kommer de att sammanställa en “att göra”-lista över sidor som de kommer att genomsöka nästa. Webbsökaren fortsätter detta på obestämd tid, enligt särskilda regler om vilka sidor som ska genomsökas och vilka som ska ignoreras.

webbsökare genomsöker inte varje sida på internet. Faktum är att det uppskattas att endast 40-70% av internet har sökindexerats (vilket fortfarande är miljarder sidor). Många sökrobotar är utformade för att fokusera på sidor tros vara mer “auktoritativa.”Auktoritativa sidor passar en handfull kriterier som gör dem mer benägna att innehålla högkvalitativ eller populär information. Sökrobotar måste också konsekvent se över sidor när de uppdateras, tas bort eller flyttas.

en sista faktor som styr vilka sidor en sökrobot kommer att genomsöka är robotarna.txt-protokoll eller robots exclusion protocol. En webbsidas server kommer att vara värd för en robot.txt-fil som anger reglerna för alla sökrobotar eller andra program som kommer åt sidan. Filen utesluter att vissa sidor genomsöks och vilka länkar sökroboten kan följa. Ett syfte med robotarna.txt-filen är att begränsa den belastning som bots sätter på Webbplatsens server.

för att förhindra att en sökrobot kommer åt vissa sidor på din webbplats kan du lägga till taggen “Tillåt inte” via robotarna.txt-fil eller lägg till noindex-metataggen på sidan i fråga.

Vad är skillnaden mellan krypning och skrapning?

webbskrapning är användningen av bots för att ladda ner data från en webbplats utan webbplatsens tillstånd. Ofta används webbskrapning av skadliga skäl. Webbskrapning tar ofta All HTML-kod från specifika webbplatser, och mer avancerade skrapor tar också CSS-och JavaScript-elementen. Webbskrapningsverktyg kan användas för att snabbt och enkelt sammanställa information om specifika ämnen (t.ex. en produktlista) men kan också vandra in i grå och olagliga territorier.

webbsökning, å andra sidan, är indexering av information på webbplatser med tillstånd så att de lätt kan visas i sökmotorer.

exempel på sökrobotar

varje större sökmotor har en eller flera sökrobotar. Till exempel:

  • Google har Googlebot
  • Bing har Bingbot
  • DuckDuckGo har DuckDuckBot.

större sökmotorer som Google har specifika bots för olika fokus, inklusive Googlebot-bilder, Googlebot-videor och AdsBot.

hur påverkar webbsökning SEO?

seo-758264_1920
– Ingen attribution krävs

om du vill att din sida ska visas i sökmotorns resultat måste sidan vara tillgänglig för sökrobotar. Beroende på din webbplatsserver kanske du vill tilldela en viss genomsökningsfrekvens, vilka sidor som sökroboten ska skanna och hur mycket tryck de kan sätta på din server.

i grund och botten vill du att sökrobotarna ska finslipa på sidor fyllda med innehåll, men inte på sidor som tackmeddelanden, administratörssidor och interna sökresultat.

Information till hands

använda sökmotorer har blivit andra natur för de flesta av oss, men de flesta av oss har ingen aning om hur de fungerar. Webbsökare är en av huvuddelarna i en effektiv sökmotor och indexerar effektivt information om miljontals viktiga webbplatser varje dag. De är ett ovärderligt verktyg för både webbplatsägare, besökare och sökmotorer.

Jake Harfield (40 artiklar publicerade)

Jake Harfield är en frilansskribent baserad i Perth, Australien. När han inte skriver är han vanligtvis ute i busken och fotograferar lokala vilda djur. Du kan besöka honom på www.jakeharfield.com

mer från Jake Harfield

Leave a Reply