Articles / 18 kesäkuun, 2021

Mikä on Web Crawler, ja miten se toimii?

Vann Vicente

@vannvicente

heinäkuuta 2021 kello 9.30 EDT

ykkösistä ja nollista tehty hämähäkki. — Enzozo /

Oletko koskaan etsinyt jotain Googlesta ja miettinyt, ” miten se tietää, mistä etsiä?”Vastaus on ” web crawlerit”, jotka hakevat verkosta ja indeksoivat sen niin, että löydät asioita helposti netistä. Me selitämme.

hakukoneet ja telaketjut

kun etsit hakusanalla hakukoneesta, kuten Googlesta tai Bingistä, sivusto seuloo triljoonia sivuja luodakseen luettelon kyseiseen termiin liittyvistä tuloksista. Miten nämä hakukoneet ovat kaikki nämä sivut tiedoston, osaa etsiä niitä, ja tuottaa nämä tulokset muutamassa sekunnissa?

vastaus on verkkohämähäkit, joita kutsutaan myös hämähäkeiksi. Nämä ovat automatisoituja ohjelmia (joita kutsutaan usein “roboteiksi” tai “boteiksi”), jotka “ryömivät” tai selailevat verkon poikki, jotta ne voidaan lisätä hakukoneisiin. Nämä robotit indeksoivat verkkosivustoja luodakseen listan sivuista, jotka lopulta näkyvät hakutuloksissasi.

telaketjut myös luovat ja tallentavat näistä sivuista kopioita Moottorin tietokantaan, jolloin hakuja voi tehdä lähes välittömästi. Se on myös syy, miksi hakukoneet sisältävät usein välimuistiin tallennettuja versioita sivustoista tietokannoissaan.

aiheeseen liittyvää: Miten pääsee verkkosivulle, kun se on alhaalla

Paikkakartat ja valinta

kuva miehestä vuokaavion edessä. — Griboedov /

niin, miten indeksoijat valita mitkä sivustot indeksoida? No, yleisin skenaario on, että sivuston omistajat haluavat hakukoneet indeksoida sivustojaan. He voivat saavuttaa tämän pyytämällä Googlea, Bingiä, Yahoota tai muuta hakukonetta indeksoimaan sivunsa. Tämä prosessi vaihtelee moottorista toiseen. Myös hakukoneet valitsevat usein suosittuja, hyvin linkitettyjä verkkosivustoja ryömimään seuraamalla, kuinka monta kertaa URL on linkitetty muilla julkisilla sivustoilla.

Mainos

verkkosivujen omistajat voivat käyttää tiettyjä prosesseja auttaakseen hakukoneita indeksoimaan verkkosivujaan, kuten
lataamalla Sivustokartta. Tämä on tiedosto, joka sisältää kaikki linkit ja sivut, jotka ovat osa sivustoasi. Sitä käytetään yleensä osoittamaan, mitkä sivut haluat indeksoida.

kun hakukoneet ovat jo kerran ryömineet jonkin verkkosivuston, ne ryömivät kyseisen sivuston automaattisesti uudelleen. Taajuus vaihtelee muun muassa sen mukaan, kuinka suosittu sivusto on. Siksi sivuston omistajat usein pitää ajan tasalla sivuston karttoja antaa moottoreiden tietää, mitkä uudet sivustot indeksoida.

robotit ja Kohteliaisuuskerroin

"robotteja.txt " kirjoitettu puupalikoilla. — Devenorr /

mitä jos sivusto ei halua joidenkin tai kaikkien sivujensa ilmestyvän hakukoneeseen? Et esimerkiksi halua ihmisten etsivän vain jäsenille tarkoitettua sivua tai näkevän 404-virhesivuasi. Tässä on ryöminnän poissulkulista, joka tunnetaan myös robotteina.txt tulee peliin. Tämä on yksinkertainen tekstitiedosto, joka määrää indeksoijille, mitkä verkkosivut on jätettävä indeksoinnin ulkopuolelle.

Mainos

toinen syy, miksi robotit.txt on tärkeää, että web-telaketjuilla voi olla merkittävä vaikutus sivuston suorituskykyyn. Koska telaketjut ovat pohjimmiltaan lataamalla kaikki sivut sivustossasi, ne kuluttavat resursseja ja voivat aiheuttaa hidastuksia. Ne saapuvat arvaamattomina aikoina ja ilman hyväksyntää. Jos et tarvitse sivujasi indeksoidaan toistuvasti, pysäyttäminen indeksoijat voi auttaa vähentämään joitakin sivuston kuormitusta. Onneksi useimmat indeksoijat lopettavat tiettyjen sivujen indeksoinnin sivuston omistajan sääntöjen perusteella.

The Best Tech Newsletter Anywhere

Join 425 000 tilaajaa ja saat päivittäin koosteen ominaisuuksista, artikkeleista, uutisista ja triviasta.

lähettämällä sähköpostisi hyväksyt käyttöehdot ja Tietosuojakäytännön.

Metadata Magic

jokaisen Googlen hakutuloksen URL-osoitteen ja otsikon alta löytyy lyhyt kuvaus sivusta. Näitä kuvauksia kutsutaan katkelmiksi. Saatat huomata, että pätkä sivun Google ei aina linjassa sivuston todellista sisältöä. Tämä johtuu siitä, että monilla verkkosivustoilla on niin sanottuja “metatunnisteita”, jotka ovat mukautettuja kuvauksia, joita sivustojen omistajat lisäävät sivuilleen.

sivuston omistajat keksivät usein houkuttelevia metatietokuvauksia, jotka on kirjoitettu niin, että haluat klikata verkkosivustoa. Google listaa myös muita metatietoja, kuten hintoja ja varastojen saatavuutta. Tämä on erityisen hyödyllistä niille käynnissä sähköisen kaupankäynnin sivustoja.

hakusi

Verkkohaku on olennainen osa Internetin käyttöä. Haku web on hyvä tapa löytää uusia sivustoja, kaupat, yhteisöt, ja etuja. Joka päivä, web indeksoijat vierailevat miljoonia sivuja ja lisätä ne hakukoneita. Vaikka crawlers on joitakin haittoja, kuten ottaen sivuston resursseja, ne ovat korvaamattomia sekä sivuston omistajille ja vierailijoille.

RELATED: How to Delete the Last 15 Minutes of Google Search History

Vann Vicente
Vann Vicente on toiminut neljä vuotta teknologiakirjailijana keskittyen keskivertokuluttajille suunnattuihin selityksiin. Hän toimii myös alueellisen verkkokauppasivuston digitaalisena markkinoijana. Hän on panostanut nettikulttuuriin, sosiaaliseen mediaan ja siihen, miten ihmiset ovat vuorovaikutuksessa netin kanssa.Lue Koko Bio ”

International Blogging Network