Articles / november 22, 2021

Mi az a Web Crawler / Spider és hogyan működik?

Google-feature-1680x840 — – nincs szükség hozzárendelésre

a Google-hoz hasonló keresőmotorok részei annak, ami az internetet olyan erőssé teszi. Néhány billentyűleütéssel és egy gombnyomással megjelennek a kérdésre adott legrelevánsabb válaszok. Gondolkozott már azon azon, hogyan működnek a keresőmotorok? A webrobotok a válasz részét képezik.

mi az a webrobot, és hogyan működik?

mi az a webrobot?

funnel-web-spider-4865535_1920 — – nincs szükség hozzárendelésre

amikor keres valamit a keresőmotorban, a motornak gyorsan be kell szkennelnie a weboldalak millióit (vagy milliárdjait) a legrelevánsabb eredmények megjelenítéséhez. A webrobotok (más néven pókok vagy keresőrobotok) automatizált programok, amelyek “feltérképezik” az internetet, és könnyen hozzáférhető módon összeállítják a weboldalakról szóló információkat.

a “feltérképezés” szó arra utal, ahogyan a webbejárók áthaladnak az interneten. A webbejárókat “pókoknak” is nevezik.”Ez a név abból a módból származik, ahogyan feltérképezik a hálót—mint ahogy a pókok másznak a pókhálójukon.

a webbejárók a lehető legtöbb weboldalon értékelik és állítják össze az adatokat. Ezt úgy teszik, hogy az adatok könnyen hozzáférhetők és kereshetők legyenek, ezért olyan fontosak a keresőmotorok számára.

Gondolj egy webbejáróra, mint a szerkesztő, aki összeállítja az indexet a könyv végén. Az index feladata, hogy tájékoztassa az olvasót arról, hogy a könyvben hol jelennek meg az egyes kulcsfontosságú témák vagy kifejezések. Hasonlóképpen, egy webbejáró létrehoz egy indexet, amelyet a keresőmotor használ a keresési lekérdezés releváns információinak gyors megtalálásához.

Mi A Keresési Indexelés?

mint már említettük, a keresési indexelés összehasonlítható a könyv hátulján található index összeállításával. Bizonyos értelemben a keresési indexelés olyan, mint az internet egyszerűsített térképének létrehozása. Amikor valaki kérdést tesz fel egy keresőmotornak, a keresőmotor végigfuttatja az indexén, és először a legrelevánsabb oldalak jelennek meg.

de honnan tudja a keresőmotor, hogy mely oldalak relevánsak?

a keresési indexelés elsősorban két dologra összpontosít: az oldalon lévő szövegre és az oldal metaadataira. A szöveg minden, amit olvasóként lát, míg a metaadatok az oldal készítőjének az adott Oldalra vonatkozó információi, “metacímkék” néven ismert.”A metacímkék olyan dolgokat tartalmaznak, mint az oldal leírása és a metacím, amelyek megjelennek a keresési eredmények között.

az olyan keresőmotorok, mint a Google, indexelik a weboldal teljes szövegét (kivéve bizonyos esetekben az “A” és az “a” szavakat). Ezután, amikor egy kifejezést keresnek a keresőmotorba, gyorsan megkeresi az indexét a legrelevánsabb oldalhoz.

hogyan működik a webrobot?

google-485611_1920 — – nincs szükség hozzárendelésre

a webrobot úgy működik, ahogy a neve is sugallja. Egy ismert weboldalról vagy URL-ről indulnak, és minden oldalt indexelnek az adott URL-en (a legtöbb esetben a webhelytulajdonosok kérik a keresőmotorokat, hogy feltérképezzék az adott URL-eket). Amint hiperhivatkozásokkal találkoznak ezeken az oldalakon, összeállítanak egy “Tennivaló” listát azokról az oldalakról, amelyeket legközelebb feltérképeznek. A webbejáró ezt a végtelenségig folytatja, bizonyos szabályokat követve arról, hogy mely oldalakat kell feltérképezni, és melyiket kell figyelmen kívül hagyni.

a webbejárók nem térképeznek fel minden oldalt az interneten. Valójában a becslések szerint az internetnek csak 40-70% – át indexelték (ami még mindig több milliárd oldal). Számos webbejárót úgy terveztek, hogy azokra az oldalakra összpontosítson, amelyeket “hitelesebbnek” tartanak.”A mérvadó oldalak megfelelnek egy maroknyi kritériumnak, ami nagyobb valószínűséggel tartalmaz kiváló minőségű vagy népszerű információkat. A webbejáróknak folyamatosan újra kell látogatniuk az oldalakat, amikor frissítik, eltávolítják vagy áthelyezik őket.

egy utolsó tényező, amely szabályozza, hogy egy webrobot mely oldalakat fogja feltérképezni, a robotok.txt protokoll vagy robotok kizárási protokoll. A weboldal szervere robotokat fog fogadni.txt fájl, amely meghatározza a webrobot vagy az oldalt elérő egyéb programok szabályait. A fájl kizárja az egyes oldalak feltérképezését, és azt, hogy mely linkeket követheti a bejáró. A robotok egyik célja.a txt fájl célja, hogy korlátozza azt a törzset, amelyet a botok a webhely szerverére helyeznek.

annak megakadályozása érdekében, hogy egy webbejáró hozzáférjen a webhely bizonyos oldalaihoz, hozzáadhatja a “Letiltás” címkét a robotokon keresztül.txt fájlt, vagy adja hozzá a noindex metacímkét a kérdéses oldalhoz.

mi a különbség a feltérképezés és a kaparás között?

Webkaparás a botok használata az adatok letöltésére egy webhelyről az adott webhely engedélye nélkül. A webkaparást gyakran rosszindulatú okokból használják. A webkaparás gyakran átveszi az összes HTML kódot bizonyos webhelyekről, és a fejlettebb kaparók a CSS és a JavaScript elemeket is átveszik. A webkaparó eszközök segítségével gyorsan és egyszerűen összeállíthatók bizonyos témákról szóló információk (például egy Terméklista), de szürke és illegális területekre is vándorolhatnak.

a webes feltérképezés viszont a weboldalakon található információk indexelése engedéllyel, hogy azok könnyen megjelenhessenek a keresőmotorokban.

webrobot példák

minden nagyobb keresőmotornak van egy vagy több webrobotja. Például:

a Google Googlebot
Bing bingbot
DuckDuckGo van DuckDuckBot.

a nagyobb keresőmotorok, mint például a Google, speciális botokkal rendelkeznek a különböző fókuszokhoz, beleértve a Googlebot képeket, a Googlebot videókat és az AdsBot-ot.

hogyan befolyásolja a webes feltérképezés a SEO-t?

seo-758264_1920 — – nincs szükség hozzárendelésre

ha azt szeretné, hogy az oldal megjelenjen a keresőmotor találatai között, akkor az oldalnak elérhetőnek kell lennie a webbejárók számára. A webhelykiszolgálótól függően előfordulhat, hogy a feltérképezés gyakoriságát, a bejáró által beolvasandó oldalakat, valamint a kiszolgálóra nehezedő nyomást szeretné hozzárendelni.

Alapvetően azt szeretné, ha a webbejárók a tartalommal töltött oldalakat élesítenék, de nem olyan oldalakon, mint a köszönő üzenetek, az adminisztrátori oldalak és a belső keresési eredmények.

információ kéznél

a keresőmotorok használata a legtöbbünk számára második természetűvé vált, mégis a legtöbbünknek fogalma sincs, hogyan működnek. A webrobotok a hatékony keresőmotor egyik fő részét képezik, és hatékonyan indexelik az információkat több millió fontos webhelyről minden nap. Felbecsülhetetlen értékű eszköz a webhelytulajdonosok, a látogatók és a keresőmotorok számára egyaránt.

Jake Harfield (40 cikk megjelent)

Jake Harfield szabadúszó író Perth, Ausztrália. Amikor nem ír, általában kint van a bozótban, a helyi vadvilágot fényképezi. Akkor látogasson el rá www.jakeharfield.com

még több Jake Harfield

International Blogging Network