Articles / iunie 18, 2021

Ce este un Crawler Web și cum funcționează?

Vann Vicente

@vannvicente

9 iulie 2021, 9:30 AM EDT

un păianjen format din unu și zero. — Enzozo /

ați căutat vreodată ceva pe Google și v-ați întrebat: “de unde știe unde să caute?”Răspunsul este ” crawlerele web”, care caută pe web și îl indexează astfel încât să puteți găsi lucruri cu ușurință online. Vom explica.

motoare de căutare și crawlere

când căutați folosind un cuvânt cheie pe un motor de căutare precum Google sau Bing, site-ul trece prin trilioane de pagini pentru a genera o listă de rezultate legate de acel termen. Cum exact aceste motoare de căutare au toate aceste pagini pe fișier, știu cum să le caute și să genereze aceste rezultate în câteva secunde?

răspunsul este crawlerele web, cunoscute și sub numele de păianjeni. Acestea sunt programe automate (adesea numite “roboți” sau “roboți”) care “se târăsc” sau navighează pe web, astfel încât să poată fi adăugate la motoarele de căutare. Acești roboți indexează site-urile web pentru a crea o listă de pagini care apar în cele din urmă în rezultatele căutării.

crawlerele creează și stochează copii ale acestor pagini în baza de date a motorului, ceea ce vă permite să efectuați căutări aproape instantaneu. Este, de asemenea, motivul pentru care motoarele de căutare includ adesea versiuni cache ale site-urilor în bazele lor de date.

RELATED: Cum de a accesa o pagină Web atunci când este în jos

hărți Site-ul și selecție

o ilustrare a unui om în fața unui organigrama. — Griboedov /

Deci, cum crawlerele aleg ce site-uri web să acceseze cu crawlere? Ei bine, cel mai frecvent scenariu este că proprietarii de site-uri web doresc ca motoarele de căutare să-și acceseze cu crawlere site-urile. Ei pot realiza acest lucru solicitând Google, Bing, Yahoo sau un alt motor de căutare pentru a-și indexa paginile. Acest proces variază de la motor la motor. De asemenea, motoarele de căutare Selectează frecvent site-uri web populare, bine legate, pentru a accesa cu crawlere, urmărind de câte ori un URL este legat pe alte site-uri publice.

publicitate

proprietarii de site-uri web pot utiliza anumite procese pentru a ajuta motoarele de căutare să indexeze site-urile lor web, cum ar fi
încărcarea unei hărți a site-ului. Acesta este un fișier care conține toate linkurile și paginile care fac parte din site-ul dvs. web. Este folosit în mod normal pentru a indica ce pagini doriți indexate.

odată ce motoarele de căutare au accesat deja cu crawlere un site web o dată, vor accesa automat acel site din nou. Frecvența variază în funcție de cât de popular este un site web, printre alte valori. Prin urmare, proprietarii de site-uri păstrează frecvent hărți de site actualizate pentru a anunța motoarele ce site-uri noi să indexeze.

roboții și factorul de politețe

"roboți.txt " scris pe blocuri de lemn. — Devenorr /

ce se întâmplă dacă un site web nu dorește ca unele sau toate paginile sale să apară pe un motor de căutare? De exemplu, este posibil să nu doriți ca oamenii să caute o pagină numai pentru membri sau să vadă pagina dvs. de eroare 404. Aici se află lista de excludere cu crawlere, cunoscută și sub numele de roboți.txt, intră în joc. Acesta este un fișier text simplu care dictează crawlerelor ce pagini web să excludă de la indexare.

publicitate

un alt motiv pentru roboți.txt este important este faptul că crawlerele web pot avea un efect semnificativ asupra performanței site-ului. Deoarece crawlerele descarcă în esență toate paginile de pe site-ul dvs. web, acestea consumă resurse și pot provoca încetiniri. Ei ajung la momente imprevizibile și fără aprobare. Dacă nu aveți nevoie ca paginile dvs. să fie indexate în mod repetat, oprirea crawlerelor ar putea ajuta la reducerea unei părți din încărcarea site-ului dvs. web. Din fericire, majoritatea crawlerelor nu mai accesează anumite pagini pe baza regulilor proprietarului site-ului.

cel mai bun Tech Newsletter oriunde

Alăturați-vă 425.000 de abonați și de a lua o digest zilnic de caracteristici, articole, știri, și trivia.

prin trimiterea e-mailului, sunteți de acord cu Termenii de Utilizare și Politica de Confidențialitate.

metadate Magic

sub URL-ul și titlul fiecărui rezultat al căutării în Google, veți găsi o scurtă descriere a paginii. Aceste descrieri se numesc fragmente. Este posibil să observați că fragmentul unei pagini din Google nu se aliniază întotdeauna cu conținutul real al site-ului web. Acest lucru se datorează faptului că multe site-uri web au ceva numit “meta tag-uri”, care sunt descrieri personalizate pe care proprietarii de site-uri le adaugă paginilor lor.

proprietarii de Site-uri vin adesea cu descrieri de metadate ispititoare scrise pentru a vă face să doriți să faceți clic pe un site web. Google listează, de asemenea, alte meta-informații, cum ar fi prețurile și disponibilitatea stocurilor. Acest lucru este util în special pentru cei care rulează site-uri web de comerț electronic.

căutarea dvs.

căutarea pe Web este o parte esențială a utilizării internetului. Căutarea pe web este o modalitate excelentă de a descoperi noi site-uri web, magazine, comunități și interese. În fiecare zi, crawlerele web vizitează milioane de pagini și le adaugă în motoarele de căutare. În timp ce crawlerele au unele dezavantaje, cum ar fi preluarea resurselor site-ului, acestea sunt de neprețuit atât pentru proprietarii de site-uri, cât și pentru vizitatori.

RELATED: cum să ștergeți ultimele 15 minute din Istoricul căutărilor Google

Vann Vicente
Vann Vicente a fost scriitor de tehnologie timp de patru ani, cu accent pe explicatori orientați către consumatorii obișnuiți. De asemenea, lucrează ca marketer digital pentru un site regional de comerț electronic. A investit în cultura internetului, în social media și în modul în care oamenii interacționează cu web-ul.Citiți Biografia Completă ”

International Blogging Network