Articles / Novembre 22, 2021

Che cos’è un Web Crawler / Spider e come funziona?

Google-feature-1680x840 — – nessuna attribuzione richiesta

I motori di ricerca come Google fanno parte di ciò che rende Internet così potente. Con pochi tasti e il clic di un pulsante, appaiono le risposte più rilevanti alla tua domanda. Ma vi siete mai chiesti come funzionano i motori di ricerca? Web crawler sono parte della risposta.

Quindi, cos’è un web crawler e come funziona?

Che cos’è un Web Crawler?

funnel-web-spider-4865535_1920 — – nessuna attribuzione richiesta

Quando si cerca qualcosa in un motore di ricerca, il motore deve scansionare rapidamente milioni (o miliardi) di pagine web per visualizzare i risultati più rilevanti. I web crawler (noti anche come spider o bot dei motori di ricerca) sono programmi automatizzati che “scansionano” Internet e compilano informazioni sulle pagine web in modo facilmente accessibile.

La parola “crawling” si riferisce al modo in cui i web crawler attraversano Internet. Web crawler sono noti anche come ” ragni.”Questo nome deriva dal modo in cui strisciano il web—come come i ragni strisciano sulle loro ragnatele.

I web crawler valutano e compilano i dati sul maggior numero possibile di pagine web. Lo fanno in modo che i dati siano facilmente accessibili e ricercabili, quindi perché sono così importanti per i motori di ricerca.

Pensate a un web crawler come l’editor che compila l’indice alla fine del libro. Il compito dell’indice è quello di informare il lettore dove nel libro appare ogni argomento o frase chiave. Allo stesso modo, un crawler web crea un indice che un motore di ricerca utilizza per trovare rapidamente informazioni rilevanti su una query di ricerca.

Che cos’è l’indicizzazione della ricerca?

Come abbiamo detto, l’indicizzazione della ricerca è paragonabile alla compilazione dell’indice sul retro di un libro. In un certo senso, l’indicizzazione della ricerca è come creare una mappa semplificata di Internet. Quando qualcuno chiede a un motore di ricerca una domanda, il motore di ricerca lo esegue attraverso il loro indice e le pagine più rilevanti appaiono per prime.

Ma, come fa il motore di ricerca a sapere quali pagine sono rilevanti?

L’indicizzazione della ricerca si concentra principalmente su due cose: il testo sulla pagina e i metadati della pagina. Il testo è tutto ciò che vedi come lettore, mentre i metadati sono informazioni su quella pagina immessa dal creatore della pagina, noto come “meta tag.”I meta tag includono cose come la descrizione della pagina e il titolo meta, che appaiono nei risultati di ricerca.

I motori di ricerca come Google indicizzeranno tutto il testo su una pagina Web (ad eccezione di alcune parole come “il” e “a” in alcuni casi). Poi, quando un termine viene cercato nel motore di ricerca, sarà rapidamente setacciare il suo indice per la pagina più rilevante.

Come funziona un Web Crawler?

google-485611_1920 — – nessuna attribuzione richiesta

Un crawler web funziona come suggerisce il nome. Iniziano da una pagina Web nota o URL e indicizzano ogni pagina a quell’URL (la maggior parte delle volte, i proprietari di siti Web richiedono ai motori di ricerca di eseguire la scansione di determinati URL). Quando si imbattono in collegamenti ipertestuali su quelle pagine, compileranno un elenco di” cose da fare ” di pagine che eseguiranno la scansione successiva. Il web crawler continuerà questo indefinitamente, seguendo regole particolari su quali pagine eseguire la scansione e quali ignorare.

I web crawler non eseguono la scansione di ogni pagina su Internet. In effetti, si stima che solo il 40-70% di Internet sia stato indicizzato nella ricerca (che è ancora miliardi di pagine). Molti web crawler sono progettati per concentrarsi su pagine pensate per essere più ” autorevole.”Le pagine autorevoli si adattano a una manciata di criteri che le rendono più propense a contenere informazioni di alta qualità o popolari. I web crawler devono inoltre rivedere costantemente le pagine man mano che vengono aggiornate, rimosse o spostate.

Un ultimo fattore che controlla quali pagine un crawler web eseguirà la scansione è il robot.protocollo txt o protocollo di esclusione robot. Il server di una pagina web ospiterà un robot.file txt che stabilisce le regole per qualsiasi crawler web o altri programmi che accedono alla pagina. Il file escluderà pagine particolari dalla scansione e quali collegamenti il crawler può seguire. Uno scopo dei robot.il file txt è quello di limitare lo sforzo che i bot mettono sul server del sito web.

Per impedire a un web crawler di accedere a determinate pagine del tuo sito web, puoi aggiungere il tag “disallow” tramite i robot.txt o aggiungere il meta tag noindex alla pagina in questione.

Qual è la differenza tra Crawling e Scraping?

Web scraping è l’uso di bot per scaricare dati da un sito web senza il permesso di quel sito web. Spesso, il web scraping viene utilizzato per motivi dannosi. Web scraping spesso prende tutto il codice HTML da siti web specifici, e raschietti più avanzati prenderanno anche gli elementi CSS e JavaScript. Gli strumenti di Web scraping possono essere utilizzati per compilare rapidamente e facilmente informazioni su argomenti particolari (ad esempio, un elenco di prodotti), ma possono anche vagare in territori grigi e illegali.

Web crawling, d’altra parte, è l’indicizzazione delle informazioni sui siti web con il permesso in modo che possano apparire facilmente nei motori di ricerca.

Esempi di Web Crawler

Ogni motore di ricerca principale ha uno o più web crawler. Per esempio:

Google ha Googlebot
Bing ha Bingbot
DuckDuckGo ha DuckDuckBot.

I motori di ricerca più grandi come Google hanno bot specifici per diversi focus, tra cui immagini Googlebot, video Googlebot e AdsBot.

In che modo il Web Crawling influisce sul SEO?

seo-758264_1920 — – nessuna attribuzione richiesta

Se si desidera che la pagina venga visualizzata nei risultati dei motori di ricerca, la pagina deve essere accessibile ai web crawler. A seconda del server del tuo sito Web, potresti voler allocare una particolare frequenza di scansione, quali pagine eseguire la scansione del crawler e quanta pressione possono esercitare sul tuo server.

Fondamentalmente, si desidera che i crawler web si affinino su pagine piene di contenuti, ma non su pagine come messaggi di ringraziamento, pagine di amministrazione e risultati di ricerca interni.

Informazioni a portata di mano

Utilizzando i motori di ricerca è diventata una seconda natura per la maggior parte di noi, ma la maggior parte di noi non hanno idea di come funzionano. I web crawler sono una delle parti principali di un motore di ricerca efficace e indicizzano efficacemente le informazioni su milioni di siti Web importanti ogni giorno. Sono uno strumento prezioso per i proprietari di siti web, visitatori e motori di ricerca allo stesso modo.

Jake Harfield (40 articoli pubblicati)

Jake Harfield è uno scrittore freelance con sede a Perth, Australia. Quando non scrive, di solito è nella boscaglia a fotografare la fauna locale. Si può visitare lui a www.jakeharfield.com

Più da Jake Harfield

International Blogging Network