Che cos’è un Web Crawler e come funziona?
@vannvicente
Avete mai cercato qualcosa su Google e si chiese, ” Come fa a sapere dove guardare?”La risposta è “web crawler”, che cercano il web e indicizzarlo in modo da poter trovare facilmente le cose online. Ti spiegheremo.
Motori di ricerca e Crawler
Quando si esegue una ricerca utilizzando una parola chiave su un motore di ricerca come Google o Bing, il sito passa al setaccio trilioni di pagine per generare un elenco di risultati relativi a quel termine. Come esattamente questi motori di ricerca hanno tutte queste pagine su file, sanno come cercare per loro, e generare questi risultati in pochi secondi?
La risposta è web crawler, noti anche come spider. Si tratta di programmi automatizzati (spesso chiamati “robot” o “bot”) che “strisciano” o navigano attraverso il Web in modo che possano essere aggiunti ai motori di ricerca. Questi robot indice siti web per creare un elenco di pagine che alla fine appaiono nei risultati di ricerca.
I crawler creano e memorizzano copie di queste pagine nel database del motore, che consente di effettuare ricerche quasi istantaneamente. È anche il motivo per cui i motori di ricerca spesso includono versioni memorizzate nella cache dei siti nei loro database.
CORRELATI: Come accedere a una pagina Web quando è giù
Mappe del sito e la selezione
Quindi, come fanno i crawler a scegliere quali siti Web eseguire la scansione? Bene, lo scenario più comune è che i proprietari di siti web vogliono motori di ricerca per eseguire la scansione dei loro siti. Possono raggiungere questo obiettivo richiedendo a Google, Bing, Yahoo o un altro motore di ricerca di indicizzare le loro pagine. Questo processo varia da motore a motore. Inoltre, i motori di ricerca selezionano spesso siti Web popolari e ben collegati per eseguire la scansione monitorando il numero di volte in cui un URL è collegato su altri siti pubblici.
I proprietari di siti Web possono utilizzare determinati processi per aiutare i motori di ricerca a indicizzare i loro siti Web, ad esempio
caricando una mappa del sito. Questo è un file contenente tutti i link e le pagine che fanno parte del tuo sito web. Normalmente viene utilizzato per indicare quali pagine desideri indicizzare.
Una volta che i motori di ricerca hanno già eseguito la scansione di un sito Web, eseguiranno nuovamente la scansione automatica di quel sito. La frequenza varia in base alla popolarità di un sito web, tra le altre metriche. Pertanto, i proprietari di siti tengono spesso aggiornate le mappe del sito per far sapere ai motori quali nuovi siti Web indicizzare.
I robot e il fattore cortesia
Cosa succede se un sito web non vuole che alcune o tutte le sue pagine appaiano su un motore di ricerca? Ad esempio, potresti non voler cercare una pagina per soli membri o vedere la tua pagina di errore 404. Questo è dove l’elenco di esclusione crawl, noto anche come robot.txt, entra in gioco. Questo è un semplice file di testo che impone ai crawler quali pagine web escludere dall’indicizzazione.
Un altro motivo per cui i robot.txt è importante è che i web crawler possono avere un effetto significativo sulle prestazioni del sito. Poiché i crawler stanno essenzialmente scaricando tutte le pagine del tuo sito web, consumano risorse e possono causare rallentamenti. Arrivano in tempi imprevedibili e senza approvazione. Se non hai bisogno di indicizzare ripetutamente le tue pagine, l’arresto dei crawler potrebbe aiutarti a ridurre parte del carico del tuo sito web. Fortunatamente, la maggior parte dei crawler smette di eseguire la scansione di determinate pagine in base alle regole del proprietario del sito.
La migliore newsletter tecnologica ovunque
Unisciti a 425.000 abbonati e ottieni un digest giornaliero di funzionalità, articoli, notizie e curiosità.
Inviando la tua email, accetti i Termini di utilizzo e l’Informativa sulla privacy.
Metadata Magic
Sotto l’URL e il titolo di ogni risultato di ricerca in Google, troverai una breve descrizione della pagina. Queste descrizioni sono chiamate frammenti. Potresti notare che lo snippet di una pagina in Google non sempre si allinea con il contenuto effettivo del sito web. Questo perché molti siti web hanno qualcosa chiamato “meta tag”, che sono descrizioni personalizzate che i proprietari del sito aggiungono alle loro pagine.
I proprietari di siti spesso inventano descrizioni di metadati allettanti scritte per farti desiderare di fare clic su un sito web. Google elenca anche altre meta-informazioni, come prezzi e disponibilità di magazzino. Ciò è particolarmente utile per coloro che eseguono siti web di e-commerce.
La tua ricerca
La ricerca sul Web è una parte essenziale dell’utilizzo di Internet. La ricerca sul web è un ottimo modo per scoprire nuovi siti web, negozi, comunità e interessi. Ogni giorno, i web crawler visitano milioni di pagine e le aggiungono ai motori di ricerca. Mentre i crawler hanno alcuni aspetti negativi, come l’utilizzo di risorse del sito, sono inestimabili sia per i proprietari del sito che per i visitatori.
RELATED: Come eliminare gli ultimi 15 minuti di cronologia delle ricerche di Google
Vann Vicente è stato uno scrittore di tecnologia per quattro anni, con un focus su spiegatori orientati verso i consumatori medi. Lavora anche come digital marketer per un sito di e-commerce regionale. Ha investito nella cultura di Internet, nei social media e nel modo in cui le persone interagiscono con il web.Leggi la Biografia completa ”
Leave a Reply