Articles / Junho 18, 2021

O que é um rastreador da Web e como funciona?

Vann Vicente

@vannvicente

uma aranha feita de uns e zeros.

Enzozo /

você já pesquisou algo no Google e se perguntou: “como ele sabe onde procurar?”A resposta é ” rastreadores da web”, que pesquisam na web e indexam para que você possa encontrar coisas facilmente online. Vamos explicar.

motores de busca e rastreadores

quando você pesquisa usando uma palavra-chave em um motor de busca como o Google ou Bing, o site vasculha trilhões de páginas para gerar uma lista de resultados relacionados a esse termo. Como exatamente esses mecanismos de pesquisa têm todas essas páginas arquivadas, sabem como procurá-las e geram esses resultados em segundos?

a resposta são os rastreadores da web, também conhecidos como aranhas. Estes são programas automatizados (muitas vezes chamados de “robôs” ou “bots”) que “rastreiam” ou navegam pela web para que possam ser adicionados aos mecanismos de pesquisa. Esses robôs indexam sites para criar uma lista de páginas que eventualmente aparecem nos resultados da pesquisa.

os rastreadores também criam e armazenam cópias dessas páginas no banco de dados do mecanismo, o que permite fazer pesquisas quase instantaneamente. É também a razão pela qual os mecanismos de pesquisa geralmente incluem versões em cache de sites em seus bancos de dados.

RELACIONADOS: Como Acessar uma Página da Web Quando Ela está para Baixo,

Mapas do Site e Seleção

Uma ilustração de um homem na frente de um fluxograma. — Griboedov /

então, como os rastreadores escolhem quais sites rastrear? Bem, o cenário mais comum é que os proprietários de sites querem que os mecanismos de pesquisa rastreiem seus sites. Eles podem conseguir isso solicitando Google, Bing, Yahoo ou outro mecanismo de pesquisa para indexar suas páginas. Este processo varia de motor para motor. Além disso, os mecanismos de pesquisa freqüentemente selecionam sites populares e bem vinculados para rastrear, rastreando o número de vezes que um URL é vinculado a outros sites públicos.

anúncio

os proprietários de sites podem usar certos processos para ajudar os mecanismos de pesquisa a indexar seus sites, como
upload de um mapa do site. Este é um arquivo que contém todos os links e páginas que fazem parte do seu site. Normalmente é usado para indicar quais páginas você gostaria indexado.

depois que os mecanismos de pesquisa já rastrearam um site uma vez, eles rastrearão automaticamente esse site novamente. A frequência varia de acordo com a popularidade de um site, entre outras métricas. Portanto, os proprietários de sites freqüentemente mantêm mapas de sites atualizados para que os mecanismos saibam quais novos sites indexar.

robôs e o Fator polidez

"robôs.txt " escrito em blocos de madeira. — Devenorr /

e se um site não quiser que algumas ou todas as suas Páginas apareçam em um mecanismo de pesquisa? Por exemplo, talvez você não queira que as pessoas pesquisem uma página somente para membros ou vejam sua página de erro 404. É aqui que a lista de exclusão de rastreamento, também conhecida como robôs.txt, entra em jogo. Este é um arquivo de texto simples que dita aos rastreadores quais páginas da web excluir da indexação.

anúncio

outra razão pela qual os robôs.o txt é importante é que os rastreadores da web podem ter um efeito significativo no desempenho do site. Como os rastreadores estão essencialmente baixando todas as páginas do seu site, eles consomem recursos e podem causar lentidão. Eles chegam em momentos imprevisíveis e sem aprovação. Se você não precisar que suas páginas sejam indexadas repetidamente, parar os rastreadores pode ajudar a reduzir parte da carga do seu site. Felizmente, a maioria dos rastreadores para de rastrear certas páginas com base nas Regras do proprietário do site.

o melhor boletim de Tecnologia em qualquer lugar

Junte-se a 425.000 assinantes e obtenha um resumo diário de recursos, artigos, notícias e curiosidades.Ao enviar seu e-mail, você concorda com os Termos de uso e a Política de Privacidade.

Metadata Magic

sob o URL e o título de cada resultado da pesquisa no Google, você encontrará uma breve descrição da página. Essas descrições são chamadas de trechos. Você pode notar que o trecho de uma página no Google nem sempre se alinha com o conteúdo real do site. Isso ocorre porque muitos sites têm algo chamado “meta tags”, que são descrições personalizadas que os proprietários de sites adicionam às suas páginas.

os proprietários de sites geralmente apresentam descrições de metadados atraentes escritas para fazer você querer clicar em um site. O Google também Lista outras meta-informações, como preços e disponibilidade de ações. Isso é especialmente útil para aqueles que executam sites de comércio eletrônico.

sua pesquisa

a pesquisa na Web é uma parte essencial do uso da internet. Pesquisar na web é uma ótima maneira de descobrir novos sites, lojas, comunidades e interesses. Todos os dias, os rastreadores da web visitam milhões de páginas e as adicionam aos mecanismos de pesquisa. Embora os rastreadores tenham algumas desvantagens, como coletar recursos do site, eles são inestimáveis para os proprietários e visitantes do site.

RELACIONADOS: Como Eliminar os Últimos 15 Minutos do Histórico de Pesquisa do Google

Vann Vicente
Vann Vicente foi um escritor de tecnologia para quatro anos, com foco em explainers orientados para o consumidor médio. Ele também trabalha como comerciante digital para um site de comércio eletrônico regional. Ele investiu na cultura da internet, nas mídias sociais e em como as pessoas interagem com a web.Leia A Biografia Completa ”

International Blogging Network