Articles / 22 listopada, 2021

Co to jest Web Crawler / Spider i jak to działa?

wyszukiwarki takie jak Google są częścią tego, co sprawia, że internet jest tak potężny. Za pomocą kilku naciśnięć klawiszy i kliknięcia przycisku pojawią się Najbardziej odpowiednie odpowiedzi na twoje pytanie. Ale czy kiedykolwiek zastanawiałeś się, jak działają Wyszukiwarki? Roboty internetowe są częścią odpowiedzi.

co to jest robot sieciowy i jak działa?

Co To jest Web Crawler?

funnel-web-spider-4865535_1920 — – nie wymaga atrybucji

gdy szukasz czegoś w wyszukiwarce, silnik musi szybko skanować miliony (lub miliardy) stron internetowych, aby wyświetlić Najbardziej odpowiednie wyniki. Roboty internetowe (znane również jako pająki lub boty Wyszukiwarek) to zautomatyzowane programy, które “indeksują” internet i kompilują informacje o stronach internetowych w łatwo dostępny sposób.

słowo “crawling” odnosi się do sposobu, w jaki roboty internetowe przemierzają internet. Roboty sieciowe są również znane jako ” pająki.”Nazwa ta pochodzi od sposobu, w jaki pełzają po sieci—jak pająki pełzają po pajęczynach.

roboty sieciowe oceniają i kompilują dane na jak największej liczbie stron internetowych. Robią to, aby dane były łatwo dostępne i przeszukiwalne, dlatego są tak ważne dla wyszukiwarek.

pomyśl o robocie gąsienicowym jako edytorze, który kompiluje indeks na końcu książki. Zadaniem indeksu jest poinformowanie czytelnika, gdzie w książce pojawia się każdy kluczowy temat lub fraza. Podobnie, Robot internetowy tworzy indeks, którego używa wyszukiwarka, aby szybko znaleźć odpowiednie informacje na temat zapytania.

Co To Jest Indeksowanie Wyszukiwania?

jak już wspomnieliśmy, indeksowanie wyszukiwania jest porównywalne do kompilowania indeksu z tyłu książki. W pewnym sensie indeksowanie wyszukiwania jest jak tworzenie uproszczonej mapy Internetu. Gdy ktoś zadaje pytanie wyszukiwarce, wyszukiwarka uruchamia je przez jej indeks, a najważniejsze strony pojawiają się jako pierwsze.

ale skąd wyszukiwarka wie, które strony są istotne?

indeksowanie wyszukiwania koncentruje się przede wszystkim na dwóch rzeczach: tekście na stronie i metadanych strony. Tekst jest wszystkim, co widzisz jako czytelnik, podczas gdy metadane to informacje o tej stronie wprowadzone przez twórcę strony, znane jako ” metatagi.”Meta tagi zawierają takie rzeczy, jak opis strony i tytuł meta, które pojawiają się w wynikach wyszukiwania.

wyszukiwarki takie jak Google indeksują cały tekst na stronie internetowej (z wyjątkiem niektórych słów, takich jak “the” I “a” w niektórych przypadkach). Następnie, gdy termin jest wyszukiwany w wyszukiwarce, szybko przeszukuje swój indeks w poszukiwaniu najbardziej odpowiedniej strony.

jak działa Web Crawler?

google-485611_1920 — – nie wymaga atrybucji

Robot sieciowy działa zgodnie z nazwą. Zaczynają się od znanej strony internetowej lub adresu URL i indeksują każdą stronę pod tym adresem URL (w większości przypadków właściciele witryn żądają od wyszukiwarek indeksowania określonych adresów URL). Gdy natkną się na hiperłącza na tych stronach, skompilują listę “do zrobienia” stron, które będą indeksować dalej. Robot będzie kontynuował to w nieskończoność, przestrzegając szczególnych zasad dotyczących tego, które strony mają być indeksowane, a które ignorowane.

roboty sieciowe nie indeksują każdej strony w Internecie. W rzeczywistości szacuje się, że tylko 40-70% Internetu zostało indeksowanych w wyszukiwarkach (co nadal stanowi miliardy stron). Wiele robotów indeksujących jest zaprojektowanych tak, aby koncentrować się na stronach uważanych za bardziej “autorytatywne.”Autorytatywne strony pasują do kilku kryteriów, które sprawiają, że są bardziej prawdopodobne, że zawierają wysokiej jakości lub popularne informacje. Roboty gąsienicowe muszą również konsekwentnie odwiedzać strony, gdy są aktualizowane, usuwane lub przenoszone.

jednym z czynników decydujących o tym, które strony indeksuje Robot internetowy, są roboty.protokół TXT lub protokół wykluczania robotów. Serwer strony www będzie obsługiwał roboty.plik txt, który określa reguły dla dowolnego robota sieciowego lub innych programów uzyskujących dostęp do strony. Plik wykluczy przeszukiwanie poszczególnych stron i linki, które robot może śledzić. Jednym z celów robotów.plik txt ma na celu ograniczenie obciążenia, które boty umieszczają na serwerze Strony.

aby uniemożliwić robotowi internetowemu dostęp do niektórych stron w Twojej witrynie, możesz dodać tag “disallow” za pomocą robotów.plik txt lub dodaj meta tag noindex do danej strony.

Jaka jest różnica między Raczkowaniem a skrobaniem?

web scraping to użycie botów do pobierania danych ze strony internetowej bez zgody tej witryny. Często skrobanie stron internetowych jest używane ze złośliwych powodów. Skrobanie stron internetowych często pobiera cały kod HTML z określonych stron internetowych, a bardziej zaawansowane skrobaki pobierają również elementy CSS i JavaScript. Narzędzia do skrobania stron internetowych mogą być używane do szybkiego i łatwego kompilowania informacji na określone tematy (np. lista produktów), ale mogą również wędrować po szarych i nielegalnych terytoriach.

web crawling, z drugiej strony, to indeksowanie informacji na stronach internetowych za zgodą, aby mogły łatwo pojawić się w wyszukiwarkach.

przykłady robotów sieciowych

każda Główna Wyszukiwarka ma jeden lub więcej robotów sieciowych. Na przykład:

Google ma Googlebota
Bing ma Bingbota
DuckDuckGo ma Duckduckbota.

większe wyszukiwarki, takie jak Google, mają określone boty dla różnych fokusów, w tym obrazy Googlebota, Filmy Googlebota i Adsbota.

jak indeksowanie stron wpływa na SEO?

jeśli chcesz, aby Twoja strona pojawiała się w wynikach wyszukiwania, strona musi być dostępna dla robotów indeksujących. W zależności od serwera witryny możesz przydzielić określoną częstotliwość indeksowania, które strony mają zostać przeskanowane przez robota i jaki nacisk może wywierać na serwer.

zasadniczo chcesz, aby roboty internetowe doskonaliły się na stronach wypełnionych treścią, ale nie na stronach takich jak wiadomości z podziękowaniami, strony administracyjne i wewnętrzne wyniki wyszukiwania.

informacje na wyciągnięcie ręki

Korzystanie z wyszukiwarek stało się dla większości z nas drugą naturą, jednak większość z nas nie ma pojęcia, jak one działają. Roboty indeksujące są jedną z głównych części skutecznej wyszukiwarki i skutecznie indeksują informacje o milionach ważnych stron internetowych każdego dnia. Są nieocenionym narzędziem zarówno dla właścicieli witryn, odwiedzających,jak i wyszukiwarek.

Jake Harfield (40 opublikowanych artykułów)

Jake Harfield jest niezależnym pisarzem z Perth w Australii. Kiedy nie pisze, zwykle jest w buszu fotografując lokalną przyrodę. Możesz go odwiedzić na www.jakeharfield.com

więcej od Jake Harfield

International Blogging Network