웹 크롤러/거미 란 무엇이며 어떻게 작동합니까?

Google-feature-1680x840 Google-feature-1680x840 Google-feature-1680x840 Google-feature-1680x840
– 저작자 표시 필요 없음

구글과 같은 검색 엔진은 인터넷을 그렇게 강력하게 만드는 것의 일부입니다. 몇 번의 키 입력과 버튼 클릭으로 질문에 대한 가장 관련성이 높은 답변이 나타납니다. 그러나 검색 엔진이 어떻게 작동하는지 궁금해 한 적이 있습니까? 웹 크롤러는 대답의 일부입니다.

그렇다면 웹 크롤러는 무엇이며 어떻게 작동합니까?

웹 크롤러 란 무엇입니까?

funnel-web-spider-4865535_1920
– 저작자 표시 필요 없음

검색 엔진에서 무언가를 검색 할 때 엔진은 수백만(또는 수십억)의 웹 페이지를 빠르게 스캔하여 가장 관련성이 높은 결과를 표시해야합니다. 웹 크롤러(스파이더 또는 검색 엔진 봇이라고도 함)는 인터넷을”크롤링”하고 웹 페이지에 대한 정보를 쉽게 액세스 할 수있는 방식으로 컴파일하는 자동화 된 프로그램입니다.

“크롤링”이라는 단어는 웹 크롤러가 인터넷을 통과하는 방식을 나타냅니다. 웹 크롤러는”거미”라고도합니다.”이 이름은 거미가 거미줄에서 크롤링하는 방식과 같이 웹을 크롤링하는 방식에서 비롯됩니다.

웹 크롤러는 가능한 한 많은 웹 페이지에서 데이터를 평가하고 컴파일합니다. 그들은 이렇게 데이터를 쉽게 액세스할 수 및 검색,따라서 왜 그들은 검색 엔진에 그렇게 중요 하다.

웹 크롤러를 책 끝에 있는 색인을 컴파일하는 편집자로 생각하십시오. 색인의 일은 책에서 각 중요한 화제 또는 어구가 나타나는 곳에 독자를 알리기 위한 것이다. 마찬가지로 웹 크롤러는 검색 엔진이 검색 쿼리의 관련 정보를 빠르게 찾는 데 사용하는 인덱스를 만듭니다.

검색 인덱싱이란?

앞서 언급했듯이 검색 인덱싱은 책 뒷면의 인덱스를 컴파일하는 것과 비슷합니다. 어떤면에서 검색 인덱싱은 인터넷의 단순화 된지도를 만드는 것과 같습니다. 누군가가 검색 엔진에 질문을 할 때 검색 엔진은 색인을 통해 실행되며 가장 관련성이 높은 페이지가 먼저 나타납니다.

그러나 검색 엔진은 어떤 페이지가 관련이 있는지 어떻게 알 수 있습니까?

검색 인덱싱은 주로 페이지의 텍스트와 페이지의 메타 데이터라는 두 가지에 중점을 둡니다. 텍스트 메타 데이터는”메타 태그로 알려진 페이지 작성자에 의해 해당 페이지 입력에 대 한 정보 동안 독자로 서 볼 모든 것 이다.”메타 태그는 검색 결과에 나타나는 페이지 설명 및 메타 제목 같은 것들을 포함한다.

구글과 같은 검색 엔진은 웹 페이지의 모든 텍스트를 색인화합니다(경우에 따라””및””와 같은 특정 단어 제외). 다음,용어 검색 엔진에 검색 될 때 그것은 신속 하 게 가장 관련성이 높은 페이지에 대 한 인덱스를 샅 샅히 뒤져 것입니다.

웹 크롤러는 어떻게 작동합니까?

google-485611_1920
– 저작자 표시 필요 없음

웹 크롤러는 이름에서 알 수 있듯이 작동합니다. 그들은 알려진 웹 페이지 또는 링크에서 시작하고 그 링크에서 모든 페이지를 색인화합니다(대부분의 경우 웹 사이트 소유자는 검색 엔진을 특정 링크로 크롤링하도록 요청합니다). 그들이 그 페이지에 하이퍼 링크를 우연히 만나기 때문에,다음 포복할 페이지의”할 일”명부를 집계할 것이다. 웹 크롤러는 크롤링 할 페이지와 무시할 페이지에 대한 특정 규칙에 따라 무기한 계속됩니다.

웹 크롤러가 인터넷의 모든 페이지를 크롤링하지는 않습니다. 실제로 인터넷의 40-70%만이 검색 색인(여전히 수십억 페이지)으로 추정됩니다. 많은 웹 크롤러는 더”권위있는 것으로 생각되는 페이지에 초점을 맞추도록 설계되었습니다.”신뢰할 수 있는 페이지는 높은 품질 또는 인기 있는 정보를 포함할 가능성이 높은 몇 가지 기준에 적합합니다. 또한 웹 크롤러는 업데이트,제거 또는 이동할 때 페이지를 지속적으로 다시 방문해야 합니다.

웹 크롤러가 크롤링할 페이지를 제어하는 마지막 요소는 로봇입니다.프로토콜 또는 로봇 제외 프로토콜. 웹 페이지의 서버는 로봇을 호스팅합니다.모든 웹 크롤러 또는 페이지에 액세스하는 다른 프로그램에 대한 규칙을 낳는 파일. 이 파일은 특정 페이지가 크롤링되는 것을 배제하고 크롤러가 따를 수있는 링크를 배제합니다. 로봇의 목적 중 하나.봇이 웹 사이트의 서버에 넣어 부담을 제한하는 것입니다.

웹 크롤러가 웹 사이트의 특정 페이지에 액세스하지 못하도록하려면 로봇을 통해”허용 안 함”태그를 추가 할 수 있습니다.해당 페이지에 색인 메타 태그를 추가합니다.

크롤링과 스크래핑의 차이점은 무엇입니까?

웹 스크래핑은 해당 웹 사이트의 허가없이 웹 사이트에서 데이터를 다운로드하는 봇을 사용하는 것입니다. 종종 웹 스크래핑은 악의적 인 이유로 사용됩니다. 웹 스크래핑은 종종 특정 웹 사이트에서 모든 코드를 가져옵니다. 웹 스크래핑 도구를 사용하여 특정 주제(예:제품 목록)에 대한 정보를 빠르고 쉽게 컴파일 할 수 있지만 회색 및 불법 영역으로 방황 할 수도 있습니다.

반면에 웹 크롤링은 웹 사이트에 대한 정보를 검색 엔진에 쉽게 표시 할 수 있도록 허가를 받아 색인 생성하는 것입니다.

웹 크롤러 예

모든 주요 검색 엔진에는 하나 이상의 웹 크롤러가 있습니다. 예를 들어:

  • 덕 덕고 덕 덕고 덕 덕고 덕 덕고 덕 덕고 덕 덕고 덕 덕고 덕 덕고 덕 덕고 덕 덕고 덕 덕고 덕 덕고 덕 덕고 덕 덕고 덕 덕고 덕 덕고 덕 덕고 덕 덕고 덕 덕고 덕 덕고 덕 덕고 덕 덕고 덕 덕고

구글과 같은 더 큰 검색 엔진에는 구글 이미지,구글봇 비디오 및 애드봇을 포함한 다양한 포커스에 대한 특정 봇이 있습니다.

웹 크롤링은 검색 엔진 최적화에 어떤 영향을 줍니까?

seo-758264_1920
– 기여 필요 없음

검색 엔진 결과에 페이지를 표시하려면 웹 크롤러가 페이지에 액세스할 수 있어야 합니다. 웹 사이트 서버에 따라 크롤링의 특정 빈도,크롤러가 검색할 페이지 및 서버에 얼마나 많은 압력을 가할 수 있는지 할당할 수 있습니다.

기본적으로 웹 크롤러는 감사 메시지,관리자 페이지 및 내부 검색 결과와 같은 페이지가 아닌 콘텐츠로 채워진 페이지에서 연마하기를 원합니다.

여러분의 손끝에 정보

검색 엔진을 사용하는 것은 우리의 대부분을위한 제 2 의 천성이되었다,아직 우리 대부분은 그들이 어떻게 작동하는지 아무 생각이 없다. 웹 크롤러는 효과적인 검색 엔진의 주요 부분 중 하나이며 매일 수백만 개의 중요한 웹 사이트에 대한 정보를 효과적으로 색인화합니다. 그들은 웹사이트 소유자,방문자 및 수색 엔진을 위해 비슷하게 값을 헤아릴 수 없는 공구 이다.

제이크 하 필드(40 기사 게시)

제이크 하 필드는 퍼스,호주에 본사를 둔 프리랜서 작가이다. 그가 글을 쓰지 않을 때,그는 보통 지역 야생 동물을 촬영하는 덤불에 있습니다. 당신은 그를 방문 할 수 있습니다 www.jakeharfield.com

제이크 하필드에서 더 많은

Leave a Reply