웹 크롤러 란 무엇이며 어떻게 작동합니까?

  • 반 비센테

    @반비센테

  • 2021 년 7 월 9 일 동부 서머 타임 오전 9 시 30 분
  • 1 과 0 으로 만든 거미.
    엔조조/

    혹시 구글에서 뭔가를 검색 하 고 궁금해,”어떻게 어디 있는지 알 수 있습니까?”대답은”웹 크롤러,”웹 검색 및 색인을 생성하여 온라인에서 쉽게 찾을 수 있습니다. 우리는 설명 할 것이다.

    검색 엔진 및 크롤러

    구글이나 빙과 같은 검색 엔진에서 키워드를 사용하여 검색하면 사이트는 수조 페이지를 통해 해당 용어와 관련된 결과 목록을 생성합니다. 정확 하 게 어떻게 이러한 검색 엔진 파일에 이러한 페이지의 모든,그들을 찾는 방법을 알고 하 고 초 이내에 이러한 결과 생성?

    대답은 거미라고도하는 웹 크롤러입니다. 이들은 검색 엔진에 추가 할 수 있도록 웹을”크롤링”하거나 탐색하는 자동화 된 프로그램(종종”로봇”또는”봇”이라고 함)입니다. 이 로봇 인덱스 웹 사이트는 결국 검색 결과에 나타나는 페이지의 목록을 만들 수 있습니다.

    크롤러는 또한 엔진의 데이터베이스에 이러한 페이지의 복사본을 만들고 저장하므로 거의 즉시 검색 할 수 있습니다. 또한 왜 수색 엔진이 수시로 그들의 데이타베이스에 있는 위치의 캐시된 버전을 포함하는지 이유이다.

    관련:웹 페이지가 다운되었을 때 웹 페이지에 액세스하는 방법

    사이트 맵 및 선택

    순서도 앞에 있는 남자의 그림입니다.
    그리보에도프/

    그렇다면 크롤러는 크롤링 할 웹 사이트를 어떻게 선택합니까? 글쎄,가장 일반적인 시나리오는 웹 사이트 소유자가 검색 엔진이 자신의 사이트를 크롤링하기를 원한다는 것입니다. 그들은 구글을 요청하여이를 달성 할 수있다,빙,야후,또는 인덱스 자신의 페이지에 다른 검색 엔진. 이 과정은 엔진마다 다릅니다. 또한,검색 엔진 자주 선택 인기 있는,잘 연결 된 웹 사이트를 크롤 링 하는 횟수를 추적 하 여 다른 공용 사이트에 링크 된.

    광고

    웹 사이트 소유자는 특정 프로세스를 사용하여 검색 엔진이 웹 사이트를 색인화하는 데 도움을 줄 수 있습니다(예:
    사이트 맵 업로드). 이것은 당신의 웹사이트의 일부인 페이지 및 모든 연결을 포함하는 파일이다. 일반적으로 색인을 생성하려는 페이지를 나타내는 데 사용됩니다.

    검색 엔진이 이미 웹 사이트를 한 번 크롤링하면 자동으로 해당 사이트를 다시 크롤링합니다. 빈도는 다른 메트릭 중에서 웹 사이트가 얼마나 인기가 있는지에 따라 다릅니다. 따라서 사이트 소유자는 업데이트된 사이트 맵을 자주 유지하여 엔진이 인덱싱할 새 웹 사이트를 알 수 있도록 합니다.

    로봇과 공손함

    "로봇."나무 블록에 철자.
    /

    웹 사이트가 일부 또는 모든 페이지를 검색 엔진에 표시하지 않으려면 어떻게해야합니까? 예를 들어 사람들이 회원 전용 페이지를 검색하거나 404 오류 페이지를 보지 못하게 할 수 있습니다. 이 곳 또한 로봇으로 알려진 크롤링 제외 목록입니다.텍,놀이로 온다. 이 웹 페이지 인덱싱에서 제외 할 크롤러에 지시하는 간단한 텍스트 파일입니다.

    광고

    또 다른 이유 왜 로봇.웹 크롤러가 사이트 성능에 큰 영향을 줄 수 있다는 것이 중요합니다. 크롤러는 기본적으로 웹 사이트의 모든 페이지를 다운로드하기 때문에 리소스를 소비하고 속도 저하를 유발할 수 있습니다. 그들은 예측할 수없는 시간에 승인없이 도착합니다. 페이지를 반복적으로 색인화 할 필요가 없다면 크롤러를 중지하면 웹 사이트 부하를 줄이는 데 도움이 될 수 있습니다. 다행히도 대부분의 크롤러는 사이트 소유자의 규칙에 따라 특정 페이지를 크롤링하지 않습니다.

    최고의 기술 뉴스 레터 어디서나

    425,000 가입자에 가입하고 기능,기사,뉴스 및 퀴즈의 일일 다이제스트를 얻을.

    이메일을 제출하면 이용 약관 및 개인 정보 보호 정책에 동의하게됩니다.

    메타 데이터 매직

    구글 검색 하우토긱

    구글의 모든 검색 결과의 제목과 링크에서,당신은 페이지의 간단한 설명을 찾을 수 있습니다. 이러한 설명을 스니펫이라고 합니다. 당신은 구글에서 페이지의 조각이 항상 웹 사이트의 실제 콘텐츠와 정렬되지 않는 것을 알 수 있습니다. 이것은 많은 웹사이트에는 위치 소유자가 그들의 페이지에 추가하는 주문 묘사인”메타산 꼬리표이라고 부르는 무언가가,”있기 때문이다.

    사이트 소유자는 종종 웹 사이트를 클릭 할 수 있도록 작성 유혹 메타 데이터 설명과 함께 제공됩니다. 구글은 또한 가격 및 재고 가용성과 같은 다른 메타 정보를 나열합니다. 이 전자 상거래 웹 사이트를 실행하는 사람들에게 특히 유용합니다.

    검색

    웹 검색은 인터넷 사용의 필수적인 부분입니다. 웹 검색은 새로운 웹 사이트,상점,커뮤니티 및 관심사를 발견 할 수있는 좋은 방법입니다. 매일 웹 크롤러는 수백만 페이지를 방문하여 검색 엔진에 추가합니다. 크롤러는 사이트 리소스를 차지하는 것과 같은 몇 가지 단점을 가지고 있지만 사이트 소유자와 방문자 모두에게 매우 중요합니다.

    관련:구글 검색 기록의 마지막 15 분을 삭제하는 방법

    반 비센테
    반 비센테는 평균 소비자를 대상으로 설명자에 초점을 맞추고,4 년 동안 기술 작가였다. 그는 또한 지역 전자 상거래 웹 사이트의 디지털 마케팅 담당자로 일하고 있습니다. 그는 인터넷 문화,소셜 미디어 및 사람들이 웹과 상호 작용하는 방식에 투자했습니다.전체 바이오 읽기”

    Leave a Reply