누구나 웹 크롤러를 알아야 합니다. 얼마나 알고 있니?

웹 크롤러는 특정 규칙에 따라 인터넷 정보를 자동으로 캡처하는 프로그램이나 스크립트입니다. [2] 자동으로 웹 페이지에 액세스하고 관련 작업을 수행하는 작은 로봇으로 이해할 수 있습니다. 본질적으로 네트워크 정보를 효율적이고 자동으로 읽고 수집하는 것입니다. 파충류 프로그램은 휴스턴 대학의 에이히먼이 1994 에서 처음 개발한 것이다. 유명한 구글이 사용하는 구글 파충류는 당시 스탠포드 대학의 학생인 브린과 페치가 1998 년 파이튼으로 개발했다.

파충류 기술을 사용할 때 발생할 수 있는 법적 위험은 주로 다음과 같은 여러 가지 영역에서 발생합니다.

(1)

(2) 파충류 사용은 방문한 웹사이트의 정상적인 운영에 방해가 된 실제 결과를 초래했습니다.

(3) 파충류는 법으로 보호되는 특정 유형의 정보를 캡처합니다. 세 번째 위험은 주로 파충류를 피하는 조치를 통해 인터넷에서 공개되지 않은 정보를 수집하는 데서 비롯된다.

A: 로봇 프로토콜을 준수하는 것은 불법이 아닙니다.

A: 사이트 도메인 이름과 /robots.txt 링크 아래의 파일을 확인하십시오.

예를 들면 Tik Tok:/robots.txt 입니다

사용자 에이전트: 다음 규칙이 적용되는 로봇 (예: "Googlebot" 등). ).

Disallow: 로봇이 액세스되지 않도록 하려는 페이지 (필요한 경우 여러 줄 금지).

전체 사이트 차단: 허용되지 않음:/

디렉토리 및 그 안의 모든 내용 차단: /private_directory/

페이지 차단: /private _ file.html 은 허용되지 않습니다.

Private: Disallow: /private 라는 페이지 및/또는 디렉토리를 차단합니다

허용: 로봇에 의해 차단되지 않는 페이지입니다.

Noindex: 검색 엔진에서 인덱스화하지 않고 차단하도록 할 페이지 (또는 이전에 인덱스화된 경우 인덱스화 취소) 입니다. Google 은 지원되고 Yahoo 와 Live Search 는 지원되지 않습니다. 기타 검색은 알 수 없습니다.

예를 들어 로봇이 모든/자습서/장전/2017/061771/

참조: /article/2 172053.html

上篇: 교통사고 손해배상은 과오 배상 원칙을 시행한다.

下篇: 안강산 간고신 제 1 병원에는 몇 가구가 있습니까?

누구나 웹 크롤러를 알아야 합니다. 얼마나 알고 있니?

相关文章