누구나 웹 크롤러를 알아야 합니다. 얼마나 알고 있니?
파충류 기술을 사용할 때 발생할 수 있는 법적 위험은 주로 다음과 같은 여러 가지 영역에서 발생합니다.
(1)
(2) 파충류 사용은 방문한 웹사이트의 정상적인 운영에 방해가 된 실제 결과를 초래했습니다.
(3) 파충류는 법으로 보호되는 특정 유형의 정보를 캡처합니다. 세 번째 위험은 주로 파충류를 피하는 조치를 통해 인터넷에서 공개되지 않은 정보를 수집하는 데서 비롯된다.
A: 로봇 프로토콜을 준수하는 것은 불법이 아닙니다.
A: 사이트 도메인 이름과 /robots.txt 링크 아래의 파일을 확인하십시오.
예를 들면 Tik Tok:/robots.txt 입니다
사용자 에이전트: 다음 규칙이 적용되는 로봇 (예: "Googlebot" 등). ).
Disallow: 로봇이 액세스되지 않도록 하려는 페이지 (필요한 경우 여러 줄 금지).
전체 사이트 차단: 허용되지 않음:/
디렉토리 및 그 안의 모든 내용 차단: /private_directory/
페이지 차단: /private _ file.html 은 허용되지 않습니다.
Private: Disallow: /private 라는 페이지 및/또는 디렉토리를 차단합니다
허용: 로봇에 의해 차단되지 않는 페이지입니다.
Noindex: 검색 엔진에서 인덱스화하지 않고 차단하도록 할 페이지 (또는 이전에 인덱스화된 경우 인덱스화 취소) 입니다. Google 은 지원되고 Yahoo 와 Live Search 는 지원되지 않습니다. 기타 검색은 알 수 없습니다.
예를 들어 로봇이 모든/자습서/장전/2017/061771/
참조: /article/2 172053.html