바이두 검색 엔진의 반획은 무슨 뜻인가요?
왜 반파충류인가? 그 이유는 사실 매우 간단하다. 첫째, 파충류는 단시간에 대량의 요청을 보내고 서버의 대역폭을 차지하며 일반 사용자의 액세스에 영향을 줍니다. 둘째, 파충류는 웹 사이트의 대량의 정보 자원을 쉽게 기어가서 사용자의 프라이버시와 지적 재산권을 위험에 빠뜨릴 수 있는데, 이는 우리가 용납할 수 없는 것이다. 따라서 "파충류 침입" 을 방지하는 것이 필요합니다.
일반적인 반파충류 방법은 다음과 같습니다.
1. 방문 빈도에 따라 파충류인지 여부를 결정합니다.
모든 컴퓨터는 인터넷을 할 때 고유한 IP 를 가지고 있는데, 이 컴퓨터는 웹사이트를 방문할 때 이 IP 를 기록한다. 이 IP 방문의 빈도가 너무 빨라서 정상인 한 명이 방문하는 빈도를 훨씬 넘으면 파충류로 인식된다. 다른 IP 를 대리 IP 로 교체하면 상대 사이트는 매번 새 사용자인 줄 알고 해킹할 위험이 없다. 작업량이 많고 크롤링 속도가 빠르면 타겟 서버를 쉽게 찾을 수 있으므로 크롤링하기 전에 IP 를 사용해야 하는 프록시 IP 입니다. IpIDEA 에는 파충류의 요구를 충족시키기에 충분한 글로벌 IP 자원이 포함되어 있습니다.
2. 머리에 따라 파충류인지 아닌지를 판단합니다.
브라우저를 사용하여 웹 사이트에 액세스하면 브라우저가 액세스 요청에 제목을 자동으로 생성합니다. 내용에는 주로 브라우저 버전, 사용된 인코딩 방법, 사용 중인 운영 체제 등의 정보가 포함되지만 파충류는 일반적으로 이러한 정보를 첨부하지 않으므로 식별할 수 있습니다.
3. 동적 페이지 반파충류.
정적 페이지는 HTML 코드에 의해 생성되며 페이지 내용도 그에 따라 고정됩니다. 동적 페이지는 스크립팅 언어로 생성되며 일부 내용은 일부 스크립트를 실행해야 볼 수 있습니다. 동적 페이지를 방문할 때, 클릭, 확인 코드 입력 등과 같은 특정 조작이 필요한 내용도 있으며, 잡기가 어려워지고 간단한 파충류가 도태될 수 있습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 스포츠명언)