목록HTTP (2)
IT is Smart
웹크롤링 시 HTTP Error 403 Forbidden 해결하기, Solve HTTP Error 403 Forbidden problem
필요한 정보를 수집하기 위해 크롤링 작업을 수행하다보면 어떤 주소는 웹브라우저에 직접 입력하면 페이지를 확인할 수 있는데 크롤러를 돌리면 HTTP 403 Forbidden 에러를 띄우고 크롤링이 되지 않는 경우를 만날 수 있습니다. 이는 각 사이트마다 비정상적인 접근을 차단하기 위한 조치 때문에 발생하는 현상입니다. 정상적으로 웹브라우저를 통해 접근하면 우리쪽에서 상대방 사이트서버로 HTTP Request메시지를 보내게 되는데 이때 우리쪽의 작업환경에 대한 정보를 보내줍니다. 사이트에서는 이 정보를 이용해서 접속자들의 OS, 브라우저1 종류나 버전 등을 파악해서 대응하게 되는 거죠. 근데 python과 같은 도구를 사용해서 사이트에 접속하게 되는 경우 브라우저를 통해 접속하는 경우와 다른 HTTP Req..
Programming/Text Mining
2016. 9. 17. 08:48