목록Request (3)
IT is Smart
필요한 정보를 수집하기 위해 크롤링 작업을 수행하다보면 어떤 주소는 웹브라우저에 직접 입력하면 페이지를 확인할 수 있는데 크롤러를 돌리면 HTTP 403 Forbidden 에러를 띄우고 크롤링이 되지 않는 경우를 만날 수 있습니다. 이는 각 사이트마다 비정상적인 접근을 차단하기 위한 조치 때문에 발생하는 현상입니다. 정상적으로 웹브라우저를 통해 접근하면 우리쪽에서 상대방 사이트서버로 HTTP Request메시지를 보내게 되는데 이때 우리쪽의 작업환경에 대한 정보를 보내줍니다. 사이트에서는 이 정보를 이용해서 접속자들의 OS, 브라우저1 종류나 버전 등을 파악해서 대응하게 되는 거죠. 근데 python과 같은 도구를 사용해서 사이트에 접속하게 되는 경우 브라우저를 통해 접속하는 경우와 다른 HTTP Req..
이번에는 인터넷에서 구할 수 있는 데이터 자료를 수집하는 방법에 대해서 알아보겠습니다.여기서 설명하는 것은 하나의 사례로써 이외에도 다양한 다른 방법이 있습니다. 내용을 참조하신 후 적절한 상황에 활용하시기 바랍니다. 인터넷으로 쉽게 구할 수 있는 데이터로는 주가 정보가 있습니다. yahoo의 finance섹션에서는 특정기업의 주가정보를 csv파일로도 제공을 해주고 있는데 이 자료를 수집하는 사례를 알아보겠습니다. 아래와 같이 Yahoo의 Finance 섹션에 접속한 후 특정기업을 검색합니다. 아래의 경우는 Microsoft를 검색해 봤습니다. 중간에 있는 베너 바로 위를 보면 Summary, Statistics, Profile, Financials, Options, Holders, Historical ..
☆★♡♥블로그 방문자분들께 책 선물 드려요!☆★♡♥ 이번에는 인터넷 상의 이미지를 읽어와서 내 로컬컴퓨터에 저장하는 방법을 알아보겠습니다.브라우저로 검색해서 저장하기 할 수도 있지만 수집하려는 이미지가 많은 경우에는 하나하나 저장하는 것보다 자동으로 처리해주면 엄청나게 수월해지겠지요. import random import urllib.request def download_img(url): name = random.randrange(1, 1000) full_name = str(name) + ".jpg" urllib.request.urlretrieve(url, full_name) download_img("http://cfs.tistory.com/custom/blog/188/1888093/skin/previe..