일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 클린코드
- 코딩교육
- if
- 매개변수
- 함수
- Request
- 파이썬
- Def
- 시각화
- 데이터
- Python
- for
- Beautifulsoup
- 기초
- 파이썬3.5
- 텍스트마이닝
- CRAWL
- mysql
- 반복문
- 조건문
- 프로그래밍
- 텍스트
- urllib
- Pycharm
- 크롤링
- Loop
- 인수
- 마이닝
- 데이터사이언티스트
- 입문
- Today
- Total
IT is Smart
파이썬 requests모듈 사용하기, use requests module 본문
앞에서 인터넷 자원에 접근할 수 있도록 해주는 urllib에 대해 알아봤었습니다. (여기참조)
urllib는 파이썬에 기본적으로 내장되어 있기 때문에 python을 설치하면 바로 사용할 수 있었습니다. 하지만 urllib패키지는 사용법이 쉽지 않고 간단한 처리에도 꽤 많은 라인의 코딩을 해야 하곤 합니다. 그래서 최근에는 urllib패키지 대신에 requests모듈도 많이 이용되고 있습니다.
requests모듈은 별개로 개발된 open source 라이브러리이기 때문에 Python설치 후에 추가로 설치작업을 해줘야 합니다. requests에 대해 좀더 자세히 알고 싶으면 여기를 참조하세요.
c:\>pip install requests
위와 같이 pip를 이용해서 간단하게 설치할 수 있습니다.
requests모듈을 이용해서 코딩을 해보겠습니다.
BeautifulSoup4도 아직 설치하지 않은 경우는 아래와 같이 설치해 주면 됩니다.
c:\>pip install beautifulsoup4
코딩을 해보겠습니다.
import requests from bs4 import BeautifulSoup def trade_spider(max_pages): page = 1 while page <= max_pages: url = 'http://itissmart.tistory.com/' source_code = requests.get(url, allow_redirects=False) plain_text = source_code.text soup = BeautifulSoup(plain_text,'html.parser') for link in soup.findAll('a', {'class': 'link_post'}): href = link.get('href') title = link.findAll('strong') for t in title: print(t.text) print(href) page += 1 trade_spider(1)
코드를 실행하면 해당 URL에서 게시글의 제목과 URL주소를 출력해주는 것을 확인할 수 있습니다.
'Programming > Python Basic' 카테고리의 다른 글
파이썬 try-except문으로 에러 처리하기, Python handles error using try-except (0) | 2016.09.10 |
---|---|
파이썬 requests모듈로 웹크롤링하기, web crawling using requests (3) | 2016.09.10 |
파이썬으로 인터넷의 주가정보 수집하기, get stock information from Internet (3) | 2016.09.09 |
파이썬으로 txt파일 만들고 읽기, write & read txt file (0) | 2016.09.09 |
파이썬으로 인터넷에서 이미지 수집하기, get Image from Internet (3) | 2016.09.09 |