일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 인수
- CRAWL
- 마이닝
- 크롤링
- Python
- mysql
- 반복문
- 기초
- 조건문
- 함수
- Loop
- 텍스트마이닝
- if
- Request
- 코딩교육
- 파이썬
- 데이터사이언티스트
- 입문
- Beautifulsoup
- urllib
- 데이터
- 텍스트
- 프로그래밍
- Pycharm
- 클린코드
- 파이썬3.5
- for
- 시각화
- Def
- 매개변수
- Today
- Total
목록Beautifulsoup (3)
IT is Smart
소스부터 보도록 하겠습니다. import requests from bs4 import BeautifulSoup def trade_spider(max_pages): page = 1 while page
앞에서 인터넷 자원에 접근할 수 있도록 해주는 urllib에 대해 알아봤었습니다. (여기참조)urllib는 파이썬에 기본적으로 내장되어 있기 때문에 python을 설치하면 바로 사용할 수 있었습니다. 하지만 urllib패키지는 사용법이 쉽지 않고 간단한 처리에도 꽤 많은 라인의 코딩을 해야 하곤 합니다. 그래서 최근에는 urllib패키지 대신에 requests모듈도 많이 이용되고 있습니다. requests모듈은 별개로 개발된 open source 라이브러리이기 때문에 Python설치 후에 추가로 설치작업을 해줘야 합니다. requests에 대해 좀더 자세히 알고 싶으면 여기를 참조하세요. c:\>pip install requests 위와 같이 pip를 이용해서 간단하게 설치할 수 있습니다.requests..
#coding=utf-8 #!/usr/bin/python from bs4 import BeautifulSoup html_doc = """ IT is SmartIT is Smart IT is Smart Once upon a time there were three little sisters; and their names were Elsie, Lacie and Tillie; and they lived at the bottom of a well. ... """ soup = BeautifulSoup(html_doc) # HTML 들여쓰기하여 출력하기 # ----------------------------------- # print(soup.prettify()) # # # IT is Smart # # # # #....