일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 시각화
- 코딩교육
- 클린코드
- 입문
- 텍스트
- CRAWL
- 데이터사이언티스트
- if
- 함수
- Request
- 파이썬
- Loop
- 반복문
- 조건문
- mysql
- 데이터
- Python
- 인수
- urllib
- Beautifulsoup
- Pycharm
- 크롤링
- 텍스트마이닝
- 마이닝
- 매개변수
- 기초
- for
- Def
- 프로그래밍
- 파이썬3.5
- Today
- Total
IT is Smart
한중 연예인 인기도 측정 PoC 소개 본문
2016년 가을, 북한의 핵실험과 ICBM시험발사 문제로 핵 전쟁 위기감이 고조되면서 한국은 사드를 배치하기로 결정되었죠.
이에 중국은 사드의 배치가 미국이 중국을 근접해서 감시하는 수단이라는 판단으로 강력히 반발했고, 중국 내 혐한(嫌韓) 분위기가 고조되면서 금한령(禁韓令)을 통해 중국인들의 한국여행을 금지하고, 한국제품 불매 분위기 조성, 롯데와 같은 한국기업에 대한 제재와 압박을 가했고, 뜨겁게 치솟던 한국 연예인들의 중국 진출에도 찬물을 끼엊는 일이 발생했습니다.
저는 이런 상황들을 모두 지켜보면서 중국정부의 통제력에 두려움을 느끼는 한편으로, 문화에 대한 감정도 통제가 가능한 것일까 하는 의구심을 갖게 되었습니다.
그래서 하나의 가설을 세우고 그것을 확인함으로써 금한령이 한국 연예인들의 중국내 공연활동을 통제할 수는 있지만, 한류라는 문화에 대한 관심까지 통제할 수도 있는가를 확인해 보기로 했습니다.
제가 세운 가설은 다음과 같습니다.
"중국 대중이 쉽게 접할 수 있는 포털과 같은 매체를 통해서 기사로 언급되는 횟수는 그 연예인에 대한 대중의 관심도와 비례한다."
이것을 증명하는 방법으로
중국의 구글이라고 하는 '바이두 baidu.com'를 통해 중국과 한국의 유명 가수 및 배우들을 일정기간동안 정기적으로 검색하여 그들에 대한 기사를 중복없이 카운트해서 그 숫자를 기준으로 인기순위를 평가해 보기로 했습니다.
또 각 기사의 본문까지 수집하여 언급된 단어를 분석하여 해당 연예인에 대해 언급된 단어가 그 연예인에 대한 관심의 방향으로 판단할 수 있을지 확인해 보기로 했습니다.
이상과 같은 확인을 위해서
1) 매일 자동으로 수백건의 검색과 기사를 수집하는 자동검색로봇을 제작했고,
2) 수집한 정보를 선처리(Pre-process)하고 형태소 분석해서 DB로 저장하는 모듈을 만들었고,
3) 저장된 데이터로 유의미한 정보를 탐색하기 위한 시각화 UI를 구현했습니다.
그 당시 퇴근후 짜투리시간과 대부분의 주말시간을 투자해서 대략 한 달 가량 만에 아래와 같은 결과물을 얻을 수 있었습니다.
개인적인 호기심으로 작업한 내용이라 먼지 속에 묻혀 있었는데, 이번(2018.04.27) 남북정상회담의 성공으로 다시금 한중관계가 개선되겠다는 기대와 함께 잠시 잊고 있었던 연구결과를 공개하기로 결정했습니다.
앞으로 진행되는 포스팅에서는 이상과 같은 결과를 만드는 과정과 소스들을 하나하나 공개하려고 합니다.
많은 관심 부탁합니다~