IT is Smart

데이터와 텍스트 Data & Text (2/2) 본문

Case Study/Thinking

데이터와 텍스트 Data & Text (2/2)

달인최선 2017. 11. 13. 06:00
반응형

데이터마이닝과 텍스트마이닝


데이터와 텍스트의 차이만큼이나 데이터마이닝과 텍스트마이닝은 비슷한 듯하면서도 다르다. 


앞에서 말했듯이 데이터는 컴퓨터로 분석을 하기 위한 목적으로 만들어진, 컴퓨터가 이해하기 좋게 구조화된 정보이다. 이런 데이터는 기업의 데이터베이스나 정부의 공공 데이터베이스에 존재한다. 


그에 반해 텍스트는 사람이 사람에게 전달하는 정보이기 때문에 논문이나 신문, 잡지의 기사와 같은 형식이거나 조직의 다양한 보고서와 같은 형식 또는 블로그, 인터넷카페 게시판, e-mail 이나 메신저 글과 같이 매우 개인적인 형식 등 정형화되지 않은 다양한 모습으로 존재를 한다.


텍스트는 이렇게 다양한 형식과 함께 사람들의 다양한 언어사용 방식(문법을 무시하거나 띄워쓰기, 오탈자 등등) 때문에 분석의 대상이 되는 것이 불가능한 것처럼 보여왔다.


하지만 이런 텍스트 역시 사람이 사용하는 자연어에 대한 연구가 성과를 내고, 다양하고 복잡한 분석알고리즘과 통계연산을 처리할 수 있는 컴퓨팅능력이 향상되면서 빅데이터분석의 다양한 기법 중에서 시작은 늦었지만 조금씩 발전을 보여주는 분야가 되었다.



텍스트마이닝 사례


텍스트마이닝 기법을 사용하는 최근의 사례를 보면 트위터나 페이스북과 같은 소셜네트워크 상의 텍스트를 수집해서 키워드를 분석하거나 감정을 분석하는 사례가 소개되고 있고, 텍스트마이닝을 대표적인 이미지로 워드클라우드(Word-Cloud) 형태의 이미지가 종종 사용된다.

 


워드클라우드는 키워드가 되는 단어들이 언급된 횟수와 같이 다른 단어와 상대적인 차이를 크기로 시각화한 것으로 텍스트마이닝의 결과를 상징적으로 보여준다. 워드클라우드가 초보적인 수준의 텍스트마이닝 시각화 사례이다.


또다른 텍스트마이닝 사례로는 선거철 여론분석 사례가 있다. 

과거의 선거철 풍경은 집전화로 어느 당, 또는 어떤 정치인을 지지하는냐는 설문조사를 하거나 선거당일 투표소 입구에서 출구조사하는 것이 선거철 풍경을 대표하는 모습이었던 반면에, 최근에는 소셜네트워크 상의 여론을 분석해서 지지도와 당선예측을 한다는 시도가 이루어지고 있다. 


앞의 2사례가 다소 이벤트성이라면 실질적인 활용의 사례는 구글이 앞장서고 있다. 


구글의 현재 수준은 많은 텍스트 자료를 분석해서 머신러닝(기계학습)을 통해 '괜찮은 수준의 헤드라인을 만들 수 있는' 수준이라고 한다. 소개된 사례 몇 개를 보면 아래와 같다.


원문 1. "메트로-골드윈-메이어(MGM)는 올해 도입된 회계규정의 영향으로 1천600만 달러 순손실을 기록한 3분기 실적으로 공시했다."

-> "MGM, 늘어난 매출에 1천600만 순손실 공시"


원문 2. "7월 1일부터 중국 남부 하이난성의 섬은 유행성 전염병 확산을 예방하기 위해 모든 가축 및 육가공품 수입에 강력한 시장 접근 제한 조치를 취하기 시작한다." -> "하이난 질병 확산 방지 나서"


원문 3. "9월 호주 와인 수출량이 2억6천만 달러에 상당한 5천210만 리터를 기록했다고, 월요일 정부 통계청이 발표했다." -> "9월 호주 와인 수출량 높은 기록 세워"


구글은 현재 자체 개발한 머신러닝 라이브러리인 텐서플로우를 활용해 더 긴 글을 더 잘 요약할 수 있는 방법을 연구 중이다.



반응형