목록텐서플로우 (1)
IT is Smart
데이터와 텍스트 Data & Text (2/2)
데이터마이닝과 텍스트마이닝 데이터와 텍스트의 차이만큼이나 데이터마이닝과 텍스트마이닝은 비슷한 듯하면서도 다르다. 앞에서 말했듯이 데이터는 컴퓨터로 분석을 하기 위한 목적으로 만들어진, 컴퓨터가 이해하기 좋게 구조화된 정보이다. 이런 데이터는 기업의 데이터베이스나 정부의 공공 데이터베이스에 존재한다. 그에 반해 텍스트는 사람이 사람에게 전달하는 정보이기 때문에 논문이나 신문, 잡지의 기사와 같은 형식이거나 조직의 다양한 보고서와 같은 형식 또는 블로그, 인터넷카페 게시판, e-mail 이나 메신저 글과 같이 매우 개인적인 형식 등 정형화되지 않은 다양한 모습으로 존재를 한다. 텍스트는 이렇게 다양한 형식과 함께 사람들의 다양한 언어사용 방식(문법을 무시하거나 띄워쓰기, 오탈자 등등) 때문에 분석의 대상이 ..
Case Study/Thinking
2017. 11. 13. 06:00