IT is Smart

데이터마이닝 Data Mining 본문

Case Study/Thinking

데이터마이닝 Data Mining

달인최선 2017. 11. 11. 08:03
반응형

인터넷과 스마트폰이 보급되면서 세상에는 그 어느때 보다 많은 정보가 생겨나고 있습니다. 

기하급수적으로 늘어나는 정보에서 중요한 정보와 중요하지 않은 정보를 구분하는 것이 무어보다 중요한 일이 되었습니다.


정보는 크게 정형화된 데이터정형화되지 않은 데이터로 구분됩니다. 


데이터를 반복해서 사용할 목적으로 일정한 형식으로 구조화한 데이터를 정형화데이터(Structured Data)라고 합니다. 

정형화된 데이터에서 정보를 찾는 방법을 데이터마이닝(Data Mining)이라고 하는데 현재 가장 많이 사용하는 데이터베이스 시스템과 정보분류체계에 활용되고 있습니다.


비정형데이터는 그림이나 사진 같은 이미지나 동영상, 텍스트문서처럼 형태와 구조가 다른 구조화 되지 않은 데이터를 말합니다. 책, 음성 정보, 영상 정보와 같은 전통적인 것들 외에도 이메일, 트위터, 페이스북처럼 일상생활에서 개인이 만들어 내는 다양한 정보를 포함하고 있습니다.


비정형데이터는 아직 구조화되지 않았기 때문에 분석이 불가능하고 의미를 읽어낼 수 없는 데이터로 판단할 수 있습니다. 

이런 점에서 정제된 데이터베이스에서 의미를 찾아내는 데이터마이닝은 합리적인 분석기법으로 보입니다. 


하지만 데이터마이닝에는 태생적 한계가 있습니다. 

데이터베이스에 저장된 정보는 데이터 관리자의 시각에 따라 정제된 데이터입니다. 데이터마이닝으로 분석한 정보는 데이터 생산자의 숨은 의도를 파악하지 못할 가능성이 높습니다. 


이런 데이터마이닝의 한계를 극복하기 위해 여러 마이닝 기법들이 연구되었습니다.




반응형