IT is Smart

데이터와 텍스트 Data & Text (1/2) 본문

Case Study/Thinking

데이터와 텍스트 Data & Text (1/2)

달인최선 2017. 11. 12. 06:00
반응형

데이터는 처음부터 분석되어질 목적으로 구조화해서 만들어진 정보인 반면, 텍스트는 소설이나 뉴스기사 심지어 대화내용과 같이 사람과 사람 사이에 의사소통을 위해 만들어진 비구조적인 정보이다.


데이터검색, 데이터분석, 데이터마이닝


데이터의 간단한 사례를 들어보면 제조공장에서 제품을 만든 기록이나 상품매장에서 상품을 판매한 기록이 데이터가 될 수 있다.


공장의 경우는 생산일자, 제품코드, 제품명, 일련번호, 생산수량, 생산담당자명과 같이 필요한 정보를 연결하면 생산데이터가 되는 것이고, 매장의 경우는 판매일자, 판매시간, 상품코드, 상품명, 일련번호, 판매수량, 판매담당자명과 같이 정보를 연결하면 판매데이터가 되는 것이다.


{ 공장그림 : 생산일자, 제품코드, 제품명, 일련번호, 생산수량, 생산담당자명 데이터이미지화 }


{ 매장그림 : 판매일자, 상품코드, 상품명, 일련번호, 판매수량, 판매담당자명 데이터이미지화 }


이 데이터들을 모아서 보면 공장이나 매장 현장에 가지 않아도 생산실적이나 판매실적으로 알 수 있다. 

이것을 데이터검색이라고 한다. 공장에서 생산되어 나간 제품이 판매점에 배달된 후 그 제품들 중에서 불량품이 발견되었다고 하자. 불량품의 일련번호를 확인하면 그 제품이 만들어진 일자와 생산담당자를 확인할 수 있다. 이것도 데이터검색의 효과이다.


이제 대량으로 생산하는 공장을 생각해보자. 


많은 제품을 생산하는 만큼 불량품도 상대적으로 많이 발생할 것이다. 

이 경우에는 앞에서 저장해둔 생산데이터만으로는 문제점을 개선할 수 없다. 그래서 실제 제조현장에서는 생산과 관련된 다양한 데이터를 수집하기 시작한다. 

설비의 가동상태를 데이터로 저장했다가 생산데이터와 연결하여 문제점을 찾는다면 설비 때문에 생기는 불량품 문제를 해결할 수 있다. 

이렇게 직간접적으로 관련이 있는 데이터를 연결해서 문제를 찾는 방법이 데이터분석이다. 


이 데이터분석기법은 다양한 문제와 해결책을 찾는데 도움되었다. 산업 전반의 생산성과 품질이 향상되었다.


데이터마이닝은 데이터분석을 통해 얻을 수 있는 효과를 넘어서 그야말로 숨어있는 티끌만한 문제까지 찾아보겠다는 시도이다. 


데이터분석이 서로 관련이 있는 것들을 함께 들여다 보는 기법이라면, 데이터마이닝은 그동안은 서로 관계가 없다고 생각했던 요소들 간에도 숨겨진 비밀이 있지 않을까 라는 생각에 바탕을 둔 탐색하는 기법이다.


생산데이터와 기상정보, 생산자의 건강정보, 교육정보 등을 연결해서 관련이 있는 부분이 조금이라도 더 큰 요소를 수학적인 확률통계기법을 사용해서 찾아내는 것이다.


또 대형마트에서 매주 수요일 저녁 기저귀가 진열된 진열대 옆에 맥주를 같이 전시해 두니 더 많이 팔렸다는 CRM계의 성공신화 역시 고객데이터와 다양한 데이터의 연관관계를 분석하는 데이터마이닝기법의 성과이다.


최근에는 채용을 할 때도 기존에 채용한 직원들의 다양한 정보와 성과정보를 연계분석해서 채용하기 전에 우수한 직원을 선별해 낼 수 있는 기법을 개발한다는 이야기도 심심치 않게 소개되고 있다.




반응형