목록데이터 (3)
IT is Smart
데이터마이닝과 텍스트마이닝 데이터와 텍스트의 차이만큼이나 데이터마이닝과 텍스트마이닝은 비슷한 듯하면서도 다르다. 앞에서 말했듯이 데이터는 컴퓨터로 분석을 하기 위한 목적으로 만들어진, 컴퓨터가 이해하기 좋게 구조화된 정보이다. 이런 데이터는 기업의 데이터베이스나 정부의 공공 데이터베이스에 존재한다. 그에 반해 텍스트는 사람이 사람에게 전달하는 정보이기 때문에 논문이나 신문, 잡지의 기사와 같은 형식이거나 조직의 다양한 보고서와 같은 형식 또는 블로그, 인터넷카페 게시판, e-mail 이나 메신저 글과 같이 매우 개인적인 형식 등 정형화되지 않은 다양한 모습으로 존재를 한다. 텍스트는 이렇게 다양한 형식과 함께 사람들의 다양한 언어사용 방식(문법을 무시하거나 띄워쓰기, 오탈자 등등) 때문에 분석의 대상이 ..
데이터는 처음부터 분석되어질 목적으로 구조화해서 만들어진 정보인 반면, 텍스트는 소설이나 뉴스기사 심지어 대화내용과 같이 사람과 사람 사이에 의사소통을 위해 만들어진 비구조적인 정보이다. 데이터검색, 데이터분석, 데이터마이닝 데이터의 간단한 사례를 들어보면 제조공장에서 제품을 만든 기록이나 상품매장에서 상품을 판매한 기록이 데이터가 될 수 있다. 공장의 경우는 생산일자, 제품코드, 제품명, 일련번호, 생산수량, 생산담당자명과 같이 필요한 정보를 연결하면 생산데이터가 되는 것이고, 매장의 경우는 판매일자, 판매시간, 상품코드, 상품명, 일련번호, 판매수량, 판매담당자명과 같이 정보를 연결하면 판매데이터가 되는 것이다. { 공장그림 : 생산일자, 제품코드, 제품명, 일련번호, 생산수량, 생산담당자명 데이터이..
인터넷과 스마트폰이 보급되면서 세상에는 그 어느때 보다 많은 정보가 생겨나고 있습니다. 기하급수적으로 늘어나는 정보에서 중요한 정보와 중요하지 않은 정보를 구분하는 것이 무어보다 중요한 일이 되었습니다. 정보는 크게 정형화된 데이터와 정형화되지 않은 데이터로 구분됩니다. 데이터를 반복해서 사용할 목적으로 일정한 형식으로 구조화한 데이터를 정형화데이터(Structured Data)라고 합니다. 정형화된 데이터에서 정보를 찾는 방법을 데이터마이닝(Data Mining)이라고 하는데 현재 가장 많이 사용하는 데이터베이스 시스템과 정보분류체계에 활용되고 있습니다. 비정형데이터는 그림이나 사진 같은 이미지나 동영상, 텍스트문서처럼 형태와 구조가 다른 구조화 되지 않은 데이터를 말합니다. 책, 음성 정보, 영상 정..