목록텍스트마이닝 (4)
IT is Smart
텍스트마이닝 절차 간략정리 3단계 ① 텍스트 수집 : 외부 소셜미디어, 인터넷카페, 언론매체, 블로그, 게시판 댓글, 포탈 등 ② 텍스트 분석 : 분석엔진을 사용 Concept 키워드사전, Categorizer 총량 긍정/부정, Duplication Check,Text Miner 연관어 도출 ③ 결과의 활용 : Dashboard, Insight Report, Social Consulting 등 텍스트마이닝 절차 정리 4단계 ① 데이터 수집 : Crawling ↓ ② 어휘 추출 : 형태소분석, TF/DF 문서분해 ↓ ③ 정보 추출 : 필요정보 추출 ↓ ④ 정보 분석 : 빈도, 분류, 클러스터링(그룹핑), 컨셉링크(관계연결) 등 분석프로세스① 텍스트 수집, 가공과 정제 과정 문법, 철자 등 오류가 포함된 원..
어려운 점 ① 해당언어에 대한 깊이있는 이해, 문화나 습관에 대한 이해가 필요하다. ② 문장과 문장 사이에 숨어 있는 정보를 이해하기 어렵다. 정보재료가 후보자 이름으로 검색한 결과를 모은 것일때 A 후보자와 관련된 내용이 90%이고 B 후보자에 대한 내용이 10%로 언급되었다면 그 기사는 누구의 기사일까? ③ 긍정적 견해와 부정적 견해의 정의는 무엇인가? - 직접 분석 진행하는 것과 결과를 이해하는 것은 차원이 다른 일이다. - 과정의 어려움을 잘 모른다. 결과에 대한 적절한 보상이 어렵다. 극복방안 ① 타겟 도메인(대상)을 좁혀서 관심을 집중할 수 있게 한다. ② Context Analysis, Sentimental Analysis 기법 사용을 통한 보완
지금은 거의 모든 상품을 온라인에서 살 수 있다. 구매자가 해당 상품을 살지 말지 결정하는데 있어서 기존의 구매리뷰는 매우 중요한 영향을 준다. 구매자는 판매자가 제공하는 정보보다 다른 고객이 제공하는 정보를 더 객관적이라고 판단하고 신뢰한다. 그래서 제품리뷰 점수는 판매량의 증가로 이어지기도 한다. 하지만, 한번이라도 인터넷으로 물건을 구매해본 사람이라면 제품의 종류가 다양하고 고객리뷰도 너무 많아서 혼란을 느낀 적이 있을 것이다. 정보가 너무 많아서 도리어 구입하려고 했던 제품의 모든 리뷰를 읽고 장단점을 파악하기가 힘들어진 것이다. 결국 온라인 쇼핑몰 사이트에서는 고객이 리뷰를 다시 평가하는 투표시스템을 적용했다. 긍정적이라는 평가를 많이 받은 리뷰를 표시해 줌으로써 고객이 좋은 리뷰와 나쁜 리뷰를..
텍스트마이닝은 텍스트 형태로 이루어진 비정형 데이터를 자연어처리 방식을 이용하여 정보를 추출하는 기법입니다. 텍스트마이닝을 활용하면 텍스트 정보에서 문맥을 파악하고 텍스트 간 연계를 분석하는 등 비정형화된 문서에서 정보를 얻을 수 있다는 장점이 있습니다. 텍스트마이닝은 비정형 데이터에서 특정 키워드나 문맥을 기반으로 의미를 추출해 내는 기법을 의미합니다. 텍스트마이닝은 웹문서에서 키워드와 매칭되는 단어를 찾아 인덱싱하는 검색 기법에서 발전되어 왔으며, 점차 데이터의 숨은 맥락을 파악하는데 활용되고 있습니다. 특히 텍스트마이닝이 두드러지는 분야는 뉴스기사 분석으로, 기사에서 특정 단어와 관련된 논조를 분석하는데 활용된 사례가 있습니다. 텍스트마이닝은 주로 작성이 완료된 뉴스기사나 잡지 등을 분석하는데 활용..