일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- mysql
- 마이닝
- 파이썬3.5
- 텍스트마이닝
- 기초
- 매개변수
- 반복문
- if
- 데이터
- Beautifulsoup
- 클린코드
- 텍스트
- 크롤링
- CRAWL
- Loop
- 파이썬
- for
- 조건문
- Request
- Pycharm
- 인수
- 시각화
- 코딩교육
- Python
- 함수
- 입문
- urllib
- 프로그래밍
- Def
- 데이터사이언티스트
- Today
- Total
목록Case Study/Thinking (11)
IT is Smart
텍스트마이닝 절차 간략정리 3단계 ① 텍스트 수집 : 외부 소셜미디어, 인터넷카페, 언론매체, 블로그, 게시판 댓글, 포탈 등 ② 텍스트 분석 : 분석엔진을 사용 Concept 키워드사전, Categorizer 총량 긍정/부정, Duplication Check,Text Miner 연관어 도출 ③ 결과의 활용 : Dashboard, Insight Report, Social Consulting 등 텍스트마이닝 절차 정리 4단계 ① 데이터 수집 : Crawling ↓ ② 어휘 추출 : 형태소분석, TF/DF 문서분해 ↓ ③ 정보 추출 : 필요정보 추출 ↓ ④ 정보 분석 : 빈도, 분류, 클러스터링(그룹핑), 컨셉링크(관계연결) 등 분석프로세스① 텍스트 수집, 가공과 정제 과정 문법, 철자 등 오류가 포함된 원..
정보처리기술을 데이터 수집 기술, 데이터 구조화 저장 기술, 데이터 분석 기술로 나누어 볼 때 처리 대상이 ‘빅데이터’인 경우 그 빅데이터의 형태에 따라 데이터 수집하고 저장하는 기술이 새롭게 필요합니다. 구조화된 이후의 데이터는 기존의 분석 기술을 적용하면 되는 것입니다. 빅데이터와 관련된 IT분야는 빅데이터를 관리하고 분석할 수 있도록 도와주는 플랫폼을 다루는 영역과 빅데이터를 처리하고 분석하는 영역으로 크게 나뉩니다. 빅데이터 플랫폼은 크게 다음 2가지로 나눌 수 있습니다. 하나는 오픈소스인 아파치 하둡을 중심으로 빅데이터를 분산하여 저장하고 병렬로 처리 할 수 있는 일련의 기능 플랫폼들이 생태계의 구성요소처럼 상호작용하도록 구성된 하둡 에코 시스템이고, 다른 하나는 기존 상업적인 벤더들이 자사의 ..
어려운 점 ① 해당언어에 대한 깊이있는 이해, 문화나 습관에 대한 이해가 필요하다. ② 문장과 문장 사이에 숨어 있는 정보를 이해하기 어렵다. 정보재료가 후보자 이름으로 검색한 결과를 모은 것일때 A 후보자와 관련된 내용이 90%이고 B 후보자에 대한 내용이 10%로 언급되었다면 그 기사는 누구의 기사일까? ③ 긍정적 견해와 부정적 견해의 정의는 무엇인가? - 직접 분석 진행하는 것과 결과를 이해하는 것은 차원이 다른 일이다. - 과정의 어려움을 잘 모른다. 결과에 대한 적절한 보상이 어렵다. 극복방안 ① 타겟 도메인(대상)을 좁혀서 관심을 집중할 수 있게 한다. ② Context Analysis, Sentimental Analysis 기법 사용을 통한 보완
지금은 거의 모든 상품을 온라인에서 살 수 있다. 구매자가 해당 상품을 살지 말지 결정하는데 있어서 기존의 구매리뷰는 매우 중요한 영향을 준다. 구매자는 판매자가 제공하는 정보보다 다른 고객이 제공하는 정보를 더 객관적이라고 판단하고 신뢰한다. 그래서 제품리뷰 점수는 판매량의 증가로 이어지기도 한다. 하지만, 한번이라도 인터넷으로 물건을 구매해본 사람이라면 제품의 종류가 다양하고 고객리뷰도 너무 많아서 혼란을 느낀 적이 있을 것이다. 정보가 너무 많아서 도리어 구입하려고 했던 제품의 모든 리뷰를 읽고 장단점을 파악하기가 힘들어진 것이다. 결국 온라인 쇼핑몰 사이트에서는 고객이 리뷰를 다시 평가하는 투표시스템을 적용했다. 긍정적이라는 평가를 많이 받은 리뷰를 표시해 줌으로써 고객이 좋은 리뷰와 나쁜 리뷰를..
데이터마이닝과 텍스트마이닝 데이터와 텍스트의 차이만큼이나 데이터마이닝과 텍스트마이닝은 비슷한 듯하면서도 다르다. 앞에서 말했듯이 데이터는 컴퓨터로 분석을 하기 위한 목적으로 만들어진, 컴퓨터가 이해하기 좋게 구조화된 정보이다. 이런 데이터는 기업의 데이터베이스나 정부의 공공 데이터베이스에 존재한다. 그에 반해 텍스트는 사람이 사람에게 전달하는 정보이기 때문에 논문이나 신문, 잡지의 기사와 같은 형식이거나 조직의 다양한 보고서와 같은 형식 또는 블로그, 인터넷카페 게시판, e-mail 이나 메신저 글과 같이 매우 개인적인 형식 등 정형화되지 않은 다양한 모습으로 존재를 한다. 텍스트는 이렇게 다양한 형식과 함께 사람들의 다양한 언어사용 방식(문법을 무시하거나 띄워쓰기, 오탈자 등등) 때문에 분석의 대상이 ..
데이터는 처음부터 분석되어질 목적으로 구조화해서 만들어진 정보인 반면, 텍스트는 소설이나 뉴스기사 심지어 대화내용과 같이 사람과 사람 사이에 의사소통을 위해 만들어진 비구조적인 정보이다. 데이터검색, 데이터분석, 데이터마이닝 데이터의 간단한 사례를 들어보면 제조공장에서 제품을 만든 기록이나 상품매장에서 상품을 판매한 기록이 데이터가 될 수 있다. 공장의 경우는 생산일자, 제품코드, 제품명, 일련번호, 생산수량, 생산담당자명과 같이 필요한 정보를 연결하면 생산데이터가 되는 것이고, 매장의 경우는 판매일자, 판매시간, 상품코드, 상품명, 일련번호, 판매수량, 판매담당자명과 같이 정보를 연결하면 판매데이터가 되는 것이다. { 공장그림 : 생산일자, 제품코드, 제품명, 일련번호, 생산수량, 생산담당자명 데이터이..