목록Case Study (30)
IT is Smart
요즘은 다국어를 처리해야 하는 상황이 매우 일반적입니다. 여러 나라의 문자를 저장할 수 있도록 UTF-8 character set이 대부분 지원이 되는데 UTF-8모드에서도 에러가 발생하는 경우를 발견하여 조치방법을 정리해둡니다.저의 경우 중국어 기사를 크롤링해서 database에 저장하는 프로그래밍을 하고 있는데 대부분의 기사들이 정상적으로 저장되는데 일부 기사가 에러로 떨어지는 경우가 있었습니다. 아래와 같은 에러메시지입니다. (1366, "Incorrect string value: '\\xF0\\x9F\\x98\\x82' for column 'article' at row 1") 먼저 해당 에러를 일으킨 기사 내용을 뽑아 봤습니다. wuli艺术家崔塔塔ins更新照片一张,这个照片原型是电影老无所依里的杀手安..
☆★♡♥블로그 방문자분들께 책 선물 드려요!☆★♡♥ 파이썬을 DB와 연동하는 것은 파이썬에 엄청난 날개를 다는 것입니다.여기서는 Python 3.5와 MySQL을 연동시키는 방법에 대해 간략히 확인해보겠습니다. 인터넷 검색을 통해 찾을 수 있는 방법은 > pip show MySQL-python > pip install MySQL-python 이렇게 하면 Python에 MySQL을 연결할 수 있는 드라이버가 설치된다고 나와 있습니다.하지만 제 경우는 아래와 같이 에러메시지를 뱉어내고 정상적으로 설치가 되지 않았습니다. 이리저리 찾아본 결과,위의 명령은 Python 2.X버전에 해당하는 명령이었습니다.제 컴퓨터에는 Python 3.5 64bit를 설치했기 때문에 제대로 설치가 되지 않았다는 것을 알았습니다...
미래는 아직 오지 않은 순간들의 총합이라고 한다. 지금과 다르지 않은 내일은 오늘의 연장일 뿐이다. 100년이 지나도 바뀐 것이 없다면 미래는 100년 이후의 일이 되지만, 2~3년 안이라도 많은 것이 변한다면 미래가 코 앞에 와 있는 셈이다.지금은 모두가 모바일을 이야기한다. 스마트폰 중독시대이기 때문이다. 하지만 이것은 현재일 뿐 미래는 아니다.미래는 과연 어떤 모습일까? 2007년 일본에서 방영된 전뇌코일이라는 애니메이션은 처음 접했던 당시에도 나에게는 굉장한 충격이었지만, 지금까지도 미래라거나 혁신이라거나 하는 얘기를 하면 나는 항상 이 애니메이션을 떠올린다. 증강현실이 주 소재이다. 구글글라스가 이 애니메이션에서 영감을 얻은 작품이라는 사실도 흥미꺼리이다.뛰어난 완성도에 비해 인지도가 낮은 것 ..
스웨덴의 의사이자 통계학자인 한스 로슬링은 스웨덴 국경없는 의사회의 멤버이자 세계보건기구 및 유니세프 자문위원입니다. 그는 갭마인더(Gapminder) 재단을 설립해서 유엔의 공공데이터를 활용해서 세계의 각종 문제들에 대한 통계분석 정보를 제공하고 대중강연을 통해 일반적인 편견과 현실간의 얼마나 큰 차이가 존재하는 지를 실감나게 보여줌으로써 세계적으로 큰 반향을 일으킨 지각있는 데이터과학자입니다. 갭마인더에 공개된 자료를 통해 실제 우리가 상식이라고 알고 있던 일들의 진위 여부를 어떻게 데이터로 증명할 수 있는지 Insight를 얻을 수 있습니다.
이번에 스터디해 본 ChineseWordSegmentation 프로젝트는 중국어 문장을 언어사전없이 분리하는 형태소 분석기를 파이썬으로 구현한 것입니다.. 형태소 분석기는 텍스트마이닝 분야에서 일상 언어를 컴퓨터가 처리할 수 있도록 처리하는 자연어처리(NLP, Natural Language Processing)에 필요한 기능입니다. 띄어쓰기나 어간/어미 구분, 복합단어, 신조어, 쓰기오류 등 다양하게 생산된 인간의 언어를 형태소(명사, 형용사, 동사 등)으로 분해하는 것은 자연어처리의 가장 첫번째 단계입니다. 형태소를 분석하는 방법으로는 대표적으로 Corpus, 단어뭉치라고 부르는 언어사전을 사용해서 분해하는 방식과 n-gram방식이 있습니다.사전방식은 말 그대로 사전에 있는 단어인지를 비교해서 확인하는..
Bucky Roberts는 thenewboston이라는 온라인 동영상 커뮤니티 설립자입니다. 직접 오픈소스도 진행을 하면서 프로그래밍, 게임개발, 웹디자인 등 다양한 주제로 튜토리얼 비디오를 제작해서 공유하고 있네요. 이번에 스터디해 본 Spider 프로젝트는 파이썬으로 구현한 웹크롤러입니다.웹크롤러는 웹사이트를 자동으로 이동하면서 정보를 수집하는 일종의 자동화 봇(bot)인데요.Roberts가 이 프로젝트에서 구현한 것은 특정사이트 내부의 링크정보를 수집하는 크롤러입니다.. 웹크롤러 구현은 다양한 형태로 구현되고 있습니다. 완성된 프레임워크 수준의 Scrapy를 사용하는 방법도 있고, BeautifulSoap위주로 사용하는 프로젝트도 많지만,Roberts는 urllib모듈과 html.parser만을 사..