IT is Smart
빅데이터 플랫폼 Big Data Platform 본문
정보처리기술을 데이터 수집 기술, 데이터 구조화 저장 기술, 데이터 분석 기술로 나누어 볼 때 처리 대상이 ‘빅데이터’인 경우 그 빅데이터의 형태에 따라 데이터 수집하고 저장하는 기술이 새롭게 필요합니다. 구조화된 이후의 데이터는 기존의 분석 기술을 적용하면 되는 것입니다.
빅데이터와 관련된 IT분야는 빅데이터를 관리하고 분석할 수 있도록 도와주는 플랫폼을 다루는 영역과 빅데이터를 처리하고 분석하는 영역으로 크게 나뉩니다.
빅데이터 플랫폼은 크게 다음 2가지로 나눌 수 있습니다.
하나는 오픈소스인 아파치 하둡을 중심으로 빅데이터를 분산하여 저장하고 병렬로 처리 할 수 있는 일련의 기능 플랫폼들이 생태계의 구성요소처럼 상호작용하도록 구성된 하둡 에코 시스템이고,
다른 하나는 기존 상업적인 벤더들이 자사의 제품들에 빅데이터 처리를 위한 기능을 확장하여 제공하는 빅데이터 시스템이 그것입니다.
오라클과 같은 벤더들은 기존의 레거시 시스템을 지원하는 부분과 빅데이터 처리를 위한 부분을 결합시킨 하이브리드 형태의 제품을 출시했고 빅데이터 처리 부분에서는 아파치 하둡 에코 시스템을 자사에 맞게 적용하였기 때문에 아파치 하둡 에코시스템을 이해하는 것이 곧 빅데이터 플랫폼을 이해하는 것이 됩니다.
하둡 에코 시스템은 데이터를 수집하고 구조화 해서 분석하는 과정에 필요한 기술들을 포함하고 있습니다. 먼저 빅데이터를 수집해서 저장하기 위해서 저가의 저장장치를 사용하게 되는데 장애가 발생할 것을 대비해서 3중화를 기본으로 하는 Hadoop Distributed File System(HDFS) 라고 부르는 분산 파일 시스템을 사용합니다.
데이터는 Name Node라고 부르는 곳에 메타 정보가 저장되고 실제 데이터는 Data Node에 분산하여 저장됩니다. 이러한 분산 처리를 효율적으로 관리하기 위해 MapReduce라는 기술을 사용합니다. 또 이와 같은 분산처리 아키텍처에 맞게 프로그램을 개발할 수 있도록 복잡한 MapReduce 프로그래밍을 단순하게 해주는 언어인 Pig, SQL과 닮은 Query 언어인 Hive와 같은 개발 프레임워크도 포함되어 있습니다.
하둡 에코 시스템은 지금도 계속 진화하고 있습니다.
따라서 효과적으로 시스템을 구성하기 위해서는 많은 경험과 기술이 쌓여야 합니다.
또 오픈소스의 공통된 특징으로 문제가 발생하면 직접 해결하거나 다른 누군가가 해결할 때까지 기다려야 합니다. 개인이나 연구단체라면 이런 부분을 감수할 수도 있겠지만 당장 문제를 해결해야 하는 기업 같은 곳은 비용을 들여서라도 인프라와 플랫폼을 구성하고 문제를 해결하는 것은 전문 벤더에 맡기고 스스로는 핵심업무에 빅데이터분석 기술을 활용하고자 합니다.
플랫폼은 IT전문가가 아니라면 이해하기가 쉽지 않을 수 있습니다.
IT 비전문가들은 빅데이터 분석 플랫폼은 빅데이터를 저장하고 처리하는데 최적화된 서비스들의 집합이라고 정리하는 것만으로도 충분하겠습니다.
'Case Study > Thinking' 카테고리의 다른 글
텍스트마이닝 절차 Text Mining Process (0) | 2017.12.02 |
---|---|
텍스트마이닝이 어려운 이유 (0) | 2017.11.13 |
텍스트마이닝 필요 사례 (0) | 2017.11.13 |
데이터와 텍스트 Data & Text (2/2) (0) | 2017.11.13 |
데이터와 텍스트 Data & Text (1/2) (0) | 2017.11.12 |