[빅 데이터 - BigData]
"시작하세요! 하둡 프로그래밍 - 위키북스"를 기준으로 작성된 글 입니다.
간략 목차
1. 빅데이터의 개념
2. 빅데이터의 3대 요소
1. 빅데이터의 개념
- 데이터의 규모에 초점을 맞춘 정의
: 기존 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘어서는 데이터
"맥킨지 2011년 5월"
- 업무 수행 방식에 초점을 맞춘 정의
: 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 빠른 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
" IDC 2011년 6월"
2. 빅데이터의 3대 요소
- 크기(Volume)
: 비즈니스 특성에 따라 다를 수 있지만 일반적으로 수십 테라바이트 혹은 수십 페타바이트 이상이 빅데이터에 해당한다.
: 이러한 빅데이터는 기존 파일 시스템에 저장하기 어려울뿐더러 데이터 분석을 위해 사용하는 기존 데이터웨어하우스(DW; Data warehouse)
같은 솔루션에서 소화하기 어려울 정도로 급격하게 데이터의 양이 증가하고 있다.
: 이러한 문제를 극복하려면 확장 가능한 방식으로 데이터를 저장하고 분석하는 분산 컴퓨터 기법으로 접근해야 한다.
: 현재 분산 컴퓨팅 솔루션으로는 구글의 GFS와 아파치의 하둡이 있고,
대용량 병렬 처리 데이터베이스로는 EMC의 GreenPlum, HP의 Vertica, IBM의 Netezza, 테라데이터의 Kickfire 등이 있다.
- 속도(Velocity)
: 데이터의 생산, 저장, 유통, 수집, 분석이 실시간으로 처리
: 수집된 대량의 데이터를 다양한 분석 기법과 표현 기술로 분석해야 하고, 장기적으로 전략적인 차원에서의 접근을 위해
데이터 마이닝, 기계 학습, 자연어 처리, 패턴 인식을 사용한 분석 처리
- 다양성(Variety)
: 데이터 정형화의 종류에 따라 정형(structed), 반정형(semi-structured), 비정형(unstructured)으로 나눌 수 있다.
: 정형 데이터는 정형화된 데이터로, 고정된 필드에 저장되는 데이터 (일정한 형식을 갖추고 저장되는 데이터)
: 반정형 데이터는 고정된 필드로 저장돼 있지는 않지만 XML이나 HTML 같이 메타데이터나 스키마 등을 포함하는 데이터
: 비정형 데이터는 고정된 필드에 저장돼 있지 않은 데이터
유튜브 업로드 동영상 데이터, SNS나 블로그에 저장하는 데이터, 유무선 전화기에서 발생하는 통화 내용 등 다양한 비정형 데이터
∴ 빅데이터는 이러한 비정형 데이터도 처리할 수 있는 능력을 갖춰야 한다.
'Hadoop - Infomation' 카테고리의 다른 글
[Hadoop] 하둡 실습 (0) | 2017.09.01 |
---|---|
[Hadoop] 하둡이란? (2) | 2017.07.21 |