빅데이터

빅데이터란?

예캉 2017. 7. 3. 10:27

한국은 2010년초에 도입된 개념 


빅데이터 등장배경: "경제활성화"

대학교 연구실(lab)에서는 칭하지는 않았지만 대비하고 있었음.(bio lab 등)

유전자 조합의 수 데이터를 한번에 돌릴 수 있는 임시/영구저장장치 필요

(memory/process통해 나온 결과를 저장할 장치)  

=> 한 대의 슈퍼컴퓨터로 유전자 분석 불가능

놀고 있는 피시들을 연결해서 필요한 메모리나 하드디스크 프로세스를 올리는 기술=>클라우드 기술(분산처리 기술을 응용)

한대의 컴퓨터처럼 보이게 함 => 분산처리 기술(예전부터 있던 기술)


한 대의 피시에 들어가는 cpu가 고성능이니 그 성능을 나누어서 사용하자. 

=> 가상화 기술

한 대를 100퍼센트 쓰기 위해 사용된다.(보통 100퍼센트 다 쓰지 못한다.)


삼성전자가 트랜지스터에 집적시킬때 작은 크기의 저장장치 만들었음 

=>여러 군데에다가 저장하기보다는 한 군데에 집적이 가능해짐.


그러다가 중간에 IOT기술 나옴.(사물간의 데이터 발생(M2M))

=>기계에서 발생한 데이터 가질 수 있게 됨



비즈니스문제 해결하기 위해서 big data 사용

- mass/sns마케팅 했었음. 최적화도 진행됬었고 

- 최적화라는 것은 중국에서 값 낮추고... 

- 이익률 높이려 했으나 돈이 있어도 소비를 안함..

- mis와 유사(경영정보시스템)



가설검정할 때 problem definition / data 수집 어느것부터?

보통은 problem definition 먼저함. (ex;대학원 진학할 때)

big data에서는 data수집이 되어있는 상태임. 

현상들이 다 나타나 있음. 

거기서 패턴을 찾아서 problem definition을 한다.

(이론 서적 보면은 보통 problem~~ 요구분석 ~~ 그 이후 형식 결정 그다음 모은다고 함)



how(구체적방법을 아는가 )\what(무엇을 해야 하는가?)

what은 모르지만 데이터는 쌓여있음 => problem definition함 => insight함

솔루션 개발하고 어떤문제를 어떻게 해결했다는 내용 나옴... 여기서 비즈니스 기회가 나옴.



데이터는 주어진다고 본다. 거기서 뽑아내서 pd하고 거기서 다시 빅데이터로 와서 데이터정제한다. 필요한것만



빅데이터 에코시스템 :

- 빅데이터 활용하려면? 

1)저장장치 아주 커야한다.

2)처리능력이 있어야 한다. 

위는 cloud 분산처리시스템, 하드웨어 저장장치가 경제적으로 사용할 수 있게 만들어져 있어야

*데이터 마이닝이라는 이름으로 사용했음 => 2003년 철회. =>database 이용해서 인사이트 뽑아내기엔 역부족.. 위의 조건도 만족 못했음. 10년뒤 기반기술에 힘입어 빅데이터 부상. 

*insight 발휘하려면?

domain 잘알아야한다! 이 데이터를 보고 의미를 파악. domain지식 없으면 의미 없음.

수리통계적 능력 필요함.. 위 기반(저장장치/처리능력)을 핸들링 할 수 있고 어떤걸 뽑아서 가설을 세우고 그에맞게 뽑고 통계수리적 능력으로 big data에 실음. 


it / domain / 수리통계적 능력 = > 소프트웨어 만듬

=>시작은 어디서 해도 되나 데이터 분석가가 되려면 필요한 자질.

computing thinking이 이 세가지 능력의 기반임. 


MBA 과정이 기업 사례를 통해 big data로 domain 활용하는 것.

학교에서 배운 이론/방법론을 가지고 현실에 적용시켜야 하는데 그럴 일이 별로 없음.

그 연습에 대한 프로그램 거의 없음. 동아리/개인으로 준비하거나 간이 mba과정 참여... 경영파트에서는 자기의 지식만 확장시킬 수 없고 big data를 통해 자기 domain 확장. 



빅데이터를 처리하는 기술 ; 위의 기반 / 하둡 / 맵리듀스 etc....

배치방식... 실시간 불가능

수천대의 컴퓨터가 분산해서 database를 달면? (real time 가능)