빅데이터란?
한국은 2010년초에 도입된 개념
빅데이터 등장배경: "경제활성화"
대학교 연구실(lab)에서는 칭하지는 않았지만 대비하고 있었음.(bio lab 등)
유전자 조합의 수 데이터를 한번에 돌릴 수 있는 임시/영구저장장치 필요
(memory/process통해 나온 결과를 저장할 장치)
=> 한 대의 슈퍼컴퓨터로 유전자 분석 불가능
놀고 있는 피시들을 연결해서 필요한 메모리나 하드디스크 프로세스를 올리는 기술=>클라우드 기술(분산처리 기술을 응용)
한대의 컴퓨터처럼 보이게 함 => 분산처리 기술(예전부터 있던 기술)
한 대의 피시에 들어가는 cpu가 고성능이니 그 성능을 나누어서 사용하자.
=> 가상화 기술
한 대를 100퍼센트 쓰기 위해 사용된다.(보통 100퍼센트 다 쓰지 못한다.)
삼성전자가 트랜지스터에 집적시킬때 작은 크기의 저장장치 만들었음
=>여러 군데에다가 저장하기보다는 한 군데에 집적이 가능해짐.
그러다가 중간에 IOT기술 나옴.(사물간의 데이터 발생(M2M))
=>기계에서 발생한 데이터 가질 수 있게 됨
비즈니스문제 해결하기 위해서 big data 사용
- mass/sns마케팅 했었음. 최적화도 진행됬었고
- 최적화라는 것은 중국에서 값 낮추고...
- 이익률 높이려 했으나 돈이 있어도 소비를 안함..
- mis와 유사(경영정보시스템)
가설검정할 때 problem definition / data 수집 어느것부터?
보통은 problem definition 먼저함. (ex;대학원 진학할 때)
big data에서는 data수집이 되어있는 상태임.
현상들이 다 나타나 있음.
거기서 패턴을 찾아서 problem definition을 한다.
(이론 서적 보면은 보통 problem~~ 요구분석 ~~ 그 이후 형식 결정 그다음 모은다고 함)
how(구체적방법을 아는가 )\what(무엇을 해야 하는가?)
what은 모르지만 데이터는 쌓여있음 => problem definition함 => insight함
솔루션 개발하고 어떤문제를 어떻게 해결했다는 내용 나옴... 여기서 비즈니스 기회가 나옴.
데이터는 주어진다고 본다. 거기서 뽑아내서 pd하고 거기서 다시 빅데이터로 와서 데이터정제한다. 필요한것만
빅데이터 에코시스템 :
- 빅데이터 활용하려면?
1)저장장치 아주 커야한다.
2)처리능력이 있어야 한다.
위는 cloud 분산처리시스템, 하드웨어 저장장치가 경제적으로 사용할 수 있게 만들어져 있어야
*데이터 마이닝이라는 이름으로 사용했음 => 2003년 철회. =>database 이용해서 인사이트 뽑아내기엔 역부족.. 위의 조건도 만족 못했음. 10년뒤 기반기술에 힘입어 빅데이터 부상.
*insight 발휘하려면?
domain 잘알아야한다! 이 데이터를 보고 의미를 파악. domain지식 없으면 의미 없음.
수리통계적 능력 필요함.. 위 기반(저장장치/처리능력)을 핸들링 할 수 있고 어떤걸 뽑아서 가설을 세우고 그에맞게 뽑고 통계수리적 능력으로 big data에 실음.
it / domain / 수리통계적 능력 = > 소프트웨어 만듬
=>시작은 어디서 해도 되나 데이터 분석가가 되려면 필요한 자질.
computing thinking이 이 세가지 능력의 기반임.
MBA 과정이 기업 사례를 통해 big data로 domain 활용하는 것.
학교에서 배운 이론/방법론을 가지고 현실에 적용시켜야 하는데 그럴 일이 별로 없음.
그 연습에 대한 프로그램 거의 없음. 동아리/개인으로 준비하거나 간이 mba과정 참여... 경영파트에서는 자기의 지식만 확장시킬 수 없고 big data를 통해 자기 domain 확장.
빅데이터를 처리하는 기술 ; 위의 기반 / 하둡 / 맵리듀스 etc....
배치방식... 실시간 불가능
수천대의 컴퓨터가 분산해서 database를 달면? (real time 가능)