1. 빅데이터 정의, 4V: Volume, Velocity, Variety, Veracity
2. 빅데이터 후행성 (과거), 검색어 선행성 (미래)
3. 포털 사이트의 검색 빈도 분석 툴: 네이버 트렌드, 구글 트렌즈, 다음소프트 소셜 메트릭스
소셜 미디어 분석 툴: 소셜 메트릭스 - 탐색어 맵
트윗터: 트윗트렌드
페이스북: 빅풋9
4. 빅데이터 프로세스 체인: Industry 전문지식 -> 데이터 처리 -> 분석 -> 모델링 -> 결과 해석 -> 실행
5. 현업 담당자 빅데이터 시스템 도입
R 통계 분석 프로그램 - 한달 안에 학습 가능
6.
7. 현재 자주사용되는 머신러닝, 패턴매칭, 음성인식, 자연어 처리 등의 알고리즘은 과거에도 존재했으나 대용량 데이터를 빠르게 처리하는 하드웨어의 지원이 없었기 때무ㄴ에 광범위하게 사용되지 못했음
8. 데이터 입력, 정제, 요약 과정을 거쳐야 하는데, 주로 하둡과 같은 빅데이터 처리용 소프트에어와 하드웨어가 이 과정을 처리한다. 요약 과정을 거친 데이터는 기존의 통계 소프트웨어에서도 처리할 수 있다. 빅데이터라고 해도 요약 과정을 한 번 거치면 스몰 데이터가 된다. 최근에는 빅데이터 입력, 정제,요약 과정과 이후의 분석, 시각화 과정을 따로 분리하지 않고 하나의 컴퓨터 시스템에서 처리하는 추세
9. 팁러닝은 Machine learning의 일종으로 음성 인식, 패턴 매칭에 많이 사용
10. 빅데이터 구현할 때 활용할 수 있느느 분석 시스템
구글 빅쿼리, 드레멜(Dremel) 기반의 DBaaS(DB as a Service)
구글 빅쿼리에 빅데이터를 적재하고 SQL 같은 방식으로 조회할 수 있다는 뜻. 하드웨어, 데이터베이스, 웹 서버 같은 것이 필요 없다. 데이터 크기 100GB까지는 빅쿼리를 물로 이용, 드레멜은 칼럼 기반(Column-base)로 데이터를 칼럼부터 적재하고 조회하기 때문에 빅데이터를 쿼리하는 데 매우 빠르나 데이터를 하나씩 삭제하거나 업데이트하는 것은 불가능
11. 뇌는 이미 믿고 있는 것을 확증하는 데이터만 수집하고 믿지 않는 것은 전적으로 무시한다. 인간의 편향된 신념에 의해서 빅데이터 자체도 잘못 수집될 수 있고, 그 결과가 보편타당한 것이라고 생각할 수 없는 경우도 생긴다.
12. 감정 분석, 라나 엘 칼리우비 (Rana El Kaliouby)가 창업한 어펙티바(Affectiva)