본문 바로가기

자격증 공부

[ADsP 1 과목: 데이터의 이해] 제 3 장 가치 창조를 위한 데이터 사이언스와 전략 인사이트

1.3.0 핵심 포인트

1. 빅데이터 분석과 전략 인사이트

1) 빅데이터의 회의론 원인

  • 부정적 학습효과 : 과거의 고객관계관리(CRM) - 공포 마케팅, 투자대비 효과 미흡
  • 부적절한 성공사례 : 빅데이터가 필요없는 분석사례, 기존 CRM 분석 성과 

2) 싸이월드의 퇴보 원인

  • OLAP과 같은 분석 인프라로 존재했으나 중요한 의사결정에 데이터 분석 활용 못함
  • 웹로그 분석을 통한 일차원적 분석만 집중
  • 소셜 네트워킹 활동 특성과 관련된 분석을 위한 프레임 워크나 평가지표도 없었음
  • 트랜드 변화가 사업모델에 미치는 영향에 대한 전략적 통찰(Insight)을 가지지 못함

3) 전략적 통찰이 없는 분석의 함정

  • 단순히 일차원적인 분석의 반복은 해당부서의 업무 영역에서는 효과적이지만 기업의 환경 변화와 고객 변화에 전략적으로 대처하기 힘듬
  • 전략적 통찰력의 창출에 초점을 맞춰 분석을 활용하면 사업의 중요한 기회를 발굴할 수 있음
  • 최고가 되기 위해서는 일차원적 분석을 통해 분석 경험을 늘리고 작은 성공을 통해 분석의 활용 범위를 넓혀 사업성과를 견인할 수 있는 전략적 인사이트를 주는 가치 기반 분석 단계로 발전해야 함

2. 데이터사이언스와 사이언티스트

1) 데이터사이언스

  • 데이터로부터 의미 있는 정보를 추출해내는 학문으로 분석뿐 아니라 이를 효과적으로 구현하고 전달하느 과정까지를 포괄한 개념 
  • 데이터 사이언스는 정형 또는 비정형을 막론하고 인터넷, 휴대전화, 감시용 카메라 등에서 생성되는 숫자와 문자, 영상 정보 등 다양한 유형의 데이터를 대상으로 함
  • 데이터 사이언스는 데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당 분야의 전문 지식을 종합한 학문 
  • 데이터 사이언스의 영역은 3개로 분석 분야, IT분야, 비즈니스 분석 분야로 구성된다. 

2) 데이터사이언티스트 

  • 데이터 사이언티스트는 데이터 홍수 속에서 헤엄을 치고, 데이터 소스를 찾고, 복잡한 대용량 데이터를 구조화, 불완전한 데이터를 서로 연결해야 함
  • 데이터 사이언티스트가 갖춰야 할 역량 중 한 가지는 강력한 호기심이며, 호기심이란 문제의 이면을 파고들고, 질문들을 찾고, 검증 가능한 가설을 세우는 능력을 의미
  • 데이터 사이언티스트는 빅데이터에 대한 이론적 지식과 분석 기술에 대한 숙련 기술인 하드 스킬을 가짐.
  • 데이터 사이언티스트는 창의적사고, 호기심, 논리적 비판을 통한 통찰력 있는 분석, 설득력 있는 전달력, 그리고 다 분야간 협력을 위한 커뮤니케이션 능력과 같은 소프트 스킬을 가져야 함

3. 빅데이터와 데이터 사이언스의 미래

1) 외부 환경적 측면의 인문학 열풍

  • 단순 세계화에서 복합한 세계화로 변화: 컨버전스(다기능) -> 디버전스(단기능, 본질집중)
  • 비즈니스 중심이 제품생산에서 서비스로 이동: 고장 나지 않는 제품 -> 뛰어난 서비스 응대
  • 경제와 산업의 논리가 생산에서 시장 창조로 변화: 공급자 중심의 기술경쟁 -> 무형자산의 경쟁 

2) 가치 패러다임의 변화

  • 1단계) 디지털화(digitalization): 과거 PC와 워드프로세스, 이미징 기술의 발달로 문서를 디지털화 함으로써 가치를 형상화하고 표준화 함
  • 2단계) 연결(connection): 현재 인터넷과 모바일 기술의 발전으로 다양한 디지털 정보를 필요한 사람에게 연결해서 효과적이고 효율적으로 정보를 연결 및 제공 함
  • 3단계) 에이전시(agency): 미래 개인과 기기 그리고 사물에 이르는 방대한 정보를 하이퍼 연결을 통해 필요한 정보를 효과적으로 제공하고 관리 할 수 있는 시대로 발전 예상 

3) 데이터 사이언스의 한계와 인문학

  • 분석은 가정에서 시작해 인간의 해석이 개입되는 단계를 거침
  • 분석 결과를 해석하는 인간의 소양과 인문학적 소양을 통해 보다 발전적인 미래 가치를 도출 

1.3.1 빅데이터 분석과 전략 인사이트

1. 빅데이터 열풍과 회의론

  • 빅데이터의 열풍은 '빨리 끓어 오른 냄비가 빨리 식는다'는 일종의 거품현상을 우려하는 시선도 없지 않다. 그래서 벌써부터 빅데이터 회의론이 심심찮게 흘러 나오기까지 하여, 자칫 이런 회의론이 갖는 문제는 실제 우리가 빅데이터 분석에서 찾을 수 있는 수많은 가치들을 제대로 발굴해 보기도 전에 그 활용 자체를 사전에 차단해 버릴 수 있다.

2. 빅데이터 회의론의 원인 및 진단

  • 투자효과를 거두지 못했던 부정적 학습효과 -> 과거의 고객관계관리(CRM)
    • 과거의 CRM의 부정적 학습효과
      • 공포 마케팅이 잘 통하는 영역: 도입만 하면 모든 문제를 한번에 해소할 것처럼 강조
      • 막상 거액을 투자하여 하드웨어와 솔루션을 도입해도 어떻게 활용하고 어떻게 가치를 뽑아내야 할지 난감해 함
  • 빅데이터 성공사례가 기존 분석 프로젝트를 포함해 놓은 것이 많다.
    • 굳이 빅데이터가 필요 없는 경우 (우수고객, 이탈예측, 구매패턴 분석 등)
    • 국내 빅데이터 업체들이 CRM 분석 성과를 빅데이터 분석으로 과대포장 
  • 빅데이터 분석도 기존의 분석과 마찬가지로, 데이터에서 가치, 즉 통찰을 끌어내 성과를 창출하는 것이 관건이며, 단순히 빅데이터에 포커스를 두지 말고 분석을 통해 가치를 만드는 것에 집중해야 한다.

3. 왜 싸이월드는 페이스북이 되지 못했나?

  • 싸이월드
    • 2004년 경 세계 최대의 소셜 네트워크 서비스 (SNS)
  • 싸이월드 퇴보 원인
    • OLAP 과 같은 분석 인프라가 존재하였으나 중요한 의사결정이 데이터 분석에 기초하지 못했다.
    • 웹로그 분석을 통한 일차원적 분석 -> 사업 상황 확인을 위한 협소한 문제에 집중되었다.
    • 2004년 당시 비즈니스의 핵심 가치와 관련된 어떤 심도있는 분석도 수행되지 않았다.
    • 소셜 네트워킹 서비스지만 회원들의 소셜 네트워킹 활동 특성과 관련된 분석을 위한 프레임워크나 평가지표 조차 없었다. 
    • 트랜드 변화가 사업모델에 미치는 영향을 적시에 알아차리지 못했다.
  • 전략적 분석을 통해 놀라운 성과를 올린 하라스엔터테인먼트의 회장 러브먼이 언급한 분석 기반 경영이 도입되지 못하는 이유
    • 기존관행을 그냥 따를 뿐 중요한 시도를 하지 않는다.
    • 경영진의 의사결정이 정확성이나 공정한 분석을 필요로 하지 않으며, 오히려 정반대로 직관적 결정이 귀한 재능으로 칭송 받는 경향이 있다.
    • 분석적 실험을 갈망하거나 능숙하게 해내는 사람이 거의 없어, 적절한 방법조차 제대로 익히지 못한 사람ㄷ르에게 분석 업무가 주어진다.
    • 사람들은 아이디어 자체보다는 아이디어를 낸 사람이 누구인지 관심을 두는 경향이 있다.
  • 전략적 분석은 치열한 시장에서 기업 생존을 좌우할 정도로 중요할 수 있다.

4. 빅데이터 분석, 'Big'이 핵심 아니다.

  • 빅데이터에 대한 관심 증대로 긍정적 효과
    • 데이터 기반의 통찰의 중요성에 대한 공감대를 키웠다.
  • 빅데이터 프로젝트 초기 단계에 자주 나오는 질문
    • "빅데이터를 가장 효과적으로 소비하는 것은 인간인가 기계인가?"
    • "고객 데이터와 운영 데이터 중 어느 것이 더 중요한가?"
    • "새로운 데이터가 새로운 인사이트 도출을 촉진하는가, 아니면 단순히 기존 가설을 입증할 뿐인가?"
  • 빅데이터 프로젝트에 거는 기대
    • 기존의 프로세스의 자동화를 우선 시행 후 점차적으로 거시적 전략적 가치를 이끌어 낼 수 있을 것으로 기대한다.
  • 조슈아 보거 박사는 "직관에 기초한 의사결정보다 데이터에 기초한 의사결정이 그만큼 중요하다"고 말했으며 이는 데이터 자체의 중요성을 강조한 것이다.
  • 데이터는 크기의 이슈가 아니라, 거기에서 어떤 시각과 통찰을 얻을 수 있느냐의 문제가 중요하다. 무작정 '빅'한 데이터를 찾을 것이 아니라, 비즈니스의 핵심에 대해 보다 객관적이고 종합적인 통찰을 줄 수 있는 데이터를 찾는 것이 그 무엇보다 중요하다.
  • 전략과 비즈니스의 핵심 가치에 집중하고 이와 관련된 분석 평가지표를 개발하고 이를 통해 효과적으로 시장과 고객 변화에 대응할 수 있을 때 빅데이터 분석은 가치를 줄 수 있다.

5. 전략적 통찰이 없는 분석의 함정

  • 단순히 분석을 많이 사용하는 것이 곧바로 경쟁우위를 가져다 주지는 않는다. 분석이 경쟁의 본질을 제대로 바라보지 못할 때 아무짝에도 쓸모 없는 분석 결과들만 잔뜩 쏟아내게 된다.
  • 전략적 통찰력을 가지고 분석하고 핵심적인 비즈니스 이슈에 집중하여 데이터를 분석하고 차별적인 전략으로 기업을 운영해야 한다.
    • 아메리칸항공 : 
      • 1985년 수익관리, 가격 최적화에 분석 접근법 적용 -> 3년만에 14억 달러 수익
      • 분석을 통해 비행 경로와 승무원들의 일정을 최적화 -> 12기종, 250개 목적지, 매일 3400회 비행의 복잡한 최적화는 비즈니스에 마이너스 초래
      • 타 경쟁사들도 비슷한 분석 역량과 수익관리 능력을 차츰 갖춤으로써 아메리칸항공의 경쟁 우위는 사라짐
    • 사우스웨스트항공
      • 오직 한 가지 유형의 비행기, 단순한 최적화 모델로 좌석 가격 책정과 운영 분석 -> 36년 연속 흑자, 미국 항공사들의 시장가치를 합친 것 보다 높은 시장가치 확보
  • <원인분석>
    1. 분석을 보다 전략적으로 사용하기 위해 노력하지 않으면 차별화가 어렵다.
    2. 비즈니스 모델을 뒷받침하는 분석의 한계가 있다. (수익관리기법의 도입이 저가항공사의 낮은 가격과 경쟁이 안됨)

6. 일차원적인 분석 vs. 전략 도출 위한 가치 기반 분석

산업 일차원적 분석 어플리케이션
금융 서비스 신용점수 산정, 사기 탐지, 가격 책정, 프로그램트레이딩, 클레임분석, 고객수익성분석
소매업 판촉, 매대관리, 수요 예측, 재고 보충, 가격 및 제조 최적화
제조업 공급사슬 최적화, 수요예측, 재고 보충, 보증서 분석, 맞춤형 상품 개발, 신상품 개발
운송업 일정 관리, 노선 배정, 수익 관리
헬스케어 약품 거래, 예비 진단, 질병 관리
병원 가격 책정, 고객 로열티, 수익관리
에너지 트레이딩, 공급, 수요 예측
커뮤니케이션 가격 계획 최적화, 고객 보유, 수요 예측, 생산능력 계획, 네트워크 최적화, 고객 수익성 관리
서비스 콜센터 직원관리, 서비스-수익 사슬 관리
정부 사기 탐지, 사례관리, 범죄 방지, 수익 최적화
온라인  웹 매트릭스, 사이트 설계, 고객 추천
모든사업 성과관리
  • 일차원적 분석을 통해서도 해당 부서나 업무 영역에서는 상당한 효과를 얻을 수 있다.
  • 하지만 일차적인 분석만으로는 환경변화와 같은 큰 변화에 제대로 대응하거나 고객 환경의 변화를 파악하고 새로운 기회를 포착하기 어렵다. 특히, 급변하는 환경에서 분석을 일차적 차원에서 점증적, 전술적으로 사용하면 성과는 미미할 수 있다.
  • 전략적 통찰력의 창출에 포커스를 뒀을 때, 분석은 해당 사업에 중요한 기회를 발굴하고, 주요 경영진의 지원을 얻어낼 수 있고 이를 통해 강력한 모멘텀을 만들어 낼 수 있다.
  • 최고가 되기 위해서는
    • 일차원적인 분석을 통해 점점 분석 경험이 늘어나고 작은 성공을 거두면 분석의 활용 범위를 더 넓고 전략적으로 변화시켜야 한다.
    • 사업성과를 견인하는 요소들과 차별화를 꾀할 기회에 대해 전략적 인사이트를 주는 가치기반 분석 단계로 나아가야 한다.

1.3.2 전략 인사이트 도출을 위한 필요 역량

1. 데이터 사이언스의 의미와 역할

  • 데이터 사이언스란 데이터로부터 의미 있는 정보를 추출해내는 학문이다.
  • 데이터 사이언스는 정형 또는 비정형을 막론하고 인터넷, 휴대전화, 감시용 카메라 등에서 생선되는 숫자와 문자, 영상 정보 등 다양한 유형의 데이터를 대상으로 한다.
  • 데이터 사이언스는 분석 뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지를 포함한 포괄적 개념이다.
  • 데이터 사이언스는 데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당 분야의 전문 지식을 종합한 학문이다.
  • 데이터 사이언티스트는 비즈니스의 성과를 좌우하는 핵심 이슈에 답을 하고, 사업의 성과를 견인해 나갈 수 있어야 한다. 중요한 역량 중 하나인 소통력이 필요한 이유이다. 

2. 데이터 사이언스의 위력

  • 링크드인(LinkdIn) : 비즈니스 네트워킹 서비스
  • 골드만 (스탠퍼드 물리학 박사 출신의 데이터 사이언티스트)
    • 당신이 알 수도 있는 사람들(People You May Know) 라는 배너 추가
    • 수백만개의 새로운 뷰를 창출 

3. 데이터 사이언스의 구성요소

  • 데이터 사이언스의 영역

출처ㅣ&nbsp;https://m.blog.naver.com/diana_seoul/222052360597

  • 데이터 사이언티스트의 역할
    • 데이터 사이언티스트는 데이터 홍수 속에서 헤엄을 치고, 데이터 소스를 찾고, 복잡한 대용량 데이터를 구조화, 불완전한 데이터를 서로 연결해야 한다.
    • 데이터 사이언티스트가 갖춰야 할 역량 중 한 가지는 강력한 호기심이다. 호기심이란 문제의 이면을 파고들고, 질문들을 찾고, 검증 가능한 가설을 세우는 능력을 의미한다.
    • 데이터 사이언티스트는 스토리텔링, 커뮤티케이션, 창의력, 열정, 직관력, 비판적 시각, 글쓰기 능력, 대화능력 등을 갖춰야 한다.

4. 데이터 사이언티스트의 요구 역량

Hard Skill vs Soft Skill

5. 데이터사이언스: 과학과 인문의 교차로 

  • 분석 기술보다 더 중요한 것은 소프트 스킬이다.
  • 전략적 통찰을 주는 분석은 단순 통계나 데이터 처리와 관련된 지식 되에 스토리텔링, 커뮤티케이션, 창의력, 열정, 직관력, 비판적 시각, 대화능력 등 인문학적 요소가 필요하다.

6. 전략적 통찰력과 인문학의 부활 

  • 외부 환경적 측면에서 본 인문학 열풍의 이유
    1. 단순 세계화에서 복잡한 세계화로의 변화 - 컨버전스(convergence, 규모의 경제, 세계화, 표준화, 이성화가 키워드) -> 디버전스(divergence, 복잡한 세계, 다양성, 관계, 연결성, 창조성이 키워드) 
    2. 비즈니스의 중심이 제품생산에서 서비스로 이동 - 고장 나지 않는 제품의 생산 -> 얼마나 뛰어난 서비스로 응대
    3. 경제와 산업의 논리가 생산에서 시장창조로 바뀜 - 공급자 중심의 기술 경쟁 (생산에 관련된 기술 중심, 기술중심의 대규모 투자, 좋은 품질의 제품 생산) -> 무형자산의 경쟁 (현재화 패러다임에 근거한 시장 창조, 현지 사회와 문화에 관한 지식)
  • 우리는 지금 기존의 사고의 틀을 벗어나 문제를 바라보고 해결하는 능력, 비즈니스의 핵심 가치를 이해하고 고객과 지원의 내면적 요구를 이해하는 능력 등 인문학에서 배울 수 있는 역량이 점점 더 절실히 요구되는 시대를 맞이하고 있다.

7. 데이터 사이언티스트에 요구되는 인문학적 사고의 특성과 역할 

  • 데이터 사이언티스트가 다룰 수 있는 6가지 핵심 질문
  •  
  과거 현재 미래
정보 무슨 일이 일어났는가?
리포팅(보고서 작성 등)
무슨 일이 일어나고 있는가?
경고
무슨 일이 일어날 것인가?
추측
통찰력 어떻게, 왜 일어났는가?
모델링, 실험설계
차선 행동은 무엇인가?
권고
최악 또는 최선의 상황은 무엇인가? 
예측, 최적화, 시뮬레이션

8. 데이터 분석 모델링에서 인문학적 통창력의 적용 사례

  • 인간을 바라보는 관점 (신용리스크 모델)
    • 인간이 타고난 성향의 관점 : 인간은 변하지 않는 존재. 유전적 요소처럼 원래의 성향이 존재하고 인간은 이것을 기초로 나뉜다고 본다. (과거: 지점장이 대출자를 면담)
    • 행동적 관점 : 한 사라믜 행동을 지속적으로 관찰해 그 행동을 보고 그 사람을 판단한다. (현재: 고객들의 과거 행동 패턴을 부석한 신용평가 모형의 적용)
    • 상황적 관점 : 그 사람이 놓여 있는 상황과 맥락을 고려해야 한다. (최근: 시나리오 분석) 
  • 인간에 대한 이해는 데이터 사이언티스트가 미케팅모델을 개발할 때도 중요한 가이드로써 활용된다.
  • 모델의 에측력을 높이기 위해 '인간을 어떤 관점에서 바라봐야 하나', '이를 위해서는 어떤 데이터가 더 필요하며', '어떤 기술을 활용해야 할 것인가' 라는 질문에 중요한 가이드를 제공할 수 있다.

1.3.3 빅데이터 그리고 데이터 사이언스의 미래 

1. 빅데이터의 시대

  • 디지털 환경의 진전과 더불어 실로 엄청난 '빅' 데이터가 생성되고 있다. (2011년 전세계에서 생성되는 디지털 정보량은 1.8 제타바이트)
  • 빅데이터 분석은 선거 결과에 결정적인 영향을 미칠 수도 있고, 기업들에게 비용절감, 시간 절약, 매출증대, 고객서비스 향상, 신규 비즈니스 창출, 내부 의사결정 지원 등에 있어 상당한 가치를 발휘하고 있다.

2. 빅데이터 회의론을 넘어: 가치 패러다임의 변화

  • '가치 패러다임' 의 변화 (Digitalization > Connection > Agency) 
  • 첫 단계의 가치 패러다임은 '디지털화' : 아날로그의 세상을 어떻게 효과적으로 디지털화하는가가 이 시대의 가치를 창출해 내는 원천이 된다.
  • 두 번째 단계는 '연결' : 디지털화된 정보와 대상들은 이제 서로 연결되기 시작했고, 이 연결을 얼마나 효과적이고 효율적으로 제공해 주느냐가 이 시대의 성패를 가른다.
  • 향후에는 '에이전시' : '복잡한 연결을 얼마나 효과적이고 믿을 수 있게 관리해주는가'의 이슈를 둔다.
  • 수많은 빅데이터를 빠르고 정확하게 처리해 개인과 기기와 사물들이 맺고 있는 하이퍼 연결을 효과적이고 효율적으로 관리해주기 위한 핵심에 바로 데이터 사이언스가 있다. 

3. 데이터 사이언스의 한계와 인문학

  • 데이터 사이언스의 한계
    • 분석 과정에서는 가정 등 인간의 해석이 개입되는 단계를 반드시 거친다.
    • 분석 결과가 의미하는 바는 사람에 따라 저혀 다른 해석과 결론을 내릴 수 있다. 
    • 아무리 정량적인 분석이라도 모든 분석은 가정에 근거한다는 사실이다.
  • 빅데이터와 데이터 사이언스가 데이터에 묻혀 있는 잠재력을 풀어내고, 새로운 기회를 찾고, 누구도 보지 못한 창조의 밑그림을 그릴 수 있는 힘을 발휘하게 될 것이다.

 

기타/최신 빅데이터 상식

1. SQL과 DBMS

1) DBMS란 무엇인가?

  • DBMS는 Data Base Management System의 약자로서 데이터베이스를 관리하여 응용 프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어.
  • 데이터베이스를 구축하는 틀을 제공, 효율적인 데이터 검색, 저장 기능 제공.
  • 대표적인 데이터베이스 관리 시스템은 오라클, 인포믹스, 액세스 등.

2) SQL이란 무엇인가?

  • SQL은 Structed Query Language의 약자로, 데이터베이스를 사용할 때, 데이터베이스에 접근할 수 있는 데이터 베이스의 하부 언어.
  • 단순한 질의 기능뿐만 아니라 완전한 데이터 정의, 조작 기능을 갖춤.
  • 테이블을 단위로 연산을 수행하며 영어 문장과 비슷한 구문으로 초보자들도 비교적 쉽게 사용할 수 있음.

3) 간단한 SQL 문장 해석 

  • 11회 기출문제
SELECT NAME, GENDER, SALARY
FROM CUSTOMERS
WHERE AGE BETWEEN 20 AND 39
  • SELECT는 하나 또는 그 이상의 테이블에서 데이터를 추출하는 명령어이다. NAME, GENDER, SALARY는 추출하고자하는 데이터 명이다.
  • FROM은 테이블을 지정해주는 명령어로서 CUSTOMERS라는 테이블을 지정하고 있다.
  • WHERE는 데이터를 추출하는 선택 조건식을 지정하는 명령어이다. AGE가 20과 39 사이의 데이터를 추출하는 것을 뜻한다.  

2. Data에 관련한 기술 

  • 개인정보 비식별 기술 
    1. 데이터 마스킹(Data Masking)
      • 데이터의 길이, 유형, 형식과 같은 속성을 유지한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술.
      • DB로 향하는 패킷과 그에 응답하여 DB클라이언트로 향하는 DB프로토콜을 완벽히 분석하여 해당 레코드가 반환될 때, 데이터를 변조하여 보내는 기술.
      • 유형으로는 정적인 데이터 마스킹, 동적인 데이터 마스킹이 있으며, 치환, 셔플, 암호화등의 기술이 존재
      • ex) 홍길동, 35세, 서울 거주, 한국대 재학 -> 홍**, 35세, 서울 거주, **대학 재학 
    2. 가명처리 (Pseudonymization) 
      • 개인정보주체의 이름을 다른 이름으로 변경하는 기술.
      • 다른 값으로 대체하는 일정한 규칙이 노출 되지 않도록 주의.
      • ex) 홍길동, 35세, 서울거조, 한국대 재학 -> 임꺽정, 30대, 서울거주, 국제대 재학 
    3. 총계처리 (Aggregation)
      • 데이터의 총합 값을 보임으로서 개별 데이터의 값을 보이지 않도록 함.
      • 단, 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은 그집단에 속한 개인의 정보를 공개하는 것과 마찬가지의 결과가 나타나므로 주의해야 함.
      •  ex) 임꺽정 180cm, 홍길동 170cm, 이콩쥐 160cm, 김팥쥐 150cm -> 물리학과 학생 키 합: 660cm, 평균키 165cm
      • 데이터 값 삭제 (Data Reduction) 
      • 데이터 공유, 개방 목적에 따라 데이터 셋에 구성된 값 중에 필요 없는 값 또는 개인식별에 중요한 값을 삭제.
      • 개인과 관련된 날짜 정보(자격취득일자, 합격일 등)은 연단위로 처리.
      • ex) 홍길동, 35세, 서울 거주, 한국대 졸업 -> 35세, 서울 거주 / 주민등록번호 901206-1234567 -> 90년대 생, 남자
    4. 데이터 범주화 (Data Suppression)
      • 데이터의 값을 범주의 값으로 변환하여 값을 감춤.
      • ex) 홍길동, 35세 -> 홍씨, 30~40세 
  • 무결성과 레이크 
    1. 데이터 무결성 (Data integrity)
      • 데이터베이스 내의 데이터에 대한 정확한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경 / 수정 시 여러 가지 제한을 두어 데이터의 정확성을 보증하는 것을 말함.
      • 무결성 제한의 유형은 개체 무결성(Entity integrity), 참조 무결성(Referential integrity), 범위 무결성(Domain integrity)이 있음.
    2. 데이터 레이크 (Data Lake)
      • 수 많은 정보 속에서 의미 있는 내용을 찾기 위해 방식에 상관없이 데이터를 저장하는 시스템
      • 대용량의 정형 및 비정형 데이터를 저장할 뿐만 아니라 접근도 쉽게 할 수 있는 대규모 저장소
      • Apache Hadoop, Teradata Inregrated Big Data Platform 1700 같은 플랫폼으로 구성된 솔루션 제공 

3. 빅데이터 분석 기술 

  • Hadoop 
    • 하둡은 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술.
    • 분산파일 시스템(HDFS)를 통해 수 천대의 장비에 대용량 파일을 저장할 수 있는 기능을 제공하고 맵리듀스(Map Reduce)로 HDFS에 저장된 대용량의 데이터들을 대상으로 SQL을 이용해 사용자의 질의를 실시간으로처리하는 기술로 이뤄짐.
    • 하둡의 부족한 기능을 서로 보완하는 '하둡 에코시스템'이 등장하여 다양한 솔루션을 제공. 
  • Apache Spark
    • 아파치 스파크는 실시간 분산형 컴퓨팅 플랫폼으로서 스칼라로 작성이 되어 잇지만 스칼라, 자바, R, 파이썬, API를 지원.
    • In-Memory 방식으로 처리를 하기 때문에 하둡에 비해 처리속도가 빠름.
  • Smart Factory 
    • 공장 내 설비와 기계에 사물인터넷(IoT)이 설치되어 공정 데이터가 실시간으로 수집되고 데이터에 기반한 의사결정이 이뤄짐으로써 생산성을 극대화 할 수 있는 기술.
  • Machine Learning & Deep Learning 
    • 머신 러닝은 인공지능의 연구 분야 중 하나로, 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하고자 하는 기술및 기법
    • 딥 러닝은 컴퓨터가 많은 데이터를 이용해 사람처럼 스스로 학습할 수 있게 하기 위하여 인공 신경망(ANN: artificial neural) 등의 기술을 기반하여 구축한 기계 학습 기술 중 하나.
    • 딥 러닝 소프트웨어 라이브러리는 Theano, Caffe, Tensorflow 등.   

4. 기타 

  • 데이터 양의 단위
    • 데이터의 양을 표현하기 위한 단위를 값이 작은 것에서부터 큰 것 순으로 나열한 것은 다음과 같다.
    • 바이트(B) -> 킬로바이트(KB) -> 메가바이트(MB) -> 기가바이트(GB) -> 테라바이트(TB) -> 페타바이트(PB) -> 엑사바이트(EB) -> 제타바이트(ZB) -> 요타바이트(YB)
  • B2B와 B2C
    • B2B 
      • 기업과 기업 사이의 거래를 기반으로 한 비즈니스 모델을 의미.
      • 예) 기업이 필요로 하는 장비, 재료나 공사 입찰 등이 있음.
    • B2C
      • 기업과 고객 사이의 거래를 기반으로 한 비즈니스 모델을 의미.
      • 예) 이동통신사, 여행회사, 신용카드회사, 옥션, 지마켓 등이 있음.
  • 데이터의 유형
    1. 정형 데이터 (Structured Data)
      • 형태(고정된 필드)가 있으며, 연산이 가능, 주로 관계형 데이터베이스(RDBMS)에 저장됨.
      • 데이터 수집 난이도가 낮고 내부 시스템인 경우가 대부분, 파일 형태의 스프레트 시트라도 내부에 형식을 가지고 있어 처리가 쉬운 편임.
      • ex) 관계형 데이터베이스, 스프레드 시트, CSV 등 
    2. 반정형 데이터 (Semi-Structured Data) 
      • 형태(스키마, 메타데이터)가 있으며, 연산이 불가능, 주로 파일에 저장됨.
      • 데이터 수집 난이도가 중간, 보통 API 형태로 제공되기 때문에 데이터 처리 기술(파싱)이 요구 됨.
      • ex) XML, HTML, JSON, 로그형태(웹로그, 센서데이터) 등
    3. 비정형 데이터 (Unstructured Data) 
      • 형태가 없으며, 연산이 불가능, 주로 NoSQL에 저장됨.
      • 데이터 수집 난이도가 높음 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야 하기 때문에 수집 데이터 처리가 어려움.
      • 소셜데이터(트위터, 페이스북), 영상, 이미지, 음성, 텍스트(word, PDF, ...) 등 
    4. XML 이란? 
      •  Extensible Markup Language의 약자로 다목적 마크업 언어(태그를 이용한 언어)이다.
      • 인터넷에 연결된 시스템 끼리 데이터를 쉽게 주고받을 수 있게 하여 HTML의 한계를 극복할 목적으로 만들어졌다.
      • XML 기반 언어는 XHTML, SVG 등이 있다.