본문 바로가기

자격증 공부

[ADsP 1 과목: 데이터의 이해] 제 2 장 데이터의 가치와 미래

1.2.0 핵심 포인트

1. 빅데이터

1) 빅데이터 정의

  • Mckinsey, (2011) : 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터이다.
  • IDC (2011) : 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집 · 발굴 · 분석을 지원하도록 고안된 차세대 기술 및 아키텍처이다. 
  • 가트너 그룹(Gartner Group)의 더그 래니(Doug Laney)의 3V -  volume, variety, velocity 

2) 빅데이터 정의의 범주 및 효과

  1. 데이터 변화 (규모, 형태, 속도)
  2. 기술변화 (새로운 데이터 처리, 저장 분석 기술, 클라우드 컴퓨팅 활용)
  3. 인재, 조직 변화(data scientist, 데이터 중심 조직) 

3) 빅데이터에 거는 기대의 비유적 표현

  • 산업혁명의 석탄과 철
  • 21세기의 원유
  • 렌즈
  • 플랫폼 

4) 빅데이터가 만들어 내는 본질적인 변화

  • 사전처리 -> 사후처리
  • 표본조사 -> 전수조사
  • 질 -> 양
  • 인과관계 -> 상관관계 

2. 빅데이터의 가치와 영향 

1) 빅데이터의 활용 기본 테크닉 7가지 

  1. 연관 규칙 학습
  2. 유형분석
  3. 유전 알고리즘
  4. 기계학습
  5. 회귀분석
  6. 감정 분석
  7. 소셜 네트워크 분석 

3. 위기요인과 통제 방안

1) 빅데이터 시대의 위기 요인 

  • 사생활 침해 -> 동의에서 책임으로 
  • 책임 원칙 훼손 -> 결과기반 책임 원칙 고수 
  • 데이터 오용 -> 알고리즘 접근 호용 

3. 미래의 빅데이터

1) 데이터

모든 것의 데이터화 (datafication)

2) 기술

진화하는 알고리즘, 인공지능

3) 인력 

데이터 사이언티스트, 알고리즈미스트

1.2.1  빅데이터의 이해

1. 빅데이터의 이해 

1) 빅데이터의 정의

  • 맥킨지, 2011 : 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터이다. <활용하는 데이터 규모에 중점을 둔 정의>
  • IDC, 2011 : 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집 · 발굴 · 분석을 지원하도록 고안된 차세대 기술 및 아키텍처다. <분석 비용 및 기술에 초점을 맞춘 정의>
[ 가트너 그룹(Gartner Group)의 더그 래니(Doug Laney)의 3V ] 
양 (Volume) -> 데이터의 규모 측면
다양성 (Variety) -> 데이터의 유형과 소스 측면
속도 (Velocity) -> 데이터의 수집과 처리 측면 
  • 메이어-쇤베르거와쿠키어, 2013 ; 빅데이터란 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일이다. 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일이다. 
  • 빅데이터의 정의를 종합하면 빅데이터를 보는 관점의 범위에 따라 3가지로 정의한다.
    • 첫째, 3V로 요약되는 데이터 자체의 특성 변화에 초점을 맞춘 좁은 범위의 정의가 있다.
    • 둘째, 데이터 자체뿐 아니라 처리, 분석 기술적 변화까지 포함되는 중간 범위의 정의가 있다.
    • 셋째, 인재, 조직 변화까지 포함해 넓은 관점에서의 빅데이터에 대한 정의가 있다.
  • 빅데이터 정의의 범주 및 효과 ★빅데이터의 범주의 변화가 '데이터 -> 기술 -> 인재, 조직'으로 점점 확대되고 있음!   
    • 데이터 변화: 규모(Volume), 형태(Variety), 속도(Velocity)
    • 기술 변화 
      • 새로운 데이터 처리, 저장, 분석기술 및 아키텍쳐
      • 클라우드 컴퓨팅 활용
    • 인재, 조직 변화
      • Data Scientist 같은 새로운 인재 필요
      • 데이터 중심 조직 
    • 기존 방식으로는 얻을 수 없었던 통찰 및 가치 창출
    • 사업방식, 시장, 사회, 정부 등에서 변화와 혁신 주도 

2. 출현 배경

1) 출현배경 

  • 빅데이터 현상은 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 '변화'를 말한다.
  • 빅데이터 출현 배경 3가지 
    1. 산업계 - 고객 데이터 축적
    2. 학계 - 거대 데이터 활용 과학 확산
    3. 관련기술발전(디지털화, 저장 기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅) 
  • 산업계에서 일어난 변화를 보면 빅데이터 현상은 양질 전환 법칙*으로 설명이 가능하다. (*독일 철학자 헤겔이 말한 개념으로 일정한 양이 누적되면 어느 순간 질적인 비약이 이루어진다는 것)
  • 학계에서 대표적인 사례로는 인간 게놈 프로젝트를 들 수 있다. 거대 데이터를 다루는 학문 분야가 늘어나면서 필요한 기술 아키텍처 및 통계 도구들도 지속적으로 발전했다.
  • 기술발전 측면에서 보면 디지털화의 급진전, 저장 기술의 발전과 가격 하락, 인터넷의 발전과 모바일 시대의 진전에 따른 클라우드 컴퓨팅 보편화 등이 모두 빅데이터 출현과 관련된다.
  • ICT 발전과 빅데이터의 출현

출처: https://hyeonukdev.github.io/tags/%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D/page/2/

2) 빅데이터 출현에 따른 변화 (★사용자 로그 정보의 정의)

  • 사용자 로그(log) 정보 (사용자가 인터넷에 접속한 시간과 정보, 검색기록 등)에 대한 프로파일링이 이뤄지기 시작하면서 아이덴티티가 뚜렷해지고 사용자와 광고를 매칭하는 정확도도 향상된다. 
  • 빅데이터는 모바일 시대가 도래하면서 더 빠르게 진화하고 있다.
    • 스마트폰 사용자들은 잠자는 시간을 제외하고 자신의 감정을 SNS에 쏟아 냄.
    • 스마트폰 사용자들의 SNS 또는 GPS, 가속센서, 거리센서 등도 시시각각 값진 사용자의 상황 정보로 활용됨,
  • 개별 기업의 고객 데이터 축적 및 활용 증가, 인터넷 확산, 저장 기술의 발전과 가격하락, 모바일 시대의 도래와 스마트 단말의 보급, 클라우드 컴퓨팅 기술 발전, SNS와 사물네트워크 확산 등이 맞물려 데이터 생산이 폭발적으로 증가하면서 빅데이터 시대는 대세가 되고 있다.

3. 빅데이터 기능 

1) 빅데이터에 거는 기대를 잘 표현한 비유 

  1. 빅데이터는 차세대 산업혁명에서 석탄과 철 역할을 할 것으로 기대된다. 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회 · 경제 · 문화 · 생활 전반에 혁명적 변화를 가져올 것으로 기대된다.
  2. 빅데이터는 21시게의 원유에 비유 된다. 우리가 살고 있는 사회저변을 떠받치는 에너지원인 원유처럼 경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 한 단계 향싱시키고, 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망된다. 
  3. 빅데이터는 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 발전에 영향을 미칠 것으로 기대된다. (구글의 'Ngram Viewer'를 들 수 있음)
  4. 빅데이터는 플랫폼 역할을 할 것으로 기대된다. 플랫폼이란 비즈니스 측면에서는 일반적으로 '공동 활용 목적으로 구축된 유무형의 구조물'을 의미하며 빅데이터가 최근에는 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망된다. (대표적인 예로는 페이스북은 SNS 서비스로 시작됐지만, 서드파티 개발자들이 페이스북 위에서 작동하는 앱을 만들기 시작하면서 플랫폼 역할을 하고 있음) 

4. 빅데이터가 만들어 내는 본질적인 변화

  1. 사전처리에서 사후 처리 시대로: 필요한 정보만 수집하고 필요하지 않는 정보를 버리는 시스템에서 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아 낸다.
  2. 표본조사에서 전수조사로: 데이터 수집 비용의 감소와 클라우드 컴퓨팅 기술의 발전으로 데이터 처리비용의 감소로 표본을 조사하는 기존의 지식발견의 방식이 전수조사를 통해 샘플링이 주지 못하는 패턴이나 정보를 제공해 주게 된다.
  3. 질(質)보다 양(量)으로: 데이터가 지속적으로 추가될 때 양질의 정보가 오류 정보보다 많어져 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 그 바탕을 두고 변화 된다.
  4. 인과관계에서 상관관계로: 상관관계를 통해 특정 현상의 발생 가능성이 포착되고, 그에 상응하는 행동을 하도록 추천되는 일이 점점 늘어나 데이터 기반의 상관관계 분석이 주는 인사이트가 인과관계에 의해 미래 예측을 점점 더 압도해 가는 시대가 도래하게 될 것으로 전망된다.

1.2.2 빅데이터의 가치와 영향 

1. 빅데이터의 가치

  • 빅데이터 시대에서는 특정 데이터의 가치를 측정하는 것은 쉽지 않다.
  • 빅데이터의 가치 산정이 어려운 이유 
    1. 데이터 활용 방식에서 재사용이나 재조합(mashup), 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제 · 어디서 · 누가 활용할지 알 수 없게 되었다. 따라서 가치를 산정하는 것도 어려워진다.
    2. 빅데이터 시대에는 데이터가 '기존에 없던 가치'를 창출함에 따라 그 가치를 측정하기 어려워진다.
    3. 지금은 가치 없는 데이터도 새로운 분석 기법의 등장으로 거대한 가치를 만들어내는 재료가 될 가능성이 있다.

2. 빅데이터의 영향

  • 맥킨지가 언급한 빅데이터가 가치를 만들어 내는 다섯가지 방식
    1. 투명성 제고로 연구개발 및 관리 효율성 제고
    2. 시뮬레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화
    3. 고객 세분화 및 맞춤 서비스 제공
    4. 알고리즘을 활용한 의사결정 보조 혹은 대체
    5. 비즈니스 모델과 제품, 서비스의 혁신 
  • 빅데이터의 가치 창출 방식이 시장에 있는 플레이어, 즉 기업 · 정부 · 소비자에게 미치는 영향 
    1. 기업은 빅데이터를 활용해 소비자의 행동을 분석하고 시장 변동을 예측해 비즈니스 모델을 혁신하거나 신사업을 발굴한다.
    2. 정부는 기상, 인구이동, 각종 통계, 법제 데이터 드을 수집해 사회 변화를 추정, 정보를 추출한다.
    3. 개인은 빅데이터를 서비스하는 기업의 출현으로 비용이 지속적으로 하락하여 정치인이나 대중 가수 등이 인지도 향상에 빅데이터를 활용 한다.
    4. 다양한 시장 주체들이 빅데이터를 활용하면서 소비자이면서 국민인 일반인들은 맞춤형 서비스를 저렴한 비용으로 이용하게 되고, 적시에 필요한 정보를 얻음으로써 다양한 형태로 기회비용을 절약할 수 있게 되어 사람들의 생활이 점점 스마트해지고 있다.

1.2.3 비즈니스 모델

1. 빅데이터 활용 사례

  • 구글은 사용자의 로그 데이터를 활용하면서 기존의 페이지랭크 알고리즘을 혁신하며 검색 결과를 개선했다.
  • 월마트는 고객의 구매 패턴을 분석해 상품 진열에 활용했다.
  • 정부는 실시간 교통정보 수집, 기후 정보, 각종 지질 활동, 소방 서비스를 위한 모니터링하여 국가안전 확보 활동에 활용한다. 이 밖에도 미래 의제인 의료와 교육 개선을 위해 빅데이터를 활용해 해결책을 모색 한다.
  • 개인의 사례로 정치인은 선거 승리를 위해 사회관계망 분석을 통해 유세 지역을 선정하고, 해당 지역의 유권자에게 영향을 줄 수 있는 내용을 선정해 효과적인 선거 활동을 펼친다. 가수는 팬들의 음악 청취 기록 분석을 통해 실제 공연에서 부를 노래 순서를 짜는데 활용한다.

2. 빅데이터 활용 기본 테크닉 : 7가지

  • 연관규칙학습: 어떤 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법.
    • ex: 커피를 구매하는 사람이 탄산음료를 더 많이 사는가? 
  • 유형분석: 문서를 분류하거나 조직을 그룹으로 나눌 때, 혹은 온라인 수강생들을 특성에 따라 분류할 때 사용
    • ex: 이 사용자는 어떤 특성을 가진 집단에 속하는가?
  • 기계 학습: 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법
    • ex: 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까?
  • 회귀 분석: 독립변수를 조작하며, 종속변수가 어떻게 변하는지를 보면 두 변인의 관계를 파악할 때 사용
    • ex: 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
  • 감정 분석: 특정 주제에 대해 말하거나 글을 슨 사람의 감정을 분석한다.
    • ex: 새로운 환불 정책에 대한 고객의 평가는 어떤가?
  • 소셜 네트워크 분석: 특정인과 다른 사람이 몇 촌정도의 관계인가를 파악할 때 사용하고 영향력 있는 사람을 찾아낼 때 사용한다.
  • 유전자분석: 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 변화(evolve)시켜 나가는 방법 
    • ex: 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가? 

1.2.4 위기 요인과 통제 방안

1. 위기 요인 [ 사생활 침해, 책임 원칙 훼손, 데이터 오용]

  1. 구글은 이미 지난 2010년에 서비스 이용자가 1시간 뒤에 어떤 일을 할지 87% 정확도로 예측할 수 있는 데이터와 분석 신뢰도를 확보하였다. [예: 여행 사실을 트위트 한 사람의 집을 강도가 노리는 고전적 사례 발생 -> 익명화(anonymization) 기술 발전 필요]
  2. 빅데이터 기본 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 올라 간다. [예: 영화 "마이너리티 리포트"에 나오는 것처럼 범죄 예측 프로그램에 의해 범행을 저지르기 전에 체포, 자신의 신용도와 무관하게 부당하게 대출이 거절됨 -> 민주주의 국가의 형사처벌은 잠재적 위협이 아닌 명확하게 행동한 결과에 대해 책임을 묻고 있음]
  3. 빅데이터는 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 것은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없다. 또한 잘못된 지표를 사용하는 것도 빅데이터의 폐해가 될 수 있다. [예: 베트남 전쟁 때, 맥나마라 장군은 적군 사망자 수를 전쟁의 진척상황을 나타내는 지표로 활용했고 그 결과 적군 사망자 수는 과장돼 보고되는 경향을 보여 결과적으로 전쟁상황을 오보하는 결과를 일으킴] 

2. 통제 방안 [동의에서 책임으로, 결과 기반 책임 원칙 고수, 알고리즘 접근 허용]

미국 연방거래위원회의 '소비자 프라이버시 보호 3대 권고사항' 
1. 기업은 상품 개발 단계에서부터 소비자 프라이버시 보호 방안을 적용하라.
2. 기업은 소비자에게 공유 정보 선택 옵션 제공하라.
3. 소비자에게 수집된 정보 내용 공개 및 접근권 부여하라. 
  1. 빅데이터에 의한 사생활침해 문제를 해결하기에는 부족한 측면이 많아 좀 더 포괄적인 해결책으로 동의제를 책임제로 바꾸는 방안을 제안한다. ('개인정보 제공자의 동의' -> '개인정보 사용자의 책임')
  2. 책임원칙 훼손 위기 요인에 대한 통제 방안으로는 기존의 책임 원칙을 좀 더 보강하고 강화한다.
  3. 데이터 오용의 위기 요소에 대한 대응책으로 알고리즘에 대한 접근권 제공하여 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문한다. (알고리즘을 해석할 능력을 가진 전문가인 알고리즈미스트가 필요하게 됨)

1.2.5 미래의 빅데이터

  1. 데이터 : 모든 것의 데이터화
  2. 기술 : 진화하는 알고리즘, 인공지능
  3. 인력 : 데이터 사이언티스트, 알고리즈미스트
    • 데이터 사이언티스트는 빅데이터에 대한 이론적 지식과 숙련된 분석 기술을 바탕으로 통찰력, 전달력, 협업 능력을 두루 갖춘 전문인력으로써 빅데이터의 다각적 분석을 통해 인사이트를 도출하고 이를 조직의 전략 방향제시에 활용할 줄 아는 기획자로서 전문가 역할을 할 것으로 기대된다.
    • 알고리즈미스트는 데이터 사이언티스트가 한 일로 인해 부당하게 피해가 발생하는 것을 막는 역할을 하며 알고리즘 코딩 해석을 통해 빅데이터 알고리즘에 의해 부당하게 피해(ex: 검색결과에서 제외 등)를 입은 사람을 구제하는 전문인력이다.