기술 선도국 약속 새 정부, ‘데이터 경쟁력’ 강화 나서야[동아광장/이성주]

  • 동아일보
  • 입력 2022년 3월 15일 03시 00분


코멘트

데이터 홍수 시대, 가치 활용은 아직 미흡
분석목표 부정확하고 해석역량 부족 탓
향후 10년 가를 경쟁력 ‘데이터 역량’이다

이성주 객원논설위원·서울대 산업공학과 교수
이성주 객원논설위원·서울대 산업공학과 교수


정보의 홍수 시대를 거쳐 우리는 지금 데이터의 홍수 시대에 살고 있다. 시장분석기관인 IDC는 2025년까지 전 세계 데이터 규모가 175제타바이트(ZB)에 달할 것으로 예측했다. 1ZB는 1000만 테라바이트(TB) 용량이다. 보통 외장하드가 1TB임을 가정하면 그 규모는 실로 엄청나다. 이러한 데이터는 많은 조직에서 가치 있는 자산으로 생각된다. 데이터 분석을 통해 시장과 기술에 대한 통찰력을 얻고 조직의 경쟁력을 높일 수 있을 것이란 믿음 때문이다. 그러나 끊임없이 축적되고 있는 데이터의 활용은 아직 미흡하다. 물론 5년 전이긴 하나 글로벌 정보기술(IT) 리서치 그룹인 가트너의 애널리스트 닉 휴데커는 데이터 분석 프로젝트의 85%가 실패라 한 적도 있다. 데이터 분석이 원하는 성과를 내지 못하는 이유는 다양하지만 대표적인 몇 가지 원인은 다음과 같다.

첫째, 명확한 목표가 없이 데이터를 분석하기 때문이다. 많은 조직들이 축적된 데이터를 ‘다각도’로 분석하여 가치를 창출하겠다는 동기로 데이터 분석을 수행하곤 한다. 그러나 목표가 없는 분석은 분석을 위한 분석이 되어 분석 결과가 활용되지 못할 위험이 있다. 제품 개발 부서에서 소비자 데이터를 분석해 제품 구매의 영향 요인들을 찾았는데, 개발과 무관한 마케팅 요소들만이 도출되었다면 해당 부서에는 큰 가치를 주기 힘든 것처럼 말이다. 반면, 리바이스의 인공지능(AI)부트캠프, 에어비앤비의 데이터 유니버시티, 삼성디스플레이의 AI베이스캠프 아카데미 등 사내 직원들을 대상으로 하는 AI 교육이 성공했던 것은, 자신의 업무를 향상시키고자 하는 목표를 바탕으로 데이터 분석이 진행됐기 때문이다. 정확한 질문이 있어야 정확한 답이 존재할 수 있다.

둘째, 데이터 자체가 불완전한 경우도 있다. 데이터 수집 단계에서 활용을 고려해 데이터베이스가 설계되지 않았기 때문이다. 게다가 양질의 데이터는 보안 이슈로 공유되지 않는 경우가 많으며, 여러 원천의 데이터를 통합하는 것도 쉽지 않다. 특히 공공데이터의 경우 이러한 이슈는 더욱 빈번하다. 따라서 분석 전 데이터의 한계에 대해서 명확히 이해해야 한다. 예를 들어, 팬데믹 이전 데이터만으로 팬데믹 이후 미래를 완전히 예측하기 어렵다.

마지막으로 분석 결과를 해석하는 역량이 부족할 수 있다. 분석 목적에 적합하지 않은 데이터를 분석하여 결과를 해석하거나, 데이터로부터 찾아낸 패턴이 우연의 일치 혹은 단순한 상관관계임에도 인과관계로 해석하는 것이다. 2008년 구글은 자사의 검색엔진을 통해 수집된 데이터를 활용해 독감 유행 수준을 예측하는 ‘구글 플루 서비스’를 출시한 바 있다. 그러나 이 서비스는 2009년 유행한 신종인플루엔자를 예측하지 못했고 이후 예측도 빈번히 어긋났다. 일반인들은 감기가 아닌 경우에도 감기로 생각해 검색할 수 있기에 일반인들의 검색 결과를 독감 유행 수준으로 해석하는 데 무리가 있었던 것이다.

따라서 최근, 데이터로부터 통찰력을 얻을 수 있는 ‘데이터 리터러시(Data Literacy)’ 역량이 강조되고 있다. 리터러시란 글을 읽고 쓰는 능력이며, 데이터 리터러시는 데이터를 읽고 쓰는 능력이다. 즉 데이터를 선택하고, 그 의미를 정확히 이해하여 분석·해석하고 시각화할 수 있는 능력이다. 경제협력개발기구(OECD)는 2030년 미래사회에 요구되는 핵심 역량 요소로 데이터 리터러시의 중요성을 언급한 바 있다. 구글의 수석 경제학자 할 배리언 또한 향후 10년간 데이터 리터러시는 분야에 상관없이 가장 중요한 사업 역량이 될 것이라고 했다.

그러나 인공지능 분야에 투자가 집중되고 인재 양성 노력이 활발함에도 우리의 데이터 리터러시 역량은 아직 부족해 보인다. OECD에서 만 15세 학생들을 대상으로 정기적으로 시행하는 2018년 역량평가에서 한국은 ‘사실과 의견을 구분하는 역량’과 ‘편파적인 정보를 판단하는 방법에 대한 훈련’에서 모두 OECD 평균보다 낮은 값을 보여, 비판적으로 데이터를 바라보는 교육의 필요성을 시사한다. 데이터 자체에 대해 명확히 이해하고 있을 때, 분석 목적의 설정과 분석 기법의 선택, 분석 결과의 합리적 해석이 비로소 가능해진다. 데이터에 대한 이해는 데이터 리터러시의 필수 요건이다.

윤석열 대통령 당선인은 과학기술 공약에서 디지털 플랫폼 정부를 구현하고 데이터에 근거한 국정 운영을 통해 우리나라를 선도 국가로 견인할 것이라 했다. 정부의 디지털 리터러시 역량을 통해 공공의 의사결정이 보다 과학적으로 이루어지는 시대를 기대해 본다.
#기술 선도국#데이터 경쟁력
  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0
  • 추천해요

댓글 0

지금 뜨는 뉴스