《1998년 행크 에스킨이라는 미국의 데이터베이스 전문가가 1달러 지폐에 초상이 그려진 조지 워싱턴 미국 초대 대통령의 이름을 따 ‘조지는 어디에(Where’s George)?’라는 웹사이트를 개설했다. 사람들이 ‘통화추적계획(Currency Tracking Project)’이라는 도장이 찍힌 지폐를 발견할 경우 발견된 곳의 우편번호와 해당 지폐의 일련번호를 입력하도록 하는 단순한 사이트였다. 11년간 이 사이트에 올라온 지폐는 1억5000만 장이 넘었고, 이 가운데 약 11%의 지폐는 두 곳 이상의 이동 경로가 파악됐다. 전국적인 지폐의 이동 경로를 통계적으로 보여주는 자료가 나온 것이다. 2009년 5월 미국 노스웨스턴대 연구팀은 이 사이트의 지폐 이동 경로를 이용해 신종 인플루엔자의 전염 경로를 예측해 냈다. 단순히 재미로 시작한 ‘조지는 어디에?’의 데이터가 전염병 예방에 사용된 것이다.》
○ 인터넷이 가져온 ‘페타바이트’의 시대
1달러 지폐는 작은 사례일 뿐이다. 현대인들은 하루에도 수많은 데이터를 만들어낸다. 미국의 정보기술(IT)업체 EMC에 따르면 2008년 한 해에만 모두 4870억 GB(기가바이트)의 정보가 만들어져 인터넷에 쌓였다. 올해 초부터 9월 말까지 쌓인 데이터는 5770억 GB로 지난해 전체 데이터보다도 많다. 이 정도면 2억 명이 매일 각자 영화 1편 분량의 디지털 정보를 만들어내는 양과 맞먹는다.
이렇게 기하급수적으로 쌓이는 데이터는 한때 ‘쓰레기 정보’ 취급을 받기도 했다. 너무 많아 이용하지 못하는 정보는 가치가 없다고 생각했기 때문이다. 하지만 이런 사소한 정보들이 쌓여 최근에는 ‘데이터 사이언스’라는 학문 영역도 만들어냈다. ‘싸이월드’와 같은 인터넷 서비스의 친구 관계, ‘구글’에 입력한 검색어 기록 등 인터넷에 남는 사람들의 활동 흔적이 사회의 작동 원리를 밝히는 중요한 정보가 된 것이다. 이동통신사의 휴대전화 사용 기록, 신용카드나 교통카드의 사용 명세 등 사용자의 위치 정보와 구매 패턴, 사용 시간 등을 담은 모든 정보가 데이터 사이언스의 분석 대상이다.
이런 정보가 과거에 ‘쓰레기’ 취급을 받았던 것은 정보를 활용하는 게 쉽지 않았기 때문이다. 하지만 초고속인터넷의 보편화로 대부분의 기업이 정보를 디지털 형태로 저장하고, 인터넷을 통해 이를 공유하면서 데이터의 활용 가치는 그 어느 때보다 높아졌다. 세계적인 과학저널 ‘네이처’는 이렇게 데이터가 급증하는 시대를 가리켜 ‘페타바이트(PB·1PB는 약 100만 GB) 시대’라고 불렀다.
○ 데이터의 활용 가능성
네트워크 이론을 다룬 ‘링크’라는 저서로 국내에도 잘 알려진 헝가리의 물리학자 얼베르트라슬로 버러바시 교수와 서울대 물리학부 박주용 교수 연구팀은 4월 유럽 국가 한 곳의 이동통신사 통화기록을 모두 전달받아 분석했다. 이를 통해 개인들의 통화 패턴 및 사람들 사이의 관계, 통화량이 특별히 몰리는 지역과 시간대 등을 분석해 낼 수 있었다.
이런 데이터 분석은 여러 측면으로 활용된다. 통화기록에는 통화가 이뤄진 위치 정보도 포함되는데 연구팀은 이를 통해 사람들이 특히 많이 다니는 곳을 파악함으로써 질병 확산 가능성이 높은 경로를 추적해냈다. 박 교수는 “이런 정보를 활용하면 특정 이벤트에 따라 반응하는 통화량의 패턴을 분석해 마케팅 전략을 세우는 데도 활용할 수 있다”고 설명했다.
KAIST 물리학과의 정하웅 교수는 지난해 구글의 실시간 교통정보를 활용해 미국 보스턴 지역의 교통 체증 구간을 연구했다. 이를 통해 도시 전체의 교통 흐름을 원활히 하려면 도로를 새로 만들기보다 도로를 줄이고 운전자의 선택폭을 제한하는 게 낫다는 것을 실증적으로 밝혀냈다. 정 교수는 “인터넷에 풍부한 자료를 잘 활용하면 사회가 지불해야 하는 낭비 요소를 예측해 최소화할 수 있다”고 설명했다.
○ 쌓이는 데이터, 활용하지 못하는 현실
한국의 인터넷은 최근 10년간 급속하게 발전했다. 한국 최대의 인터넷 기업 NHN에 올라오는 일일 검색어 수가 세계 5위를 차지할 정도로 그동안 한국인이 쌓아온 데이터의 양 또한 만만치 않다.
전문가들은 이런 데이터를 현실 생활에서 사용할 수 있게 된다면 연관 산업이 급속하게 발전할 것이라고 말한다. 이미 해외에서는 신종 플루 예방책을 마련하는 것 외에도 각종 인터넷 통계를 선거 캠페인과 기업의 마케팅, 치안 정보 및 물류 소요 예측에까지 활용한다. 예를 들어 구글은 사용자들이 자주 입력하는 검색어를 실시간으로 볼 수 있게 하고 매년 보고서로 만들어 공개한다. 하지만 한국에선 학계와 산업계 사이의 데이터 교류가 여러 측면에서 부족하다고 전문가들은 지적한다. 기업들은 정보를 중요한 자산으로 여기고 보관하지만, 이를 공개해 연구에 활용할 생각은 하지 않는다. ‘개인정보보호’를 위한 것이기도 하지만 이를 익명 처리해 공개해야 하는 번거로운 과정을 꺼리기 때문이다. 서울대 물리학부 강병남 교수는 “국내 기업들과 공동 연구를 진행하고 싶지만 응하는 기업이 없어 어쩔 수 없이 해외 기업들의 데이터를 이용해 외국 사례를 분석하게 된다”고 말했다.
김상훈 기자 sanhkim@donga.com
|
■ 어떻게 진화해 왔나
1969년 美 연구소간 컴퓨터 연결→1989년 ‘월드와이드웹’ 탄생
1969년 10월 29일 로스앤젤레스 캘리포니아대(UCLA)와 스탠퍼드대 연구소의 컴퓨터가 처음 연결됐을 때만 해도 이 단순한 연결이 몰고 올 격변을 아무도 예상하지 못했다.
인터넷이 폭발적 힘을 얻게 된 것은 그 후 20년이 지난 1989년 3월. 유럽 입자물리연구소(CERN)의 연구원들은 세계 각지의 학자들과 쉽게 연구 성과를 공유할 방법을 고민하다가 해결책을 찾았다. 데이터를 주고받기 위한 표준 언어로 문서를 만들어 원할 때마다 누구든 찾아보게 하는 것이었다. 사용법이 간단하며, 정보가 있는 곳을 ‘링크’로 연결하는 ‘월드와이드웹(WWW)’의 탄생이었다.
이후 인터넷은 상상을 초월한 속도로 발전했다. 한국에서 일반인용 인터넷 서비스가 처음 제공된 게 1994년, 초고속인터넷의 첫 보급이 1998년이었다. 그리고 10여 년이 흐른 뒤 손으로 쓰는 편지, 전화번호부, 레코드 가게가 사라져 갔고 인터넷에서 자료를 찾고 민원서류를 발급받는 일이 보편화됐다.
김상훈 기자 sanhkim@donga.com
구독
구독
구독
댓글 0