실제 쓰는 데이터 1%에 불과
90%는 ‘암흑 데이터’로 추산
DGIST, 전용 연구센터 구축
인공지능 기술 연구에 활용
암흑 데이터(dark data)는 사람이나 컴퓨터에 의해 생성돼 어딘가에 저장돼 있지만, 존재 여부를 알 수 없거나 찾지 못하는 데이터를 뜻하는 용어다. 데이터로 만들 수 없는 비정형 데이터, 사용자에게 필요한지 알 수 없어 활용하지 못하는 데이터다. 우주의 27%를 차지할 것으로 추정되지만 보이지도 않고 들리지도 않으며 느낄 수도 없는 존재인 암흑물질(dark matter)에서 이름을 따왔다.
대구 달성군 현풍면 대구경북과학기술원(DGIST) 캠퍼스에는 이런 암흑 데이터를 연구하는 국내 유일의 슈퍼컴퓨터가 운영되고 있다. ‘암흑 데이터 극한활용 연구센터’ 전용 슈퍼컴퓨팅 시설이다. 지난달 8일 찾은 센터의 문을 열고 들어가자 쉴 새 없이 돌아가는 컴퓨터의 팬 소리가 사방을 가득 채웠다. 바로 옆에 있는 사람의 목소리가 들리지 않을 정도의 소음이었다.
이성진 센터장(DGIST 정보통신융합전공 교수)은 “방대한 규모의 암흑 데이터를 수집하고 저장하며 관리하고 처리하기 위한 모든 연구가 이곳에서 이뤄진다”며 “빅데이터, 인공지능(AI) 연구를 위해서는 복잡한 연산이 가능한 연구시설도 뒷받침돼야 한다”고 말했다.
IBM에 따르면 전 세계에서 생성되는 데이터의 90%가 암흑 데이터로 추산된다. 인간이 실제로 사용하는 데이터는 1%에 불과한 것으로 분석된다. 이런 이유로 최근 빅데이터 연구에서는 암흑 데이터를 어떻게 처리하고 활용할지가 화두로 떠올랐다. 이 센터장은 “쉬운 예로 e메일에 첨부됐지만 검색이 안 되는 파일이 암흑 데이터에 해당한다”며 “심박수 기록, 자기공명영상(MRI) 이미지 등 의료 분야에서도 방대한 분량의 암흑 데이터가 계속 생성되고 있다”고 말했다. 센터는 현재 서울대병원과 암흑 데이터에 해당하는 다량의 흉부 X선 사진에 AI를 적용해 자동으로 판독하는 진단 기술을 공동개발하고 있다.
최근에는 하드디스크, 플래시메모리 등 데이터 저장 매체가 발전해 데이터 저장용량이 TB(테라바이트) 수준으로 늘면서 암흑 데이터도 많이 생성되고 있다. 이 센터장은 하드디스크에 데이터 저장뿐 아니라 연산 기능 등을 추가해 AI가 데이터를 찾을 때 처리 속도를 높이는 연구를 하고 있다.
암흑 데이터에서 의미 있는 데이터를 발굴하기 위한 검색 기술에는 딥러닝을 적용하고 있다. 이 센터장은 “페이스북이 머신러닝 기술을 도입해 자동으로 유해 콘텐츠를 가려내는 것처럼 암흑 데이터가 검색에 걸리도록 인공신경망 등 AI 기술을 이용해 레이블을 달아줄 수 있을 것”이라며 “암흑 데이터 발생을 원천적으로 차단할 수 있는 AI, 블록체인, 지능형 분산 검색 기술도 연구 중”이라고 말했다.
암흑 데이터처럼 숨어 있는 데이터를 발굴해 이를 이용하는 연구는 앞으로 더욱 중요해질 것으로 전망된다. 1914년 이후 노벨상을 받은 연구의 87%가 대형 장비를 이용한 대용량 데이터 분석에서 나왔다.
이 센터장은 “실제 극소량의 데이터만 활용하던 ‘스몰데이터’ 시대에서 앞으로는 나머지 90% 이상의 암흑 데이터를 이용하는 진정한 ‘빅데이터’ 시대로 전환될 것”이라며 “암흑 데이터에서 메타 데이터를 추출하고, 검색을 추천하는 알고리즘을 개발하는 등 AI 기술과의 융합은 한층 더 중요해질 것”이라고 말했다.
댓글 0