정한민 한국과학기술정보연구원 소프트웨어연구실 실장
‘데이터 큐레이션’이라는 키워드가 뜨고 있다. 위의 정의로 짐작되듯 데이터를 발굴하고, 검색하며, 품질을 유지하면서 가치를 부여하는 활동이다. 데이터 큐레이션이 구체적으로 무엇을 의미하며, 왜 화두가 되고 있는 것일까? ‘빅 데이터’라는 요즘 가장 ‘핫한’ 키워드를 가지고 풀어보기로 하자.
한국정보화진흥원에 의하면 2011년 전 세계 디지털 정보량은 약 1.8ZB(제타바이트·1ZB는 1조 GB·기가바이트)이며, 2020년 관리해야 할 정보의 양은 현재의 50배 이상 증가할 것으로 예상된다. 이렇듯 거대한 양으로, 빠른 속도로 증가하는 빅 데이터 환경에서 우리는 정보를 찾는 데 점점 지쳐가고 있다. 사용자가 직접 키워드를 입력해서 원하는 정보를 찾는 전통적인 정보 검색 방식에서는 사용자가 직접 큐레이터의 역할까지 겸했다. 그러나 엔지니어들조차도 정보를 검색하고 수집하는 데 근무시간의 절반 가까이 할애한다는 연구 결과에서 보듯 개인에게 큐레이션의 역할까지 맡기기에는 한계가 너무나 명확한 게 현실이다.
최근 트위터와 같은 소셜미디어의 엄청나게 빠른 전파 속도로 인해 확인되지 않은 각종 루머의 난무로 이른바 ‘쓰레기 정보’를 정화하려는 노력이 커지고 있다. 이에 따라 자신만의 방식으로 데이터를 해석하고 중요도순으로 배치하여 친구나 추종자에게 제공하는 콘텐츠 유통자로서의 ‘소셜 큐레이터’들이 등장했는데 이는 웹 2.0 시대에 ‘프로슈머’가 소셜네트워크상에서 진화한 모습이라고 할 수 있다.
그렇지만 우리가 주의하고 유념해야 할 것은 사용자가 추구하는 가치와 데이터 큐레이션에 담겨진 의도 사이에서의 균형 감각이다. 가치에 치우치다 보면 특정 분야에 대한 집중도와 방향성이 떨어질 수 있고, 의도에 치우치면 ‘그들만의 리그’로 전락할 위험이 있다. 특히 불순한 의도가 담긴 큐레이션은 결국 또 다른 쓰레기 정보를 생산할 수 있다는 점을 잊지 말아야 한다. 정보에 대한 최종 필터링은 결국 사용자의 몫이라는 사실은 변함이 없으므로, 스스로의 분별 능력을 키우려는 노력을 게을리 해서는 안 될 것이다.
정한민 한국과학기술정보연구원 소프트웨어연구실 실장