강범모 고려대 언어학과 교수
이런 일은 많은 분량의 언어 데이터를 컴퓨터로 짧은 시간에 분석할 수 있기 때문에 가능하다. 그 많은 데이터는 사람들이 끊임없이 생산해 낸 결과다. 미디어의 뉴스뿐만 아니라 사람들이 블로그, e메일, 문자메시지를 통해 만들어내고 또 보내는 말들은 모두 컴퓨터에 저장된다. 이렇게 아주 많은 양의 언어 데이터, 소위 ‘빅 데이터’를 컴퓨터로 아주 빠른 시간에 분석하여 가치 있는 정보를 찾아내 주는 기술이 텍스트마이닝이다. ‘마이닝(mining·채굴 또는 광업)’이 광산에서 귀중한 금속을 찾아서 추출해 내는 일인 것처럼 텍스트마이닝 기술은 다량의 텍스트 속에 묻혀 있는 가치 있는 정보를 찾아 준다. 텍스트 분석은 단순히 세간의 일시적 관심이 되는 연예인의 사생활 정보를 찾아주는 데에만 쓰이지 않는다. 텍스트마이닝은 단순 검색 이상이다. 최근에는 구글에서 세상의 모든 책을 컴퓨터 속에 넣어 인류의 문화 전반에 대한 연구의 기초로 삼겠다는 야심 찬 계획을 추진하고 있다.
스마트폰의 문자와 같이 즉각적인 텍스트, 그리고 출판된 책과 같은 상대적으로 전문적인 텍스트의 중간에 신문 텍스트가 있다. 신문 텍스트가 주는 정보(콘텐츠)는 일시적인 관심의 자료보다는 안정적이고 깊이가 있으며, 세부 주제에 대한 전문적인 자료보다는 대중의 일상에 더 가깝다. 텍스트마이닝의 관점에서 신문 자료의 매력은 우선 그 많은 양이다. 매일 만들어지는 신문 텍스트는 여러 해 동안 수억 어절(책 수천 권 이상)의 방대한 자료로 모인다. 또한 신문 자료에는 정치, 경제, 사회, 문화 등 모든 분야를 포함하는 내용의 보도와 논의가 들어 있다. 신문 자료의 또 다른 특징은 그 시간성이다. 거의 매일 발행되는 신문 텍스트는 주기적으로 생산됨으로써 당시 사회의 모습을 그대로 반영한다. 신문 자료에 대한 텍스트마이닝 기법의 적절한 적용은 개인이 육안으로 접근할 수 없는 다양한 정보를 제공할 수 있다.
이상적으로는 신문 텍스트 분석을 통하여 사회의 트렌드를 분석하고 이를 바탕으로 미래를 예측하는 모형을 만드는 것을 목표로 할 수 있다. 그러나 수많은 역사가가 역사를 연구했다고 해서 다음 시대의 사회를 쉽게 예측할 수 없고, 많은 사람이 주가 변동을 분석했다고 해서 특정인이 주가를 예측하고 떼돈을 벌 수 없다. 한국 사회가 지나온 길을 분석하여 사회 변화 트렌드에 대한 더 깊은 성찰의 밑바탕을 제공하는 것이 시급한 목표다.
강범모 고려대 언어학과 교수