[기고/강범모]가치있는 정보 찾아주는 ‘텍스트마이닝’과 신문

  • Array
  • 입력 2012년 4월 10일 03시 00분


강범모 고려대 언어학과 교수
강범모 고려대 언어학과 교수
영화 속에서 첩보 당국은 그들이 추적하는 대상의 위치를 파악하기 위해서 또는 어떤 집단의 동향을 알기 위해서 지구상에서 발생하는 모든 메시지를 실시간으로 분석한다. 이것은 상상의 일만이 아니다. 일상에서도 사람들은 인터넷 검색을 통해 특정 연예인의 사생활에 대해서 알려고 한다.

이런 일은 많은 분량의 언어 데이터를 컴퓨터로 짧은 시간에 분석할 수 있기 때문에 가능하다. 그 많은 데이터는 사람들이 끊임없이 생산해 낸 결과다. 미디어의 뉴스뿐만 아니라 사람들이 블로그, e메일, 문자메시지를 통해 만들어내고 또 보내는 말들은 모두 컴퓨터에 저장된다. 이렇게 아주 많은 양의 언어 데이터, 소위 ‘빅 데이터’를 컴퓨터로 아주 빠른 시간에 분석하여 가치 있는 정보를 찾아내 주는 기술이 텍스트마이닝이다. ‘마이닝(mining·채굴 또는 광업)’이 광산에서 귀중한 금속을 찾아서 추출해 내는 일인 것처럼 텍스트마이닝 기술은 다량의 텍스트 속에 묻혀 있는 가치 있는 정보를 찾아 준다. 텍스트 분석은 단순히 세간의 일시적 관심이 되는 연예인의 사생활 정보를 찾아주는 데에만 쓰이지 않는다. 텍스트마이닝은 단순 검색 이상이다. 최근에는 구글에서 세상의 모든 책을 컴퓨터 속에 넣어 인류의 문화 전반에 대한 연구의 기초로 삼겠다는 야심 찬 계획을 추진하고 있다.

스마트폰의 문자와 같이 즉각적인 텍스트, 그리고 출판된 책과 같은 상대적으로 전문적인 텍스트의 중간에 신문 텍스트가 있다. 신문 텍스트가 주는 정보(콘텐츠)는 일시적인 관심의 자료보다는 안정적이고 깊이가 있으며, 세부 주제에 대한 전문적인 자료보다는 대중의 일상에 더 가깝다. 텍스트마이닝의 관점에서 신문 자료의 매력은 우선 그 많은 양이다. 매일 만들어지는 신문 텍스트는 여러 해 동안 수억 어절(책 수천 권 이상)의 방대한 자료로 모인다. 또한 신문 자료에는 정치, 경제, 사회, 문화 등 모든 분야를 포함하는 내용의 보도와 논의가 들어 있다. 신문 자료의 또 다른 특징은 그 시간성이다. 거의 매일 발행되는 신문 텍스트는 주기적으로 생산됨으로써 당시 사회의 모습을 그대로 반영한다. 신문 자료에 대한 텍스트마이닝 기법의 적절한 적용은 개인이 육안으로 접근할 수 없는 다양한 정보를 제공할 수 있다.

거의 100년 역사를 가지고 있는 한국 신문이 모두 전산화된 것은 근래의 일이다. 최근 동아일보에 보도된 역대 선거 관련 키워드는 광복 이후 신문 자료를 동아일보와 고려대 민족문화연구원의 물결21 연구팀이 협력하여 분석한 결과다. 그에 앞서 물결21 연구팀은 동아일보를 비롯한 몇 개 신문에서 제공한 2000∼2009년 텍스트 자료 4억 어절을 분석했다. 그 기간에 가장 많이 증가한 한국인 인명은 ‘김연아’이고, 그 다음은 ‘이명박’으로 나타났다. 생활면에서는 ‘건강, 여가, 음식’에 대한 관심이 매우 높아지고, 또한 ‘행복’에 대한 관심이 점점 더 증가한 것으로 나타난다. 이것은 여러 조사에서 밝혀진 바와 같이 점점 더 많은 사람이 불행하다고 느끼게 됐다는 사실과 대조를 이룬다. 결국 행복해지려고 할수록 불행해지고, 불행해질수록 행복을 갈망하게 되는 한국 사회의 세태가 잘 드러난다.

이상적으로는 신문 텍스트 분석을 통하여 사회의 트렌드를 분석하고 이를 바탕으로 미래를 예측하는 모형을 만드는 것을 목표로 할 수 있다. 그러나 수많은 역사가가 역사를 연구했다고 해서 다음 시대의 사회를 쉽게 예측할 수 없고, 많은 사람이 주가 변동을 분석했다고 해서 특정인이 주가를 예측하고 떼돈을 벌 수 없다. 한국 사회가 지나온 길을 분석하여 사회 변화 트렌드에 대한 더 깊은 성찰의 밑바탕을 제공하는 것이 시급한 목표다.

강범모 고려대 언어학과 교수
#기고#강범모#텍스트마이닝#신문
  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0

댓글 0

지금 뜨는 뉴스

  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0