고창수 교수 텍스트 분석 프로그램 ‘말셈41’ 개발

  • 입력 2004년 2월 24일 19시 14분


이상(李箱)의 단편소설 ‘날개’에 가장 많이 쓰인 단어는? 단연 ‘나’(411회)와 ‘아내’(181회)다. 가장 많이 쓰인 동사는 ‘있다’(78회)와 ‘가다’(35회)다.

그의 또 다른 단편소설인 ‘봉별기(逢別記)’에 가장 많이 쓰인 단어는? ‘나’(80회)와 ‘금홍’(56회)이다. 가장 많이 쓰인 동사는 역시 ‘가다’(16회)와 ‘있다’(13회).

‘날개’는 625개 문장, 5888개 어절로 된 글이고 ‘봉별기’는 134개 문장, 1306개 어절로 된 글로 모두 자전적인 1인칭 단편소설. 두 작품은 글의 분량이나 구성은 다르지만, 이 같은 분석 결과를 보면 ‘나’가 ‘아내’ 또는 ‘금홍’이라는 상대와 함께 ‘있다’가 떠나‘가는’ 불안정한 관계를 맺고 있다는 사실을 객관적으로 알 수 있다.

이런 분석을 하는 데는 채 1분도 걸리지 않았다. 고창수 한성대 교수(한국어정보학·43·사진)가 최근 개발한 어휘 사용빈도 통계 프로그램인 ‘말셈 41’ 덕분이다. 텍스트 문서를 이 프로그램으로 분석하면 순식간에 품사별, 형태소별 사용빈도 외에 어미와 어간의 사용빈도까지 통계자료가 나온다. 책 1권 정도의 분량도 5분 정도면 분석이 가능하다.

고 교수는 “어휘 사용의 계량적 통계는 바로 그 단어를 통해 표현하려고 하는 주체의 무의식까지도 객관적으로 드러내 준다”며 “이런 분석을 이상의 소설 전체에 확대해 보면 이상이 갖고 있는 특성들을 좀 더 객관적 입장에서 파악할 수 있을 것”이라고 말했다.

이를 좀 더 넓은 범위에 사용한다면 일정한 시대의 문헌에 대한 분석을 통해 시대정신을 조망할 수도 있고, 매일 매일의 신문 내용을 분석해 사람들의 관심사가 변해가는 추세도 찾아낼 수 있다.

‘말셈 41’은 고 교수가 세운 자연언어처리 전문 벤처기업인 ‘㈜내추럴어프로치’에서 만든 프로그램. 자연언어처리 기술은 인터넷의 검색 엔진 등에서 이미 다양하게 사용되고 있지만 일반인들이 쉽게 자연언어처리 기술을 활용하도록 한 것은 이 프로그램이 처음이다.

고 교수는 “우리가 만들어 놓은 지식의 광장에서 우리 자신을 들여다볼 수 있는 또 하나의 거울을 갖추게 된 셈”이라고 말했다. 02-6363-3251

김형찬기자 khc@donga.com

  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0

댓글 0

지금 뜨는 뉴스

  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0