구글-하버드大, 1800∼2000년 발행 서적 520만권 DB 완성

  • 동아일보
  • 입력 2010년 12월 18일 03시 00분


시대 따른 특정 단어 사용빈도 한눈에

세계 최대 검색엔진 구글과 미국 하버드대 연구팀이 1800∼2000년 사이에 발행된 전 세계 서적 520만 권을 디지털화해 그동안의 문화적 흐름 변화를 파악할 수 있는 획기적인 서적검색 서비스를 개발하는 데 성공했다. 4년 만에 완성된 이 데이터베이스는 5000억 개의 단어로 이뤄져 있다.

최대 5개 단어까지 단어 또는 문구를 입력한 뒤 검색하면 시대 흐름에 따라 특정 단어의 사용 빈도가 어떻게 달라졌는지를 보여준다. 이 같은 연구 성과는 학술지 사이언스 최신호를 통해 16일 공개됐으며 구글도 이날 웹사이트(ngrams.googlelabs.com)를 통해 관련 서비스를 시작했다. 뉴욕타임스(NYT)는 그동안 데이터베이스 부족으로 수량적 연구를 기피해온 인문학자들에게 새로운 기회를 제공했다고 높게 평가했다.

지난 200여 년의 문화적 흐름의 분석이 가능한 데이터베이스가 개발된 덕분에 흥미로운 사실들이 속속 밝혀지고 있다.

연구 결과에 따르면 20세기 중반에 태어난 유명인사들은 평균 29세에 명성을 얻었으나 19세기에 출생한 명사들은 이보다 훨씬 늦은 평균 43세가 돼서야 유명해졌다. 20세기 명사가 19세기 명사에 비해 더 널리 알려졌지만 대중에게서 잊혀지는 속도는 더 빨랐다. 단어 ‘남성(men)’과 ‘여성(women)’의 노출 빈도는 여성의 사회적 지위향상과 더불어 큰 변화를 겪었다. 19세기 전반 남성은 여성에 비해 각종 서적에 거의 9배나 더 많이 등장했으나 1985년에 대등해진 뒤 1994년에는 여성의 노출 빈도가 남성을 압도했다.

특정 국가의 검열 행태도 데이터베이스 분석을 통해 알 수 있다. 예를 들어 1989년 중국의 대표적인 민주화운동이 일어난 ‘톈안먼광장’ 역시 1989년 이후 중국어 서적에 비해 영어 서적에서 훨씬 많이 등장하는데 이는 중국이 해당 단어를 검열했다는 증거라고 영국 일간 가디언은 지적했다.

또 영어 단어는 21세기 들어 매년 8500개가량씩 늘면서 102만 개를 넘어선 것으로 조사됐다. 특히 1950년과 2000년 사이에 영어 어휘가 70%나 증가했다. 연구진은 각종 서적에 등장하는 단어 중 약 52%는 사전에 등재되지 않는 것으로 추정된다며 이들은 어휘계의 ‘암흑물질’이라고 밝혔다.

성동기 기자 esprit@donga.com
  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0

댓글 0

지금 뜨는 뉴스

  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0