[세계의 뉴미디어를 가다]<7>뉴스와 빅데이터의 만남 ‘스플렁크’

  • 동아일보
  • 입력 2017년 12월 1일 15시 56분


어떤 사람이 5분 동안 어떤 뉴스 웹사이트를 방문했다고 가정하자. 여기에서 수백 개의 데이터가 생성된다. 검색창에 기사를 검색하고, 댓글을 등록하는 등 사용자의 의도가 담긴 작업 이외에도, 사용자가 어떤 기사에서 몇 초 동안 머물렀는지, 어떤 분야의 기사를 연속해서 읽었는지 등의 행위가 모두 정보가 되기 때문이다.

이것을 기계 내부에서 생성되는 정보, 즉 ‘머신 데이터(Machine Data)’라고 한다. 1개의 웹사이트에서 하루 동안 생성되는 머신 데이터만 수십 테라바이트(TB)에 달한다. 때문에 이 머신 데이터 분석은 현대 기업의 생산성을 극대화하는데 매우 중요하다. 생산 공정에서 발생하는 기계 데이터를 실시간으로 보고 최적화된 시스템을 만들 수 있기 때문이다.

미국 샌프란시스코에 위치한 빅데이터 분석 전문 기업 ‘스플렁크(Splunk)’는 이 머신 데이터를 관리하는 회사다. 스플렁크라는 회사 이름은 이런 방대한 데이터의 ‘동굴을 탐험한다(spelunk)’는 뜻에서 지어졌다. 그런데 이 데이터를 관리하는 게 왜 미디어 혁신과 관계가 있을까. 이 의문을 안은 채 8월 4일 스플렁크 본사를 찾았다.

○빅데이터와 피자

스플렁크 본사는 샌프란시스코 동쪽 해안(피어 30)에서 약 500m 떨어진 곳에 자리 잡고 있었다. 통유리로 된 깔끔한 7층 건물은 겉보기에는 다른 건물과 별반 다르지 않았다. 그러나 문을 열자 완전히 새로운 세상이 펼쳐졌다. 사람들이 스탠딩 파티에서처럼 접시를 들고 아침 식사를 하고 있었다. 한쪽에는 커다란 블록과 포켓볼대가 구비된 놀이 공간이 보였다.

한국계인 조용현 스플렁크 기술마케팅 이사(43)가 기자를 놀이 공간 바로 옆쪽에 마련된 회의실로 안내했다. 회의실 스크린에는 색깔과 비율이 실시간으로 변하는 원그래프가 띄워져 있었다. 조 이사가 프로그램에 특정 IP주소를 입력하자 이번에는 그래프가 꺾은선 그래프로 드라마틱하게 변했다.

조용현 스플렁크 이사
조용현 스플렁크 이사

조 이사는 “도피노 피자 홈페이지를 통해 소비자들이 어떤 피자를 구매하는지 실시간 트래픽을 보여주는 그래프”라며 “그래프를 바꿔 특정 지역에 사는 소비자가 과거부터 지금까지 피자를 얼마나 구매했는지도 쉽게 파악할 수 있다”고 설명했다.

빅데이터 저널리즘을 취재하는 데 웬 피자 얘길까. 함께 있던 엔지니어 아담 올리너(Adam Oliner·35) 씨는 “사용자들이 홈페이지에서 남기는 미세한 ‘발자국(footpring)’을 통해 취재나 인터뷰로는 알 수 없는 새로운 스토리텔링(storytelling)”이 가능하다고 답했다.

현재 미국 경제전문지 포춘이 매년 발표하는 매출액 순위 세계 최대기업 100개 중 85개가 스플렁크를 통해 머신 데이터를 분석하고 있다. 전 세계적으로 1만3000개 기업, 국내에서도 350개 기업이 머신 데이터를 분석한다. 2003년 설립된 스플렁크는 2012년 나스닥 시장에 상장돼 작년 한해에만 949억 9500만 달러(한화 약 1조 564억 원)의 매출을 올렸다.

최근 영국 공영방송 ‘BBC’, 미국의 ‘디스커버리’ 등 미디어 회사에서도 머신 데이터에 관심을 보이고 있다. 그동안 미디어 업계에서의 빅데이터 분석은 주로 언어 데이터를 구조화 해 숨은 의미를 찾아내는 작업이었다. 구글이 발표한 ‘인공신경망 기계 번역(NMT·neural machine translation) 기술이 대표적이다. 입력한 단어를 소재로 콘텐츠를 인식하고, 키워드를 추출하고, 관련 연구 동향, 웹정보, 단어에 실린 감정을 분석하는 기술이 주목을 받았다.

최근에는 여기서 한 발 더 나아가 미디어를 소비하는 행태까지도 분석 대상이 된다. 예를 들어 자체 쇼핑몰을 운영하는 BBC는 독자들이 어떤 기사를 읽고 난 뒤 물건을 구매하는지, 장바구니에 담아 놓고 사지 않는 확률이 얼마인지, 구매 절차가 10초 이상 소요되는 경우는 몇 퍼센트인지를 분석한다.

○미래 예측과 보안

머신 데이터를 저장하고 분석하는 과정은 일종의 ’기계 학습(머신 러닝)‘이다. 사용자의 발자국들은 #이름 #시간 #장소 등의 태그와 함께 자동으로 저장된다. 그러면 검색 엔진에 단어를 입력해 검색하듯, 알고자 하는 질문을 입력하면 색인된 정보가 끌려 올라온다.

스플렁크는 이런 분석 프로그램을 직접 코딩하지 않아도 사용할 있도록 ’스플렁크 엔터프라이즈‘라는 소프트웨어를 제공하고 있다. ’스플렁크 베이스‘라는 사이트에 가면 스플렁크의 개발자와 고객 기업, 일반인들이 개발해 올려놓은 100개 이상 되는 무료 어플리케이션을 다운받을 수 있다.

기자도 들어가 ’비지니스 분석(business analytics)‘ 범주의 어플리케이션을 다운로드해봤다. 하루에 500메가바이트(MB)까지 데이터를 무료로 분석할 수 있다는 설명이 나왔다. 그 이상은 1기가바이트(GB) 당 1800달러(한화 약 206만 원)를 지불한다.

머신 데이터 분석은 미디어 산업을 어떻게 바꿔 놓을까. 올리너 씨는 “머신 데이터를 분석하면 미래에 어떤 콘텐츠가 인기를 끌지, 어떤 마케팅 전략이 통할지를 예측할 수 있다”고 말했다.

머신 데이터를 분석하면 최근의 랜섬웨어 감염 같은 중대한 보안 위협으로부터도 데이터를 지킬 수 있다. 해당 사이트의 평소 머신 데이터 흐름을 파악하고 있으면 비정상적인 머신 데이터가 나올 시 곧바로 알아차릴 수 있기 때문이다.

스플렁크의 보안을 책임지는 제이드 카탈라노(Jade Catalano·33) 씨는 “해커들이 언론사의 웹페이지에 악성코드를 감염시키면 불특정 다수의 개인에게 급속도로 퍼질 수 있다”며 “꾸준한 관리가 가장 중요하다”고 강조했다.

샌프란시스코=이영혜 동아사이언스기자yhlee@donga.com

QR코드를 스캔하면 ‘세계의 뉴미디어를 가다’ 인터랙티브 사이트(interactive.donga.com/newmedia)로 이동합니다. 각국 뉴미디어를 취재하며 촬영한 생생한 인터뷰 동영상, 사진, 각종 모바일 전용 콘텐츠를 즐길 수 있습니다.


#저널리즘#저널리즘혁신#뉴미디어#미디어스타트업#세계의뉴미디어를가다
  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0

댓글 0

지금 뜨는 뉴스

  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0