4일 서울 역삼동 아마존웹서비스(AWS) 한국 사옥에서 양승도 AWS 솔루션즈 아키텍트 매니저가 ‘데이터 레이크’에 대해 설명하고 있다.© News1
세계 최대 동영상 스트리밍 업체 넷플릭스의 경쟁력은 잘 알려진대로 빅데이터에서 나왔다. 넷플릭스는 이용자들의 시청 패턴을 분석해 취향에 맞는 프로그램을 추천해줄 뿐만 아니라, 그들이 원하는 스토리와 배우들을 골라 프로그램을 만들기까지 한다. 과연 이들은 전세계 1억여명의 시청자가 매일 1억시간 이상 시청하며 쏟아내는 이 거대한 데이터를 어떻게 관리할까.
넷플릭스는 아마존웹서비스(AWS) 클라우드를 통해 이 방대한 영상 데이터를 처리한다. 4일 서울 역삼동 AWS 한국사옥에서 만난 양승도 AWS 솔루션즈 아키텍트 매니저는 “넷플릭스는 일찍부터 ‘데이터 레이크’(data lake) 방식을 도입했다”면서 “최근 국내외에서 데이터 레이크를 도입하는 곳이 늘고 있다”고 말했다.
‘데이터 레이크’는 기업이 수집한 모든 종류의 원시 데이터를 단일 저장소에 한꺼번에 저장하는 데이터 처리방식이다. 처음부터 일일이 데이터를 분류해 가공해서 저장하는 대신, 원래 모습 그대로 한 곳에 모아놓고 목록만 작성해 놨다가 분석하고자 하는 목적과 방법에 따라 필요한 데이터만 꺼내 사용하는 식이다.
AWS의 클라우드 스토리지 ‘S3’를 활용해 데이터 레이크 방식의 빅데이터 처리방식을 설계한 미국 금융산업규제협회(FINRA)는 하루 750억건의 거래 데이터를 수집해 분석하고 5페타바이트 규모의 데이터를 저장하면서 연간 1000만~2000만달러를 절감하고 있다.
부동산 정보서비스 기업 ‘레드핀’(REDFIN)은 수억건의 부동산 정보와 수백만의 고객 정보를 데이터 레이크 방식으로 관리한다. 이를 알고리듬으로 분석해 자동으로 매물이 언제 거래될지 예측해 알려주는 ‘핫홈스’(Hot Homes) 서비스가 이용자들에게 인기를 끌고 있다.
이밖에 세계 최대 전자상거래 사이트 아마존닷컴과 세계 최대 식자재 유통기업 시스코(Sysco), 엔테인먼트 기업 21세기폭스 등 수많은 기업들이 데이터 레이크 방식으로 데이터를 저장해 활용하고 있다.
양 매니저는 “데이터의 소비 패턴이 달라지면서 저장방식도 달라진 것”이라며 “기업들이 다양한 목적으로 데이터를 분석하기 시작하면서 어떤 방식으로 데이터를 저장하고 관리할 것인지 고민 끝에 나온 게 데이터 레이크 방식”이라고 설명했다.
(서울=뉴스1)