구글의 검색 순위 알고리즘이 담긴 내부 문건이 외부로 유출되면서 파문이 일었다. 구글이 검색 결과에서 웹페이지를 표시할 순서를 결정할 때 어떤 요소를 고려하는지에 대한 상세한 내용이 담긴 문서다.
유출 사실은 검색 엔진 최적화(SEO, Search Engine Opitimization) 분야 전문가들이 홈페이지에 문서 내용을 분석한 내용을 홈페이지에서 게시하면서 널리 알려졌다. 마케팅 업체인 스파크토로의 랜드 피쉬킨은 지난 5일 익명의 제보자로부터 유출 사실을 제보받고 진위 여부 확인과 분석에 착수했다고 밝혔다.
2500페이지에 달하는 해당 문서는 구글 측 실수로 공개된 후 지난 3월 코드 관리 서비스인 깃허브에 업로드되어 이달 7일까지 게시되었다가 삭제됐다. 하지만 여전히 사본에는 접근이 가능한 것으로 알려졌다.
구글은 이 문서의 진위 여부에 대해 침묵하다가 파장이 확산한 후인 지난 30일(현지시각), 문서가 실제 내부 문건이 맞다고 인정했다. 미국 매체 더버지는 유출 문건에 대한 논평 요청에 구글 측이 “문맥을 벗어났거나, 오래되었거나, 불완전한 정보를 기반으로 검색에 대한 부정확한 가정을 하지 않도록 주의해야 한다”는 입장을 밝혔다고 전했다. 문서가 실제 내부 문건이 맞다는 건 인정하되 현재는 새로운 버전으로 업데이트되었거나 분석 내용이 사실과는 다를 수도 있음을 시사하는 모양새다.
베일에 싸여있던 구글의 검색 순위 알고리즘의 구체적 내용이 처음으로 드러난 만큼 마케팅, 미디어 등 관련 업계에 미치는 파장은 상당할 전망이다.
문서를 분석한 전문가들은 특히 구글이 공개적으로 밝혀왔던 것과 모순되는 내용이 담겨있다는 데 주목했다. 관련 분야 전문가들이 그간 구글 검색 순위 알고리즘에 대한 가설을 제시할 때마다 구글은 이를 부인해왔는데, 문서에는 구글이 부인한 가설들 상당수가 사실임을 나타내는 증거와 정황이 담겨있다는 것이다. 피쉬킨과 함께 문서를 분석한 SEO 전문가 마이크 킹은 “거짓말은 가혹한 표현이지만, 여기서 사용할 수 있는 유일하게 정확한 단어”라고 꼬집었다.
가령 구글은 그간 검색 순위를 매기는 데 클릭 관련 지표를 사용하지 않는다고 여러 차례 반복적으로 강조해 왔다. 하지만 실제로는 클릭 수, 클릭 사이 시간 간격 등 클릭 관련 데이터를 수집하고 있는 것으로 문서에 드러났다. 구글 검색 부문 부사장인 판두 나약(Pandu Nayak) 또한 지난해 10월 미국 법무부가 구글을 상대로 제기한 반독점 재판에 증인으로 출석해 클릭 기반으로 검색 결과 순위를 매기는 내브부스트(NavBoost)라는 시스템의 존재를 인정한 바 있다.
구글 크롬 브라우저를 통해 수집한 이용자의 클릭스트림 데이터도 검색 결과에 반영하는 내용도 있는 것으로 드러났다.이 또한 구글 측의 기존 주장과는 상반되는 내용이다.
클릭스트림은 어떤 이용자가 클릭으로 어떤 웹페이지에 방문했는지를 나타내는 일종의 디지털 이동 경로다. 랜드 피시퀸에 따르면 익명의 제보자가 구글이 크롬을 만든 주요 동기 자체가 전 세계 인터넷 이용자들의 클릭스트림 데이터를 원했기 때문이라고 주장했다고 전했다.
이외에도 구글 관계자들이 부정해 왔던 특정 웹사이트의 신뢰성과 권위를 평가하는 도메인 권위 지표, 신생 웹사이트나 신뢰가 부족한 웹사이트를 검색 결과에서 분리하는 샌드박스 또한 문서를 통해 그 존재가 확인됐다.
문서에는 구글이 수집한 데이터가 실제로 검색 결과 순위를 매기는 데 사용되는지, 그리고 얼마만큼 가중치를 부여하는지에 대한 내용까지는 문서에 담기지 않은 것으로 전해졌다. 구글 또한 특허와 백서 등에 포함된 내용이 반드시 실제 제품, 서비스에 꼭 적용되는 건 아니라고 주장한다.
하지만 전문가들은 구글이 클릭 관련 지표를 검색 순위에 반영하고 있다는 걸 사실상 확신하는 분위기다. 마이크 킹은 “내브부스트가 구글의 정보 검색 시스템이 중요한 부분이 아니라면 이를 구축하고 포함하는 건 무의미 일이 될 것”이라며 “구글이 순위 알고리즘의 일부로 클릭 및 클릭 후 행동 데이터를 사용한다는 데는 의심의 여지가 없다”고 말했다.
댓글 0