미국 메이저리그 LA 다저스 류현진(32)이 올해 사이영상 ‘최후의 3인’에 이름을 올릴 수 있을까요. 사이영상은 미국야구기자협회(BBWAA) 소속 기자단 투표로 수상자를 결정합니다. 최우수선수(MVP)나 올해의 신인상, 올해의 감독상도 마찬가지. 먼저 부문별 최고 득표자 3명을 공개한 뒤 순차적으로 최종 수상자를 발표합니다.
올해는 11월 5일 최후의 3인을 소개하고 12일 신인상, 13일 감독상, 14일 사이영상, 15일 MVP 투표 결과를 각각 공개합니다. 따라서 류현진이 올해 내셔널리그 사이영상을 차지하려면 일단 최후의 3인에 이름을 올려야 합니다.
류현진은 올해 14승 3패, 평균자책점 2.32를 기록해 사이영상을 노려볼 만하다는 평가를 받았습니다. 평균자책점은 메이저리그 전체 1위고, 다승은 공동 6위에 해당하는 성적입니다. 투표 결과에 영향을 미칠 확률은 낮지만, 아시아 출신 투수가 메이저리그 평균자책점 1위를 차지한 건 올해 류현진이 처음입니다.
러닝머신? 머신러닝!
과연 류현진이 최후의 3인에 이름을 올리는 것은 물론, 최종 수상자가 될 수 있을까요. 컴퓨터에게 한번 물어봤습니다.
물론 여전히 머신러닝보다 러닝머신이 익숙한 사람이 더 많겠지만 ‘베이스볼 비키니’ 독자 가운데는 “이런 낱말을 난생처음 들어봤다”는 분은 없을 겁니다. 머신러닝 또는 기계학습은 사람이 공부하는 것처럼 컴퓨터(기계)를 학습시켜 스스로 판단하고 결정하게 만드는 기술을 일컫는 말입니다.
원래 AI(인공지능)를 개발할 때는 사람이 일일이 규칙을 입력해야 합니다. 이때 머신러닝을 활용하면 컴퓨터가 각종 통계적 기법으로 데이터를 분석해 스스로 규칙을 만들어냅니다. 예를 들어 G메일은 어떤 e메일이 스팸메일인지 아닌지를 판단할 때 머신러닝을 활용합니다.
그렇다면 머신러닝을 활용해 사이영상 수상자도 예상할 수 있지 않을까요. 먼저 2009~2018년 최근 10년 동안 규정 이닝을 채운 투수 총 751명이 남긴 기록을 토대로 컴퓨터에게 공부를 시켰습니다. 컴퓨터가 공부한 기록은 △투구 이닝 △다승 △패배 △‘팬그래프스’의 대체 선수 대비 승리 기여도(fWAR) △평균자책점 △수비 영향을 제거한 평균자책점(FIP) △탈삼진 △볼넷 △피홈런 △9이닝당 탈삼진(K÷9) △9이닝당 볼넷(BB÷9) △삼진 대 볼넷 비율(K÷BB) △인플레이 타율(BABIP) 등 13가지였습니다. 그리고 이 13가지 기록별 순위를 토대로 사이영상 수상자를 예상해보라고 명령을 내렸습니다(머신러닝에 익숙한 분들에게 말씀드리자면 ‘랜덤 포레스트’ 방식을 활용했습니다).
컴퓨터가 예상한 2019년 사이영상 수상자는…
그 결과 컴퓨터는 양대 리그 사이영상 수상자 20명 가운데 18명(90%)을 맞혔습니다. LA 다저스가 속한 내셔널리그 수상자는 전부 정확히 맞혔고, 아메리칸리그에서는 2012년과 2016년이 틀렸습니다. 2012년 사이영상은 데이비드 프라이스(34·당시 탬파베이 레이스)에게 돌아갔지만 컴퓨터는 저스틴 벌랜더(36·당시 디트로이트 타이거즈)가 받으리라 예상했고, 실제로는 릭 포셀로(31·보스턴 레드삭스)가 주인공이던 2016년 사이영상도 역시 벌랜더를 수상자로 예상했습니다.
이 두 번은 실제 승부도 박빙이었습니다. 2012년에는 프라이스가 153점, 벌랜더가 149점으로 4점 차이밖에 나지 않았습니다. 2016년에도 포셀로 137점, 벌랜더 132점으로 5점 차이로 수상자가 나왔습니다. 사이영상은 기자 1명이 1~5위를 정해 투표하면 순위에 따라 7, 4, 3, 2, 1점을 부여하는 방식으로 수상자를 결정합니다. 그러니까 벌랜더가 1위 표를 한 장만 더 받았어도 수상자가 바뀔 수 있는 상황이었습니다.
컴퓨터가 이런 결정을 내릴 때는 여러 통계적 기법을 활용하게 됩니다. 이번 사이영상 예측 모델은 각 기록에 서로 다른 가중치를 줘 수상자를 예측했습니다.
컴퓨터가 제일 중요하다고 판단한 기록은 평균자책점이었습니다. 평균자책점이 중요한 정도를 100이라고 하면 그다음으로 중요한 다승은 61.3이었습니다. 이를 뒤집어 말하면 투표인단이 투표 과정에서 평균자책점을 중요하게 생각한다는 뜻이기도 합니다. 일단 평균자책점 1위를 차지한 류현진에게 유리한 결과입니다. 평균자책점과 다승 다음으로는 fWAR(42.6), 탈삼진(29.5), FIP(21.8)가 5위 안에 들었습니다.
메이저리그 팬 중에는 “사이영상을 타려면 ‘이닝 이팅 능력’이 제일 중요하다”고 믿는 분이 적잖고, 실제로 ‘200이닝도 못 던진 투수에게 사이영상을 주는 게 옳은가’라는 논란이 일었던 적도 있지만 컴퓨터는 ‘이닝 이팅이 13개 기록 가운데 9번째로 중요하다, 5번째로 덜 중요하다’고 판단했습니다. 이 역시 182와 3분의 2이닝(내셔널리그 13위) 소화에 그친 류현진에게는 유리한 결과입니다.
이와 같이 어떤 기록이 사이영상 수상에 영향을 끼쳤는지 분석해 과거 수상자를 예상해냈다면 올해 수상자도 예측할 수 있겠죠. 컴퓨터에게 같은 기록을 주고 올해 수상자도 예측해보라고 했습니다.
그 결과 컴퓨터는 제이컵 디그롬(31·뉴욕 메츠)이 2년 연속 내셔널리그 사이영상을 탈 것이라고 예상했습니다. 디그롬은 평균자책점(2.43) 2위, 다승(11승) 공동 34위로 류현진보다 순위가 낮지만 fWAR는 7.0으로 내셔널리그 투수 가운데 제일 높고, 삼진도 내셔널리그 투수 가운데 제일 많이 잡았습니다(255개). FIP 2.67도 내셔널리그 2위에 해당하는 성적입니다.
류현진은 fWAR(4.8) 5위, 탈삼진(163개) 20위, FIP(3.10) 4위로 디그롬보다 기록이 떨어집니다. 그런 이유로 컴퓨터는 류현진이 디그롬은 물론, 스티븐 스트라스버그(31·워싱턴 내셔널스)에게도 뒤진 3위를 기록할 것이라고 예상했습니다. 컴퓨터 예상 점수는 디그롬 128점, 스트라스버그 93점, 류현진 60점이었습니다.
아메리칸리그는 두 투수가 박빙입니다. 컴퓨터는 게릿 콜(29·휴스턴 애스트로스)이 161점을 얻어 팀 동료 벌랜더(159점)를 2점 차이로 제치고 사이영상을 타리라 예측했습니다. 앞서 본 것처럼 이 정도 차이면 실제 결과가 다르게 나온다 해도 이상하지 않은 수준입니다.
컴퓨터가 답을 못 찾을 때는 다시 사람에게 물어보는 것도 방법입니다. 미국 스포츠 도박 배당률 정보를 소개하는 한 사이트에 따르면 두 후보의 배당률(머니라인)은 콜 -140, 벌랜더 +100입니다. 콜이 사이영상을 탄다는 데는 140달러를 걸어야 100달러를 딸 수 있다는 뜻이고, 벌랜더는 100달러를 걸면 100달러를 딸 수 있다는 뜻입니다. 미국 스포츠 도박사들도 콜이 사이영상을 탈 확률이 더 높다고 보는 겁니다.
도박사들 전망은?
류현진은 배당률 +1200으로 내셔널리그 5위에 이름을 올렸습니다. 9월이 시작될 때만 해도 +150으로 내셔널리그 1위였지만 한 달 사이 5위까지 내려왔습니다. 사람들이 컴퓨터보다 류현진에게 더 ‘짜게’ 구는 셈입니다.
1위 자리를 차지한 건 6월부터 류현진과 엎치락뒤치락 경쟁을 벌인 디그롬(+150)입니다. 이번에도 스트라스버그가 +175로 디그롬 다음입니다. 이어서 잭 플래허티(24·세인트루이스 카디널스)가 +500으로 3위, 맥스 셔저(35·워싱턴 내셔널스)가 +1000으로 4위입니다.
종합하면 컴퓨터나 사람이나 내셔널리그에서는 디그롬, 아메리칸리그에서는 콜이 올해 사이영상을 탈 확률이 제일 높다고 보고 있는 셈입니다. 실제 결과도 그럴까요. 11월 14일이 되면 그 결과를 알 수 있습니다.
댓글 0