상세글 보기

[Refresh] Open Class – 데이터로 보는 야구

2017.08.30






포스트시즌을 앞두고 선수들도, 팬들도 기다림으로 설레는 요즘입니다. 이번 오픈클래스에서는 NC다이노스 데이터팀 임선남 팀장으로부터 세이버메트릭스의 역사와 현재 야구단에서 활용되는 데이터 분석 적용 사례에 대해 들어보는 시간을 가져봤습니다.





야구 기록의 기원이 된


헨리 채드윅의 야구 규칙





야구는 언제부터 기록의 스포츠가 되었을까요? 1856년, 『뉴욕타임즈』의 기자였던 헨리 채드윅(Henry Chadwick)은 우연히 야구 경기를 보고, 그 매력에 흠뻑 빠집니다. 본인의 직업을 살려 야구 기사도 쓰고, 심지어 새로운 규칙을 만들어 내면서 ‘야구의 아버지’라 불리게 되는데요. 심지어 야구 경기 중 애매한 판정이 생길 때, 심판이 되려 헨리 채드윅에게 규칙을 묻는 일도 있었다고 합니다. 뿐만 아니라 매일 야구장에 가서 경기를 관람할 수 없는 팬들을 위해 최초의 박스 스코어를 개발합니다. 인터넷이 없던 당시에는 박스 스코어로만 그날의 경기 결과, 선수들의 성적 등 야구 경기와 관련된 정보를 확인할 수 있었습니다.





야구 기록을 분석하는


‘세이버메트릭스’의 등장과 발전





‘세이버메트릭스(Sabermetrics)’란 새로운 야구 통계 분석법을 뜻하는 신조어입니다. ‘SABR’ 단체명과 ‘측정’을 의미하는 ‘Metrics’를 합친 것으로, 직역하면 ‘SABR 사람들이 모여서 하는 숫자 놀음’ 정도로 이야기할 수 있습니다. ‘SABR’은 야구의 역사, 사회학, 통계학 등 다양한 학문 연구를 목적으로 창립된 단체로, 야구를 좋아하는 사람이라면 전세계 누구나 가입 가능합니다. 


그러나 ‘세이버메트릭스’라는 단어를 만든 빌 제임스(Bill James)는 “야구를 객관적이고, 합리적인 방법으로 이해하고자 하는 연구”라고 정의 내리며, 이후로도 야구 데이터 분석을 위한 수많은 개념들을 만들어 냅니다. 득점-실점 기록으로 팀 승률을 추정하는 ‘피타고리언 기대 승률(Pythagorean Winning Percentage)’을 대표적으로 꼽을 수 있습니다. 이후 다른 연구자들에 의해 10개 이상의 식이 개발되었지만, 메이저리그 기준으로 빌 제임스의 함수가 가장 정확한 승률을 낸다고 합니다. 이 외에도 OPS(출루율+장타율)를 고안한 피트 팔머(Pete Palmer) 등의 기여로 오늘날 모든 구단에 데이터를 연구하는 사람들이 자리하게 된 것입니다.





대중화된 세이버메트릭스,


야구 데이터 분석의 단위를 알아보다



NC다이노스에서는 KBO리그의 선수들을 평가하고, 미래의 기록을 예측하는 데 데이터를 활용합니다. 또한 외국인 선수 영입을 추진하거나 연봉 계산을 할 때도 도움을 얻습니다.





스포츠 중계방송이나 기사, 인터넷을 통해 ‘세이버메트릭스’ 지표를 흔히 접하게 되면서, 야구 데이터 분석법을 궁금해하는 팬들이 늘고 있습니다. 구단에서는 크게 ‘시간, 주체, 영역’ 단위로 나눠 데이터를 분석하고 있습니다. 


 ᆞ기간 : 야구에서 분석이 가능한 가장 작은 단위는 ‘투구’입니다. 공의 구속이나 위치, 스트라이크 여부 또는 날아간 공에 타자가 스윙을 했는지 등을 기록하고 분석합니다. 투구가 모이면 ‘타석’이 되며, 타자와 투수가 승부를 내는 결과라고 할 수 있습니다. 다음 단위는 ‘이닝’입니다. 아웃 카운터 3개가 될 때까지 어떤 일이 일어났는지를 기록하는 것이죠. 9회 이닝이 모여 ‘경기’가 되고, 경기가 쌓이면 ‘시즌’이 됩니다.  


ᆞ주체 : 야구에서의 시간 축이 완성됐다면, 다른 한 축에는 기록을 쌓는 주체가 새겨집니다. ‘개인 기록’을 시작으로, 다음은 1루수의 타율 내지는 구원 투수의 방어율을 기록하는 ‘집단 기록’이 생성됩니다. 팀 스킬에서 더 나아간다면, 최종적으로 ‘리그 기록’이 세워집니다. 


ᆞ영역 : 야구는 득점을 많이 하면 이기고, 실점을 많이 하면 지는 스포츠입니다. 더 나아가 3차원 축에서 공격은 타격과 주루, 방어는 투수와 수비로 나눠집니다.





[팩트 체크]


DTD(Down team is down)는 과학인가?



네, DTD는 과학이 맞습니다.


단어 자체는 굉장히 가벼워 보이지만, 야구계에서는 무서운 법칙으로 열거되는 DTD. 임선남 팀장은 DTD를 ‘평균으로의 회귀(regression the mean)’라고 풀어 설명하며, 사실상 통계학에서 굉장히 중요한 개념이라고 설명합니다. 





회귀분석으로 보면, DTD는 신기하리만큼 정확하다고 합니다. 하지만 그 결과는 언제든 변할 수 있다고 하는데요. 만약 3년 연속 최하위를 한 팀이 있더라도 팀이나 선수의 변화에 따라 순위 변동이 가능하다는 것입니다. 가장 큰 영향을 미치는 건 바로, 선수 개개인의 재능입니다. 예를 들어 젊은 선수가 경험을 쌓으면서 발전하거나, 투수코치가 팔 각도를 달리하여 성적이 좋아질 수 있기 때문입니다. 혹은 부상을 당하거나 노화로 인해 나쁜 방향으로 흘러갈 수도 있습니다. 이러한 변수는 데이터 연구자들을 힘들게 하지만, 반대로 야구를 보는 또 다른 재미가 되기도 합니다.





[관전 포인트]


야구를 즐겁게 보는 방법





‘There are three kinds of lies'라는 말에서 세 가지 거짓말은 거짓말(lies), 새빨간 거짓말(damned lies) 그리고 통계(and statistics)를 의미합니다. 명확한 수치를 나타내야 하는 통계가 간혹 새빨간 거짓말보다 더 최악의 거짓말을 할 때가 있다는 건데요. 이 경우, 목적을 먼저 설정했기 때문입니다. 결과를 정해두고 숫자를 끼워 맞추는 경우를 말합니다. 최근에는 온라인상의 혼란스러운 정보, 대중의 심리를 흔드는 목소리 큰 사람들이 문제를 일으키기도 합니다. 


"그래서 어쩌면 야구를 가장 재미있게 관람하는 방법은 여러 정보에 흔들리지 않고, 그저 즐거운 마음으로 야구를 관람하는 것이 아닐까 합니다."




 

야구 데이터에 대한 Q&A


Q. 통계적 분석이 용이함에도 불구하고, 통계적 분석을 안 하는 스포츠가 있을까요?


A. 거의 모든 스포츠 분석이 이뤄지는 미국과 달리, 아직 우리나라는 야구 외에 다른 스포츠 분석이 활발하지 않은 것 같습니다. 일단, 야구라는 스포츠가 다른 스포츠에 비해 통계분석이 유리한 이유는 ‘GO’와 ‘STOP’이 있기 때문입니다. 야구는 정지 순간이 있잖아요. 그래서 어떤 플레이가 이루어졌다가 투수가 던지는 동안에는 타석이 진행되지 않고, 아웃이 늘어나지 않으니 그 사이 변화를 수집할 수 있죠. 이것이 바로 야구가 스탯을 분석하기 좋은 이유입니다. 반면, 축구처럼 90분 내내 뛰어 멈춤이 없는 스포츠 분석은 상대적으로 어렵다고 볼 수 있습니다. 그러나 최근엔 추적 시스템이 활성화되어 골프공의 궤적, 스핀, 속도 또는 축구에서 선수의 움직임 등을 수집하는 개발시스템이 발전하고 있는 추세입니다. 곧 우리나라에서도 다양한 스포츠의 데이터를 분석할 날이 오지 않을까 싶습니다.



Q. 공이 던져지는 순간부터 수십 가지 유형으로 구분되어 선정되는 걸로 알고 있는데, 그것이 어떤 툴로 구분되어 들어가는 건가요?


A. 투구추적시스템을 말씀하시는 거 같은데요. 투구추적 기술은 비디오 추적과 레이더 추적으로 나누어집니다. 우리나라 대부분 구장에 둘 다 설치되어 있어요. 질문 주신 것처럼 투수가 공을 던지는 순간부터 추적이 되어 비디오는 고속화면으로 공에 회전을 분석하고요. 레이더의 경우, 어떤 구속이 어떤 방향으로 회전하는지 숫자로 추적합니다. 이렇게 쌓인 데이터에 대한 활용 방법은 계속해서 연구 중입니다.



Q. NC다이노스가 날로 좋은 성적을 거두고 있는데요. 팀장님의 업적이 기여됐다고 보는 사례가 있으신가요?


A. (웃음) 눈에 보이는 한 외국인 선수가 있긴 합니다. 창단 때부터 함께했기에 아마도 그 선수에게는 어느 정도 영향을 미치지 않았나 싶은데요. 그 외에 경기의 승리를 이끌어가는 건 선수들과 코칭 스텝의 수고 덕분이라고 생각합니다. 오늘의 경기를 이기는 건 선수단의 몫이고, 저희는 내일, 다음 달, 내년, 이렇게 미래를 준비하는 역할을 하는 거죠.




국내 최초로 야구 데이터 분석을 시도한 임선남 팀장. 이제는 대부분의 구단에 데이터 분석이 활발히 활용되고 있는 만큼 매일을 준비하는 선수들에게 더 큰 도움이 되기를 기대해 봅니다.



저작자 표시 비영리 변경 금지
신고