본문 바로가기
데이터 분석/축구 데이터 분석

7. EPL 20/21 경기 배당률과 발생한 점수 관계

반응형

7. EPL 20/21 경기 배당률과 발생한 점수 관계

 

 


재미로 보는 축구 데이터 , 일곱 번째는 EPL 20/21 경기 배당률과 발생한 점수 관계입니다.

 

축구 경기에서 강팀과 약팀의 경기에서 골이 많이 등장할까요? 아니면 비교적 비슷한 전력의 팀들끼리의 경기에서 골이 많이 등장할까요?

 

전자의 경우 강팀이 약팀을 찍어 눌러 골이 많이 나올 것이라고 생각할 수도 있고 , 후자의 경우 비슷한 전력이기 때문에 난타전으로 이어져 골이 많이 나올 수 있다고 생각할 수 있습니다.

 

반대로 또 강팀과 약팀의 대결에선 약팀이 전부 수비만 하여 골이 적게 등장할 수 있고 , 비슷한 전력의 팀들 간의 대결에서는 공격과 수비의 레벨이 비등비등하기 때문에 골이 더 적게 등장한다고 생각할 수도 있습니다.

 

이러한 의문을 풀어보기 위해 EPL 20/21 시즌의 결과를 통해 살펴보도록 하겠습니다.

 


 

필요한 정보는 EPL 20/21 시즌의 경기 스코어 , 경기의 배당률입니다.

 

경기의 배당률의 경우 , 강팀과 약팀 경기인지 , 보통의 경기인지를 나누는 지표가 될 수 있습니다.

 

만약 어떠한 경기의 A팀 승리 배당이 1.05 ,  B팀 승리 배당이 10.55 라면 이 경기는 약팀과 강팀의 대결임을 손쉽게 알 수 있습니다.

 

따라서 각 경기별로 A팀의 승리 배당 - B팀의 승리 배당 값을 절댓값으로 두어 경기가 강팀과 약팀의 경기인지 , 비교적 비등비등한 팀의 경기인지 판단하도록 하겠습니다.

 

사용할 경기와 배당에 관한 정보는 이전 글에서 크롤링 한 EPL 20/21 경기 정보를 가지고 사용합니다.

 

 

EPL 20/21 시즌 점수 및 배당 정보

 

 

언제나 스포츠 배당 정보를 사용하는 글들에는 다음과 같은 말씀을 꼭 드리고 있습니다.

 

본 글에서는 대한민국 체육진흥투표권 합법 스포츠 토토 인터넷 발매 사이트인 베트맨 토토의 배당정보를 사용합니다.

 

또한 본글은 불법 스포츠 토토와 도박 등에 대해서 권장하지도 않고 , 스포츠 토토를 추천하는 글이 아님을 밝힙니다.

 

축구 데이터를 분석해보고자 하는 입장에서 사용하는 배당 데이터 일 뿐 , 스포츠 토토와는 아무런 관계가 없습니다.

 

따라서 글을 읽어주시는 분들도 단순하게 재미로 읽어주시길 바랍니다.

 

 


 

 

다음 코드를 통해 score 배열에 해당 경기에서 발생한 배당 차이를 기록합니다.

 

만약 경기에서 발생한 점수합이 5점이라면 score [5] 안의 배열에 해당 경기의 배당 차이의 절댓값 (ex 5

3)이 추가됩니다.

 

모든 경기는 38 * 20 = 760 경기이고 , A VS B , B VS A의 중복된 경우를 제외하면 760 / 2 = 380 경기입니다.

 

import openpyxl

btk = openpyxl.load_workbook("./2021epl.xlsx")
btk_sheet = btk.active

score = [[] for i in range(20)]

for i in range(1,780):
    if btk_sheet["C{}".format(i)].value != None:
        k = abs(round(float(btk_sheet["E{}".format(i)].value) - float(btk_sheet["G{}".format(i)].value) , 3))
        score[int(btk_sheet["C{}".format(i)].value) + int(btk_sheet["D{}".format(i)].value)].append(k)

 

 

코드를 보기에 앞서 결과를 대략적으로 살펴보도록 하겠습니다.

 

다음은 해당 점수합을 얻은 경기들 에서 기록된 배당 차이의 평균입니다.

 

 

 

어떠한 경기들 에서 점수의 합이 4점이 났었다면 , 그 경기들의 배당 차이 평균은 약 3.4입니다.

 

다음은 해당 점수합을 얻은 경기들 에서 기록된 배당 차이의 중앙값입니다.

 

 

 

 

평균은 데이터의 특이치 즉 , 튀는 값들에 대해 영향을 많이 받으므로 데이터의 분포가 치우치거나 표본의 수가 적은 경우 중앙값이 더 의미를 가지곤 합니다.

 

중앙값을 통해 확인한 경우 , 평균보다 조금씩 값이 내려간 것을 볼 수 있습니다.

 

이는 각 경우들에 대해 높은 배당 차이를 보여주는 데이터 즉 특이치들이 섞여 있었다는 것을 의미합니다.

 

숫자로 보니 잘 체감이 되지 않습니다. 아래 그림을 통해 평균과 중앙값의 변화를 그래프로 확인해보겠습니다.

 

 

 

발생한 점수 / 배당 평균

 

 

 

발생한 점수 / 배당 중앙값

 

 

 

평균의 경우 , 조금 들쭉날쭉 하지만 그래도 점수합이 높아질수록 배당 차이도 높아지는 경향을 보여주고는 있습니다.

 

이러한 경향은 중앙값 그래프에서 더욱 잘 보이고 있습니다.

 

평균과 중앙값 그래프들이 보여주는 결과는 점수합이 크게 나온 경기들은 대부분 배당 차이가 컸음을 이야기하고 있습니다.

 

하지만 위의 그래프 들을 통해서는 큰 의미를 발견하지는 못합니다.

 

만약 어떠한 경기의 배당 차이가 2 만큼 난다고 했을 때 , 위의 그래프를 통해 딱 어느 점수가 날 거라고 이야기할 수는 없습니다.

 

중앙값 그래프에서 볼 수 있듯이 2 , 3 , 4 , 5 점 모두 발생할 수 있습니다.

 

또한 표본이 매우 적어 데이터에 대한 신뢰성이 없는 것 역시 문제입니다.

 

 

혹시 배당 차와 점수합에 대해 경향성이 있는지 더 확실히 알아보기 위해 산점도 그래프를 확인하겠습니다.

 

 

 

x = 배당차이 / y = 점수합

 

 

위의 산점도 그래프를 통해서도 특별한 경향성은 보이지 않습니다.

 

알 수 있는 점은 일단 배당 차이가 0 ~ 5 사이의 데이터가 많다는 것 , 그리고 이 데이터들은 점수합 0 ~ 7 사이에 고루 퍼져 있다는 것입니다.

 

이를 통해 위에서 평균과 중앙값에 대한 그래프가 왜 그렇게 나왔는지 결과를 짐작할 수 있습니다.

 

또한 이에 더해 배당 차이가 20 가까이 차이 나는 ( 예시 : EPL 20/21 시즌 15라운드 경기 맨체스터 시티 VS 뉴캐슬 경기 , 맨시티 승리 1.13 뉴캐슬 승리 20.12로 배당 차이는 약 19 지만 스코어는 2:0 ) 경기도 4점 , 5점 이상의 높은 점수를 기록하지 못했습니다.

 

 

위의 배당 차이들은 소수점이 존재하는 값들이기에 전부 떨어져 있어 함께 살펴보기 어려웠습니다.

 

이러한 문제점을 해결하기 위해 배당 차이를 반올림하고 정수 단위로 묶어 살펴보도록 하겠습니다.

 

또한 점수 합 역시 따로따로 살펴보니 딱 떠오르는 의미를 찾기가 어렵습니다.

 

점수합 역시 2점을 넘기는 경우 ( 점수합 > 2 ) , 3점 , 4점을 넘기는 경우로 나눠 구간으로 살펴보겠습니다.

 

즉 반올림한 배당 차이 ( 0 , 1 , 2 , 3... )과 일정 점수합을 넘은 경우 넘지 않은 경우 ( ex: X > 2 OR X <= 2 )를 함께 살펴보도록 하겠습니다.

 

 

 

y = Over 2 % / x = 반올림 배당차이

 

 

위의 그림은 Over 2 ( 3 , 4 , 5... 점 )과 Under 2 (0 , 1 ) 점을 기록한 경우를 퍼센티지로 나타낸 그래프입니다.

 

위의 그래프를 해석하자면 , 배당 차이를 반올림한 경우가 0일 때 , EPL 20/21의 경우 약 47%의 경우는 2점을 넘겼다고 해석할 수 있습니다.

 

즉 해당 그래프의 y 값은 점수합이 2점을 넘긴 경우의 비율을 이야기합니다.

 

x값이 커질수록 , 즉 배당 차이가 커질수록 존재하는 데이터의 수가 적어지기 때문에 일부러 배당 차이가 10까지 나는 경우만 그래프에 표시했습니다.

 

이외의 경우는 코드를 확인하시면 그에 대한 기록도 남아 있습니다.

 

위의 그래프를 통해서 살펴보니 , 배당차이가 커진다고 해서 점수합이 2점을 넘길 확률이 높아지지는 않고 있다는 사실을 알 수 있습니다.

 

특히 배당차이가 크게 나는 6 7 8 9 구간에서 확률이 더 낮아지고 있는 것을 볼 수 있습니다.

 

이러한 사실을 통해서 볼 때 , 배당 차이와 점수합 사이의 관계는 크게 없어 보입니다.

 

이어서 3점 , 4점을 넘길 확률도 살펴보겠습니다.

 

 

 

y = Over 3 % / x = 반올림 배당차이

 

 

 

y = Over 4 % / x = 반올림 배당차이

 

 

어떻게 보면 분석의 의미는 Over 3과 Over 4 그래프에서 찾을 수 있을 것 같습니다.

 

Over 3 그래프는 전 경우에 대해 50%를 넘지 못하는 결과를 보여주고 있습니다.

 

또한 Over 4 그래프는 전 경우에 대해 약 30%도 넘지 못하는 결과를 보여주고 있습니다.

 

이는 달리 말하자면 어떠한 경기에서 4점 이상 (Over 3) 낼 확률은 배당 차이가 어떻든 간에 50% 미만이라고 생각할 수 있습니다.

 

또한 5점 이상 (Over 4) 낼 확률은 배당 차이가 어떻든 간에 30% 미만이라고도 생각할 수 있습니다.

 

물론 데이터의 표본수가 부족하고 , EPL 20/21 데이터 만을 가지고 한 결과이기에 정확한 결과라고는 볼 수 없습니다.

 

좀 더 자세한 분석은 나중에 더 많은 데이터와 표본을 가지고 해 보도록 하겠습니다.

 

 

 

 

 


정리

  • 배당차이가 크다고 해서 , 작다고 해서 무조건 점수합이 크고 작게 나오는 것은 아니다.
  • 배당 차이가 어떻던지 점수합이 4점 , 5점 이상인 경우는 확률상 잘 등장하지 않는다.
  • 정확한 분석을 위해서는 다른 리그의 데이터들이나 EPL 다른 시즌의 데이터들까지 함께 사용할 필요가 있다.
반응형