5. EPL 03/04~20/21 시즌 사이 가능한 등수 변화
재미로 보는 축구데이터 , 다섯 번째는 EPL 03/04 ~ 20/21 시즌 사이 가능한 등수 변화입니다.
만약 지난 시즌 4등이었던 팀이 6등으로 내려간다면 , 등수가 -2 되었다고 생각해 볼 수 있습니다.
EPL 03/04 시즌부터 20/21 시즌까지 전체 팀들이 시즌을 거치면서 등수가 어떻게 변화하였는지 살펴보고 ,
어떤 경우가 가장 많고 , 가장 적은 지 살펴보도록 하겠습니다.
필요한 정보는 EPL 03/04 ~ 20/21 시즌의 각 팀들의 등수 기록입니다.
해당 정보 안에는 강등된 팀과 승격된 팀들이 섞여 있습니다.
따라서 크롤링 결과를 통해 총 40개의 팀들이 EPL 03/04 ~ 20/21 시즌 사이에 있었음을 알 수 있었습니다.
위의 엑셀 사진에서 빈칸으로 공백 처리되어있는 칸들은 해당 팀이 이전 시즌에 강등되어 해당 시즌에는 1부 리그에 없었음을 의미합니다.
또한 A/B의 형태로 해당 시즌의 등수가 팀 별로 기록되어 있는데 A는 등수 , B는 해당 시즌에 얻은 승점을 의미합니다.
승점의 경우 나중에 다른 방법으로 활용하기 위해 같이 크롤링 해두었습니다.
등수의 차이를 기록하다 보면 예외 상황이 발생하는데 바로 팀이 승격한 경우와 강등한 경우입니다.
두 경우 모두 등수를 알 수 없는 상황이므로 3가지 경우에 나누어서 살펴보도록 하겠습니다.
1. 강등과 승격 모두 21등 처리
--> 승격의 경우 , 2부 리그의 1등 즉 21등을 했다고 가정하고 강등 역시 다음 시즌 21등이라고 가정하는 경우입니다.
1번에서 승격의 경우 , 2부 리그에서 상위 3팀에 들었어 1부 리그로 올라왔으니 2부리그 1등, 즉 21등이라고 가정해도 1/3 정도는 맞는 이야기이지만 , 강등의 경우는 어디까지 떨어질지 모릅니다.
따라서 1번의 경우보다 더 나은 경우가 필요합니다.
2. 승격만 21등 처리
--> 1번에서 보았듯이 , 강등한 팀의 경우 다음 시즌 베스트 등수가 21등입니다. 언제나 베스트 등수가 나오지 않으므로 강등의 경우는 보지 않도록 합니다.
3. 승격 , 강등 모두 보지 않음
--> 승격과 강등 모두 이전 혹은 이후의 2부 리그 등수를 알지 못하면 , 정확한 등수 차이를 알 수 없습니다.
따라서 해당 경우를 모두 제외하고 살펴봅니다.
이번 글에서는 1번 , 2번 , 3번의 경우를 모두 살펴보도록 하겠습니다.
아래 코드는 3번에 대한 코드입니다.
#승격 , 강등 둘 다 보지 않는 코드
import openpyxl
btk_tab = openpyxl.load_workbook("./Team_Table.xlsx")
btk = btk_tab.active
stack = []
for i in range(1,41):
for t in range(2,19):
first = str(btk.cell(i,t).value)
second = str(btk.cell(i,t+1).value)
if second != "None":
a, b = second.split("/")
if first != "None":
c, d = first.split("/")
stack.append(int(c)-int(a))
1번의 결과
승격과 강등을 모두 21등으로 처리하여 특정 점수 변화의 양이 늘어난 것을 볼 수 있습니다.
좀 더 납득 가능한 결과를 보기 위해 강등의 경우를 없애고 승격의 경우만 남겨 살펴보도록 하겠습니다.
2번의 결과
1번의 경우에서 강등의 경우를 제외한 결과입니다.
18 , 19 , 20등이 모두 강등되면 21등 처리되므로 -3, -2 , -1의 경우가 눈에 띄게 줄어든 것을 볼 수 있습니다.
승격의 경우도 모두 21등에서 올라오는 것이 아닙니다.
더 정확한 결과를 보기 위해 승격 , 강등의 경우를 모두 제외하고 살펴보도록 합니다.
3번의 결과
승격과 강등의 경우를 모두 제외한 결과입니다.
2번의 결과보다 특정 관측치의 개수가 적어진 것을 볼 수 있습니다.
3번 경우에 대해서는 직관적으로 보이는 결과가 있습니다.
바로 등수 변화의 최댓값과 최솟값입니다.
3번 경우는 모두 이전 시즌과 이번 시즌 모두 1부리그에 남아있던 팀의 등수 변화에 대한 결과입니다.
3번 경우의 최댓값이 의미하는 것은 이번 시즌 1부 리그의 팀들이 다음 시즌 아무리 잘해도 이번 시즌보다 14등 이상을 올라갈 수 없다는 것을 의미합니다.
반대로 최솟값의 경우는 이번 시즌 1부리그의 팀들이 다음시즌 아무리 못해도 이번 시즌보다 12등 만큼 더 떨어질 수 없다는 것을 의미합니다.
EPL의 경우 강등 커트라인이 18등 이므로 이번 시즌 1등~6등 까지는 데이터상 절대 강등이 안된다고 생각할 수 있다는 점입니다.
또한 우승에 도전하는 팀들을 추려낸다면 지난 시즌보다 14등 이상 올릴 수 없으므로 , 이번시즌 최종 등수가 15등 , 16등 , 17등이었던 팀들은 데이터 상 우승할 수 없습니다.
해당 데이터에 대해서 평균 , 분산 , 표준편차 등을 고려하고 각각의 데이터들의 분포를 확인하면 다른 결과도 얻을 수 있습니다.
기회가 된다면 다른 글을 통해서 살펴보도록 하겠습니다.
정리
- EPL 03/04~20/21의 기록을 통해 살펴본 결과 , 지난 시즌과 이번 시즌 모두 1부 리그에 있던 경우에 대해 지난 시즌과 이번 시즌 등수 변화로 가능한 경우는 -11등부터 +13등이다.
- 이번 시즌 최종 등수가 15등 , 16등 , 17등이었던 팀들은 데이터 상 다음 시즌 우승 가능성이 없다.
- 이번 시즌 최종 등수 1등 ~ 6등까지는 데이터상 다음 시즌의 강등 가능성이 없다.
'데이터 분석 > 축구 데이터 분석' 카테고리의 다른 글
7. EPL 20/21 경기 배당률과 발생한 점수 관계 (0) | 2022.01.16 |
---|---|
6. K-Means Clustering을 통한 선수 스카우팅 (0) | 2022.01.01 |
4. EPL 20/21 시즌 최근 5경기 전적으로 살펴본 다음경기 결과 (0) | 2021.08.30 |
3. EPL 20/21 시즌 의적팀 알아보기 (0) | 2021.08.22 |
2. EPL 20/21 시즌 순위에 따른 라운드 별 승패 통계 (0) | 2021.08.14 |