일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 개발자면접
- 주니어개발자
- 안철수
- 박영선
- 회고
- 데이터분석가준비
- 구글트렌드
- 라이브코딩테스트
- 데이터분석가
- 국민의힘경선
- 글또6기회고
- 360시간만에개발자되기
- 로버트마틴
- 국회데이터시각화
- 데이터시각화
- 360시간만에개발자
- 신입개발자
- 서울시장
- 개발자취업
- 2021년회고
- 데이터과학자진로
- 글또회고
- 데이터과학자의일
- 네이버트렌드
- 2021년의 #봄여름가을겨울
- 새파란
- 스타트업독서노트
- 데이터분석
- 데이터분석가채용
- 데이터분석공부
Archives
- Today
- Total
NEWBLUE's
평균 기온과 역대 올림픽 마라톤 기록의 상관관계를 찾아낼 수 있을까요? 본문
반응형
0.사용한 데이터 및 코드
- 마라톤 기록 - 올림픽 공식 홈페이지의 역대 남/여 마라톤 기록 데이터를 가져왔습니다. 이곳에서 코드를 확인하실 수 있습니다. ('완주 기록'만 사용하였으며, 일부 초기 올림픽에서는 메달리스트의 기록만 제공되고 있습니다.)
- 역대 올림픽 개최지 평균 기온 - 질문에서 말씀해주셨던 해당 사이트를 참고하였습니다. 온도는 OMMT(올림픽 개최 월의 평균 기온, 섭씨) 지표를 사용하였습니다. OMMHT( 올림픽 개최 월의 평균 고온 기온) 지표도 함께 살펴봤었는데, OMMT 분포와 비슷했습니다. (결국 평균 기온과 평균 고온 기온은 함께 움직일 테니까요)
- 시각화에는 plotly를 사용하였습니다. 이곳에서 코드 및 결과물을 확인하실 수 있습니다. (마우스를 움직여보시면 더 재미있게 관찰하실 수 있습니다)
1.연도별 올림픽 마라톤 기록은 어떻게 변했을까요?
연도별 올림픽 남자 마라톤 기록
- 왼쪽 아래 날짜는 분석한 날짜로, 무시하셔도 되겠습니다. (아래에서도 계속 동일합니다.)
- 기온에 상관없이, 전반적으로 큰 결에서 기록은 단축되고 있는 것으로 보입니다.
연도별 올림픽 여자 마라톤 기록
- 올림픽 여자 마라톤의 경우 1984년부터 시작하였습니다.
- (남자 마라톤에 비해) 비교적 최근에 시작해선지, 뚜렷한 추세를 관찰하긴 어렵습니다.
메달리스트만 조금 더 자세하게 살펴봅시다.
2.연도별 마라톤 메달리스트의 기록은 어땠나요?
연도별 올림픽 남자 마라톤 메달리스트 기록
- 역시나 계속 줄어들고 있지만, 비교적 최근(1980년대 이후)에는 횡보하는 양상입니다.
연도별 올림픽 여자 마라톤 메달리스트 기록
- 남자 마라톤 기록이 횡보하던 시기인 1984년부터 시작하였습니다.
- 평균 기온이 낮았던 편인 2000년(15도)과 2012년(19도)의 경우 기록이 가장 짧았습니다.
- 하지만 반대로 평균 기온이 가장 높았던 2004년(29도)의 기록이 가장 길진 않습니다.
- y축도 (x축처럼) 직전 그래프와 단위가 다릅니다. (2시간 24분~ 2시간 34분 사이) 따라서 남자 마라톤 기록과 유사하게 큰 결에서는 횡보하고 있음을 알 수 있습니다.
그럼 기온과 마라톤 기록을 직접 살펴볼까요?
3.과연 기온과 올림픽 마라톤 기록은 상관이 있을까요?
두 개의 그래프를 한 번에 보고 살펴보겠습니다.
기온과 올림픽 남자 마라톤 기록과의 상관관계
기온과 올림픽 여자 마라톤 기록과의 상관관계
- 아쉽게도 해당 데이터만을 가지고, 바로 상관관계 유무를 판단하기는 어렵습니다. (특정 기법 등을 써서 판단할 수 있긴 한데, 정확하지 않을 확률이 높습니다.)
- 성별에 따른 온도 영향 역시 바로 결론 내리긴 어렵습니다.
섣불리 결론을 내리기 위험한 이유
- 표본이 각 올림픽 별로 최소 3명에서 최대 250명 내외로 적으며, 각 올림픽 마라톤 별로 환경이 매우 다르기 때문입니다.
- 아래 올림픽 마라톤 기록 수 자체도 각 연도별로 편차가 있습니다. (최근에 점점 더 많아지고 있네요)
- 각 도시별 마라톤 시작 시간도 다릅니다. 따라서 실제 달리기를 시작할 때 기온은 다를 수도 있습니다. 습도 및 바람 세기도 영향을 미칠 수도 있습니다.
- 오늘 오전인 8월 7일 토요일에 도쿄 올림픽 여자 마라톤 경기가 진행되었습니다. 무더위를 피하기 위해 오전 7시였던 경기시간은 오전 6시로 변경되었는데, 선수들은 하루 전에 출발 시간 변경을 통보받았습니다. 보통 경기 시간에 맞춰서 훈련하기에, 선수들의 기록이 달라졌다면 무더위 때문일 수도 있지만 하루 전 시간 변경에 따른 컨디션 저하 (혹은 다른 이유) 때문일 수도 있습니다.
- 마라톤 특성상 코스가 매우 길고, 도시가 달라진다면 마라톤 코스도 달라집니다. 코스가 다르니 당연히 선수의 페이스에 영향을 미칩니다. 사실상 올림픽 마라톤 경기는 모두 다른 마라톤 경기라고 봐도 무방합니다.
기온과 올림픽 마라톤 기록의 정확한 분석 및 예측을 위해서,
- 같은 지역 및 같은 코스의 충분한 데이터 수집 및 분석 유무
- 참가한 선수들의 신체적 특징 - 키, 몸무게, 폐활량, 나이, 신체 나이 등
- 해당 시간대에 정확한 기상 정보 - 시간대별 정확한 온도, 습도, 바람 방향 등
- 개인별 마라톤 참가 최소 3일 전 (신체 특성을 반영한) 영양소 섭취, 수면 시간 등 컨디션과 관련 있는 지표
- 선수별 사용한 운동화 및 운동복 종류
- 개인별 '국가대표 출전'에 따른 심리적 영향 (나라/개인별로 올림픽에 대한 마음가짐이 다를 수 있음)
위를 종합적으로 고려해야 할 것으로 여겨집니다. 따라서 사실상 정확하게 올림픽 기록을 예측하는 것은 매우 어렵습니다. 그나마 평소에 자주 마라톤이 열리는 지역에서 올림픽이 열린다면, 기록을 조심스럽게 예측하는 것은 가능할 수도 있습니다.
아마 위 사실을 마라톤 관련 연구자 분들도 모두 알고 계실 것으로 보입니다. 따라서 관련 연구 / 기사를 찾아봤습니다.
4.함께 읽어보면 좋을 글 - 마라톤 연구/기사 큐레이션
- 기온과 습도가 이상적인 날, 특수 마라톤화를 사용하고 7명의 페이스메이커와 함께 했더니 1시간 59분 40.2초의 기록이 나왔습니다. 참고로 이 기록을 세웠던 마라토너 엘리우드 킵초게가 내일(8월 8일 오전 7시) 올림픽 2연패에 도전합니다.
- 나이(즉 달리는 사람의 신체)도 중요한 변수일 지도 모릅니다. 2014년 마드리드대 연구진이 마라톤 대회 참가자 4.5만명의 기록을 분석했더니 남성은 27세, 여성은 29세에 가장 성적이 좋았고 이보다 한 살 어려질수록 기록은 4%씩 늦어지고, 이 나이를 지난 후엔 매년 2%씩 기록이 나빠졌다고 합니다. (기사에서 재인용 했습니다)
- 2001년부터 2010년까지 약 180만명의 데이터를 분석한 결과 기온과 마라톤 기록은 명확한 영향(significantly correlated)이 있었다고 합니다. 오존도 성능에 영향을 미치지만, 그 영향은 온도와 관련될 수 있고, 다른 환경변수(습도, 바람 등)는 큰 영향을 미치진 않았다고 합니다.
- 베를린 마라톤의 약 90만명의 데이터를 분석한 결과, 전반적으로 기온이 높아지고 햇볕이 강해질수록 사람들의 기록이 증가했다고 합니다. 하지만 '엘리트 러너(상위 3위 / 상위 10위 그룹)'의 경우 오히려 기온이 높았을 때 더 기록이 감소했다고 합니다.
- 같은 연구에서 추가로, 특정 집단에서는 성별에 따라 기록이 온도에 영향 받는 정도가 달랐다고 합니다. 상위 10위 / 상위 100위 그룹에서는 달라졌지만, 하위 그룹에서는 큰 차이가 발견되지 않았다고 합니다.
- 마라톤 기록이 온도에 따라 달라짐을 확인하고, 이를 보정하려는 시도도 있었습니다. 뉴욕 타임스 유료회원이 아니어서 기사 열람 횟수에 제한이 있는 분들은(=필자)은 이 보충 문서를 참조하셔도 좋겠습니다.
5. 마무리
- 결국 제가 제목에서 던진 질문의 답은 '올림픽 마라톤 특성상 4년에 한 번씩 다른 도시에서 다른 시간에 다른 사람들이 다른 길을 다른 방식으로 달리기에, 섣불리 예측하긴 어렵다' 입니다. 물론 직전에 보신 것처럼, 기온과 마라톤 기록 자체에 대한 연구는 꽤 있었습니다.
- 특정 결론을 내리진 않았지만, '쉽게 결론을 내리기 어렵다는 것 자체'도 어쩌면 하나의 발견이 될 수도 있을 것 같아 공유하게 되었습니다 :=)
- 덧붙여 어렵게 상관관계를 찾았다고 해도 그 사실이 바로 인과관계를 의미하지 않습니다.
- 특정 데이터를 가지고 기온과 올림픽 마라톤 기록 사이의 양의 상관관계를 발견했다고 해서, 바로 '기온이 높아지면 올림픽 마라톤 기록도 증가하더라!'라고 주장하면 틀릴 수도 있습니다. 위에서 말씀드린대로, 다른 변수가 많기 때문입니다. 더 자세하게는, '상관관계 인과관계 오류'라고 구글에서 검색해보셔도 좋겠습니다.
- 비슷하게 회사나 국가에서 특정 이벤트/정책을 실행해서 원하는 결과가 나왔다고 하더라도, 해당 결과는 특정 이벤트/정책의 영향이 아닐 수도 있습니다.
어쩌면 우린 '분석 권하는 사회'에 살고 있는 건 아닐까요? 그렇기에 오히려 '데이터 기반 결론'을 내리는 것에 대해서 조금은 신중해도 좋겠습니다.
읽어주셔서 감사합니다.
(물론 제가 뚜렷한 결론을 내릴 수 있었다면, 위의 말을 다 지우고 확실하게 주장했을 확률이 높습니다:D )
반응형
'데이터카우 글 모음' 카테고리의 다른 글
문이과 구별짓기 멈춰! - 흑백 논리와 평균에 가려진 취업률 통계 톺아보기 (0) | 2021.09.07 |
---|---|
20대 대선, '여론조사'를 '조사해보았습니다. (0) | 2021.08.29 |
혹시 영화를 좋아하신다면, LCM 지수를 아시나요? - 영화관 데이터 시각화 (0) | 2021.07.24 |
한 눈에 보는 한반도 태풍 이야기 - 태풍 데이터 시각화 (0) | 2021.07.11 |
법령에 'OO세'를 검색해본다면 1위는 몇 세일까요? - 법령 나이 시각화 및 분석 (0) | 2021.07.03 |