일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 글또6기회고
- 서울시장
- 데이터과학자진로
- 데이터과학자의일
- 회고
- 데이터분석가채용
- 2021년의 #봄여름가을겨울
- 2021년회고
- 스타트업독서노트
- 데이터시각화
- 국민의힘경선
- 네이버트렌드
- 데이터분석가
- 데이터분석
- 데이터분석가준비
- 로버트마틴
- 라이브코딩테스트
- 구글트렌드
- 안철수
- 데이터분석공부
- 360시간만에개발자
- 박영선
- 주니어개발자
- 국회데이터시각화
- 신입개발자
- 개발자면접
- 새파란
- 글또회고
- 개발자취업
- 360시간만에개발자되기
- Today
- Total
NEWBLUE's
20대 대선, '여론조사'를 '조사해보았습니다. 본문
안녕하세요. 여론조사를 조사해보았습니다.
0.사용한 데이터
중앙선거여론조사심의위원회 자료를 참고하였습니다.
- 여론조사 결과 현황 - 20대 대선 및 19대 대선 한정
- 여론조사기관 등록 현황
크롤링한 코드와, Tableau Public을 사용한 인터랙티브 시각화 결과물도 확인하실 수 있습니다.
1. 여론조사 업체들은 늘어나고 있나요?
- 2017년 5월 9일부터 여론조사 기관이 중앙선거여론조사심의위원회 홈페이지의 여론조사기관 등록 현황에 등록되기 시작하였습니다. (실제 업체의 설립일은 업체별로 상이합니다.)
- 4년 만에 여론조사 기관 수는 약 4배가 되었습니다.
- 업체수의 경우 2017년과 2018년에 가파른 상승세를 보이다가, 2019년부터는 조금 완만한 상승세를 보입니다.
2. 20대 대선의 여론조사는 전에 비해 많은 편일까요?
- 같은 시간 축으로 19대 대선과 20대 대선을 비교해보았습니다. (20대 대선의 경우 x축을 2018년 4월 18일부터 2022년 3월 9일까지, 19대 대선의 경우 x축을 2013년 6월 18일부터 2017년 5월 9일까지로 하였습니다.)
- 자료를 추출한 2021년 8월 26일을 기준으로, 등록되어있는 여론조사는 총 450개입니다. (글을 쓰고 있는 사이에 또 6건이 늘었습니다)
- 비슷하게 19대 대선으로부터 약 6.5개월 전인 2016년 10월 26일의 경우 총 167개였습니다.
- 지난 19대 대선의 총 여론조사 수는 594개였습니다. 이번 20대 대선의 경우 이 594개를 가볍게 뛰어넘고, 훨씬 더 많아질 것으로 보입니다.
- 19대 대선의 경우 대선 약 13개월 전인 2016년 4월 12일부터 여론조사가 시작되었습니다.
- 20대 대선의 경우 훨씬 이른 시기인 대선 약 45개월 전인 2018년 6월 18일부터 여론조사가 시작되었습니다.
3. 누가 20대 대선 여론조사를 주로 진행하고 있을까요?
- 10개 이상 진행한 기관들만 표시해두었습니다.
- 리얼미터, 조원씨앤아이, 알앤써치, 한국사회여론연구소, 한국갤럽조사연구소 순이었습니다.
4. 누가 20대 대선 여론조사를 주로 의뢰하고 있을까요?
- 5개 이상 진행된 기관만 표시하였습니다.
- 일부 이름이 생략된 첫번째 그룹의 경우, 4개의 여론조사 기관 (엠브레인퍼블릭·케이스탯리서치·코리아리서치·한국리서치) 합동 조사입니다. 이를 전국 지표조사 혹은 NBS로 명명한다고 합니다.
- NBS를 뒤로 오마이뉴스, 쿠키뉴스, TBS, 데일리안 순이었습니다.
- 주요 일간지 (조선일보, 동아일보, 중앙일보, 한겨레, 경향신문)는 아예 순위에 없었고, 주요 방송사(KBS, MBC, SBS)가 비교적 낮은 순위인 점도 흥미로웠습니다.
5. 20대 대선 여론조사 기관과 의뢰기관은 어떤 관계가 있을까요?
- 지면상 5건 이상 진행된 그룹만 표시하였습니다. (전체는 시각화에서 확인하실 수 있습니다.)
- 특정 의뢰기관이 한번 조사기관을 정하면 계속 의뢰를 맡기는 것을 확인할 수 있습니다.
- 20대 대선 여론조사 1위 리얼미터의 경우 오마이뉴스와 JTBC가 주요 의뢰자이며, 위에는 생략되었지만 KBS, SBS, YTN 등 주요 언론사가 의뢰하였습니다.
- 특정 미디어는 주로 특정 여론조사 기관에 의뢰하고 있다는 점에서, 시즌1 쏘프라이즈 질문이기도 했었던 한국 미디어 지형과 함께 살펴보면 더 의미있는 결과를 발견할 수도 있을 것 같습니다.
6.19대 대선과 비교해보면 어떨까요?
19대 대선과 비교해보도록 하겠습니다. (참고로 중앙선거 여론조사 심의위원회의 역사가 길지 않아서, 18대 대선의 경우 데이터가 없습니다.)
1) 19대 대선 여론조사 기관
- 역시 10개 이상 진행한 기관만 표시하였습니다. 이곳에서 19대-20대를 동시에 비교해보실 수 있습니다.
- 20대 대선에 비해, 리얼미터가 압도적으로 높은 것을 알 수 있습니다. 상위권 업체들의 구성은 비슷한 편입니다.
- 한국 사회 여론연구소의 순위가 많이 내려간 것도(20대에서는 4등이었습니다.) 보이며, 기타 하위권 업체들은 많이 변경되었습니다.
2) 19대 대선 여론조사 의뢰기관
- 5개 이상 의뢰한 기관만 표시하였습니다. 역시 이곳에서 19대-20대를 동시에 비교해보실 수 있습니다.
- 1,3,4,6 등이 사실상 같은 기관으로 보여집니다. 즉 MBN-매일경제 그룹에서 여론조사를 압도적으로 많이 진행했음을 알 수 있습니다.
- 20대 대선에서 상위권에 있었던 TBS과 오마이뉴스는 아예 보이지 않습니다.
3) 19대 대선 여론조사 의뢰기관
- 여론조사 진행 1위였던 MBN-매일경제 그룹에서는 주로 리얼미터에만 의뢰했음을 확인할 수 있습니다.
- 나머지 여론조사 의뢰기관도 역시 특정 여론조사 기관에만 주로 의뢰했음을 확인할 수 있습니다.
- 역시 5개 이상의 그룹만 표시하였고, 전체는 여기에서 확인하실 수 있습니다.
7.기관별로 여론조사 진행방식에 뚜렷한 차이가 있을까요?
- 2019년 10월 1일부터 여론조사 통계에서 '접촉률'도 함께 공개하는 것으로 바뀌었습니다. 따라서 해당 통계를 함께 보고자, 20대 대선 여론조사 중 2019년 10월 1일부터의 2021년 8월 28일까지의 데이터를 기준으로 하였습니다.
- 기관별로 조사방법 비율, 표본추출방법, 가중 방법이 어떻게 달라지는지 살펴보도록 하겠습니다.
- 소수의 표본으로 큰 숫자가 나올 수 있으므로, 모두 5개 이상 표본을 가지고 있는 그룹만 집계에 포함하였습니다.
1-1) 조사방법 비율
먼저 조사방법 비율에 따른 응답률을 보겠습니다.
- 조사방법과 조사방법2 각각에 따라 응답률이 어떻게 다른지 확인하실 수 있습니다.
- 'Null'의 경우 조사방법2가 존재하지 않음을 의미합니다.
- ARS의 경우 유선 및 무선 모두 전반적으로 응답률이 낮습니다. (물론 방법보단, 날짜 및 시간, 질문 방법, 질문 수 등의 다른 요인이 영향을 미칠 수도 있습니다.)
1-2) 기관별 조사방법 비율
- 기관별로 비율이 상이함을 알 수 있습니다.
- 주로 리얼미터와 한길리서치의 경우 합이 1이 되지 않는데, 세 가지 이상의 방법을 사용할 때도 있는 것으로 확인이 되었습니다. (조사방법3의 경우 이번에 크롤링을 하지 않았기에 없지만, 우선은 비율 자체의 의미보다는 비율이 다르다는 것을 확인하기 위함이므로 그냥 두었습니다.)
2-1) 표본추출방법별 응답률
- 가상번호의 경우 RDD(임의 번호 걸기) 보다 더 응답률이 높았습니다. (역시 방법보단, 날짜 및 시간, 질문 방법, 질문 수 등의 다른 요인이 영향을 미칠 수도 있습니다.)
- 가상번호와 관련해 해당 기사를 살펴보셔도 좋겠습니다. (성별, 연령대를 통신사부터 제공받기에 더 정확할 수 있다는 의견이 있습니다)
2-2) 기관별 표본추출방법
조사방법 1개
조사방법 2개 이상
- 역시 업체별로 상이합니다. 같은 업체에서도 여러 방법을 함께 사용하고 있습니다.
- 가상번호를 아예 사용하지 않는 업체도 존재합니다.
- 전국 지표조사 혹은 NBS 업체들(엠브레인퍼블릭·케이스탯리서치·코리아리서치·한국리서치)의 경우 무선전화번호 가상번호 100%를 사용한다는 점이 눈에 띕니다.
3-1) 기관별 가중방법
참고 : 선관위는 성·연령·지역 등 3개 변수에 대해 가중치를 부여할 수 있도록 허용하고 있다. 이들 변수를 모두 반영한 뒤 세부 내용에 각각 다른 가중치를 부여하는 방식이 ‘셀 가중’ 방식이다. 이와 달리 전체 표본 중 기본적인 변수에 한해서만 가중치를 부여하는 방식이 ‘림 가중’ 방식이다 (출처: 문화일보)
- 조사의뢰자 중 생략된 부분은 역시 전국 지표조사 혹은 NBS 업체들(엠브레인퍼블릭·케이스탯리서치·코리아리서치·한국리서치)를 의미합니다.
- 조사기관 - 의뢰자 그룹 별로 가중하는 방식이 다릅니다.
8.기관별로 응답률에 차이가 있을까요?
- 국제 기준(AAPOR) 응답률의 경우, 접촉률과 응답률을 곱한 지표입니다. 중앙선거여론조사심의의원회에서도 여론조사 내역 및 각 개별 조사 결과 상단에서 공지하고 있습니다. 하지만 국제 기준 응답률 자체를 데이터로 표시하고 있지 않습니다.
- 응답률이 낮을수록, 결국 더 많은 번호에 접근했다는 것을 의미합니다. 이 과정에서 의도했던 여론조사 대상 집단의 성격이 변경될 수 있습니다. (물론 큰 차이가 없을 수도 있으며, 응답률이 높다고 해서 꼭 의도했던 여론조사 집단이 모집되지 않을 수도 있습니다. 응답률의 차이가 있으면 여론조사 대상 집단이 차이가 생길 수 있다는 점을 말씀드리고 싶었습니다.)
- 일반 응답률은 꽤 편차가 있는 편이며, 국제 기준 응답률의 경우 상대적으로 편차가 적습니다. (당연한 결과이겠지요)
- 역시 전국 지표조사 혹은 NBS 업체들이 상대적으로 높은 응답률을 보입니다.
- 19대 대선 및 20대 대선 여론조사 수행 1위 업체인 리얼미터의 경우 응답률이 상대적으로 낮았습니다. (국제기준 약 1% 내외)
- 우선 평균 자료는 위와 같겠지만 결국 기관 자체보단 조사방법, 표본추출방법, 날짜 및 시간, 질문 방법, 질문 수 등의 다른 요인을 종합적으로 분석해야 할 것으로 보입니다. (평균의 함정이 생겼을 수도 있습니다.)
9.여론조사 진행방식에 따라 결과도 뚜렷하게 변할까요?
- 아쉽게도 여론조사 결과는 중앙선거여론조사심의의원회 각 여론조사별 결과 페이지에 포함되어 있지 않으며, PDF로 제공됩니다. 또 다운로드도 불가능합니다. 따라서 우선은 시간 및 지면의 한계로 생략하였습니다.
- 하지만 결과가 PDF로 제공되기에, 충분한 시간(혹은 적절한 기술)이 있으면 분석이 가능할 것으로 보입니다. 관심 있으신 그룹 (ex) 언론사, 시민단체 등) 에서는 참고하셔도 좋겠습니다:=)
마무리하며
사실 질문 9번이 궁금해서 시작한 글이었지만, 여론조사에 대한 정보를 처음 접하는 저에겐 모든 사실들이 인상적이었기에 글로 정리하게 되었습니다.
- 여론조사 기관은 2017년 이후 계속 늘어나고 있습니다.
- 20대 대선과 관련한 여론 조사(45개월 전 시작)는 19대 대선(13개월 전 시작)에 비해 훨씬 더 일찍 시작하였습니다.
- 20대 대선과 관련한 여론조사 수도 빠르게 증가하고 하고 있습니다.
- 20대 대선 및 19대 대선을 비교해볼 때 여론조사 기관은 큰 차이는 없었지만, 여론조사 의뢰기관의 경우 다소 변화가 있었습니다.
- 특정 여론조사 의뢰 기관은 주로 특정 여론조사 기관에만 의존합니다.
- 각 업체 및 각 여론조사별로 조사방법 비율, 표본추출방법, 가중 방법이 상이합니다. 하지만 업체별로 주로 사용하는 조사방법 비율, 표본추출방법, 가중방법이 존재할 수 있으며 이는 응답률 및 결과에 영향을 미쳤을 수 있습니다.
- 실제로 각 여론조사기관별로 응답률 및 국제 기준(AAPOR) 응답률의 차이가 있습니다.
제언
- 여론조사에 관련된 다소 거시적인 글이 되었습니다. 9번 질문에서 언급한 것과 같이 각 결과를 정리해보고, 질문에서 제시된 것처럼 빅카인즈 등에서 각 결과가 어떻게 인용되는지 살펴보면 더 심도 깊게 여론조사를 분석할 수 있을 것으로 보입니다.
- 언론사별로 뉴스 보도시 해당 여론조사기관 직접 의뢰 유무도 함께 분석하면 좋겠습니다. 단 빅카인즈에는 20대 대선 여론조사를 주로 의뢰했던 그룹 TOP 5 중에서 오마이뉴스, CBS, 데일리안이 포함되어 있지 않습니다.
- 이번엔 살펴보지 않았지만, 결과에 영향을 미치는 변수에는 조사방법, 표본추출방법, 가중 방법 뿐만 아니라 날짜 및 시간, 표본 수, 질문 방법, 질문 순서, 질문 길이, 보기 길이, (ARS가 아닌 경우) 질문자의 말투나 태도, 의뢰기관의 정치적 성향 등 정말 다양한 변수가 있기 때문에 섣불리 결론을 내리는 것에 대해서는 조심스러워할 필요가 있겠습니다.
함께 읽어보면 좋을 기사들
- 20대 대선 후보가 결국 여론조사로부터 만들어졌다던 흥미로운 기사도 있습니다. (기사처럼 사람들에게 계속 질문하면, 결국 생각하게 될 수도 있겠네요)
- 최근에 여론조사가 더 많아짐에 따라, 여론조사에 대한 관심 역시 늘어났습니다. 여론조사는 변수가 너무 많으니, 같은 여론조사에서 같은 방식으로 사용된 조사를 활용해 추세를 확인하는 용도로만 활용하는 게 좋다는 의견이 있습니다.
- 여론조사는 언론사 입장에서 '가성비' 높은 기사 아이템이기에, 여론조사는 기사 조회수를 높여주는 구실을 하고, 여론 조사 기관은 언론 보도를 통해 업체 홍보 효과를 노릴 수 있어 경쟁적으로 언론사 의뢰 조사에 뛰어든다는 의견도 있습니다. (언론사 및 여론 조사 기관 모두에게 단편적으로는 좋아 보이는데, 우리 사회에게도 좋은 방향일지는 생각해볼 필요가 있겠습니다.)
- 중앙선관위나 조사학회, 조사협회 등에서 체계적 연구를 통해 조사 방법론을 정비해야 한다는 지적도 있습니다.
- 최근 여론조사에선 여론조사 응답을 적극적으로 할 가능성이 큰 계층, 즉 정치적으로 '양극단'에 있는 계층이 과도하게 참여하고 있을 가능성이 있다는 의견이 있습니다. (작년 4월 경 기사입니다. 응답률과 국제 기준(AAPOR) 응답률 지표와 관련한 해석이 있어서 인용하였습니다.)
'모두 같은 달을 보지만 서로 다른 꿈을 꾼다'라는 책 이 있습니다. 어쩌면 우리는 같은 여론조사를 보고도 그렇게 느끼고 있진 않을까요?
여론조사가 여론을 조사하는지, 아니면 여론조사가 여론 자체를 형성하게 되는지, 아니면 둘 다인지 더 궁금해지긴 합니다. 우리 사회에서 여론조사를 시행하고 사용하는 방식이 결국엔 긍정적인 방향으로 개선되면 좋겠습니다.
그러려면 의미 있는 여론조사는 무엇이며, 의미 있게 여론조사를 사용하는 방법은 또 무엇인지에 대해 정치계, 언론계 등 사회 각계의 많은 관심과 합의가 필요할 것으로 보입니다.
늘 읽어주셔서 감사드립니다 :=)
'데이터카우 글 모음' 카테고리의 다른 글
쏘프라이즈 6개월 후기 (1) - 우당탕탕 데이터 글쓰기 도전기 (0) | 2021.10.09 |
---|---|
문이과 구별짓기 멈춰! - 흑백 논리와 평균에 가려진 취업률 통계 톺아보기 (0) | 2021.09.07 |
평균 기온과 역대 올림픽 마라톤 기록의 상관관계를 찾아낼 수 있을까요? (0) | 2021.08.06 |
혹시 영화를 좋아하신다면, LCM 지수를 아시나요? - 영화관 데이터 시각화 (0) | 2021.07.24 |
한 눈에 보는 한반도 태풍 이야기 - 태풍 데이터 시각화 (0) | 2021.07.11 |