일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 개발자면접
- 360시간만에개발자되기
- 데이터과학자진로
- 주니어개발자
- 데이터분석
- 데이터분석가
- 2021년의 #봄여름가을겨울
- 신입개발자
- 스타트업독서노트
- 데이터분석공부
- 2021년회고
- 서울시장
- 라이브코딩테스트
- 네이버트렌드
- 360시간만에개발자
- 국회데이터시각화
- 국민의힘경선
- 개발자취업
- 글또6기회고
- 박영선
- 안철수
- 데이터분석가채용
- 데이터시각화
- 데이터과학자의일
- 구글트렌드
- 글또회고
- 회고
- 데이터분석가준비
- 로버트마틴
- 새파란
- Today
- Total
NEWBLUE's
쏘프라이즈 6개월 후기 (1) - 우당탕탕 데이터 글쓰기 도전기 본문
쏘프라이즈(데이터카우)는 데이터 기반 글쓰기 플랫폼이었다. (아래 참조)
현재는 얼룩소라는 플랫폼으로 통합되어 운영될 예정이며, 기존 플랫폼의 글 및 댓글도 천천히 옮겨진다고 한다. (여기를 보니 제가 쓴 글도 하나둘씩 옮겨지고 있네요.)
6개월간 열심히 참여했던 만큼, 잠시 그동안을 회고해본다.
0. 새파란 글 모아보기 - 글이 올라올 때 새파란 페이스북에서 알림을 받으실 수 있습니다:)
마감날짜 | 제목 | 맘속 별점 |
시각화 툴 |
2021.4.11 | 평균 3.2억에서 최대 53억까지 - 흥미로운 임원 연봉 이야기 (임원 - 직원 격차 시각화) | 2.5 | Plotly |
2021.4.18 | 네트워크 시각화로 알아보는 국회 법률 제안과정 속의 협치 - 16대 국회부터 21대 국회까지 | 4 | Plotly |
2021.4.18 | 꽃가루를 피해 살고 싶은 당신을 위한 안내서 - 참나무/소나무/잡초류 꽃가루 지도 | 3 | Tableau |
2021.4.25 | 당신은 당신의 이웃을 사랑하십니까? - 10가지 질문으로 알아보는 우리나라 외국인 통계 이야기 | 2.5 | Tableau |
2021.6.13 | 정말 벚꽃 피는 순서대로 대학이 사라질까요? - 우리나라 대학 충원율 지도 및 관련 시각화, 그리고 예측 | 3 | Tableau |
2021.6.20 | MZ세대 구별짓기 멈춰! - MZ세대와 관련된 기사들은 모두 새빨간 거짓말일지도 모른다 | 4 | - |
2021.6.27 | 골목식당 그리고 그 후 - '백종원의 골목식당' 촬영지 매출 변화 시각화 (서울 6개 지역) | 2.5 | Tableau |
2021.7.04 | 법령에 'OO세'를 검색해본다면 1위는 몇 세일까요? - 법령 나이 시각화 및 분석 | 3.5 | Plotly |
2021.7.11 | 한 눈에 보는 한반도 태풍 이야기 - 태풍 데이터 시각화 | 3 | Tableau |
2021.7.25 | 혹시 영화를 좋아하신다면, LCM 지수를 아시나요? - 영화관 데이터 시각화 | 3.5 | Tableau |
2021.8.08 | 평균 기온과 역대 올림픽 마라톤 기록의 상관관계를 찾아낼 수 있을까요? | 3 | Plotly |
2021.8.29 | 20대 대선, '여론조사'를 '조사해보았습니다. | 3 | Tableau |
2021.9.12 | 문과 이과 구별짓기 멈춰! - 흑백 논리와 평균에 가려진 취업률 통계 톺아보기 | 3.5 | Tableau |
(링크를 누르시면 각 글로 이동합니다. 아직 얼룩소 사이트로 이사(?)가기 전 글은 백업 링크를 달아두었습니다.)
4월부터 9월까지 (부캐 2번을 포함해) 총 13개 글을 썼다. 특히 6월 중순부터 7월 중순까지 5주 연속으로 글을 썼었는데, 당시에는 회사 일, 쏘프라이즈만 반복하며 살았던 것 같다.
임금 격차, 국회 및 법령, 외국인 통계, 식당 매출, 꽃가루/ 대학 충원율 / 태풍 / 영화관 지도, 마라톤, 여론조사, 세대/전공 구분 등 다양한 주제로 글을 썼다. 다시 돌아보니 글 하나하나가 다 소중하지만 그중에서 가장 애정이 가는 글은, 많은 분들에게 읽힌 국회 네트워크 시각화 글과 MZ 세대 구별짓기 멈춰! 글이다. 아무도 사용하지 않는 서비스를 만들기엔 시간이 너무 아까운 것처럼, 역시 적절한 반응이 있어야 글을 계속 쓰게 된다.
혼자 글을 쓰면 동기부여를 얻기가 쉽지 않다. 하지만 데이터 카우 플랫폼에서는 많은 분들께서 읽고 의견을 주시니깐 보람도 있었고, 조금이나마 데이터 기반으로 찬찬히 사회를 들여다보는 문화에 기여할 수 있다는 뿌듯함도 있었다. (물론 이래 놓고 뉴스 제목만 보고 기뻐하거나 분노할 때가 많습니다) 그리고 적절한 보상과 선정위원 피드백이 있었기에 계속 글쓰기 방식을 고민하면서 여러 가지를 시도할 수 있었다.
1. 데이터카우에 참여했던 주의 일상
조금 오래된 영상이지만, 창작의 고통을 이야기하는 다음 영상과 비슷하다.
- 마감 10일 전 : 주로 직전 주 목요일~금요일 정도에 해당 주 질문이 올라온다. 주말에 미리 조사를 해놓으면 좋겠지만, 보통 그 주 마감을 하고 있기에 간단하게 무슨 질문인지만 살펴본다.
- 마감 7일 전 : 주중에는 주로 데이터를 정리하고 글의 목차를 간략하게 정리한다. 사실 데이터 정리에 시간이 가장 많이 걸릴 때가 많다. 관련해서 다양하게 찾아보지만, 어쨌든 (최소 1번 이상의 검증을 거쳤을 것이라고 믿기에) 언론에서 검색할 때가 많다. 관련 뉴스에서 참고할 점 / 더 궁금한 점은 무엇인지 함께 살펴본다. 주로 질문에서 관련 데이터가 있는 링크가 주어지는 편이지만, 함께 살펴볼 데이터가 있는지 따로 검색할 때도 많다.
- 마감 3일 전부터 : 보통 수요일 ~ 금요일 밤에 글을 쓰기 시작한다. 여러 가지 시각화를 어떻게 배치할지 생각한 후, 이어서 각 목차에 맞게 살을 붙인다. 2~3번의 퇴고를 거친 후 제출한다. (제출 전에 맞춤법 검사를 포함해서 여러 번 읽어보고 고치지만, 꼭 내고 나면 오타가 보인다.)
직접 재보진 않았지만, 글 하나 당 대략 8 ~ 16시간 정도 걸렸다. 쏘프라이즈 마감이 일요일 자정이기에, 만약 자정까지 마감하고 월요일에 출근하면 아주 행복한(?) 컨디션으로 한 주를 맞이할 수 있다. 덕분에 종종 자체 마감시간을 일요일 오후로 변경하고 미리 일을 끝내는 부지런함을 기를 수 있었다. 오히려좋아
꾸준한 마감기한이 있는 삶에 대한 존경심이 생긴 6개월이었다. 간접적이나마 프리랜서의 삶을 경험해보았는데, 역시 모든 일은 장단이 있었다. 자유로움과 압박감을 동시에 마음껏(?) 만끽할 수 있었다.
2. 주로 사용했던 툴 - 이제 글에 Plotly와 Tableau를 곁들인
사실 데이터 기반 글을 꾸준히 쓰는 건 처음이었기에, 자세한 계획이 있었던 것은 아니다. 처음 분석 글은 자연스럽게 프로그래밍 모국어(?)인 Python으로 시작했다.
Python에서 시각화 관련 라이브러리는 Matplotlib, Plotly, seaborn 등 여러 가지가 있는데, 그중 Plotly가 학술적인 분위기가 과하지 않으면서 깔끔한 느낌을 주길래 선택했다. 인터랙티브 하게 관찰할 수 있다는 점도 좋았다. (여기에서 아무 그래프 위에 마우스를 움직여보세요!)
쏘프라이즈 사이트가 코드 및 결과물을 올릴 수 있는 구조가 아니었다. 그래서 Jupyter Notebook에서 시각화하고, 하나하나 복사 붙여넣기 하는 방식으로 글을 썼다. 독자가 인터랙티브하게 그래프를 볼 수 없다는 단점이 있었는데, 결국 나중에는 Google Colab에 올리고 공유해서 해결했다. 언젠간 쏘프라이즈도 Observable 같이 코드 및 시각화를 바로 볼 수 있는 플랫폼이 되길 기대해본다.
그렇게 Python으로 시각화를 하다가, 꽃가루 시각화를 위해 지도 시각화가 필요했다. 그때 회사에서 주로 보기만 했던 Tablaeu가 생각이 나서 Tablaeu Desktop으로 시각화를 시작했다. 그러다가 대학 충원율 지도를 그릴 때는, Tableau Public으로 올리면 바로 결과물을 공유할 수 있다는 것을 알게 되어서 쭉 사용하게 되었다. 이때부터 데이터 시각화는 상황에 맞게 Plotly나 Tableau Public을 사용하게 되었다.
사실 Tableau를 그냥 막(?) 사용하고 있었다가, 태블로 신병훈련소라는 교육 프로그램을 알게 되어 Tableau를 간략하게나마 살펴볼 수 있었다. 집합, 매개변수, 테이블 계산식, LOD 표현식 등을 처음 알게 되어서 교육 직후 영화관 데이터 시각화 글에는 일부러 익힌 것들을 알게 모르게 가득가득(?) 넣었었다. 하지만 아이러니하게도 해당 글은 선정이 되지 않았었고, 역시 분석 툴이나 방식도 중요하지만 결국 글이 가장 중요하다는 흔한 좋은 교훈을 얻었다. (물론 'LCM지수'라는 약간의 무리수에 따른 논리 전개가 원인이었을 수 있다. 당시엔 어차피 모 아니면 도라고 생각했다. 물론 지금도 그 글을 꽤 좋아하는 편이다.)
다양한 표현을 위해 R이나 D3.js 도 적어도 2~3번 이상 사용해보면 좋을 것 같아서, 늘 마음속에 생각하고 있다. 하지만 시간에 쫓겨서(?) 글을 쓰다 보니 결국 늘 하던 것으로 할 때가 많았다.
사실 아래에서도 쓰겠지만 데이터 예술을 하지 않는 이상 데이터 시각화는 궁극적으로는 보조일 뿐, 결국 글의 논리 구성이 더 중요할 것으로 보인다. 종종 듣는 데이터 홀릭이라는 팟캐스트가 있다. 한 에피소드에서 SBS 배여운 기자님께서 출연하셨고, '데이터 기반 기사는 취재원이 데이터'라는 뉘앙스의 말씀을 하셔서 인상적이었다. 데이터 기반 글쓰기에 대한 좋은 관점이라고 여겨진다. 아무리 취재원이 좋아도 결국 기사가 중요할 테니.
그렇기에 우선은 늘 정확하게 (특히 오류 없이) 데이터를 표현하는 걸 목표로 하지만, 일단 아름다워야 (필자를 포함해) 모두들 '우와' 하게 되는 건 사실이다. i) 정확한 정보를 ii) 간결하게 전달하면서 동시에 iii) 아름다운 시각화를 만들기에는, 보통 시간이 오래 걸리므로 역시 모든 건 결국 타협이다.
3. 데이터 기반 글쓰기 느낀 점 3가지
1) 생각보다 데이터 준비 작업에 시간이 오래 걸린다.
Kaggle이나 Dacon 같은 머신러닝 및 데이터 분석 대회 플랫폼에서는 (비교적) 잘 정제된 데이터를 바로 다운받을 수 있다. 물론 이렇게 정제된 데이터도 필요에 맞게 추가로 가공할 필요가 있다.
그런데 쏘프라이즈에서는 주로 '질문'이 우선이기에 관련 링크에 있는 데이터가 정제되어 있지 않은 경우가 있었다. (날짜별로 형식이 다르다거나, api가 의미가 없다거나 등 이것과 관련해서는 언젠간 '공공 데이터 잔혹사'라는 글로 돌아오겠습니다.) 따라서 데이터셋 자체가 없기에 크롤링을 직접 하는 등 데이터를 직접 마련해야 하는 경우도 있었다. 법령 데이터, 태풍 데이터, 마라톤 기록 데이터, 여론조사 데이터 모두 크롤링을 직접 해야 했다.)
결국 '데이터가 있나? 그전에 무엇이 데이터지? 그렇다면 그 데이터를 어떻게 가져올 것인가?' 질문에 꽤나 많은 시간을 들이게 되는데, 어쩌면 이게 더 (데이터 인프라가 제대로 안 갖추어진 곳에서의) 실무랑 가까울지도 모르겠다.
아마 '어떻게 데이터를 분석할지?'에 대한 고민은 천천히 시작되고 있는 것 같다. 마찬가지로 우리 사회의 데이터에 대해서 '데이터를 잘 쌓고 있니? 혹은 지금이라도 어떤 데이터를 더 쌓으면 좋을까?'라고 함께 고민해봐도 좋겠다. 그게 결국 '사람들은 무엇을 궁금해할까?'. '사람들은 어떤 사회를 만들어 나가고 싶을까?', '그 우선순위는 어떻게 될까?' 같은 질문에 대한 답을 찾는 과정이 될 수도 있겠다.
통계청 및 수많은 정부 및 (공) 기업들의 얽히고설킨 관계를 풀긴 쉽진 않겠지만, 의외로 비교적 많은 권한을 가지고 있는 소수의 말 몇 마디면 바뀔지도 모른다.
참고로 데이터 관련 직군 2360명 대상 설문조사에서도 역시 데이터를 가져오고 정제하는데 45%의 시간을 투자한다고 한다. (출처: The State of Data Science 2020, ANACONDA)
2) '데이터 먼저'와 '관점 먼저'의 미묘한 차이에 대하여
'하고 싶은 말을 있는 상태에서 데이터를 찾는 것'과 '데이터를 찾고 하고 싶은 말을 생각하기'는 적지 않은 차이가 있다.
사실 이상적이면 후자가 나을 것 같긴 하지만, 데이터를 찾고 난 후 가공 및 분석 도중에 선입견이나 '직관'이 개입되어서 결국엔 똑같은 결과가 나올 수도 있다. 오히려 하고 싶은 말이 명확할 때 관련해서 검증해볼 데이터를 더 촘촘하게 모을 수도 있다. (물론 취사선택에 주의해야 하겠지만)
그동안 썼던 글을 돌아보면,
- 멈춰 시리즈 (MZ세대, 문과/이과) 두 개는 질문을 보자마자 '편 가르기 안 하는 게 좋지 않을까요?'라는 생각으로 시작하였다.
- 마라톤 기록 예측도 '섣불리(?) 어려운 걸 예측하지 마세요!'라는 입장에서 시작했다.
- 영화관 데이터 시각화도 사실 '영화관도 문제긴 한데 그냥 지방 소멸 자체가 문제 아닐까요?'라는 입장에서 시작하긴 했다.
- 나머지 질문은 우선 데이터를 찾고 시각화한 후 보이는 대로 서술했다.
사실 특정 이슈 A에 찬성하는 입장에 대해서도 그럴듯한 데이터 분석 및 시각화가 존재하고 똑같은 이슈 A에 반대하는 입장에 대해서도 그럴듯한 데이터 분석 및 시각화가 존재한다. 데이터를 통해 부동산 가격이 올랐다고 말하는 사람이 있고, 데이터의 '평균'을 사용해서 '집값 통계라는 것이 가장 착시가 심한 영역이기는 하지만, 적어도 평균적으로 보면 홍콩, 중국, 대만을 제외하고는 전 세계 평균보다 단연 상승률이 낮다'라고 말하는 사람이 있다. (무주택자인 제 입장은 생략하겠습니다. 울면서 뛰쳐나감)
결국 믿고 싶은 걸 믿을 것이라면, 사람들을 설득시키는 건 데이터보단 오히려 공감이나 믿음 같은 것일지도 모른다. 하지만 그렇다고 '이것도 맞을 수도 있고, 저것도 맞을 수도 있다. 보고 싶은 대로 보세요!'라는 중립적인 입장으로 글을 쓰면, '그래서 말하고 싶은 게 뭐야?'라는 반응이거나 아예 반응이 없을 수도 있다. 역시 글쓰기란 쉽지 않다. 앞으론 더욱더 철저하게 중립적인 관점을 가지고 데이터를 객관적으로 봐야겠다고 다짐한다. 코가 길어진다
3) 사실 한 번쯤은 데이터 예술의 경지에 오르고 싶었지만.....
어쩌다 보니 쓰는 내내 거의 가성비(?) 시각화를 추구했다. 마감 기한도 있고, 퇴근 후 짬짬이 시간을 내서 쓰는 글이다 보니 시간이 중요했다. 그래서 '데이터 시각화로 진짜 멋진 예술작품 하나를 만들어야겠다. 이 그래프 하나로 해당 사회 문제를 누가 봐도 한눈에 볼 수 있게 만들어 보겠어' 라기보단, '오류가 없는 다양한 시각화를 만들자. 관점에 따라 필요한 시각화가 하나 정돈 있겠지'에 가까웠던 것 같다. 이 글에서 썼듯이 궁금했던 것을 한방에 긁어주는 데이터 오마카세보단, (조심스러운 말투와 함께) 어쩌면 필요한 데이터를 찾을 수 있을만한 데이터 뷔페를 목적으로 했다.
하지만 역시나 이 글을 쓰면서도 언젠가는 '우와 멋있다!' 하는 시각화를 만들어서, 특정 문제를 명확하게 보여주고 싶다고 생각한다.
마치며
쏘프라이즈 덕분에 6개월 동안 글쓰기와 데이터 분석 및 시각화 툴 (Plotly, Tableau, 크롤링 등)이랑 아주 조금은 친해진 기분이다. 원래도 호기심이 많은 편이었는데, 수많은 질문들의 답을 하면서 오히려(?) 궁금한 게 더 많아진 것 같다.
10분이 늦어 이별하는 세상이나 모모에 나오는 회색 신사처럼 모든 것들을 숫자와 데이터로 보면 어쩌면 조금 삭막할지도 모르겠다. 하지만 가끔은 그 숫자와 데이터를 통해 서로를 더 잘 이해하고, 한 치 앞도 모르는 불확실한 세상에서 애매하고 모호한 것들을 조금은 간단하게 만들 수 있을 것이다. 그런 의미에서 앞으로도 계속 꾸준하게 다양한 것들에 대해 다양한 방식으로 글을 쓰고 싶다.
읽어주셔서 감사합니다 :=) 앞으로 이곳에서도 알림을 받으실 수 있습니다.
'데이터카우 글 모음' 카테고리의 다른 글
문이과 구별짓기 멈춰! - 흑백 논리와 평균에 가려진 취업률 통계 톺아보기 (0) | 2021.09.07 |
---|---|
20대 대선, '여론조사'를 '조사해보았습니다. (0) | 2021.08.29 |
평균 기온과 역대 올림픽 마라톤 기록의 상관관계를 찾아낼 수 있을까요? (0) | 2021.08.06 |
혹시 영화를 좋아하신다면, LCM 지수를 아시나요? - 영화관 데이터 시각화 (0) | 2021.07.24 |
한 눈에 보는 한반도 태풍 이야기 - 태풍 데이터 시각화 (0) | 2021.07.11 |