NEWBLUE's

[부동산 데이터 분석] 데린이의 서울 내 집 장만 프로젝트 (1) - pandas와 친해지기 본문

데이터 분석가가 되자, 지금 당장!

[부동산 데이터 분석] 데린이의 서울 내 집 장만 프로젝트 (1) - pandas와 친해지기

newblue 2020. 11. 27. 22:00
반응형

 

안녕하세요. 새파란입니다. 천천히 데이터 시각화 공부를 시작하려고 합니다. 

어떤 데이터로 시작을 할까 하다가, 만인의 관심! 부동산 데이터로 결정을 내렸습니다.

 

월 10만 원 내외 기숙사에 살다가, 이제 몇십 만원씩 월세를 내고 있으니 '내 집 장만'에 관심을 가지지 않을 수가 없었네요ㅎㅎ

천천히 수도권의 다양한 데이터를 보면서 부동산과 친해지는(?) 시간을 가져 보려고 합니다.

 

숲, 바다, 호수 대신 매일 빌딩만 보고 사니, 빌딩을 가지고 싶은 건 아닐까요. 

 

주택에는 단독주택, 아파트, 연립주택 등 다양한 종류가 있습니다.

먼저 국토교통부 실거래가 공개시스템에서 현재 제가 살고 있는 곳인 연립/다세대 주택의 2020년 1월부터 10월까지의 통계를 다운로드하였습니다. (엑셀에서 CSV UTF-8 형식으로 저장해야 깨지지 않아요) 

데이터 가져오기

먼저 데이터를 살펴볼까요?

 

 

 

역시나 잔뜩 warning이 뜨는군요. 뭔가 한글이 네모네모처럼 나온 걸 보니 한글과 관련된 것 같아요. 역시 당황하지 말고 구글링을 해봅니다.

그 결과, 아래 옵션을 추가하면 된다고 하네요.    

 

 

드디어 정상적인 그래프가 나왔습니다! 25%~30% 정도 되어 보이니, 생각보다 월세를 내는 분들이 적군요. (그게 바로 접니다)

 

 

월세 분포 살펴보기

 

음, '대부분의 사람들이 100만 원 이하의 월세를 살고 있다'는 너무 당연한 사실 같네요. 조금 범위를 좁혀야겠어요.

그리고 10만 원 단위로 맞춰서 볼 수 있게, bins조건을 추가합니다.

 

언제 원룸 계약이 이루어질까요?

 

층의 경우 2~3층이 1등을 차지했습니다. 전혀 놀랍지 않은 사실

 

전용 면적으로 계산해보니 조금 헷갈려서, 평으로 바꿔봤습니다.

 

역시 강남구와 서초구였습니다! (눈물이 앞을 가립니다)

마지막인 노원구와는 대략 30만 원 정도 차이가 나네요.

 

보증금도 큰 차이가 없었습니다. 서초와 강남이 자리를 바꿨네요.

이번엔 서초구와 노원구는 1억 7천만 원 차이가 났습니다.

 

반응형