Population by gender and age

Matplotlib 객체지향 방식은 훌륭합니다. 객체를 섬세하게 제어할 수 있고, 시각화 함수를 만들기도 좋습니다. 데이터 정리부터 객체지향 방식으로 그림을 그리는 예제를 만들어 보았습니다. 1. 목표 우리나라 인구 데이터로부터 이런 그림을 그릴 것입니다. 한번 그리고 말 것이 아닙니다. 시나 도 이름을 입력하면 데이터만 바뀐 같은 형식의

PythonData Science

2021-06-29

Datetime X-axis Control

시계열 데이터를 다루면 x축에 날짜와 시간이 붙습니다. x축 데이터는 datetime 객체일 수도 있고, 그냥 string일 수도 있습니다. 여러 그림을 겹쳐 그릴 때 종종 문제가 됩니다. 원인과 해결책을 알아봅니다. 1. 예제 데이터 라이브러리 호출 12345678%matplotlib inline# 라이브러리 호출import numpy as np

PythonData Science

2021-01-24

Income from Two Companies (2)

우리의 A씨는 투잡을 하는 영업사원입니다. A씨라는 가상의 인물 계좌를 어떻게 만들었는지 공개합니다. numpy.random, datetime을 pandas.DataFrame에 적용한 결과입니다. 전체 코드는 여기에서 다운로드 가능합니다. 일단 데이터를 만든다는 목표로 만든, 거의 라이브코딩 수준 코드입니다. 코드가 거칠더라도 양해바랍

PythonData Science

2021-01-21

Income from Two Companies (1)

수입이 불규칙한 영업사원을 가정하고, 은행계좌를 간단하게 분석합니다. 데이터프레임의 문자열 일부를 이용해 데이터를 분류합니다. 분석을 위한 데이터도 직접 만들어봅니다. 1. 입금 데이터 급여통장을 지정하고 모든 수입을 통일하면 창구는 일원화됩니다. 그러나 통장에 찍히는 급여내역이 그다지 친절하지 않으면 정리가 어렵습니다. 투잡을 하는 영업사원

2020

PythonData Science

2020-12-24

수능 Trend Visualization (3)

Contributor 김동윤님 지난 글에서 spines, grid, legend를 정리했습니다. grid를 넣으려고 minor tick도 설정해 보았구요. 기본 데이터는 다 그렸는데, 이걸로는 아쉽습니다. 메시지를 추출해서 전달해봅시다. 5. 토달기 : annotate 지원자 수는 수능을 보겠다고 원서를 제출한 사람 수고 응시자 수는 실제로 가서

PythonData Science

2020-12-21

수능 Trend Visualization (2)

지난 글에서 수능 데이터를 시각화해봤습니다. 그림은 나왔는데 틀과 legend가 정리되지 않았습니다. spine, grid, legend를 정리하고 부가 정보를 넣어봅시다. 이번 글에서는 부분적으로 필요한 코드 위주로 기술하고, 가끔 전체 코드를 보이도록 하겠습니다. 2. spines Pega Devlog: Spines & Grids li

PythonData Science

2020-12-17

수능 Trend Visualization (1)

대학수학능력시험은 94학번 이후 대학 진학을 결정하는 시험입니다. 얼마 전에 끝난 2021학년도 수능을 포함해 29회의 수능이 있었습니다. 근 30년간 응시생과 점수에 대한 트렌드를 확인해 보겠습니다. 1. 데이터 1.1. 데이터 확보 한국교육과정평가원 대학수학능력시험 정보 수학능력시험 관련 데이터는 공공데이터 포털에서 다운받을 수 있습니다. 여

PythonData Science

2020-10-25

Google Trend Visualization

Google trend 분석 결과는 그 자체로 깔끔합니다. 그러나 여러 항목을 개별적으로 분석하려면 데이터를 다운받아 분석하는 것이 좋습니다. 1. Google Trends Google trends Google trends는 검색어를 입력하는 것 만으로 웹, 이미지, 또는 유튜브에서 해당 검색어가 얼마나 빈번하게 등장하는지 경향을 쉽게 알 수 있

PythonData Science

2020-09-09

Seaborn 0.11 Quick Review

seaborn 0.11이 나왔습니다. 로고도 생겼고, 공식 홈페이지도 대폭 강화되어 문제점으로 지적되던 공식 문서가 상세해졌습니다. matplotlib과의 연관성이 선명해졌고 pandas와의 연계기도 잘 드러나 있습니다. seaborn 1. Matplotlib vs Seaborn seaborn: introductory notes 1.1. mat

PythonData Science

2020-04-24

Data Cleansing Functions

데이터 분석에 앞서 잘못된 부분을 찾아내고 이를 메꾸는 작업을 데이터 정리(data cleansing)이라고 합니다. 개별 데이터의 타입(type), 크기(length) 등이 잘못된 경우도 있고, 개별 데이터는 정상적이지만 이것들을 합쳤더니(merge) 결측치가 양산되거나 중복되는 경우도 있습니다. 분석이나 예측모델 생성시 문제의 원인이 되기 때문에 처음

Tag: pandas