Population by gender and age

2021-10-05

2025-12-30

matplotlib, pandas, python

Matplotlib 객체지향 방식은 훌륭합니다.
객체를 섬세하게 제어할 수 있고, 시각화 함수를 만들기도 좋습니다.
데이터 정리부터 객체지향 방식으로 그림을 그리는 예제를 만들어 보았습니다.

1. 목표

우리나라 인구 데이터로부터 이런 그림을 그릴 것입니다.
한번 그리고 말 것이 아닙니다.
시나 도 이름을 입력하면 데이터만 바뀐 같은 형식의 그림을 찍어낼 것입니다.

2. 데이터 준비

모두의 데이터 분석 with 파이썬
주민등록 인구 및 세대현황

모두의 데이터 분석 with 파이썬에는 인구 데이터를 내려받아 분포를 bar plot으로 표현하는 내용이 있습니다.
같은 데이터를 조금 더 깔끔하게, 조금 체계적으로 만들어 보겠습니다.

2.1. 데이터 다운로드

아래와 같이 주민등록 인구 및 세대현황자료에서 csv 파일을 다운받습니다.
파일 다운로드
주피터 노트북을 켜고 데이터 분석을 준비합니다.

%matplotlib inline

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from copy import deepcopy

# 시각화 설정
sns.set_context("talk")
sns.set_style("white")

# Linux 한글 사용 설정
plt.rcParams['font.family']=['NanumGothic', 'sans-serif']
plt.rcParams['axes.unicode_minus'] = False

2.2. 데이터 전처리

다운받은 파일을 파이썬으로 열어봅니다.

1 2	df_popkr = pd.read_csv("202108_202108_연령별인구현황_월간.csv", encoding="euc-kr") df_popkr.head()

연령대와 성별이 column으로 정리되어 있고 행정구역들이 첫번째 column에 나열되어 있습니다.
분석하기에 좋은 모양은 아닙니다. 전처리를 들어갑니다.

2.2.1. 데이터 내용 정리

행정구역에서 불필요한 번호를 떼어냅니다.

1 2	df_popkr["행정구역"] = df_popkr["행정구역"].str.split("(").str[0] df_popkr.head()

행정구역에서 번호가 떨어진 뒤에 빈 칸이 붙어 있습니다.
숫자들 사이에는 자리수를 표현하는 쉼표(,)가 붙어 있습니다.
df.replace()로 처리합니다.

1
2
3

df_popkr.replace(",", "", regex=True, inplace=True)
df_popkr.replace(" ", "", regex=True, inplace=True)
df_popkr.head()

2.2.2. 성별 분리

남성과 여성 데이터를 따로 그릴 것입니다. 데이터부터 분리합니다.
먼저 남성 데이터를 정리합니다.
컬럼명에 “남”이 있는 것들을 골라냅니다.
그 중에서도 불필요한 내용을 제거하기 위해 “세”가 있는 것만 또 따로 분리합니다.

1 2	df_popkrM = df_popkr.filter(like="남").filter(like="세") df_popkrM.head()

2.2.3. 행-열 전환

데이터를 편하게 다루려면 열에 지역명, 행에 나이대를 놓는 것이 좋습니다.
df.T로 행과 열을 바꾼 뒤 df.astype(int)로 정수형으로 변환합니다.

df_popkrMT = df_popkrM.T
df_popkrMT.columns = df_popkr["행정구역"].values
df_popkrMT = df_popkrMT.astype(int)
df_popkrMT.head()

2.2.4. "나이"만 남기기

나이 정보가 index로 오긴 했지만 불필요한 정보들이 많습니다.
pd.Series.str.split()을 사용해 나이만 남깁니다.

1
2
3

df_popkrMT["나이"] = df_popkrMT.index.str.split("_").str[2]
df_popkrMT.reset_index(drop=True, inplace=True)
df_popkrMT

2.2.5. 여성 데이터 정리

같은 요령으로 여성 데이터도 정리합니다.
위에서 뭔가 복잡하게 한 것 같지만 코드 6줄로 정리됩니다.

df_popkrF = df_popkr.filter(like="여").filter(like="세")
df_popkrFT = df_popkrF.T
df_popkrFT.columns = df_popkr["행정구역"].values
df_popkrFT = df_popkrFT.astype(int)
df_popkrFT["나이"] = df_popkrFT.index.str.split("_").str[2]
df_popkrFT.reset_index(drop=True, inplace=True)
df_popkrFT.head(3)

3. 데이터 시각화

이제 정리한 데이터를 그림으로 표현할 차례입니다.
글의 맨 처음에서 어떻게 그리겠다는 것을 먼저 보여드리긴 했지만 여기서 고민이 필요합니다.
남 vs 여구도를 어떻게 살릴지,
연령대간 변화율이 아닌 연령대별 데이터를 어떻게 표현할지에 대한 고민입니다.
성별, 연령별 인구 분포는 많이 사용하는 형식이 있습니다.
등을 맞대고 있는 구도로 남 vs 여를 표현합니다.
bar plot으로 해당 구간의 데이터에 집중합니다.

3.1. Axes 제작

plt.subplots()명령으로 fig(Figure)와 axs(Axes)를 동시에 생성합니다.
ncols=2로 bar plot이 들어갈 Axes를 두 개 만듭니다.
gridspec_kw={"wspace":0}으로 Axes 사이 간격을 없앱니다.
sharey=True로 두 Axes의 y 범위를 통일합니다.

1 2	fig, axs = plt.subplots(ncols=2, sharey=True, figsize=(10, 5), gridspec_kw={"wspace":0})

3.2. bar plot

공간이 준비됐으니 데이터를 넣습니다.
ax.barh()명령으로 가로 bar plot을 그립니다.
x에 나이, y에 전국 인구 수를 넣습니다.
남성은 green, 여성은 darkorange로 표현합니다.

1
2
3

fig, axs = plt.subplots(ncols=2, sharey=True, figsize=(10, 5), gridspec_kw={"wspace":0})
axs[0].barh(df_popkrMT["나이"], df_popkrMT["전국"], color="green")
axs[1].barh(df_popkrFT["나이"], df_popkrFT["전국"], color="darkorange")

3.3. 남성 좌우 반전

남녀가 등을 맞대고 있도록 표현하려면 남성 데이터의 좌우를 뒤집어야 합니다.
데이터 범위의 최대값xmax을 충분히 큰 수로 지정하고,
남성은 xmax에서 0으로, 여성은 0에서 xmax로 가도록 지정합니다.
ax.set_xlim()을 사용합니다.

fig, axs = plt.subplots(ncols=2, sharey=True, figsize=(10, 5), gridspec_kw={"wspace":0})
axs[0].barh(df_popkrMT["나이"], df_popkrMT["전국"], color="green")
axs[1].barh(df_popkrFT["나이"], df_popkrFT["전국"], color="darkorange")

xmax = 4.5e6
axs[0].set_xlim(xmax, 0)
axs[1].set_xlim(0, xmax)

3.4. xticklabels 수정

x축 눈금 레이블(xticklabels)이 0부터 4까지 적혀있고 1e6이라는 숫자가 함께 있습니다.
$0 \times 10^6$ ~ $4\times 10^6$ 이라는 의미이지만 잘 읽히지 않습니다.
$4\times 10^6$은 우리 뇌 속에서 4,000,000이 되고, 다시 4백만이 됩니다.
이럴 바에는 그냥 4백만이라고 써 주는게 낫습니다.
f-string과 list comprehension을 이용해 xticklabels를 수정합니다.
Axes 두 개에 똑같은 일을 해야 합니다. for loop으로 반복시킵니다.

fig, axs = plt.subplots(ncols=2, sharey=True, figsize=(10, 5), gridspec_kw={"wspace":0})
axs[0].barh(df_popkrMT["나이"], df_popkrMT["전국"], color="green")
axs[1].barh(df_popkrFT["나이"], df_popkrFT["전국"], color="darkorange")

xmax = 4.5e6
axs[0].set_xlim(xmax, 0)
axs[1].set_xlim(0, xmax)

xticks = np.arange(0, xmax, 1e6)
for ax in axs:
    ax.set_xticks(xticks)
    ax.set_xticklabels([f"{int(x*1e-6)}백만" if x != 0 else "0" for x in xticks])

3.5. title, grid 추가

남성과 여성을 나란히 그렸으니 어디가 어디인지 적어줘야 합니다.
중앙에서 좌우로 뻗은 막대들이 언뜻 보면 비슷합니다.
정량적인 비교를 돕기 위해 grid를 추가합니다.
제목은 ax.set_title(), 눈금은 ax.grid()명령입니다.

fig, axs = plt.subplots(ncols=2, sharey=True, figsize=(10, 5), gridspec_kw={"wspace":0})
axs[0].barh(df_popkrMT["나이"], df_popkrMT["전국"], color="green")
axs[1].barh(df_popkrFT["나이"], df_popkrFT["전국"], color="darkorange")

xmax = 4.5e6
axs[0].set_xlim(xmax, 0)
axs[1].set_xlim(0, xmax)

xticks = np.arange(0, xmax, 1e6)
for ax, title in zip(axs, ["남성", "여성"]):
    ax.set_xticks(xticks)
    ax.set_xticklabels([f"{int(x*1e-6)}백만" if x != 0 else "0" for x in xticks])
    ax.grid(c="lightgray")
    ax.set_title(title, color="gray", fontweight="bold", pad=16)

이제 남성과 여성의 차이가 조금 눈에 들어옵니다.
70대 여성은 2백만명이 넘지만 70대 남성은 2백만명이 못 됩니다.
10세 미만은 여성보다 남성이 더 많습니다.

3.6. text 추가

grid 덕택에 조금은 읽기가 수월해졌지만 정확한 값은 보이지 않습니다.
숫자는 신빙성을 부여합니다. 활용성도 높아집니다.
ax.text()명령으로 글자를 넣을 수 있습니다.
그런데 어디에 넣을까요?
막대 끝에 넣으면 어떨까요? 데이터의 편차가 돋보일 것입니다.
bar plot은 Matplotlib이 patch라는 객체로 관리합니다.
ax.patches[0]이라면 맨 처음에 붙인 객체를 의미합니다.
ax.patches와 for loop을 결합하면 하나씩 순회하면서 숫자를 달아봅시다.

fig, axs = plt.subplots(ncols=2, sharey=True, figsize=(10, 5), gridspec_kw={"wspace":0})
axs[0].barh(df_popkrMT["나이"], df_popkrMT["전국"], color="green")
axs[1].barh(df_popkrFT["나이"], df_popkrFT["전국"], color="darkorange")

xmax = 4.5e6
axs[0].set_xlim(xmax, 0)
axs[1].set_xlim(0, xmax)

xticks = np.arange(0, xmax, 1e6)
for ax, title in zip(axs, ["남성", "여성"]):
    ax.set_xticks(xticks)
    ax.set_xticklabels([f"{int(x*1e-6)}백만" if x != 0 else "0" for x in xticks])
    ax.grid(c="lightgray")
    ax.set_title(title, color="gray", fontweight="bold", pad=16)
    
for ax in axs:
    for i, p in enumerate(ax.patches):
        w = p.get_width()
        ax.text(w, i, f" {format(w, ',')} ", 
                fontsize="x-small", va="center", ha="right")

2중 for loop으로 Axes마다, patch마다 숫자를 달았습니다.
ax.patch에 .get_width()를 적용해서 위치를 구했습니다.
format()으로 천 단위마다 쉼표를 추가했고, ha="right"로 우측 정렬을 했습니다.
그런데 여성 데이터마저 우측 정렬이 되어버렸습니다. if를 사용해 여성은 좌측 정렬을 합니다.

fig, axs = plt.subplots(ncols=2, sharey=True, figsize=(10, 5), gridspec_kw={"wspace":0})
axs[0].barh(df_popkrMT["나이"], df_popkrMT["전국"], color="green")
axs[1].barh(df_popkrFT["나이"], df_popkrFT["전국"], color="darkorange")

xmax = 6e6
axs[0].set_xlim(xmax, 0)
axs[1].set_xlim(0, xmax)

xticks = np.arange(0, xmax, 1e6)
for ax, title in zip(axs, ["남성", "여성"]):
    ax.set_xticks(xticks)
    ax.set_xticklabels([f"{int(x*1e-6)}백만" if x != 0 else "0" for x in xticks])
    ax.grid(c="lightgray")
    ax.set_title(title, color="gray", fontweight="bold", pad=16)
    
for ax in axs:
    for i, p in enumerate(ax.patches):
        w = p.get_width()
        if ax == axs[0]:
            ha = "right"
        else:
            ha = "left"
        
        ax.text(w, i, f" {format(w, ',')} ", 
                fontsize="x-small", va="center", ha=ha)

3.7. 전체 제목 추가, 세부 수정

이제 거의 다 그렸습니다. 한번씩 보면서 맘에 들지 않는 부분을 수정합니다.
먼저 grid와 글자가 너무 난잡합니다.
ax.grid(axis="x")로 세로선만 남깁니다.
숫자 색상에 남성과 여성에 사용한 색상을 적용합니다.
그리고 왼쪽은 남성, 오른쪽은 여성이지만 이게 어디 데이터인지가 없네요.
fig.suptitle()로 추가합니다.
구성요소간 간격 정리를 위해 fig.tight_layout()을 사용합니다.

fig, axs = plt.subplots(ncols=2, sharey=True, figsize=(10, 5), gridspec_kw={"wspace":0})

c_M = "green"
c_F = "darkorange"
axs[0].barh(df_popkrMT["나이"], df_popkrMT["전국"], color=c_M)
axs[1].barh(df_popkrFT["나이"], df_popkrFT["전국"], color=c_F)

xmax = 6e6
axs[0].set_xlim(xmax, 0)
axs[1].set_xlim(0, xmax)

xticks = np.arange(0, xmax, 1e6)
for ax, title in zip(axs, ["남성", "여성"]):
    ax.set_xticks(xticks)
    ax.set_xticklabels([f"{int(x*1e-6)}백만" if x != 0 else "0" for x in xticks])
    ax.grid(axis="x", c="lightgray")
    ax.set_title(title, color="gray", fontweight="bold", pad=16)
    
for ax in axs:
    for i, p in enumerate(ax.patches):
        w = p.get_width()
        if ax == axs[0]:
            ha = "right"
            c = c_M
        else:
            ha = "left"
            c = c_F
        
        ax.text(w, i, f" {format(w, ',')} ", 
                c=c, fontsize="x-small", va="center", ha=ha, 
                fontweight="bold", alpha=0.5)

fig.suptitle("                 전국", fontweight="bold")
fig.tight_layout()

3.8. 함수로 만들기

이제 조금 쓸만해진 것 같습니다.
전국 말고 시도별 데이터도 시각화하고 싶은데, 그 때마다 코드를 복붙하기 불편합니다.
함수로 만들어버립니다.
변수 이름도 조금은 더 직관적으로 만들고, 인구 수에 따라 적절히 스케일링할 수 있는 장치를 추가합니다.
지역의 인구에 따라 백만말고 십만, 만, 천명이 더 유용할 때도 있겠죠.
fig를 return해서 여차하면 추가 수정을 할 수 있도록 합니다.

def plot_pop(loc, popmax=6e6, poptick=1e6):
    fig, axs = plt.subplots(ncols=2, sharey=True, figsize=(10, 5), gridspec_kw={"wspace":0})

    c_M = "green"
    c_F = "darkorange"
    axs[0].barh(df_popkrMT["나이"], df_popkrMT[loc], color=c_M)
    axs[1].barh(df_popkrFT["나이"], df_popkrFT[loc], color=c_F)

    axs[0].set_xlim(popmax, 0)
    axs[1].set_xlim(0, popmax)

    xticks = np.arange(0, popmax, poptick)
    if poptick >= 1e6:
        factor, unit = 1e-6, "백만"
    elif 1e5 <= poptick < 1e6:
        factor, unit = 1e-5, "십만"
    elif 1e4 <= poptick < 2e5:
        factor, unit = 1e-4, "만"
    elif 1e3 <= poptick < 2e4:
        factor, unit = 1e-3, "천"
        
    for ax, title in zip(axs, ["남성", "여성"]):
        ax.set_xticks(xticks)
        ax.set_xticklabels([f"{int(x*factor)}{unit}" if x != 0 else "0" for x in xticks])
        ax.grid(axis="x", c="lightgray")
        ax.set_title(title, color="gray", fontweight="bold", pad=16)

    for ax in axs:
        for i, p in enumerate(ax.patches):
            w = p.get_width()
            if ax == axs[0]:
                ha = "right"
                c = c_M
            else:
                ha = "left"
                c = c_F

            ax.text(w, i, f" {format(w, ',')} ", 
                    c=c, fontsize="x-small", va="center", ha=ha, 
                    fontweight="bold", alpha=0.5)

    fig.suptitle(f"                 {loc}", fontweight="bold")
    fig.tight_layout()
    
    return fig

이 함수로 전국 인구 분포를 그려봅시다.

1	fig = plot_pop("전국")

똑같이 나왔습니다. :)
서울시를 해볼까요? 구간별 인구 단위가 십만으로 줄어듭니다.

1	fig = plot_pop("서울특별시", popmax=1e6, poptick=2e5)

이제는 세종시 차례입니다. 구간별 인구 단위가 만단위로 줄어듭니다.

1	fig = plot_pop("세종특별자치시", popmax=1e6, poptick=2e5)

같은 요령으로 영호남과 다른 광역시도 그릴 수 있습니다.

4. 결론

수작업 대신 코딩을 왜 하냐는 질문에 가장 좋은 답변 중 하나는 반복 작업 처리일 것입니다.
수작업보다 체계적인 작업도 답변이 될 수 있을 것입니다.
데이터 시각화 작업을 체계적으로, 그리고 반복에 대응하는 방법은 객체지향 방식입니다.
Matplotlib을 다루시는 많은 분들께 평안이 깃들기를 기원합니다.

도움이 되셨나요? 카페인을 투입하시면 다음 포스팅으로 변환됩니다

PythonData Science

1. 목표

2. 데이터 준비

2.1. 데이터 다운로드

2.2. 데이터 전처리

2.2.1. 데이터 내용 정리

2.2.2. 성별 분리

2.2.3. 행-열 전환

2.2.4. "나이"만 남기기

2.2.5. 여성 데이터 정리

3. 데이터 시각화

3.1. Axes 제작

3.2. bar plot

3.3. 남성 좌우 반전

3.4. xticklabels 수정

3.5. title, grid 추가

3.6. text 추가

3.7. 전체 제목 추가, 세부 수정

3.8. 함수로 만들기

4. 결론