Tag: python

Plot with Variable Class

시각화의 대상은 데이터만이 아닙니다. 데이터를 비롯해 이름, 단위를 써줘야 하고 데이터를의 분석결과를 함께, 또는 따로 강조해서 그려야 합니다. 데이터마다 붙는 꼬리표와 파생변수를 클래스를 이용해서 정리해 봅시다. 1. 데이터 10만개 정도의 상자 데이터가 있습니다. 길이(length), 너비(width), 높이(height)가 있고, 여기로부터 입체

Income from Two Companies (2)

우리의 A씨는 투잡을 하는 영업사원입니다. A씨라는 가상의 인물 계좌를 어떻게 만들었는지 공개합니다. numpy.random, datetime을 pandas.DataFrame에 적용한 결과입니다. 전체 코드는 여기에서 다운로드 가능합니다. 일단 데이터를 만든다는 목표로 만든, 거의 라이브코딩 수준 코드입니다. 코드가 거칠더라도 양해바랍니다. 1.

Income from Two Companies (1)

수입이 불규칙한 영업사원을 가정하고, 은행계좌를 간단하게 분석합니다. 데이터프레임의 문자열 일부를 이용해 데이터를 분류합니다. 분석을 위한 데이터도 직접 만들어봅니다. 1. 입금 데이터 급여통장을 지정하고 모든 수입을 통일하면 창구는 일원화됩니다. 그러나 통장에 찍히는 급여내역이 그다지 친절하지 않으면 정리가 어렵습니다. 투잡을 하는 영업사원 A씨

matplotlib fonts

데이터 시각화 결과물에는 글자가 많이 들어갑니다. 축 레이블, 눈금 레이블, 타이틀 뿐 아니라 그림 위에 데이터를 명시하기도 합니다. 글꼴, 글자 크기, 스타일 등을 자유자재로 다뤄봅니다. 1. Matplotlib 글꼴 matplotlib.axes.Axes.textmatplotlib.font_managermatplotlib User’s Guide #Te

Picking and Modifying Colors

데이터 시각화를 언어라고 한다면 색상은 단어입니다. “여기는 무엇입니다”를 보여주기도 하고 “얼마나 큽니다”를 보여주기도 합니다. 좋은 단어는 상황을 정확하게 전달할 뿐 아니라 글을 아름답게 합니다. 좋은 색상은 데이터를 효과적으로 전달할 뿐 아니라 보는 사람의 마음을 즐겁고 편안하게 합니다. 1. 좋은 색상 가져오기 Finding the right c

PCA of X features with Y

PCA는 데이터의 숨겨진 패턴을 드러내줍니다. Feature Space의 데이터 분포 중 가장 넓게 분포한 것부터 찾아주기 때문에 X Feature들만으로는 보기 어려운 패턴을 찾을 수 있습니다. X 인자들의 분포 패턴에 Y feature를 얹어서 그려봅시다. Feature engineering을 위한 실마리를 찾고자 합니다. 1. 데이터 이번 예시는

matplotlib plot()

matplotlib의 가장 기본적인 시각화 명령은 plot()입니다. 데이터를 line plot으로 표현하는 명령인데 marker만 남기면 scatter plot도 가능합니다. 여러 옵션들을 한 눈에 그려봅니다. 1. Sample Data 수능 데이터에서 일부를 가져옵니다.12x = np.array([2009, 2010, 2011, 2012, 2013]

수능 Trend Visualization (3)

Contributor 김동윤님 지난 글에서 spines, grid, legend를 정리했습니다. grid를 넣으려고 minor tick도 설정해 보았구요. 기본 데이터는 다 그렸는데, 이걸로는 아쉽습니다. 메시지를 추출해서 전달해봅시다. 5. 토달기 : annotate 지원자 수는 수능을 보겠다고 원서를 제출한 사람 수고 응시자 수는 실제로 가서

수능 Trend Visualization (2)

지난 글에서 수능 데이터를 시각화해봤습니다. 그림은 나왔는데 틀과 legend가 정리되지 않았습니다. spine, grid, legend를 정리하고 부가 정보를 넣어봅시다. 이번 글에서는 부분적으로 필요한 코드 위주로 기술하고, 가끔 전체 코드를 보이도록 하겠습니다. 2. spines Pega Devlog: Spines & Grids lin