Category: Python

머신러닝 모델링의 흔한 실수들

제 직장에서 진행한 에너지 + AI 학습조직 발표입니다. 2021.02.24 발표영상입니다. 여러 커뮤니티를 통해 머신러닝, 딥러닝 실수 사례를 모았습니다. 사례를 모아주신 분들께 깊은 감사 말씀을 드립니다. 60여건의 사례 중 데이터 관련 사례를 일부 모아 발표했습니다. 발표자료는 여기에서 다운로드 받으실 수 있습니다.

Density Plot with Colormap

시각화는 데이터를 그림으로 표현하는 작업입니다. 그런데 한번 그림이 되면 진짜 그림처럼 취급할 수 있습니다. 밀도함수에 컬러맵을 입혀봅시다. 1. Imitating Ridge Plot by R Gallery of ggridges examplesPega Devlog: Ridgeline Plot 인터넷을 다니다가 R로 그려진 멋진 그림을 봤습니다.

Matplotlib plot colors

시각화에서 색상은 중요한 요소입니다. 그러나 관성적으로 프로그램이 제공하는 기본값을 사용하는 분들이 많습니다. matplotlib은 푸짐한 상을 차려놓고 우리를 기다리고 있습니다. 골라봅시다. 1. Example Bed 화면상에서 색상은 대개 RGB 3채널로 구성됩니다. 여기에 불투명도 Alpha가 붙어 RGBA 4채널이 되기도 합니다. 같은 색상도 숫

Plot with Variable Class

시각화의 대상은 데이터만이 아닙니다. 데이터를 비롯해 이름, 단위를 써줘야 하고 데이터를의 분석결과를 함께, 또는 따로 강조해서 그려야 합니다. 데이터마다 붙는 꼬리표와 파생변수를 클래스를 이용해서 정리해 봅시다. 1. 데이터 10만개 정도의 상자 데이터가 있습니다. 길이(length), 너비(width), 높이(height)가 있고, 여기로부터 입체

Income from Two Companies (2)

우리의 A씨는 투잡을 하는 영업사원입니다. A씨라는 가상의 인물 계좌를 어떻게 만들었는지 공개합니다. numpy.random, datetime을 pandas.DataFrame에 적용한 결과입니다. 전체 코드는 여기에서 다운로드 가능합니다. 일단 데이터를 만든다는 목표로 만든, 거의 라이브코딩 수준 코드입니다. 코드가 거칠더라도 양해바랍니다. 1.

Income from Two Companies (1)

수입이 불규칙한 영업사원을 가정하고, 은행계좌를 간단하게 분석합니다. 데이터프레임의 문자열 일부를 이용해 데이터를 분류합니다. 분석을 위한 데이터도 직접 만들어봅니다. 1. 입금 데이터 급여통장을 지정하고 모든 수입을 통일하면 창구는 일원화됩니다. 그러나 통장에 찍히는 급여내역이 그다지 친절하지 않으면 정리가 어렵습니다. 투잡을 하는 영업사원 A씨

matplotlib fonts

데이터 시각화 결과물에는 글자가 많이 들어갑니다. 축 레이블, 눈금 레이블, 타이틀 뿐 아니라 그림 위에 데이터를 명시하기도 합니다. 글꼴, 글자 크기, 스타일 등을 자유자재로 다뤄봅니다. 1. Matplotlib 글꼴 matplotlib.axes.Axes.textmatplotlib.font_managermatplotlib User’s Guide #Te

Picking and Modifying Colors

데이터 시각화를 언어라고 한다면 색상은 단어입니다. “여기는 무엇입니다”를 보여주기도 하고 “얼마나 큽니다”를 보여주기도 합니다. 좋은 단어는 상황을 정확하게 전달할 뿐 아니라 글을 아름답게 합니다. 좋은 색상은 데이터를 효과적으로 전달할 뿐 아니라 보는 사람의 마음을 즐겁고 편안하게 합니다. 1. 좋은 색상 가져오기 Finding the right c

PCA of X features with Y

PCA는 데이터의 숨겨진 패턴을 드러내줍니다. Feature Space의 데이터 분포 중 가장 넓게 분포한 것부터 찾아주기 때문에 X Feature들만으로는 보기 어려운 패턴을 찾을 수 있습니다. X 인자들의 분포 패턴에 Y feature를 얹어서 그려봅시다. Feature engineering을 위한 실마리를 찾고자 합니다. 1. 데이터 이번 예시는

matplotlib plot()

matplotlib의 가장 기본적인 시각화 명령은 plot()입니다. 데이터를 line plot으로 표현하는 명령인데 marker만 남기면 scatter plot도 가능합니다. 여러 옵션들을 한 눈에 그려봅니다. 1. Sample Data 수능 데이터에서 일부를 가져옵니다.12x = np.array([2009, 2010, 2011, 2012, 2013]