Archive: 2021

pytorch & sklearn pipeline

저는 tabular data를 다룹니다. 간혹 딥러닝을 하고 싶지만 표준화등 전처리도 해야 합니다. 범주형 변수를 인코딩해서 feature importance도 보고 싶습니다. skorch(sklearn + pytorch)를 사용하면 가능합니다. 1. skorch = sklearn + pytorch skorch documentationskorch tu

Full moon

지난 추석, 간만에 긴장을 풀었습니다. 가끔 취미로 그림을 그리고는 하는데 python으로는 안그렸네요. 자다가 문득 코드가 떠올라 보름달을 그렸습니다. 1. 보름달은? 보름달이 어떻게 생겼는지 모르는 사람은 없을 겁니다. 검은 밤 하늘에 떠 있는 하얀 동그라미로 단순화할 수 있습니다. 토끼가 방아를 찧고 있는 듯한 모양이 있지만 잠시 잊기로 합니다

3D curved surfaces

자주 있는 일은 아니지만 3차원 곡면을 그릴 때가 있습니다. 어떤 분은 원자를 표현하느라, 또는 쇠구슬을 표현하느라 구가 필요할지도 모릅니다. 저는 업무상 태양이 하늘에 떠 있는 지점을 고민할 때가 많아서 반구가 필요합니다. 과거에는 원자의 3차원 에너지를 표현하느라 이런 그림이 필요했습니다. 1. 데이터 준비 wikipedia: Spherical co

머신러닝 모델링의 흔한 실수들 (2)

많은 분들께서 모아주신 머신러닝, 딥러닝 실수 사례 두번째 이야기를 2021 AI Festival에서 발표했습니다. 사례를 모아주신 분들께 깊은 감사 말씀을 드립니다. 60여건의 사례 중 데이터 관련 사례를 일부 모아 발표했습니다. 발표자료는 여기에서 다운로드 받으실 수 있습니다. 2021 AI Festival 제 발표는 44분 30초부터 시작

Paper Search using ScopusAPI

연구자라면 논문 검색이 일상입니다. 매년 출간되는 논문의 편 수는 기하급수적으로 늘고 있습니다. 새로운 논문을 찾거나 전체적인 트렌드를 파악하기가 점점 어려워집니다. elsevier사가 제공하는 API를 사용해서 파이썬으로 데이터를 받고 정리합시다. 1. ElsevierElsevierElsevier Developers 1.1. 계정 Elsevier에 가

Streamgraph - Movie Genres

여러 범주의 Area chart를 누적하면 stacked chart plot이 됩니다. Matplotlib의 stackplot() 함수를 사용하면 쉽게 그릴 수 있습니다. baseline 옵션으로 모양을 제어합니다. kaggle에서 받아온 영화 데이터로 그려봅시다. 1. Stackplot and Streamgraph matplotlib: Stackplo

Matplotlib 3D Plots (2)

Matplotlib으로 3D Plot을 할 수 있습니다. 많은 분들이 알고 있는 사실이지만 적극적으로 쓰이지 않습니다. 막상 쓰려면 너무 낯설기도 하고 잘 모르기도 하기 때문입니다. Reference matplotlib tutorial: The mplot3d Toolkitnumpy.meshgrid 3. 3D Visualization 일반적으로는 x,

Matplotlib 3D Plots (1)

Matplotlib으로 3D Plot을 할 수 있습니다. 많은 분들이 알고 있는 사실이지만 적극적으로 쓰이지 않습니다. 막상 쓰려면 너무 낯설기도 하고 잘 모르기도 하기 때문입니다. Reference matplotlib tutorial: The mplot3d Toolkitnumpy.meshgrid 1. 예제 데이터1.1. 공식 예제 데이터 위 그림

Seaborn Heatmap & Colorbar Control

seaborn의 heatmap은 매우 강력한 도구입니다. 한 줄의 명령으로 colormap과 annotation, colorbar가 붙은 정돈된 그림이 나옵니다. 그런데 colorbar를 조금 고치고 싶다면, 어떻게 할까요? 1. Seaborn Heatmap1.1. 예제 데이터 만들기 Seaborn에 내장된 펭귄 데이터셋을 사용합시다.123456789%

Datetime X-axis Control

시계열 데이터를 다루면 x축에 날짜와 시간이 붙습니다. x축 데이터는 datetime 객체일 수도 있고, 그냥 string일 수도 있습니다. 여러 그림을 겹쳐 그릴 때 종종 문제가 됩니다. 원인과 해결책을 알아봅니다. 1. 예제 데이터 라이브러리 호출12345678%matplotlib inline# 라이브러리 호출import numpy as npimpo