PCA of X features with Y
PCA는 데이터의 숨겨진 패턴을 드러내줍니다. Feature Space의 데이터 분포 중 가장 넓게 분포한 것부터 찾아주기 때문에 X Feature들만으로는 보기 어려운 패턴을 찾을 수 있습니다. X 인자들의 분포 패턴에 Y feature를 얹어서 그려봅시다. Feature engineering을 위한 실마리를 찾고자 합니다. 1. 데이터 이번 예시는
PCA는 데이터의 숨겨진 패턴을 드러내줍니다. Feature Space의 데이터 분포 중 가장 넓게 분포한 것부터 찾아주기 때문에 X Feature들만으로는 보기 어려운 패턴을 찾을 수 있습니다. X 인자들의 분포 패턴에 Y feature를 얹어서 그려봅시다. Feature engineering을 위한 실마리를 찾고자 합니다. 1. 데이터 이번 예시는
matplotlib의 가장 기본적인 시각화 명령은 plot()입니다. 데이터를 line plot으로 표현하는 명령인데 marker만 남기면 scatter plot도 가능합니다. 여러 옵션들을 한 눈에 그려봅니다. 1. Sample Data 수능 데이터에서 일부를 가져옵니다.12x = np.array([2009, 2010, 2011, 2012, 2013]
Beatutiful colormaps for oceanography: cmoceanmain developer: Krysten ThyngThyng, K. M., Greene, C. A., Hetland, R. D., Zimmerle, H. M., & DiMarco, S. F. (2016). True colors of oceanography. Ocea
Contributor 김동윤님 지난 글에서 spines, grid, legend를 정리했습니다. grid를 넣으려고 minor tick도 설정해 보았구요. 기본 데이터는 다 그렸는데, 이걸로는 아쉽습니다. 메시지를 추출해서 전달해봅시다. 5. 토달기 : annotate 지원자 수는 수능을 보겠다고 원서를 제출한 사람 수고 응시자 수는 실제로 가서
지난 글에서 수능 데이터를 시각화해봤습니다. 그림은 나왔는데 틀과 legend가 정리되지 않았습니다. spine, grid, legend를 정리하고 부가 정보를 넣어봅시다. 이번 글에서는 부분적으로 필요한 코드 위주로 기술하고, 가끔 전체 코드를 보이도록 하겠습니다. 2. spines Pega Devlog: Spines & Grids lin
대학수학능력시험은 94학번 이후 대학 진학을 결정하는 시험입니다. 얼마 전에 끝난 2021학년도 수능을 포함해 29회의 수능이 있었습니다. 근 30년간 응시생과 점수에 대한 트렌드를 확인해 보겠습니다. 1. 데이터1.1. 데이터 확보 한국교육과정평가원 대학수학능력시험 정보 수학능력시험 관련 데이터는 공공데이터 포털에서 다운받을 수 있습니다. 여러
연산 결과를 그림으로 표현하다보면, 표현 가능한 범위를 넘어설 때가 있습니다. 이럴 때 어쩔 수 없이 표현 가능한 범위로 우겨넣어 표현하지만, 오해를 유발합니다. 최대한 오해를 방지하려는 노력으로 이해해 주시면 좋겠습니다. Pega Devlog: tf.keras BatchNormalization 1. 지난 글에 이어서 지난 글에 이런 부분이 있습니다
tight_layout()으로 axes 사이 간격을 적절하게 조정할 수 있습니다. subplots, legend와 함께 사용하는 방법을 알아봅시다. 간혹 tight_layout()이 잘 안될 때 해결하는 방법도 알아봅시다. Contributor 데이터짱님, 안수빈님 1. 최종적으로 그릴 그림 이번 글에서, 우리는 이 그림을 그릴겁니다. 포인트는 다
이미지 도용을 방지할 수 있는 watermark를 만들어 봅시다. matplotlib으로 데이터와 이미지를 동시에 표현해서 만듭니다. watermark를 박는 4가지 방법을 소개합니다. 1. 다른 사람의 자료에서 내 그림이 보일 때 매일경제: 월 100장씩 사라지던 사우나 수건… 도난 막는 방법은? 최근 제 블로그의 그림이 다른 데서 보이는 일을 겪
Contributor 현재웅님 matplotlib은 데이터를 그림으로 보여주지만 그림을 읽어 보여주기도 합니다. 이 성질을 이용하면 다양한 연출을 할 수 있습니다. 대용량 데이터의 시각화 결과물을 그림파일로 저장하고 재활용해봅시다. 1. 대용량 데이터 다루기 Matplotlib은 큰 데이터를 다루기에 적합한 도구는 아닐 지도 모릅니다. 커다란 데이터