수능 Trend Visualization (1)
대학수학능력시험은 94학번 이후 대학 진학을 결정하는 시험입니다. 얼마 전에 끝난 2021학년도 수능을 포함해 29회의 수능이 있었습니다. 근 30년간 응시생과 점수에 대한 트렌드를 확인해 보겠습니다. 1. 데이터1.1. 데이터 확보 한국교육과정평가원 대학수학능력시험 정보 수학능력시험 관련 데이터는 공공데이터 포털에서 다운받을 수 있습니다. 여러
대학수학능력시험은 94학번 이후 대학 진학을 결정하는 시험입니다. 얼마 전에 끝난 2021학년도 수능을 포함해 29회의 수능이 있었습니다. 근 30년간 응시생과 점수에 대한 트렌드를 확인해 보겠습니다. 1. 데이터1.1. 데이터 확보 한국교육과정평가원 대학수학능력시험 정보 수학능력시험 관련 데이터는 공공데이터 포털에서 다운받을 수 있습니다. 여러
연산 결과를 그림으로 표현하다보면, 표현 가능한 범위를 넘어설 때가 있습니다. 이럴 때 어쩔 수 없이 표현 가능한 범위로 우겨넣어 표현하지만, 오해를 유발합니다. 최대한 오해를 방지하려는 노력으로 이해해 주시면 좋겠습니다. Pega Devlog: tf.keras BatchNormalization 1. 지난 글에 이어서 지난 글에 이런 부분이 있습니다
tight_layout()으로 axes 사이 간격을 적절하게 조정할 수 있습니다. subplots, legend와 함께 사용하는 방법을 알아봅시다. 간혹 tight_layout()이 잘 안될 때 해결하는 방법도 알아봅시다. Contributor 데이터짱님, 안수빈님 1. 최종적으로 그릴 그림 이번 글에서, 우리는 이 그림을 그릴겁니다. 포인트는 다
이미지 도용을 방지할 수 있는 watermark를 만들어 봅시다. matplotlib으로 데이터와 이미지를 동시에 표현해서 만듭니다. watermark를 박는 4가지 방법을 소개합니다. 1. 다른 사람의 자료에서 내 그림이 보일 때 매일경제: 월 100장씩 사라지던 사우나 수건… 도난 막는 방법은? 최근 제 블로그의 그림이 다른 데서 보이는 일을 겪
Contributor 현재웅님 matplotlib은 데이터를 그림으로 보여주지만 그림을 읽어 보여주기도 합니다. 이 성질을 이용하면 다양한 연출을 할 수 있습니다. 대용량 데이터의 시각화 결과물을 그림파일로 저장하고 재활용해봅시다. 1. 대용량 데이터 다루기 Matplotlib은 큰 데이터를 다루기에 적합한 도구는 아닐 지도 모릅니다. 커다란 데이터
GitHub Docs: Ignoring files .gitignore 파일은 git add 할때 이 파일들은 빼놓고 하라는 뜻입니다. 보안상 민감한 파일일 수도 있고 github 용량제한을 넘어서는 대용량 파일일 수도 있습니다. 한참 일을 하다보니 발생한 대용량 파일을 잊고 커밋했다가 문제가 되었습니다. 이를 방지하고자 .gitignore 파일을 자동
데이터의 불확실성을 함께 보여주는 방법 중 하나로 오차 막대나 신뢰 구간을 사용합니다. 오차 막대는 데이터 하나 하나에 붙여서, 신뢰 구간은 전체적인 범위를 보여줍니다. matplotlib과 seaborn으로 불확실성을 도시하는 방법을 정리했습니다. 0. 데이터 생성 평균이 0이고 표준편차가 1인 데이터를 100개씩 21쌍을 만듭니다. numpy.ran
시각화를 하다 보면 subplot을 자주 만듭니다. subplot을 만드는 방법은 matplotlib에만도 여러 가지가 있고, seaborn에서는 FacetPlot()을 이용해 데이터로부터 subplot을 만들 수도 있습니다. 관련 질문이 빈번하게 등장하여 종류별로 정리해 봤습니다. 0. 설정 Ridgeline PlotPega Devlog: Matplo
Google trend 분석 결과는 그 자체로 깔끔합니다. 그러나 여러 항목을 개별적으로 분석하려면 데이터를 다운받아 분석하는 것이 좋습니다. 1. Google Trends Google trends Google trends는 검색어를 입력하는 것 만으로 웹, 이미지, 또는 유튜브에서 해당 검색어가 얼마나 빈번하게 등장하는지 경향을 쉽게 알 수 있습니
새로운 데이터는 numpy.random함수로 만들 수 있습니다. 정규분포나 균일하게 만드는 것은 많이들 합니다만, 기존 데이터의 분포를 모방해 봅시다. RIP tutorial: Fitting a function to data from a histogram 1. 기존 데이터 10만개가 조금 넘는 데이터가 있습니다. 대강 이렇게 생겼습니다.123impo