Category: Data Science

glowing full moon

추석입니다. 빛나는 보름달을 그립니다. 1. 추석 달 오마이뉴스: 이번 추석, ‘초 슈퍼문’ 볼 수 있다 (2015.09.22.) 보름달 주위로 빛이 살짝 스며나올 때가 있습니다. 구름이 옅게 끼거나 공기가 습할 때 일부가 굴절되는 것입니다. 2. 빛이 스미는 보름달2.1. 보름달 빛이 하늘에 번지는 보름달을 그립니다. 먼저, 2022 x 2022

Emphasis on main data

시각화에서 색은 매우 중요한 요소입니다. 중요 데이터를 강조하기 위해 특정 영역의 색을 다르게 지정하기도 합니다. HLS 색공간을 사용해 특정 데이터만 강조합니다. 1. 중요 데이터 강조 Claus Wikle, “데이터 시각화 교과서” 아래 그림은 데이터 시각화 교과서에 수록된 데이터 강조 사례입니다. 여러 항공사 중 Delta와 American만

Text Processing Functions

자연어 처리는 품이 많이 듭니다. 단어부터 문장, 맥락까지 처리할 것이 한 두 가지가 아닙니다. 그러면서도 반복이 많습니다. 함수로 만듭니다. 초록 요약 및 키워드 추출 Pega Devlog: Open API를 이용한 고속 논문 분석 우연히 시작한 문헌 분석 일이 형태를 갖춰 갑니다. 주먹구구로 시작했던 일을 체계적으로 정리하고자 합니다. 무엇보다

Matplotlib Animation

정지된 그림으로는 볼 수 없는 것들이 있습니다. 시간에 따른 변화나 입체 도형의 뒷면이 그것입니다. 애니메이션을 활용해 이를 보완합니다. 1. Matplotlib animation matplotlib.animation Matplotlib에서 사용할 수 있는 애니메이션은 두 가지가 있습니다. Artist 객체 변화를 저장하는 ArtistAnimati

hyperparameter

한국에너지기술연구원 AI 학습조직에서는 2022년 한 해동안 머신러닝을 공부하고 있습니다. 이번 시간에는 머신러닝 성능 막판 끌어올리기, hyperparameter tuning을 소개했습니다. 문제, 데이터, 모델 선정에 최선을 다했다면 학습 환경을 최적화할 차례입니다. 강의 자료는 여기에서 다운받으실 수 있습니다 발표 영상 : (Youtube L

Matplotlib 3D Plots (3)

Matplotlib으로 3D Plot을 할 수 있습니다. 많은 분들이 알고 있는 사실이지만 적극적으로 쓰이지 않습니다. seaborn KDE plot을 3D로 표현합니다. 5. KDE plot 2D KDE plot은 전달력이 좋고, 은근 예쁘기도 합니다. 두 인자의 상관 분포를 표현하는 그림으로, 데이터의 밀도를 선이나 색으로 나타냅니다. 2D 공간을

트리 모델

한국에너지기술연구원 AI 학습조직에서는 2022년 한 해동안 머신러닝을 공부하고 있습니다. 이번 시간에는 decision tree와 random forest, xgboost를 비롯한 tree model을 공부하고 AutoML의 예시로 PyCaret을 소개했습니다. 강의 자료는 여기에서 다운받으실 수 있습니다 발표 영상 : (Youtube Link)

Open API를 이용한 고속 논문 분석

저는 데이터, AI 담당자로서 낯선 분야의 업무를 맡아 논문 작성을 요구받고 있습니다. 공저자로서 데이터 분석이나 AI 모델링 파트만 작성하라면 그냥 하면 됩니다. 그러나 주저자로서 서론부터 작성하는 일은 너무 어렵습니다. 이 분야의 흐름을 파악하고 다른 이들의 연구를 언급해야 하는데 대량의 논문을 읽기엔 단어부터 낯설기 때문입니다. 처음 보는

improvement- COVID antibody holder

최근 무작위 조사 결과 95%의 사람들에게서 코로나19 항체가 발견되었다고 합니다. 한 뉴스에서 이 기사가 보도되었는데 시각화가 적절치 못했습니다. 이를 나름대로 바로잡아 새로 그려봅니다. 채널A: 무작위 조사했더니…국민 100명 중 95명은 코로나 항체 보유 1. 언론 보도 2022년 6월 14일, 1612명을 대상으로 코로나19 항체 보유를 조

데이터 분할과 교차 검증

한국에너지기술연구원 AI 학습조직에서는 2022년 한 해동안 머신러닝을 공부하고 있습니다. scikit-learn 기능 중 데이터를 class 비율대로 분류하는 stratified K fold를 소개하고, 모든 데이터를 학습과 검증에 활용하는 cross validation을 다룹니다. 강의 자료는 여기에서 다운받으실 수 있습니다 발표 영상 : (Y