Category: Data Science

Nature Methods- Points of significance

Nature지에서는 연구자들의 올바른 통계 분석 역량을 배양하고자 컬럼을 연재했습니다. Points of Significance라는 이름으로 연재했으며, 데이터의 올바른 해석과 실험 계획에 대한 가이드를 주고 있습니다. 주로 정해진 필진이 길지 않은 기사를 쓰는데 Nature Methods에 실립니다. 간간이 Nature 자매지에 투고되는 분석이 얼마나

nonlinear models

한국에너지기술연구원 AI 학습조직에서는 2022년 한 해동안 머신러닝을 공부하고 있습니다. 이번 시간에는 가장 기초가 되는 선형 모델과 함께 위한 비선형 모델을 소개했습니다. 대부분의 데이터가 비선형이기 때문에 선형의 한계를 벗어나기 위해 다항변환과 커널을 이용합니다. 강의에서 하나를 빼먹었는데요, PCA는 데이터 값의 영향을 크게 받기 때문에 Stand

glowing full moon

추석입니다. 빛나는 보름달을 그립니다. 1. 추석 달 오마이뉴스: 이번 추석, ‘초 슈퍼문’ 볼 수 있다 (2015.09.22.) 보름달 주위로 빛이 살짝 스며나올 때가 있습니다. 구름이 옅게 끼거나 공기가 습할 때 일부가 굴절되는 것입니다. 2. 빛이 스미는 보름달2.1. 보름달 빛이 하늘에 번지는 보름달을 그립니다. 먼저, 2022 x 2022

Emphasis on main data

시각화에서 색은 매우 중요한 요소입니다. 중요 데이터를 강조하기 위해 특정 영역의 색을 다르게 지정하기도 합니다. HLS 색공간을 사용해 특정 데이터만 강조합니다. 1. 중요 데이터 강조 Claus Wikle, “데이터 시각화 교과서” 아래 그림은 데이터 시각화 교과서에 수록된 데이터 강조 사례입니다. 여러 항공사 중 Delta와 American만

Text Processing Functions

자연어 처리는 품이 많이 듭니다. 단어부터 문장, 맥락까지 처리할 것이 한 두 가지가 아닙니다. 그러면서도 반복이 많습니다. 함수로 만듭니다. 초록 요약 및 키워드 추출 Pega Devlog: Open API를 이용한 고속 논문 분석 우연히 시작한 문헌 분석 일이 형태를 갖춰 갑니다. 주먹구구로 시작했던 일을 체계적으로 정리하고자 합니다. 무엇보다

Matplotlib Animation

정지된 그림으로는 볼 수 없는 것들이 있습니다. 시간에 따른 변화나 입체 도형의 뒷면이 그것입니다. 애니메이션을 활용해 이를 보완합니다. 1. Matplotlib animation matplotlib.animation Matplotlib에서 사용할 수 있는 애니메이션은 두 가지가 있습니다. Artist 객체 변화를 저장하는 ArtistAnimati

hyperparameter

한국에너지기술연구원 AI 학습조직에서는 2022년 한 해동안 머신러닝을 공부하고 있습니다. 이번 시간에는 머신러닝 성능 막판 끌어올리기, hyperparameter tuning을 소개했습니다. 문제, 데이터, 모델 선정에 최선을 다했다면 학습 환경을 최적화할 차례입니다. 강의 자료는 여기에서 다운받으실 수 있습니다 발표 영상 : (Youtube L

Matplotlib 3D Plots (3)

Matplotlib으로 3D Plot을 할 수 있습니다. 많은 분들이 알고 있는 사실이지만 적극적으로 쓰이지 않습니다. seaborn KDE plot을 3D로 표현합니다. 5. KDE plot 2D KDE plot은 전달력이 좋고, 은근 예쁘기도 합니다. 두 인자의 상관 분포를 표현하는 그림으로, 데이터의 밀도를 선이나 색으로 나타냅니다. 2D 공간을

트리 모델

한국에너지기술연구원 AI 학습조직에서는 2022년 한 해동안 머신러닝을 공부하고 있습니다. 이번 시간에는 decision tree와 random forest, xgboost를 비롯한 tree model을 공부하고 AutoML의 예시로 PyCaret을 소개했습니다. 강의 자료는 여기에서 다운받으실 수 있습니다 발표 영상 : (Youtube Link)

Open API를 이용한 고속 논문 분석

저는 데이터, AI 담당자로서 낯선 분야의 업무를 맡아 논문 작성을 요구받고 있습니다. 공저자로서 데이터 분석이나 AI 모델링 파트만 작성하라면 그냥 하면 됩니다. 그러나 주저자로서 서론부터 작성하는 일은 너무 어렵습니다. 이 분야의 흐름을 파악하고 다른 이들의 연구를 언급해야 하는데 대량의 논문을 읽기엔 단어부터 낯설기 때문입니다. 처음 보는