Tag: machine learning

데이터 분할과 교차 검증

한국에너지기술연구원 AI 학습조직에서는 2022년 한 해동안 머신러닝을 공부하고 있습니다. scikit-learn 기능 중 데이터를 class 비율대로 분류하는 stratified K fold를 소개하고, 모든 데이터를 학습과 검증에 활용하는 cross validation을 다룹니다. 강의 자료는 여기에서 다운받으실 수 있습니다 발표 영상 : (Y

머신 러닝 파이프라인

한국에너지기술연구원 AI 학습조직에서는 2022년 한 해동안 머신러닝을 공부하고 있습니다. scikit-learn 기능 중 데이터 전처리와 머신 러닝을 안정적으로 수행할 수 있는 파이프라인을 소개합니다. one-hot encoding과 standard scaling도 그냥 하면 안 됩니다. train set으로 학습해서 test set에 적용해야 합니다

머신 러닝 기본 개념

한국에너지기술연구원 AI 학습조직에서는 2022년 한 해동안 머신러닝 진도를 나가기로 했습니다. scikit-learn을 중심으로 머신러닝 실습을 할 예정입니다. 코드를 만지기 전 기본 개념을 전달드리는 강의를 진행했습니다. 강의 자료는 여기에서 다운받으실 수 있습니다 발표 영상입니다 (Youtube Link) 바쁜 연구원 일정 속에 변동

Validation with Visualization (3)

데이터 불균형으로 인해 train, validation, test dataset의 결과가 따로 놉니다. 층화추출로 데이터를 최대한 균등하게 분할합시다. hyperparameter도 라이브러리를 사용해 편리하게 피팅합시다. 6. Validation set 고정 새로운 노트북을 만들어 데이터를 불러옵니다.123456789101112131415%matplot

Validation with Visualization (2)

contributor: 김홍비님 지난 글에 이어 GridSearchCV를 시각화해봅니다. 화면이라는 매체의 제약상 한 번에 두 개의 변수밖에 바꾸지 못합니다. 그런데도 제법 속이 뚫리고 다음에 뭘 할지 아이디어가 생깁니다. 4. 비선형 모델: kernel SVM sklearn: svm.SVR 선형 모델로는 한계가 있는 것 같습니다. 비선형성을 가

Validation with Visualization (1)

데이터 시각화는 머신러닝 과정을 확인하기 좋습니다. 하이퍼파라미터에 따라 확인할 값이 여럿 있고, 숫자로 확인할 수도 있지만 눈에 잘 들어오지 않아 그림으로 표현해 보았습니다. 1. 데이터 & 분석 설정 What’s new in Matplotlib 3.4.0 필요한 라이브러리들을 불러옵니다. 업데이트된 matplotlib 버전 3.4.1을 사

PCA; Dimension Reduction + $\alpha$

다크 프로그래머: 선형대수학Wikipedia: Singular Value Decomposition핸즈온 머신러닝: 8장-차원 축소데이터 사이언스 스쿨: 3.5 PCAscikit learn: Faces recognition examples using eigenfaces and SVMsA.I. Wiki: 고유벡터, PCA, 공분산 및 엔트로피에 대한 기초 강

Stratified Sampling

Contributor 김승욱님, dane님 References wikipedia: Stratified SamplingWhen should you choose Stratified sampling over random sampling?핸즈온 머신러닝 (2판)핸즈온 머신러닝 (2판): 2장 - 머신러닝 프로젝트 처음부터 끝까지 notebook 1. Int