Tag: statistics

Gibbs Sampling in N-Dimension

부족한 데이터는 기존 분포를 반영해 만들 수 있습니다. 마르코프 체인 몬테카를로(MCMC) 방법의 일종인 깁스 샘플링(Gibbs Sampling)을 사용합시다. matplotlib 3.4. 버전에서 추가된 subfigure와 subplot_mosaic 기능도 실습해보고, matplotlib을 이용해 3D plot 애니메이션도 만들어 봅니다. contri

Visualization of Uncertainty

데이터의 불확실성을 함께 보여주는 방법 중 하나로 오차 막대나 신뢰 구간을 사용합니다. 오차 막대는 데이터 하나 하나에 붙여서, 신뢰 구간은 전체적인 범위를 보여줍니다. matplotlib과 seaborn으로 불확실성을 도시하는 방법을 정리했습니다. 0. 데이터 생성 평균이 0이고 표준편차가 1인 데이터를 100개씩 21쌍을 만듭니다. numpy.ran

Random Generation Fitting to a Histogram

새로운 데이터는 numpy.random함수로 만들 수 있습니다. 정규분포나 균일하게 만드는 것은 많이들 합니다만, 기존 데이터의 분포를 모방해 봅시다. RIP tutorial: Fitting a function to data from a histogram 1. 기존 데이터 10만개가 조금 넘는 데이터가 있습니다. 대강 이렇게 생겼습니다.123impo

PCA; Dimension Reduction + $\alpha$

다크 프로그래머: 선형대수학Wikipedia: Singular Value Decomposition핸즈온 머신러닝: 8장-차원 축소데이터 사이언스 스쿨: 3.5 PCAscikit learn: Faces recognition examples using eigenfaces and SVMsA.I. Wiki: 고유벡터, PCA, 공분산 및 엔트로피에 대한 기초 강

Stratified Sampling

Contributor 김승욱님, dane님 References wikipedia: Stratified SamplingWhen should you choose Stratified sampling over random sampling?핸즈온 머신러닝 (2판)핸즈온 머신러닝 (2판): 2장 - 머신러닝 프로젝트 처음부터 끝까지 notebook 1. Int

Pearson correlation between $ X $ and $ X^n $

wikipedia: Pearson Correlation Coefficient선형대수, 통계학, 기하적 직관 Pearson Correlation Coefficient는 두 데이터가 얼마나 연관성을 가지고 있는지 보여줍니다. 수치로는 -1에서 1 사이의 값으로 표현되고, 수식으로는 다음과 같이 표현됩니다.$$ \rho_{X, Y} = \frac{Cov