Tag: statistics

Nature Methods- Points of significance

Nature지에서는 연구자들의 올바른 통계 분석 역량을 배양하고자 컬럼을 연재했습니다. Points of Significance라는 이름으로 연재했으며, 데이터의 올바른 해석과 실험 계획에 대한 가이드를 주고 있습니다. 주로 정해진 필진이 길지 않은 기사를 쓰는데 Nature Methods에 실립니다. 간간이 Nature 자매지에 투고되는 분석이 얼마나

reliability of Covid-19 self test kit

코로나-19 자가진단키트에서 두 줄이 떴습니다. 올 게 왔나 싶으면서도, 이거 얼마나 믿을만한지 몹시 궁금했습니다. 선별진료소 결과를 기다리며 분류 기초를 복습합니다. 1. 사건의 발단 식품의약품안전처: 자가진단키트 양성예측도 76%경향신문: 자가검사키트, 민감도 특이도는 뭐고 양성예측도는 또 뭔가요? 3일 전, 안녕하시냐고 묻는 안녕하지 못한 내

Gibbs Sampling in N-Dimension

부족한 데이터는 기존 분포를 반영해 만들 수 있습니다. 마르코프 체인 몬테카를로(MCMC) 방법의 일종인 깁스 샘플링(Gibbs Sampling)을 사용합시다. matplotlib 3.4. 버전에서 추가된 subfigure와 subplot_mosaic 기능도 실습해보고, matplotlib을 이용해 3D plot 애니메이션도 만들어 봅니다. contri

Visualization of Uncertainty

데이터의 불확실성을 함께 보여주는 방법 중 하나로 오차 막대나 신뢰 구간을 사용합니다. 오차 막대는 데이터 하나 하나에 붙여서, 신뢰 구간은 전체적인 범위를 보여줍니다. matplotlib과 seaborn으로 불확실성을 도시하는 방법을 정리했습니다. 0. 데이터 생성 평균이 0이고 표준편차가 1인 데이터를 100개씩 21쌍을 만듭니다. numpy.ran

Random Generation Fitting to a Histogram

새로운 데이터는 numpy.random함수로 만들 수 있습니다. 정규분포나 균일하게 만드는 것은 많이들 합니다만, 기존 데이터의 분포를 모방해 봅시다. RIP tutorial: Fitting a function to data from a histogram 1. 기존 데이터 10만개가 조금 넘는 데이터가 있습니다. 대강 이렇게 생겼습니다.123impo

PCA; Dimension Reduction + $\alpha$

다크 프로그래머: 선형대수학Wikipedia: Singular Value Decomposition핸즈온 머신러닝: 8장-차원 축소데이터 사이언스 스쿨: 3.5 PCAscikit learn: Faces recognition examples using eigenfaces and SVMsA.I. Wiki: 고유벡터, PCA, 공분산 및 엔트로피에 대한 기초 강

Stratified Sampling

Contributor 김승욱님, dane님 References wikipedia: Stratified SamplingWhen should you choose Stratified sampling over random sampling?핸즈온 머신러닝 (2판)핸즈온 머신러닝 (2판): 2장 - 머신러닝 프로젝트 처음부터 끝까지 notebook 1. Int

Pearson correlation between $ X $ and $ X^n $

wikipedia: Pearson Correlation Coefficient선형대수, 통계학, 기하적 직관 Pearson Correlation Coefficient는 두 데이터가 얼마나 연관성을 가지고 있는지 보여줍니다. 수치로는 -1에서 1 사이의 값으로 표현되고, 수식으로는 다음과 같이 표현됩니다.$$ \rho_{X, Y} = \frac{Cov