Stata를 이용한 생존분석 #1

생존분석에서는 특정 이벤트가 발생한 시간에 관심을 가지는 분석입니다. 예를들어 데이터셋에는 변수로 시작시점부터 이벤트가 발생한 시점까지의 시간 변수가 꼭 포함이 됩니다. 이러한 시간의 단위는 일, 월, 년 등 다양하게 존재할 수 있습니다. 이러한 유형은 암 진단에서 사망까지의 시간, 취직 이후 퇴직 까지의 시간 같은 것이 다 포함될 수 있습니다. 우리는 예를들어 시간을 1, 5, 9, 20,… Continue reading Stata를 이용한 생존분석 #1

Tidyverse: readxl, dplyr, magrittr

Disclaimer 본 포스팅의 모든 내용과 예제들은 "https://rviews.rstudio.com/2017/09/25/survival-analysis-with-r/"에 개제된 것들이며 본 포스트는 내용을 단순히 한글로 번안한 것 입니다. 본 내용에 대한 일체의 저작권은 원저작자에게 귀속되어있음을 밝힙니다.  readxl readxl은 엑셀에서 R로 데이터를 쉽게 얻을 수 있도록 도와주는 패키지이다. 이전의 gdata, xlsx, xlsReadWrite 등의 다른 패키지들과 비교해서 readxl은 다른 외부 설치가 필요없으며 모든 시스템에 간단히 설치하고 사용할 수… Continue reading Tidyverse: readxl, dplyr, magrittr

부트스트랩 (Bootstrap)

통계량이나 모델 파라미터(모수)의 표본분포를 추정하는 쉽고 효과적인 방법은, 현재 있는 표본에서 추가적으로 표본을 복원추출하고 각 표본에 대한 통계량과 모델을 다시 계산하는 것이다. 이러한 절차를 부트스트랩이라 하며, 데이터나 표본 통계량이 정규분포를 따라야 한다는 가정은 꼭 필요하지 않다. 개념적으로 부트스트랩은 원래 표본을 수천, 수백만번 복제하는 것이라고 생각할 수 있따. 그리고 이를 통해 원래 표본으로부터 얻어지는 모든 정보를… Continue reading 부트스트랩 (Bootstrap)

등분산 검정 (Homogeneity of variance test)

추출한 여러표본들이 서로 동일한 분산을 가지고 있는지 검정하는 방법입니다. ANOVA의 경우 집단간 분산이 같다라는 가정을 만족해야 사용이 가능하기 때문에 본 분석에 들어가기에 앞서 이러한 가정들을 살펴보는 것이 중요합니다. 많이 쓰이는 방법으로는 Bartlett’s test, Levene’s test, Fligner-Killeen’s test, Brown–Forsythe test 등이 있습니다. Bartlett’s test Bartlett (1937)이 고안한 방법으로 모집단으로 부터 추출한 k개의 샘플들이 서로 같은 분산을… Continue reading 등분산 검정 (Homogeneity of variance test)

정규성 검정 (Normality test)

Shapiro-Wilk Normality test 특정 데이터셋이 정규분포를 하고 있는지 테스트하는 방법으로는 graphical methods (histogram, boxplots, Q-Q plots), numerical methods (skewness, kurtosis indics), 그리고 일반적인 정규성 검정등이 있습니다. Razali NM & Wah YB (2011)은 10,000개의 샘플을 가지고 몬테카를로 시뮬레이션으로 다양한 방법의 검정방법을 서로 비교한 결과 Shapiro-Wilk test가 가장 검정력이 좋았으며 그 뒤로 Anderson-Darling test, Lilliefors test, Kolmogorov-Smirnov… Continue reading 정규성 검정 (Normality test)

Model Accuracy

주어진 자료에 대한 학습모델의 성능을 평가를 위하여 예측데이터 값과 실제 값을 비교해야함. 회귀모델에서는 일반적으로 다음의 평균제곱오차 (MSE; mean squared error)을 사용함. 여기서 Yi 는 i번째 관찰값에 대한 예측값임. 즉, 예측값과 실제값이 비슷할 수록 MSE는 작아짐. 이때, 우리는 학습시킨 모델에 대한 MSE를 구했으므로 이것은 학습 MSE 이며, 우리에게 실제로 필요한 것은 테스트셋에 대한 것이므로 낮은 검정… Continue reading Model Accuracy

모수, 비모수 검정 (Parametric and Non-parametric test)

일반적으로 모수적 검정 (parametric test)는 샘플이 특정 분포를 따르고 있다는 가정을 하고 있습니다. 따라서 검정 수행시에는 반드시 이에 대한 검정을 시행한 뒤에 수행을 해야합니다. 모수적 통계의 기본 조건은 (1) 표본의 모집단이 정규분포를 이루고 있다 (2) 집단 내의 분산은 같아야 한다 (3) 변인은 등간척도나 비율척도로 측정되어야한다 등이 있습니다. 이 조건이 만족되지 않는다면 비모수 통계를 사용해야합니다. 반대로… Continue reading 모수, 비모수 검정 (Parametric and Non-parametric test)