본문 바로가기

전체 글73

7.일원분류 분산분석(One way ANOVA) 일원분류 분산분석(One way ANOVA) 목차 0.데이터 불러오기 1.일원분류 분산분석이란 2.전제조건 3.One-way ANOVA test 4.다중비교 5.비모수일때 0.데이터 불러오기 data(PlantGrowth) str(PlantGrowth) ## 'data.frame': 30 obs. of 2 variables: ## $ weight: num 4.17 5.58 5.18 6.11 4.5 4.61 5.17 4.53 5.33 5.14 ... ## $ group : Factor w/ 3 levels "ctrl","trt1",..: 1 1 1 1 1 1 1 1 1 1 ... levels(PlantGrowth$group) ## [1] "ctrl" "trt1" "trt2" R에 있는 기본 데이터셋인 Pl.. 2019. 2. 17.
6.Paired samples T-test Paired samples T-test 목차 0.데이터 만들기 1.Paired samples T-test란 2.시각화로 확인하기 3.모수적 방법 4.비모수적 방법 0.데이터 만들기 before 2019. 2. 15.
5.Unpaired Two samples T-test Unpaired Two samples T-test 목차 0.데이터 만들기 1.Unpaired Two samples T-test란 2.모수적 방법 3.비모수적 방법 0.데이터 만들기 women_weight 2019. 2. 15.
4.One Sample T-test One sample T-test 목차 0.데이터 만들기 1.One Sample T-test란 2.모수적 방법 3.비모수적 방법 0.데이터 만들기 set.seed(1234) my.data 2019. 2. 15.
3.독립성 검정(Test of Independence) 독립성 검정(Test of Independence) 목차 0.데이터 불러오기 1.독립성 검정이란 2.범주형 변수간에 검정 3.연속형 변수간에 검정 0.데이터 불러오기 library(ggplot2) data(mpg) mpg 2019. 2. 15.
2.등분산성 검정(Homogeneity of Variance Test) 등분산성 검정(Homogeneity of Variance Test) 목차 0.데이터 불러오기 1.등분산성 검정이란 2.두 집단일때 3.다 집단일때 0.데이터 불러오기 data(ToothGrowth) data(PlantGrowth) str(ToothGrowth) ## 'data.frame': 60 obs. of 3 variables: ## $ len : num 4.2 11.5 7.3 5.8 6.4 10 11.2 11.2 5.2 7 ... ## $ supp: Factor w/ 2 levels "OJ","VC": 2 2 2 2 2 2 2 2 2 2 ... ## $ dose: num 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 ... str(PlantGrowth) ## 'data.fr.. 2019. 2. 14.
1.정규성 검정(Normality Test) 정규성 검정(Normality Test) 목차 0.데이터 불러오기 1.정규성 검정이란 2.중요한 두 법칙 3.정규성 검정 시각화 4.Shapiro-Wilk 검정 0.데이터 불러오기 my.data =30)인 경우 데이터셋은 정규분포를 따른다. 중심극한의 정리(C.L.T - Central Limit Theorem) 1.표본의 평균은 표본의 크기가 커질수록, 정규분표와 유사해진다. 2.모집단이 정규분포하지 않더라도 표본의 크기가 충분히 크다면, 정규분포라고 가정할 수 있다. 대수의 법칙 1.표본의 크기가 증가할수록, 통계적 추정의 정밀도가 향상된다는 것을 수학적으로 증명 2.표본의 크기가 커짐에 따라 표본에서 계산한 평균값과 모집단의 실제평균과의 차이가 매우 작아진다. 3.정규성 검정 시각화 1)ggdensi.. 2019. 2. 14.
0.R 고급의 시작 R을 이용하면 다양한 통계기법을 쉽게 나타낼 수 있다. 기본적인 데이터셋에 대한 적합도 검정에는 정규성 검정뿐만 아니라 등분산성 검정, 선형성 검정 등 다양한 기법들이 있다. 적합도 검정의 종류 * 정규성(normality) 검정 - Shapiro-Wilk’s normality test 검정 : `shapiro.test{stats}` - Kolmogorov-Smirnov (K-S) normality test : `ks.test{stats}` * 등분산성(homogeneity of variance) 검정 : - F-test : `var.test{stats}` - Bartlett’s test : `bartlett.test{stats}` - Levene’s test : `leveneTest{car}` - Fl.. 2019. 2. 14.
대표값(2) 목차 대표값 1.대표값이란 2.산술평균 3.중앙값 4.최빈값 5.기하평균 6.조화평균 7.대표값들 관계 7.대표값들 관계 분포(Distribution): 확률변수의 확률분포 1)정규분포대표값을 중심으로 좌우대칭을 이루는 종모양의 연속확률분포 변수의 분포가 정규분포할때, 모든 대표값들은 일치한다. (모두 그래프 중앙이다.)정규분포에서 면적은 확률을 의미한다. 2)오른쪽 꼬리 분포오른쪽에 긴 꼬리를 가지고 왼쪽으로 치우친 분포최빈값 < 중앙값 < 산술평균조화평균 < 기하평균 < 산술평균 3)왼쪽 꼬리 분포왼쪽에 긴 꼬리를 가지고 오른쪽으로 치우친 분포산술평균 < 중앙값 < 최빈값산술평균 < 기하평균 < 조화평균 **피어슨의 관계식변수가 정규분포하지 않을때,의 식을 따른다. 4)장단점 -산술평균, 기하평균, .. 2018. 12. 2.
대표값(1) 목차 대표값 1.대표값이란 2.산술평균 3.중앙값 4.최빈값 5.기하평균 6.조화평균 7.대표값들 관계 1.대표값이란=해당변수를 대변하는 값=중심경향값(Central Tendency Value)=위치의 통계량 1)의미와 종류 대표값은 중심값이라고도 하며, 데이터(변수)의 집중경향을 나타내는 통계적 수치이다.데이터가 정규분포할때, 모든 대표값들은 일치한다.정규분포 : 정상적인 분포기술통계에서 중요한 역할이며, 산술평균은 추측통계에서 매우 중요하다. 종류: 산술평균, 중앙값, 최빈값, 기하평균, 조화평균 2)목적확률표본으로부터 수집한 데이터를 도수분포표나 그래프로 정리한 후,대표값을 기준으로, 관찰값들이 얼마나 흩어져 있는지를 표현하는 산포도를 구할 수 있다. 2.산술평균(mean)개체의 관찰값을 모두 합하.. 2018. 12. 2.
표본추출과 데이터수집(2) 목차 표본추출과 데이터수집 1.전수조사와 표본조사 2.확률표본 3.확률표본추출 4.변수 5.유의숫자 4.변수 변수는 구분하는 방법에 따라 분류할 수 있다.훗날, 데이터 분석할때 필요한 중요한 개념이다. 1)척도에 따른 구분 높은 수준의 척도에서 낮은 수준의 척도로 바꿀 수 있다.척도의 수준이 높다 : 척도에 의해 얻는 수치(관찰값)가 많은 정보를 제공한다는 것을 말한다. (1)분류척도(norminal scale): 분류 변수(명목 변수): 단순히 분류가 가능한 변수이다.: 우열이나 크고 작음을 비교할 수 없다. (2)순서척도(ordinal scale): 순서 변수: 특성에 우열이나 크고 작음이 있다.: 두 관찰값을 빼거나 합하는 것은 아무런 의미가 없다. (3)간격척도(interval scale): 간격.. 2018. 12. 1.
표본추출과 데이터수집(1) 목차 표본추출과 데이터수집 1.전수조사와 표본조사 2.확률표본 3.확률표본추출 4.변수 5.유의숫자 1.전수조사와 표본조사 모집단에서 추출한 확률표본으로부터, 확률표본은 모집단을 대표한다. 표본은 반드시 무작위로 추출한다.유의표본일 경우 결과 값이 편향된 값으로 나온다. 1)전수조사(complete survey)대상 모집단에서 모든 개체를 관찰하여, 모집단의 특성을 파악하는 방법 관찰 비용과 시간이 많이 들고 정확성이 떨어진다. 무한 모집단은 현실적으로 불가능하다.이 한계를 극복하기 위해, 표본조사를 한다. 2)표본조사(sample survey)모집단에서 추출한 추출단위를 관찰하여, 모집단에 대해 추론하는 통계적 방법 이때 표본은 '확률표본'이어야 한다.확률표본은 랜덤(완전확률화)으로 추출된 표본을 말한.. 2018. 12. 1.
통계의 기본 개념(2) 목차 통계의 기본개념 1.통계학이란 2.통계 기본 용어 3.통계 기호 4.기술통계와 추측통계 5.추정과 가설검정 6.확률 7.확률분포 1.확률(probability) 같은 실험을 동일한 조건에서 무수히 많이 반복할때, 특정 결과가 나오는 비율 표본공간(sample space) : 실험에서 나타날 수 있는 모든 가능한 결과들의 집합사건(event) : 표본공간의 일부분(부분집합)을 의미하며 실험결과를 말한다. (시행(trial)과 같은 의미) 확률변수(random variable) : 일정한 확률을 가지고 나타나는 사건(실험결과)에 수치를 부여한 변수를 말한다. 확률표본에서 관찰된 변수 ex)동전의 앞이나올 확률과 뒤가 나올 확률은 1/2이다. 여기에 앞=1, 뒤=2 라는 수치를 부여하면 이 변수를 확률변.. 2018. 11. 20.
통계의 기본 개념(1) 목차 통계의 기본개념 1.통계학이란 2.통계 기본 용어 3.통계 기호 4.기술통계와 추측통계 5.추정과 가설검정 6.확률 7.확률분포 "통계학의 시작은 용어다." 1.통계학이란 집단의 특성(변수)에 대한 수적 자료(데이터)를 수집, 정리, 분석하고, 그 결과를 해석하는 이론과 방법을 체계화한 학문이다.불확실한 상황에서 일어나는 자연현상이나 사회현상을 과학적으로 분석, 예측하는 분석도구로서 널리 사용한다.21세기 정보화 시대에서 정보처리 수단으로서 통계적 방법의 중요성이 더욱 높아지고 있다.통계학을 학습하는데에는 통계의 기본개념을 나타내는 용어를 정확히 이해하는 것이 중요하다. 2.통계 기본 관찰대상 : 모집단을 구성하는 개체 또는 설문조사표의 각 문항을 말한다. (변수를 구하기 전 단계이다.)모집단 : .. 2018. 11. 14.
[R 3] 벡터와 시퀀스 1.벡터R에서 사용하는 벡터는 다른 프로그래밍 언어에서 흔히 접하는 배열의 개념이다. c()를 사용해 벡터를 만들며,각 셀에 이름을 부여할 수 있는데, 이때는 names()를 사용한다. 그리고 벡터는 중첩을 허용하지 않는다. 글로 설명하는 것보다 예제를 따라하면서 익히는 것이 빠르다.예제를 통해 벡터를 한 번에 정리해보자. ex)> (x (x x x[2][1] "b"> x[-1][1] "b" "c"> x[c(1,3)][1] "a" "c"> x[1:3][1] "a" "b" "c" > y names(y) yq w e2 4 6> y[c("w","e")]w e4 6> names(y)[2][1] "w" > z length(z)[1] 3> nrow(z) #소문자 rnow()는 행렬만 가능NULL>NROW(z) #대.. 2018. 11. 13.