분류 전체보기73 8.이원분류 분산분석(Two way ANOVA) 이원분류 분산분석(Two way ANOVA) 목차 0.데이터 불러오기 1.이원분류 분산분석이란 2.전제조건 3.Two-way ANOVA test 4.다중비교 0.데이터 불러오기 data(ToothGrowth) str(ToothGrowth) ## 'data.frame': 60 obs. of 3 variables: ## $ len : num 4.2 11.5 7.3 5.8 6.4 10 11.2 11.2 5.2 7 ... ## $ supp: Factor w/ 2 levels "OJ","VC": 2 2 2 2 2 2 2 2 2 2 ... ## $ dose: num 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 ... levels(ToothGrowth$supp) ## [1] "OJ" "VC.. 2019. 2. 17. 7.일원분류 분산분석(One way ANOVA) 일원분류 분산분석(One way ANOVA) 목차 0.데이터 불러오기 1.일원분류 분산분석이란 2.전제조건 3.One-way ANOVA test 4.다중비교 5.비모수일때 0.데이터 불러오기 data(PlantGrowth) str(PlantGrowth) ## 'data.frame': 30 obs. of 2 variables: ## $ weight: num 4.17 5.58 5.18 6.11 4.5 4.61 5.17 4.53 5.33 5.14 ... ## $ group : Factor w/ 3 levels "ctrl","trt1",..: 1 1 1 1 1 1 1 1 1 1 ... levels(PlantGrowth$group) ## [1] "ctrl" "trt1" "trt2" R에 있는 기본 데이터셋인 Pl.. 2019. 2. 17. 6.Paired samples T-test Paired samples T-test 목차 0.데이터 만들기 1.Paired samples T-test란 2.시각화로 확인하기 3.모수적 방법 4.비모수적 방법 0.데이터 만들기 before 2019. 2. 15. 5.Unpaired Two samples T-test Unpaired Two samples T-test 목차 0.데이터 만들기 1.Unpaired Two samples T-test란 2.모수적 방법 3.비모수적 방법 0.데이터 만들기 women_weight 2019. 2. 15. 4.One Sample T-test One sample T-test 목차 0.데이터 만들기 1.One Sample T-test란 2.모수적 방법 3.비모수적 방법 0.데이터 만들기 set.seed(1234) my.data 2019. 2. 15. 3.독립성 검정(Test of Independence) 독립성 검정(Test of Independence) 목차 0.데이터 불러오기 1.독립성 검정이란 2.범주형 변수간에 검정 3.연속형 변수간에 검정 0.데이터 불러오기 library(ggplot2) data(mpg) mpg 2019. 2. 15. 2.등분산성 검정(Homogeneity of Variance Test) 등분산성 검정(Homogeneity of Variance Test) 목차 0.데이터 불러오기 1.등분산성 검정이란 2.두 집단일때 3.다 집단일때 0.데이터 불러오기 data(ToothGrowth) data(PlantGrowth) str(ToothGrowth) ## 'data.frame': 60 obs. of 3 variables: ## $ len : num 4.2 11.5 7.3 5.8 6.4 10 11.2 11.2 5.2 7 ... ## $ supp: Factor w/ 2 levels "OJ","VC": 2 2 2 2 2 2 2 2 2 2 ... ## $ dose: num 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 ... str(PlantGrowth) ## 'data.fr.. 2019. 2. 14. 1.정규성 검정(Normality Test) 정규성 검정(Normality Test) 목차 0.데이터 불러오기 1.정규성 검정이란 2.중요한 두 법칙 3.정규성 검정 시각화 4.Shapiro-Wilk 검정 0.데이터 불러오기 my.data =30)인 경우 데이터셋은 정규분포를 따른다. 중심극한의 정리(C.L.T - Central Limit Theorem) 1.표본의 평균은 표본의 크기가 커질수록, 정규분표와 유사해진다. 2.모집단이 정규분포하지 않더라도 표본의 크기가 충분히 크다면, 정규분포라고 가정할 수 있다. 대수의 법칙 1.표본의 크기가 증가할수록, 통계적 추정의 정밀도가 향상된다는 것을 수학적으로 증명 2.표본의 크기가 커짐에 따라 표본에서 계산한 평균값과 모집단의 실제평균과의 차이가 매우 작아진다. 3.정규성 검정 시각화 1)ggdensi.. 2019. 2. 14. 0.R 고급의 시작 R을 이용하면 다양한 통계기법을 쉽게 나타낼 수 있다. 기본적인 데이터셋에 대한 적합도 검정에는 정규성 검정뿐만 아니라 등분산성 검정, 선형성 검정 등 다양한 기법들이 있다. 적합도 검정의 종류 * 정규성(normality) 검정 - Shapiro-Wilk’s normality test 검정 : `shapiro.test{stats}` - Kolmogorov-Smirnov (K-S) normality test : `ks.test{stats}` * 등분산성(homogeneity of variance) 검정 : - F-test : `var.test{stats}` - Bartlett’s test : `bartlett.test{stats}` - Levene’s test : `leveneTest{car}` - Fl.. 2019. 2. 14. 대표값(2) 목차 대표값 1.대표값이란 2.산술평균 3.중앙값 4.최빈값 5.기하평균 6.조화평균 7.대표값들 관계 7.대표값들 관계 분포(Distribution): 확률변수의 확률분포 1)정규분포대표값을 중심으로 좌우대칭을 이루는 종모양의 연속확률분포 변수의 분포가 정규분포할때, 모든 대표값들은 일치한다. (모두 그래프 중앙이다.)정규분포에서 면적은 확률을 의미한다. 2)오른쪽 꼬리 분포오른쪽에 긴 꼬리를 가지고 왼쪽으로 치우친 분포최빈값 < 중앙값 < 산술평균조화평균 < 기하평균 < 산술평균 3)왼쪽 꼬리 분포왼쪽에 긴 꼬리를 가지고 오른쪽으로 치우친 분포산술평균 < 중앙값 < 최빈값산술평균 < 기하평균 < 조화평균 **피어슨의 관계식변수가 정규분포하지 않을때,의 식을 따른다. 4)장단점 -산술평균, 기하평균, .. 2018. 12. 2. 대표값(1) 목차 대표값 1.대표값이란 2.산술평균 3.중앙값 4.최빈값 5.기하평균 6.조화평균 7.대표값들 관계 1.대표값이란=해당변수를 대변하는 값=중심경향값(Central Tendency Value)=위치의 통계량 1)의미와 종류 대표값은 중심값이라고도 하며, 데이터(변수)의 집중경향을 나타내는 통계적 수치이다.데이터가 정규분포할때, 모든 대표값들은 일치한다.정규분포 : 정상적인 분포기술통계에서 중요한 역할이며, 산술평균은 추측통계에서 매우 중요하다. 종류: 산술평균, 중앙값, 최빈값, 기하평균, 조화평균 2)목적확률표본으로부터 수집한 데이터를 도수분포표나 그래프로 정리한 후,대표값을 기준으로, 관찰값들이 얼마나 흩어져 있는지를 표현하는 산포도를 구할 수 있다. 2.산술평균(mean)개체의 관찰값을 모두 합하.. 2018. 12. 2. 표본추출과 데이터수집(2) 목차 표본추출과 데이터수집 1.전수조사와 표본조사 2.확률표본 3.확률표본추출 4.변수 5.유의숫자 4.변수 변수는 구분하는 방법에 따라 분류할 수 있다.훗날, 데이터 분석할때 필요한 중요한 개념이다. 1)척도에 따른 구분 높은 수준의 척도에서 낮은 수준의 척도로 바꿀 수 있다.척도의 수준이 높다 : 척도에 의해 얻는 수치(관찰값)가 많은 정보를 제공한다는 것을 말한다. (1)분류척도(norminal scale): 분류 변수(명목 변수): 단순히 분류가 가능한 변수이다.: 우열이나 크고 작음을 비교할 수 없다. (2)순서척도(ordinal scale): 순서 변수: 특성에 우열이나 크고 작음이 있다.: 두 관찰값을 빼거나 합하는 것은 아무런 의미가 없다. (3)간격척도(interval scale): 간격.. 2018. 12. 1. 표본추출과 데이터수집(1) 목차 표본추출과 데이터수집 1.전수조사와 표본조사 2.확률표본 3.확률표본추출 4.변수 5.유의숫자 1.전수조사와 표본조사 모집단에서 추출한 확률표본으로부터, 확률표본은 모집단을 대표한다. 표본은 반드시 무작위로 추출한다.유의표본일 경우 결과 값이 편향된 값으로 나온다. 1)전수조사(complete survey)대상 모집단에서 모든 개체를 관찰하여, 모집단의 특성을 파악하는 방법 관찰 비용과 시간이 많이 들고 정확성이 떨어진다. 무한 모집단은 현실적으로 불가능하다.이 한계를 극복하기 위해, 표본조사를 한다. 2)표본조사(sample survey)모집단에서 추출한 추출단위를 관찰하여, 모집단에 대해 추론하는 통계적 방법 이때 표본은 '확률표본'이어야 한다.확률표본은 랜덤(완전확률화)으로 추출된 표본을 말한.. 2018. 12. 1. 통계의 기본 개념(2) 목차 통계의 기본개념 1.통계학이란 2.통계 기본 용어 3.통계 기호 4.기술통계와 추측통계 5.추정과 가설검정 6.확률 7.확률분포 1.확률(probability) 같은 실험을 동일한 조건에서 무수히 많이 반복할때, 특정 결과가 나오는 비율 표본공간(sample space) : 실험에서 나타날 수 있는 모든 가능한 결과들의 집합사건(event) : 표본공간의 일부분(부분집합)을 의미하며 실험결과를 말한다. (시행(trial)과 같은 의미) 확률변수(random variable) : 일정한 확률을 가지고 나타나는 사건(실험결과)에 수치를 부여한 변수를 말한다. 확률표본에서 관찰된 변수 ex)동전의 앞이나올 확률과 뒤가 나올 확률은 1/2이다. 여기에 앞=1, 뒤=2 라는 수치를 부여하면 이 변수를 확률변.. 2018. 11. 20. 통계의 기본 개념(1) 목차 통계의 기본개념 1.통계학이란 2.통계 기본 용어 3.통계 기호 4.기술통계와 추측통계 5.추정과 가설검정 6.확률 7.확률분포 "통계학의 시작은 용어다." 1.통계학이란 집단의 특성(변수)에 대한 수적 자료(데이터)를 수집, 정리, 분석하고, 그 결과를 해석하는 이론과 방법을 체계화한 학문이다.불확실한 상황에서 일어나는 자연현상이나 사회현상을 과학적으로 분석, 예측하는 분석도구로서 널리 사용한다.21세기 정보화 시대에서 정보처리 수단으로서 통계적 방법의 중요성이 더욱 높아지고 있다.통계학을 학습하는데에는 통계의 기본개념을 나타내는 용어를 정확히 이해하는 것이 중요하다. 2.통계 기본 관찰대상 : 모집단을 구성하는 개체 또는 설문조사표의 각 문항을 말한다. (변수를 구하기 전 단계이다.)모집단 : .. 2018. 11. 14. [R 3] 벡터와 시퀀스 1.벡터R에서 사용하는 벡터는 다른 프로그래밍 언어에서 흔히 접하는 배열의 개념이다. c()를 사용해 벡터를 만들며,각 셀에 이름을 부여할 수 있는데, 이때는 names()를 사용한다. 그리고 벡터는 중첩을 허용하지 않는다. 글로 설명하는 것보다 예제를 따라하면서 익히는 것이 빠르다.예제를 통해 벡터를 한 번에 정리해보자. ex)> (x (x x x[2][1] "b"> x[-1][1] "b" "c"> x[c(1,3)][1] "a" "c"> x[1:3][1] "a" "b" "c" > y names(y) yq w e2 4 6> y[c("w","e")]w e4 6> names(y)[2][1] "w" > z length(z)[1] 3> nrow(z) #소문자 rnow()는 행렬만 가능NULL>NROW(z) #대.. 2018. 11. 13. [R 2] 변수와 연산자 1.변수 (변수 명) (연산자) (값) 으로 표현된다. 변수명은 알파벳, 숫자, 언더스코어( _ ), 마침표로 구성할 수 있고 하이픈은 사용할 수 없다.첫 글자에는 알파벳, 마침표로 시작해야하고 마침표 시작일때는 뒤에 숫자가 올 수 없다.연산자는 levels(gender)[1] #인덱스가 0이 아닌 1부터 시작한다.[1] "m" > levels(gender)[2][1] "f" > ordered("a" , c("a" , "b" , "c" )) #순서형 factor를 생성한다.[1] aLevels: a z paste(z, collapse=".. 2018. 11. 13. [JAVA 개념12] IO기반 입출력 및 네트워킹 1.IO기반 입출력: 프로그램에서는 데이터를 외부에서 읽고 다시 외부로 출력하는 작업을 스트림(Stream)을 통해 할 수 있다.: 데이터를 출력하는 방식에 따라 사용하는 클래스가 달라진다. 1)바이트 단위 입출력 : InputStream/ OutputStream : 전제를 다룬다. 2)문자 단위 입출력 : Reader/ Writer ; 문자만 다룬다. *stream: 프로그램과 I/O 객체를 연결하여 데이터를 송수신 하는 길을 말한다.: 단 방향으로 흐른다. *Buffered : 잠시 입출력 하겠다.*Object : 객체를 입출력 하겠다.*Print : 프린터로 쓰겠다. 2.입력 출력 스트림 최상위 클래스는 객체를 생성하지 못하기 때문에 상속받아 사용해야 한다. 1)InputStream -read():.. 2018. 11. 13. [JAVA 개념11] 스트림(Stream) 1.스트림: 데이터가 물처럼 흘러가는 것을 뜻함.: 중요하고 어렵다.: 자바에서 대용량 데이터를 핸들링하는 핵심 API.: 람다식으로 처리할 수 있도록 해주는 반복자(iterator). -내부 반복자: 반복자가 stream에 감춰져 있다.: 병렬처리가 쉽다.: 람다식으로 요소 처리 코드 제공 대부분의 요소처리 메소드는 함수적 인터페이스 매개 타입 ` 모든 처리가 컬렉션 안으로 들어간다.반면, 외부 반복자는 개발자 코드에서 처리 해야한다. ex)내부 반복자와 외부 반복자 ex)람다식으로 표현한 스트림 리스트 타입으로 Student 클래스를 만든다. -스트림 중간처리 **중간처리란? Data(JCK) -가공되지 않은 데이터 | 중간처리(map,sort,fittering...) -데이터 가공 매핑: 객체를 값.. 2018. 11. 13. [JAVA 개념10] 멀티 스레드(Multi Thread) 1.멀티스레드멀티 데스킹을 가능하게 하기 위해 만들어졌다. O.S가 만든 thread : kernel thread - 개발자가 만든 thread : user thread **Thread란:실행코드를 실행시킨다.:불확실성의 원칙을 가진다. 2.스레드 생성과 실행 3.스레드 우선 순위-동시성:하나의 코어(CPU)에서 멀티 스레드가 번갈아 가며 실행하는 성질:Thread1이 끊기도 다음으로 넘어갈때 끊어짐이 없는 것은 Core가 아주 빠르기 때문이다. -병렬성:멀티 코어에서 개별 스레드를 동시에 실행하는 성질:이상적인 형태이다. :상황에 따라 동시성과 병렬성을 섞어서 쓴다. **스레드 스케줄링:스레드의 실행순서를 조절해준다.:하지만 잘 안된다. (locking을 해도 다른 스레드가 들어온다.) -우선 순위(P.. 2018. 11. 13. [JAVA 개념 9] 람다식 1.람다식 : 익명구현객체를 생성 하는 두번째 방법.: 이름이 없는 함수식을 처리하겠다. 1)함수적 인터페이스(functional interface) : 인터페이스에 선언된 추상메소드(abstract method)의 개수가 오직 하나뿐인 인터페이스 : 상수(0....N개), 추상메소드(1개), 디폴트 메소드(0....N개), 정적메소드(0....N개) 2)타겟 타입(target type) :람다식이 구현할 함수적 인터페이스를 "해당 람다식의 타겟타입"이라고 한다. **functional programming객체를 만들지 않고 함수(function(=mtehod))로 바로 처리해버리는 프로그램. 요즘 많이 사용되는 프로그램이다.많은 데이터를 빠른 속도로 처리하기 위해서 객체생성 시간도 아깝다.따라서, 람다.. 2018. 11. 13. [JAVA 개념8] 제네릭 1.제네릭프로그램을 일반화하기 위해 사용. ***제네릭 타입: (제네릭)타입 파라미터가 적용된 클래스와 인터페이스. 클래스 또는 인터페이스 선언시에, 이름뒤에 를 붙여준다. ***(제네릭) 타입 파라미터: 타입(참조타입 또는 (또다른) 제네릭 타입)을 받는 매개변수. 변수명을 영문 대문자 하나로 한다. ***제네릭 메소드: (제네릭)타입 파라미터가 적용된 메소드. ***구체적인 타입(구체타입): 제네릭 타입 파라미터에 지정되는 실제 타입. -제네릭 사용하는 이점: 타입변화 제거 가능 (1)일반 (2)제네릭 (1)의 단점 : list를 object 클래스에서 꺼내오기 때문에 강제 casting해야 한다. casting할수록 코드의 질이 떨어지며 코딩이 길어질때 타입을 착각하여 exception이 발생할 가.. 2018. 11. 13. 이전 1 2 3 4 다음