본문 바로가기

R23

R studio 실행 오류 Fatal error(엑세스가 거부되었습니다) 1. 엑세스 거부 원인 Fatal error: ERROR system error 5 (엑세스가 거부되었습니다) 혹은 The R session had a fatal error. 이러한 에러로 R Studio가 실행이 안되는 경우가 있다. 오류는 99% 같은 이유로 발생한다. 원인은 바로 컴퓨터 사용자 계정이름이 한글이기 때문이다. R Studio는 한글에 대해 상당히 무심한 경우가 많다.(무심하다는 건 오류 및 제대로 읽어오지 못한다는 뜻) 따라서, 실제 사용할때도 변수명이나 파일명을 되도록 영어로 해주는 것이 좋다. 필자도 컴퓨터 초기화한 후 R Studio 실행이 안 될 때가 있었다. 어쨌든, fatal error 해결 방법은 크게 3가지가 있다. 2. R Studio fatal error 해결 방법 .. 2019. 9. 28.
R 설치 및 R Studio 설치 방법 1. R이란 R은 컴퓨터 언어이자 다양한 패키지의 집합이다. 인터프리터 언어라고도 하는데 해석기라는 의미이다. 예를들어 '데이터를 분석해서 상관계수를 알려줘'라고 하면 결과를 알려준다. 또한 패기지 무한 확장이 가능하다. 패키지에는 다양한 함수, 예제 데이터셋, 함수 사용 방법 등으로 구성되어 있다. 즉, 데이터 분석을 위한 통계 및 그래픽스를 지원하는 자유 소프트웨어 환경이다. 이러한 R을 다루기 편리하고 풍부한 기능을 가지고 있는 것이 RStudio이다. RStudio는 IDE로 무료버전 사용이 가능하며 사용환경이 매우 편리하다. IDE(Integrated Development Environment) : 통합 개발 환경이란 뜻으로 코딩, 디버그, 컴파일 등 프로그램 개발에 관련된 모든 작업을 하나의 .. 2019. 9. 28.
k-means 군집화와 PAM 군집화 예시 목차 군집분석1.군집분석이란2.군집분석의 전형적인 11 단계3.가장 대중적인 군집화 방법 두 가지4.위계적 군집 분석 예시5.k-means 군집화 예시6.PAM 군집화 예시 5.k-means 군집화 1)데이터 불러오기library(rattle)data(wine)wine$Type 2019. 3. 13.
위계적 군집 분석 목차 군집분석1.군집분석이란2.군집분석의 전형적인 11 단계3.가장 대중적인 군집화 방법 두 가지4.위계적 군집 분석 예시5.k-means 군집화 예시6.PAM 군집화 예시 4.위계적 군집 분석 예시1)데이터 불러오기library(flexclust)data(nutrient)str(nutrient)## 'data.frame': 27 obs. of 5 variables:## $ energy : int 340 245 420 375 180 115 170 160 265 300 ...## $ protein: int 20 21 15 19 22 20 25 26 20 18 ...## $ fat : int 28 17 39 32 10 3 7 5 20 25 ...## $ calcium: int 9 9 7 9 17 8 12 1.. 2019. 3. 13.
군집분석 목차 군집분석1.군집분석이란2.군집분석의 전형적인 11 단계3.가장 대중적인 군집화 방법 두 가지4.위계적 군집 분석 예시5.k-means 군집화 예시6.PAM 군집화 예시 1.군집분석이란 군집분석은 데이터셋 내에 존재하는 관측치들의 하위집단을 드러내도록 설계된 데이터 축소 테크닉이다. -많은 수의 관측치들을 훨씬 적은 수의 군집이나 유형으로 축소-군집은 다른 집단의 관측치들에 비해 매우 상호유사한 관측치들의 집단으로 정의-생물학, 행동과학, 마케팅, 의학연구 등에서 광범위하게 사용 2.군집분석의 전형적인 11 단계 1)적절한 속성들을 선택 -가장 중요한 단계-관측치들의 집단들 간 차이를 식별하고 이해하는데 가장 중요할 것으로 판단되는 변수들을 선정-아무리 정교한 군집분석도 빈약한 변수선정을 보상하지 못.. 2019. 3. 13.
인공신경망 목차 인공신경망 1.인공신경망이란 2.신경망 모형 구축시 고려사항 1.인공신경망이란 인공신경망(Artificial Neural Network)은 인간의 뇌를 기반으로 한 추론 모델이다. 즉, 생물학의 신경망에서 영감을 얻은 학습 알고리즘이다. 시냅스의 결합으로 네트워크를 형성한 인공 뉴런이 학습을 통해 시냅스의 결합 세기를 변화시켜 문제해결능력을 가지는 비선형 모델이다. 1)인공 신경망의 학습 -신경망은 가중치를 반복적으로 조정하며 학습한다.-뉴런은 링크로 연결되어 있고 각 링크에는 수치적인 가중치가 있다.-인공 신경망의 가중치 조정 방식--신경망의 가중치를 초기화하고 훈련 데이터를 통해 가중치를 갱신한다.--신경망의 구조를 선택하고 활용할 학습 알고리즘을 결정한 후 신경망을 훈련시킨다. 2)뉴런의 특징.. 2019. 3. 13.
랜덤포레스트 목차 앙상블 기법 1.앙상블 기법이란 2.배깅 3.부스팅 4.스태킹 5.랜덤 포레스트 6.성과분석 5.랜덤 포레스트(random forest) 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법이다. Random subset of training data(bagging) + Random selection of features 즉, 나무마다 독립변수가 다르게 들어가도록 독립변수의 수를 제한하는 기법인데, 어떤 데이터에는 나이, 성별을 어떤데이터에는 주소, 나이를 사용하는 식으로 변수가 동일하지 않는 것이다. 1)랜덤 포레스트 특징 -랜덤한 forest에는 많은 트리들이 생성된다.-수천 개의 변.. 2019. 3. 12.
앙상블 목차 앙상블 기법 1.앙상블 기법이란 2.배깅 3.부스팅 4.스태킹 5.랜덤 포레스트 6.성과분석 1.앙상블 기법이란 앙상블이라는 용어는 본래 프랑스어로 '통일, 조화' 등을 나타내는 용어이다. 앙상블 기법은 주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종 예측모형을 마드는 방법을 말한다. 다중 모델 조합(combining multiple models), 분류기 조합(classifier combination)이라고도 한다. 1)앙상블 기법 종류 배깅(bagging:bootstrap aggregation)부스팅(boosting)랜덤 포레스트(random forest)스태킹(stacking) 2)학습방법의 불안정성: 학습자료의 작은 변화에 의해 예측모형이 크게 변하는 경우.. 2019. 3. 12.
의사결정나무 목차 의사결정나무 1.의사결정나무란 2.불순도와 확실성 3.여러 가지 의사결정나무 알고리즘 4.의사결정나무 분석 과정 5.의사결정나무 생성 함수 6.의사결정나무 예시 1.의사결정나무란 우리가 관심을 가지는 분류 문제를 해결하기 위해 매우 강력하고 유용한 데이터 마이닝 알고리즘이다. 이 알고리즘은 분류를 하기 위한 목표 변수에 영향을 줄 수 있는 입력 변수들을 이용해 최적의 분류를 위한 의사결정 규칙을 생성하는데, 의사결정 규칙을 트리 구조로 나타내준다. 즉, 의사결정 규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류(classification)하거나 예측(prediction)을 수행하는 분석방법이다.(범주, 연속형 수치 모두 예측 가능) 트리구조는 연속적으로 발생하는 의사결정 문제를 시각.. 2019. 3. 12.
데이터 마이닝 목차 데이터 마이닝 1.데이터 마이닝 개요 2.교사학습과 비교사학습 3.데이터 마이닝의 목적에 따른 작업 유형 4.데이터 마이닝 추진 단계 5.데이터 마이닝을 위한 데이터 분할 1.데이터 마이닝 개요 데이터 마이닝은 대용량 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법이다. 1)통계분석과 데이터 마이닝의 차이점: 통계분석은 가설이나 가정에 따른 분석이나 검증을 하지만, 데이터 마이닝은 다양한 수리 알고리즘을 이용해 데이터 베이스의 데이터로부터 의미있는 정보를 찾아내는 방법을 통칭한다. 2)데이터 마이닝 종류 정보를 찾는 방법론에 따라분석대상이나 활용 목적, 표현 방법에 따라인공지능의사결정나무k-평균군집화연관분석회귀분석로싲분석최근접이웃시각화분석분류군집화포케스팅 3)데이터 마이닝 .. 2019. 3. 11.
10.회귀모형(Regression Model) 회귀모형(Regression Model) 목차 0.데이터 불러오기 1.상관 분석 2.회귀모형 찾기 3.다항회귀모형 0.데이터 불러오기 data(women) str(women) ## 'data.frame': 15 obs. of 2 variables: ## $ height: num 58 59 60 61 62 63 64 65 66 67 ... ## $ weight: num 115 117 120 123 126 129 132 135 139 142 ... women(여성 데이터셋) -height: 키(단위:in) -weight: 몸무게(단위:lb) R에 있는 기본 데이터셋인 women을 불러온다.2개의 변수와 15개의 관측치가 있다. 1.상관 분석 여성의 키와 몸무게의 인과관계를 위한 회귀분석하기 전에, 두 변수의.. 2019. 2. 18.
9.다변량 분산분석(MANOVA:Multi-variate Analysis Of Variance) 다변량 분산분석(MANOVA:Multi-variate Analysis Of Variance) 목차 0.데이터 불러오기 1.다변량 분산분석이란 2.MANOVA 0.데이터 불러오기 data(iris) str(iris) ## 'data.frame': 150 obs. of 5 variables: ## $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ... ## $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ... ## $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ... ## $ Petal.Width : num 0.2 0.2 0.2 0.2 0... 2019. 2. 17.
8.이원분류 분산분석(Two way ANOVA) 이원분류 분산분석(Two way ANOVA) 목차 0.데이터 불러오기 1.이원분류 분산분석이란 2.전제조건 3.Two-way ANOVA test 4.다중비교 0.데이터 불러오기 data(ToothGrowth) str(ToothGrowth) ## 'data.frame': 60 obs. of 3 variables: ## $ len : num 4.2 11.5 7.3 5.8 6.4 10 11.2 11.2 5.2 7 ... ## $ supp: Factor w/ 2 levels "OJ","VC": 2 2 2 2 2 2 2 2 2 2 ... ## $ dose: num 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 ... levels(ToothGrowth$supp) ## [1] "OJ" "VC.. 2019. 2. 17.
7.일원분류 분산분석(One way ANOVA) 일원분류 분산분석(One way ANOVA) 목차 0.데이터 불러오기 1.일원분류 분산분석이란 2.전제조건 3.One-way ANOVA test 4.다중비교 5.비모수일때 0.데이터 불러오기 data(PlantGrowth) str(PlantGrowth) ## 'data.frame': 30 obs. of 2 variables: ## $ weight: num 4.17 5.58 5.18 6.11 4.5 4.61 5.17 4.53 5.33 5.14 ... ## $ group : Factor w/ 3 levels "ctrl","trt1",..: 1 1 1 1 1 1 1 1 1 1 ... levels(PlantGrowth$group) ## [1] "ctrl" "trt1" "trt2" R에 있는 기본 데이터셋인 Pl.. 2019. 2. 17.
6.Paired samples T-test Paired samples T-test 목차 0.데이터 만들기 1.Paired samples T-test란 2.시각화로 확인하기 3.모수적 방법 4.비모수적 방법 0.데이터 만들기 before 2019. 2. 15.
5.Unpaired Two samples T-test Unpaired Two samples T-test 목차 0.데이터 만들기 1.Unpaired Two samples T-test란 2.모수적 방법 3.비모수적 방법 0.데이터 만들기 women_weight 2019. 2. 15.
4.One Sample T-test One sample T-test 목차 0.데이터 만들기 1.One Sample T-test란 2.모수적 방법 3.비모수적 방법 0.데이터 만들기 set.seed(1234) my.data 2019. 2. 15.
3.독립성 검정(Test of Independence) 독립성 검정(Test of Independence) 목차 0.데이터 불러오기 1.독립성 검정이란 2.범주형 변수간에 검정 3.연속형 변수간에 검정 0.데이터 불러오기 library(ggplot2) data(mpg) mpg 2019. 2. 15.
2.등분산성 검정(Homogeneity of Variance Test) 등분산성 검정(Homogeneity of Variance Test) 목차 0.데이터 불러오기 1.등분산성 검정이란 2.두 집단일때 3.다 집단일때 0.데이터 불러오기 data(ToothGrowth) data(PlantGrowth) str(ToothGrowth) ## 'data.frame': 60 obs. of 3 variables: ## $ len : num 4.2 11.5 7.3 5.8 6.4 10 11.2 11.2 5.2 7 ... ## $ supp: Factor w/ 2 levels "OJ","VC": 2 2 2 2 2 2 2 2 2 2 ... ## $ dose: num 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 ... str(PlantGrowth) ## 'data.fr.. 2019. 2. 14.
1.정규성 검정(Normality Test) 정규성 검정(Normality Test) 목차 0.데이터 불러오기 1.정규성 검정이란 2.중요한 두 법칙 3.정규성 검정 시각화 4.Shapiro-Wilk 검정 0.데이터 불러오기 my.data =30)인 경우 데이터셋은 정규분포를 따른다. 중심극한의 정리(C.L.T - Central Limit Theorem) 1.표본의 평균은 표본의 크기가 커질수록, 정규분표와 유사해진다. 2.모집단이 정규분포하지 않더라도 표본의 크기가 충분히 크다면, 정규분포라고 가정할 수 있다. 대수의 법칙 1.표본의 크기가 증가할수록, 통계적 추정의 정밀도가 향상된다는 것을 수학적으로 증명 2.표본의 크기가 커짐에 따라 표본에서 계산한 평균값과 모집단의 실제평균과의 차이가 매우 작아진다. 3.정규성 검정 시각화 1)ggdensi.. 2019. 2. 14.
0.R 고급의 시작 R을 이용하면 다양한 통계기법을 쉽게 나타낼 수 있다. 기본적인 데이터셋에 대한 적합도 검정에는 정규성 검정뿐만 아니라 등분산성 검정, 선형성 검정 등 다양한 기법들이 있다. 적합도 검정의 종류 * 정규성(normality) 검정 - Shapiro-Wilk’s normality test 검정 : `shapiro.test{stats}` - Kolmogorov-Smirnov (K-S) normality test : `ks.test{stats}` * 등분산성(homogeneity of variance) 검정 : - F-test : `var.test{stats}` - Bartlett’s test : `bartlett.test{stats}` - Levene’s test : `leveneTest{car}` - Fl.. 2019. 2. 14.
[R 3] 벡터와 시퀀스 1.벡터R에서 사용하는 벡터는 다른 프로그래밍 언어에서 흔히 접하는 배열의 개념이다. c()를 사용해 벡터를 만들며,각 셀에 이름을 부여할 수 있는데, 이때는 names()를 사용한다. 그리고 벡터는 중첩을 허용하지 않는다. 글로 설명하는 것보다 예제를 따라하면서 익히는 것이 빠르다.예제를 통해 벡터를 한 번에 정리해보자. ex)> (x (x x x[2][1] "b"> x[-1][1] "b" "c"> x[c(1,3)][1] "a" "c"> x[1:3][1] "a" "b" "c" > y names(y) yq w e2 4 6> y[c("w","e")]w e4 6> names(y)[2][1] "w" > z length(z)[1] 3> nrow(z) #소문자 rnow()는 행렬만 가능NULL>NROW(z) #대.. 2018. 11. 13.