전체 글73 k-means 군집화와 PAM 군집화 예시 목차 군집분석1.군집분석이란2.군집분석의 전형적인 11 단계3.가장 대중적인 군집화 방법 두 가지4.위계적 군집 분석 예시5.k-means 군집화 예시6.PAM 군집화 예시 5.k-means 군집화 1)데이터 불러오기library(rattle)data(wine)wine$Type 2019. 3. 13. 위계적 군집 분석 목차 군집분석1.군집분석이란2.군집분석의 전형적인 11 단계3.가장 대중적인 군집화 방법 두 가지4.위계적 군집 분석 예시5.k-means 군집화 예시6.PAM 군집화 예시 4.위계적 군집 분석 예시1)데이터 불러오기library(flexclust)data(nutrient)str(nutrient)## 'data.frame': 27 obs. of 5 variables:## $ energy : int 340 245 420 375 180 115 170 160 265 300 ...## $ protein: int 20 21 15 19 22 20 25 26 20 18 ...## $ fat : int 28 17 39 32 10 3 7 5 20 25 ...## $ calcium: int 9 9 7 9 17 8 12 1.. 2019. 3. 13. 군집분석 목차 군집분석1.군집분석이란2.군집분석의 전형적인 11 단계3.가장 대중적인 군집화 방법 두 가지4.위계적 군집 분석 예시5.k-means 군집화 예시6.PAM 군집화 예시 1.군집분석이란 군집분석은 데이터셋 내에 존재하는 관측치들의 하위집단을 드러내도록 설계된 데이터 축소 테크닉이다. -많은 수의 관측치들을 훨씬 적은 수의 군집이나 유형으로 축소-군집은 다른 집단의 관측치들에 비해 매우 상호유사한 관측치들의 집단으로 정의-생물학, 행동과학, 마케팅, 의학연구 등에서 광범위하게 사용 2.군집분석의 전형적인 11 단계 1)적절한 속성들을 선택 -가장 중요한 단계-관측치들의 집단들 간 차이를 식별하고 이해하는데 가장 중요할 것으로 판단되는 변수들을 선정-아무리 정교한 군집분석도 빈약한 변수선정을 보상하지 못.. 2019. 3. 13. 인공신경망 목차 인공신경망 1.인공신경망이란 2.신경망 모형 구축시 고려사항 1.인공신경망이란 인공신경망(Artificial Neural Network)은 인간의 뇌를 기반으로 한 추론 모델이다. 즉, 생물학의 신경망에서 영감을 얻은 학습 알고리즘이다. 시냅스의 결합으로 네트워크를 형성한 인공 뉴런이 학습을 통해 시냅스의 결합 세기를 변화시켜 문제해결능력을 가지는 비선형 모델이다. 1)인공 신경망의 학습 -신경망은 가중치를 반복적으로 조정하며 학습한다.-뉴런은 링크로 연결되어 있고 각 링크에는 수치적인 가중치가 있다.-인공 신경망의 가중치 조정 방식--신경망의 가중치를 초기화하고 훈련 데이터를 통해 가중치를 갱신한다.--신경망의 구조를 선택하고 활용할 학습 알고리즘을 결정한 후 신경망을 훈련시킨다. 2)뉴런의 특징.. 2019. 3. 13. 랜덤포레스트 목차 앙상블 기법 1.앙상블 기법이란 2.배깅 3.부스팅 4.스태킹 5.랜덤 포레스트 6.성과분석 5.랜덤 포레스트(random forest) 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법이다. Random subset of training data(bagging) + Random selection of features 즉, 나무마다 독립변수가 다르게 들어가도록 독립변수의 수를 제한하는 기법인데, 어떤 데이터에는 나이, 성별을 어떤데이터에는 주소, 나이를 사용하는 식으로 변수가 동일하지 않는 것이다. 1)랜덤 포레스트 특징 -랜덤한 forest에는 많은 트리들이 생성된다.-수천 개의 변.. 2019. 3. 12. 앙상블 목차 앙상블 기법 1.앙상블 기법이란 2.배깅 3.부스팅 4.스태킹 5.랜덤 포레스트 6.성과분석 1.앙상블 기법이란 앙상블이라는 용어는 본래 프랑스어로 '통일, 조화' 등을 나타내는 용어이다. 앙상블 기법은 주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종 예측모형을 마드는 방법을 말한다. 다중 모델 조합(combining multiple models), 분류기 조합(classifier combination)이라고도 한다. 1)앙상블 기법 종류 배깅(bagging:bootstrap aggregation)부스팅(boosting)랜덤 포레스트(random forest)스태킹(stacking) 2)학습방법의 불안정성: 학습자료의 작은 변화에 의해 예측모형이 크게 변하는 경우.. 2019. 3. 12. 의사결정나무 목차 의사결정나무 1.의사결정나무란 2.불순도와 확실성 3.여러 가지 의사결정나무 알고리즘 4.의사결정나무 분석 과정 5.의사결정나무 생성 함수 6.의사결정나무 예시 1.의사결정나무란 우리가 관심을 가지는 분류 문제를 해결하기 위해 매우 강력하고 유용한 데이터 마이닝 알고리즘이다. 이 알고리즘은 분류를 하기 위한 목표 변수에 영향을 줄 수 있는 입력 변수들을 이용해 최적의 분류를 위한 의사결정 규칙을 생성하는데, 의사결정 규칙을 트리 구조로 나타내준다. 즉, 의사결정 규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류(classification)하거나 예측(prediction)을 수행하는 분석방법이다.(범주, 연속형 수치 모두 예측 가능) 트리구조는 연속적으로 발생하는 의사결정 문제를 시각.. 2019. 3. 12. 데이터 마이닝 목차 데이터 마이닝 1.데이터 마이닝 개요 2.교사학습과 비교사학습 3.데이터 마이닝의 목적에 따른 작업 유형 4.데이터 마이닝 추진 단계 5.데이터 마이닝을 위한 데이터 분할 1.데이터 마이닝 개요 데이터 마이닝은 대용량 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법이다. 1)통계분석과 데이터 마이닝의 차이점: 통계분석은 가설이나 가정에 따른 분석이나 검증을 하지만, 데이터 마이닝은 다양한 수리 알고리즘을 이용해 데이터 베이스의 데이터로부터 의미있는 정보를 찾아내는 방법을 통칭한다. 2)데이터 마이닝 종류 정보를 찾는 방법론에 따라분석대상이나 활용 목적, 표현 방법에 따라인공지능의사결정나무k-평균군집화연관분석회귀분석로싲분석최근접이웃시각화분석분류군집화포케스팅 3)데이터 마이닝 .. 2019. 3. 11. 시계열 분석 목차 시계열 분석 1.시계열 분석 개요 2.평활화 기법 3.정상성과 차분 4.시계열 모형 5.자기상관성과 부분 자기상관성 6.요소분해법 1.시계열 분석 개요 시계열 자료(time series data)는연도별, 분기별, 월별, 일별, 시간별 등 시간의 흐름에 따라 순서대로 관측되는 자료를 말한다. 시간 단위 외에도 사회적 변화나 환경적 변동요인을 기준으로 시계열자료를 구분하는 경우도 있다. 일반적으로 시계열 자료는 추세변동, 순환변동, 계절변동, 불규칙변동 요인으로 구성된다. 1)시계열 분석을 위한 기본 용어 (1)시점(time point) -어느 한 특정 점(순간) (2)적시성(timeliness) -언제 시행하느냐 (3)기간(period) -시점과 시점 사이의 거리 (4)시차(time lag) -'기.. 2019. 3. 8. 회귀분석 목차 회귀분석 1.회귀분석이란 2.회귀 모형 3.회귀분석 절차 4.오차와 잔차 비교 1.회귀분석이란(Regression Analysis) 1)회귀분석 두 변수의 관계를 회귀식으로 간단하게 설명하고, 한 변수로 다른 변수의 값을 추정하거나 예측한다. 2)회귀분석과 상관분석 회귀분석과 상관분석은 아주 밀접한 관계가 있다.상관분석: 변수들이 함께 변화하는 정도를 알려준다.회귀분석: 변수들 사이의 원인과 결과를 설명해준다. 3)회귀 방정식원인(x)에 의해 결정된 결과(y)에 대한 방정식 x: 원인이 되는 변수(=독립 변수=설명 변수=예측 변수)y: 결과가 되는 변수(=종속 변수=반응 변수=결과 변수) 두 변수 간에 상관관계가 높으면,독립변수는 종속변수를 더 잘 설명할 수 있고, 독립변수 값으로 종속변수 값을 정.. 2019. 3. 7. 가설 검정(2) 목차 가설검정 1.가설검정이란 2.귀무가설과 대립가설 3.오류 4.유의수준과 검정력 5.검정통계량과 기각값 6.기각역과 채택역 7.양측검정과 단측검정 8.유의확률 5.검정통계량과 기각값 1)검정통계량(test statistics)통계적 가설을 검정할 목적으로 사용되는 통계량통계적 결론을 내릴 때 근거가 되는 통계량 기호: 귀무가설을 기각시킬지 채택시킬지의 용도로 사용한다.기각값을 기준으로 정한다. 2)기각값(critical value)귀무가설을 기각하는 기준값연구자가 정한 유의수준 확률에 따른 값기호: t 유의수준과 자유도(df)를 가지고 확률분포표를 통해 해당하는 값(y값)을 찾는다.그 y값에 해당하는 x값이 기각값이고 임계값이라고도 한다. *주의* 그래프에서 검정통계량, 기각값은 x값이다. (유의수준.. 2019. 2. 27. 가설 검정(1) 목차 가설검정 1.가설검정이란 2.귀무가설과 대립가설 3.오류 4.유의수준과 검정력 5.검정통계량과 기각값 6.기각역과 채택역 7.양측검정과 단측검정 8.유의확률 1.가설검정이란추측통계에서 모수값을 미리 가정하고, 표본의 통계량과 일치하는 지를 검정하는 통계적 절차를 말한다. 1)목적 모수와 통계량의 차이가 참인지 우연인지를 판정하기 위함즉, 모수를 추론할때 가설검정을 한다.모수에 대한 추론은 1.추정 2.가설검정 으로 한다.(통계의 기본개념 5번을 참고하자) 2)가설을 세운다. 모수의 값을 가정한다는 의미이 가설을 통계적 가설(statistically hypothesis)라 한다.통계적 가설은 귀무가설과 대립가설이 있고 맞다고 판정되면 채택, 아니면 기각한다. 2.귀무가설과 대립가설 1)귀무가설(nul.. 2019. 2. 27. 10.회귀모형(Regression Model) 회귀모형(Regression Model) 목차 0.데이터 불러오기 1.상관 분석 2.회귀모형 찾기 3.다항회귀모형 0.데이터 불러오기 data(women) str(women) ## 'data.frame': 15 obs. of 2 variables: ## $ height: num 58 59 60 61 62 63 64 65 66 67 ... ## $ weight: num 115 117 120 123 126 129 132 135 139 142 ... women(여성 데이터셋) -height: 키(단위:in) -weight: 몸무게(단위:lb) R에 있는 기본 데이터셋인 women을 불러온다.2개의 변수와 15개의 관측치가 있다. 1.상관 분석 여성의 키와 몸무게의 인과관계를 위한 회귀분석하기 전에, 두 변수의.. 2019. 2. 18. 9.다변량 분산분석(MANOVA:Multi-variate Analysis Of Variance) 다변량 분산분석(MANOVA:Multi-variate Analysis Of Variance) 목차 0.데이터 불러오기 1.다변량 분산분석이란 2.MANOVA 0.데이터 불러오기 data(iris) str(iris) ## 'data.frame': 150 obs. of 5 variables: ## $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ... ## $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ... ## $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ... ## $ Petal.Width : num 0.2 0.2 0.2 0.2 0... 2019. 2. 17. 8.이원분류 분산분석(Two way ANOVA) 이원분류 분산분석(Two way ANOVA) 목차 0.데이터 불러오기 1.이원분류 분산분석이란 2.전제조건 3.Two-way ANOVA test 4.다중비교 0.데이터 불러오기 data(ToothGrowth) str(ToothGrowth) ## 'data.frame': 60 obs. of 3 variables: ## $ len : num 4.2 11.5 7.3 5.8 6.4 10 11.2 11.2 5.2 7 ... ## $ supp: Factor w/ 2 levels "OJ","VC": 2 2 2 2 2 2 2 2 2 2 ... ## $ dose: num 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 ... levels(ToothGrowth$supp) ## [1] "OJ" "VC.. 2019. 2. 17. 이전 1 2 3 4 5 다음