본문 바로가기

R/R 머신러닝8

k-means 군집화와 PAM 군집화 예시 목차 군집분석1.군집분석이란2.군집분석의 전형적인 11 단계3.가장 대중적인 군집화 방법 두 가지4.위계적 군집 분석 예시5.k-means 군집화 예시6.PAM 군집화 예시 5.k-means 군집화 1)데이터 불러오기library(rattle)data(wine)wine$Type 2019. 3. 13.
위계적 군집 분석 목차 군집분석1.군집분석이란2.군집분석의 전형적인 11 단계3.가장 대중적인 군집화 방법 두 가지4.위계적 군집 분석 예시5.k-means 군집화 예시6.PAM 군집화 예시 4.위계적 군집 분석 예시1)데이터 불러오기library(flexclust)data(nutrient)str(nutrient)## 'data.frame': 27 obs. of 5 variables:## $ energy : int 340 245 420 375 180 115 170 160 265 300 ...## $ protein: int 20 21 15 19 22 20 25 26 20 18 ...## $ fat : int 28 17 39 32 10 3 7 5 20 25 ...## $ calcium: int 9 9 7 9 17 8 12 1.. 2019. 3. 13.
군집분석 목차 군집분석1.군집분석이란2.군집분석의 전형적인 11 단계3.가장 대중적인 군집화 방법 두 가지4.위계적 군집 분석 예시5.k-means 군집화 예시6.PAM 군집화 예시 1.군집분석이란 군집분석은 데이터셋 내에 존재하는 관측치들의 하위집단을 드러내도록 설계된 데이터 축소 테크닉이다. -많은 수의 관측치들을 훨씬 적은 수의 군집이나 유형으로 축소-군집은 다른 집단의 관측치들에 비해 매우 상호유사한 관측치들의 집단으로 정의-생물학, 행동과학, 마케팅, 의학연구 등에서 광범위하게 사용 2.군집분석의 전형적인 11 단계 1)적절한 속성들을 선택 -가장 중요한 단계-관측치들의 집단들 간 차이를 식별하고 이해하는데 가장 중요할 것으로 판단되는 변수들을 선정-아무리 정교한 군집분석도 빈약한 변수선정을 보상하지 못.. 2019. 3. 13.
인공신경망 목차 인공신경망 1.인공신경망이란 2.신경망 모형 구축시 고려사항 1.인공신경망이란 인공신경망(Artificial Neural Network)은 인간의 뇌를 기반으로 한 추론 모델이다. 즉, 생물학의 신경망에서 영감을 얻은 학습 알고리즘이다. 시냅스의 결합으로 네트워크를 형성한 인공 뉴런이 학습을 통해 시냅스의 결합 세기를 변화시켜 문제해결능력을 가지는 비선형 모델이다. 1)인공 신경망의 학습 -신경망은 가중치를 반복적으로 조정하며 학습한다.-뉴런은 링크로 연결되어 있고 각 링크에는 수치적인 가중치가 있다.-인공 신경망의 가중치 조정 방식--신경망의 가중치를 초기화하고 훈련 데이터를 통해 가중치를 갱신한다.--신경망의 구조를 선택하고 활용할 학습 알고리즘을 결정한 후 신경망을 훈련시킨다. 2)뉴런의 특징.. 2019. 3. 13.
랜덤포레스트 목차 앙상블 기법 1.앙상블 기법이란 2.배깅 3.부스팅 4.스태킹 5.랜덤 포레스트 6.성과분석 5.랜덤 포레스트(random forest) 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법이다. Random subset of training data(bagging) + Random selection of features 즉, 나무마다 독립변수가 다르게 들어가도록 독립변수의 수를 제한하는 기법인데, 어떤 데이터에는 나이, 성별을 어떤데이터에는 주소, 나이를 사용하는 식으로 변수가 동일하지 않는 것이다. 1)랜덤 포레스트 특징 -랜덤한 forest에는 많은 트리들이 생성된다.-수천 개의 변.. 2019. 3. 12.
앙상블 목차 앙상블 기법 1.앙상블 기법이란 2.배깅 3.부스팅 4.스태킹 5.랜덤 포레스트 6.성과분석 1.앙상블 기법이란 앙상블이라는 용어는 본래 프랑스어로 '통일, 조화' 등을 나타내는 용어이다. 앙상블 기법은 주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종 예측모형을 마드는 방법을 말한다. 다중 모델 조합(combining multiple models), 분류기 조합(classifier combination)이라고도 한다. 1)앙상블 기법 종류 배깅(bagging:bootstrap aggregation)부스팅(boosting)랜덤 포레스트(random forest)스태킹(stacking) 2)학습방법의 불안정성: 학습자료의 작은 변화에 의해 예측모형이 크게 변하는 경우.. 2019. 3. 12.
의사결정나무 목차 의사결정나무 1.의사결정나무란 2.불순도와 확실성 3.여러 가지 의사결정나무 알고리즘 4.의사결정나무 분석 과정 5.의사결정나무 생성 함수 6.의사결정나무 예시 1.의사결정나무란 우리가 관심을 가지는 분류 문제를 해결하기 위해 매우 강력하고 유용한 데이터 마이닝 알고리즘이다. 이 알고리즘은 분류를 하기 위한 목표 변수에 영향을 줄 수 있는 입력 변수들을 이용해 최적의 분류를 위한 의사결정 규칙을 생성하는데, 의사결정 규칙을 트리 구조로 나타내준다. 즉, 의사결정 규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류(classification)하거나 예측(prediction)을 수행하는 분석방법이다.(범주, 연속형 수치 모두 예측 가능) 트리구조는 연속적으로 발생하는 의사결정 문제를 시각.. 2019. 3. 12.
데이터 마이닝 목차 데이터 마이닝 1.데이터 마이닝 개요 2.교사학습과 비교사학습 3.데이터 마이닝의 목적에 따른 작업 유형 4.데이터 마이닝 추진 단계 5.데이터 마이닝을 위한 데이터 분할 1.데이터 마이닝 개요 데이터 마이닝은 대용량 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법이다. 1)통계분석과 데이터 마이닝의 차이점: 통계분석은 가설이나 가정에 따른 분석이나 검증을 하지만, 데이터 마이닝은 다양한 수리 알고리즘을 이용해 데이터 베이스의 데이터로부터 의미있는 정보를 찾아내는 방법을 통칭한다. 2)데이터 마이닝 종류 정보를 찾는 방법론에 따라분석대상이나 활용 목적, 표현 방법에 따라인공지능의사결정나무k-평균군집화연관분석회귀분석로싲분석최근접이웃시각화분석분류군집화포케스팅 3)데이터 마이닝 .. 2019. 3. 11.