R/R 머신러닝
데이터 마이닝
반응형
목차
데이터 마이닝
1.데이터 마이닝 개요
2.교사학습과 비교사학습
3.데이터 마이닝의 목적에 따른 작업 유형
4.데이터 마이닝 추진 단계
5.데이터 마이닝을 위한 데이터 분할
1.데이터 마이닝 개요
데이터 마이닝은 대용량 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법이다.
1)통계분석과 데이터 마이닝의 차이점
: 통계분석은 가설이나 가정에 따른 분석이나 검증을 하지만, 데이터 마이닝은 다양한 수리 알고리즘을 이용해 데이터 베이스의 데이터로부터 의미있는 정보를 찾아내는 방법을 통칭한다.
2)데이터 마이닝 종류
정보를 찾는 방법론에 따라
분석대상이나 활용 목적, 표현 방법에 따라
인공지능
의사결정나무
k-평균군집화
연관분석
회귀분석
로싲분석
최근접이웃
시각화분석
분류
군집화
포케스팅
3)데이터 마이닝 사용분야
-병원에서 환자 데이터를 이용해서 해당 환자에게 발생 가능성이 높은 병을 예측
-기존 환자가 응급실에 왔을 때, 어떤 조치를 먼저 해야 하는지를 결정
-고객 데이터를 이용해 해당 고객의 우량/불량을 예측해 대출적격 여부 판단
-세관 검사에서 입국자의 이력과 데이터를 이용해 관세물품 반입 여부를 예측
4)비즈니스 관점의 데이터마이닝의 가장 큰 어려움
-경영진에 대한 설득
: 데이터와 분석과 관련된 전문 내용들이다 보니 경영진과 소통하기 쉽지 않다.
-데이터 준비
: 데이터 기반으로 데이터 추출과 가공 등의 일이 많은 부담
-이해 부족으로 비즈니스 관점에서 정의하고 활용 방안을 도출하는데 여러 시행착오가 발생한다.
2.교사학습과 비교사학습
1)교사학습(Supervised Learning)
: 문제와 답을 알려주어 학습시킨다.
: 훈련 데이터로 부터 하나의 함수를 유추해내기 위한 기계학습의 한 방법이다.
2)비교사학습(Unsupervised Learning)
: 문제만 알려준다.
: 데이터에 대한 아무런 정보도 주어지지 않고 각각의 데이터를 군집화하는 것이다.
Supervised Data Prediction
Unsupervised Data Prediction
의사결정나무
인공신경망
일반화 선형 모형
-회귀분석
-로지스틱 회귀 분석
사례기반 추론
k-Nearest Neighbor
OLAP(On LIne Analytic Processing)
연관성 규칙발견
군집분석
SOM(Self Organizing Map)
3.데이터 마이닝의 목적에 따른 작업 유형
목적
작업유형
설명
사용기법
설명
연관규칙
(Association)
데이터 안에 존재하는 항목간의 종속관계를 찾아내는 작업
동시발생 매트릭스
연속규칙
(Sequence)
연관 규칙에 시간관련 정보가 포함된 형태로, 고객의 구매이력 속성이 반드시 필요
동시발생 매트릭스
데이터 군집화
(Clustering)
고객 레코드들을 유사한 특성을 지닌 몇 개의 소그룹으로 분할하는 작업.
분류규칙과 유사하나 분석대상 데이터에 결과 값이 없다.
K-Means
Clustering
예측
분류 규칙
(Classification)
가장 많이 사용되는 작업으로 과거의 데이터로부터 고객특성을 찾아내어 분류 모형을 만들어 이를 토대로 새로운 레코드의 결과값을 예측
회귀분석
판별분석
신경망
의사결정나무
4.데이터 마이닝 추진 단계
1)CRISP-DM(CRoss Industry Standard Process for Data Minging)
총 6단계로, 비스니스 현장에서 많이 쓰이는 방법론이다.
비즈니스 이해 > 데이터 이해 > 데이터 준비 > 모델링 > 모델평가 > 고객전달
2)SEMMA(Sampling Exploration Modification Modeling Assessment)
통계학 관점의 방법론으로, 총 5단계로 구성되어 있다.
Sampling > Exploration > Modification > Modeling > Assessment
5.데이터 마이닝을 위한 데이터 분할
모델 평가 방법 테스트 데이터와 구축용 데이터로 분할하여 구축용 데이터로 모형을 생성하고 테스트 데이터로 얼마나 적합한지를 판단한다.
1)구축용(training data)
: 추정용, 훈련용 데이터라고도 불리우며 데이터 마이닝 모델을 만드는데 활용한다.
2)검정용(validation data)
: 구축된 모형의 과대추정 또는 과소추정을 미세 조정을 하는데 활용한다.
(데이터 양이 충분하지 않으면 생략하기도 함)
3)시험용(test data)
: 테스트 데이터나 과거 데이터를 활용하여 모델의 성능을 검증에 활용한다.
반응형
댓글