본문 바로가기

분류 전체보기73

python JSON 파싱 에러 *복사 붙여넣기는 실력향상에 도움이 안됩니다* 에러 내용 pd.read_json ValueError: Expected object or value JSON 파일을 판다스를 이용해서 불러올때 발생하는 에러이다. JSON 파일의 값이 정확했지만 에러나는 경우인데 예시를 통해 알아보자. 예시 JSON 파일을 생성한다 %%writefile example.json [{'a':1,'b':2,'c':3}, {'a':4,'b':5,'c':6}, {'a':7,'b':8,'c':9}] Writing example.json 생성이 되었다. 이제 불러오자. 에러나는 부분 data = pd.read_json('example.json') ValueError Traceback (most recent call last) ValueE.. 2020. 1. 29.
python concat 에러 *복사 붙여넣기는 실력향상에 도움이 안됩니다* 에러 내용 first argument must be an iterable of pandas objects, you passed an object of type "DataFrame" 데이터 프레임 두 개를 병합할 때 발생하는 에러로 해결법은 아주 간단하다. 예시를 통해 알아보자. 예시 임의로 데이터 두 개를 만든다. import pandas as pd import numpy as np data1 = pd.DataFrame(np.random.randn(9).reshape((3,3)), columns = list('abc'), index = ['one','two','three']) data1 data2 = pd.DataFrame(np.random.randn(9)... 2020. 1. 29.
스키마 *본 내용은 정보처리기사 공부에도 도움이 됩니다* 관계형 데이터 모델을 공부하고 오면 이해가 더 잘 될 것이다. 1. 스키마란 앞서 테이블 형태로 저장된 데이터를 릴레이션이라 하고 릴레이션은 스키마와 인스턴스로 이루어졌다고 했다. 스키마(schema)는 단순 컬럼명(header)만 뜻하는 것이 아니라, 릴레이션에 어떤 정보가 담길지 정의하는 역할을 한다. 쉽게 말해, 릴레이션에 데이터를 넣기 위한 틀이다. 생각해보자. 틀은 어떻게 구성되었까. 그림처럼 틀을 구성하기 위해선 속성과 속성의 개수가 필요하다. 그리고 하나의 속성이 가질 수 있는 값의 범위가 정의되어야 한다. 따라서, 스키마는 세 가지 요소로 이루어져 있다. -속성(attribute): 릴레이션의 열(=릴레이션 스키마) -차수(degree): .. 2019. 10. 8.
관계형 데이터 모델 *본 내용은 정보처리기사 공부에도 도움이 됩니다* 이전 글을 공부하고 오면 이해가 더 잘 될 것이다. 1. 관계형 데이터 모델이란 관계형 모델은 술어 논리과 집합론에 기반을 둔 일종의 데이터베이스 모델이다. 이 모델은 에드거 커드에 의해 최초로 제안되고 체계화되었다. -위키백과- 아래 그림을 먼저 보자. 데이터는 이차원 테이블의 형태로 이루어져 있는데, 각 테이블끼리의 관계를 나타낸 데이터베이스 모델을 관계형 데이터 모델이라 한다. 이 모델을 이해하기 위해서는 관련 용어 정의와 의미를 알아야 한다. 2. 릴레이션이란 데이터는 이차원 테이블 형태로 이루어진다고 했다. 행과 열로 구성된 테이블을 릴레이션이라 한다. 아래에 '도서' 릴레이션이 있다. 1)릴레이션 용어 릴레이션은 스키마와 인스턴스로 이루어져 있.. 2019. 10. 7.
데이터 베이스 시스템 *본 내용은 정보처리기사 공부에도 도움이 됩니다* 이전 글을 공부하고 오면 이해가 더 잘 될 것이다. 1. 데이터베이스 시스템이란 데이터베이스를 포함하여 운영, 관리, 활용에 필요한 소프트웨어 시스템을 말한다. 줄여서 DBS(DataBase System)라고 하는데, 말 그대로 데이터베이스의 시스템인거다. 그림으로 보는게 이해가 더 빠르다. 위 그림을 보면 여백이 있다. 당연히 DBS에는 DB만 있지 않겠지. 2. 데이터베이스 시스템 구조 아래의 그림은 DBS를 아주 간단하게 나타낸 것이다. (자세히 들어가면 복잡하다) 쉽게 말해, DBS = DB + DBMS + 데이터 모델 1)DBMS(DataBase Management System) 다수의 사용자들이 데이터베이스 내의 데이터를 접근할 수 있도록 해주.. 2019. 10. 5.
데이터 베이스 개념 특징 *본 내용은 정보처리기사 공부에도 도움이 됩니다* 1. 데이터베이스란 체계화된 데이터 모임이다. 작성된 목록으로써 여러 응용 시스템들의 통합된 정보들을 저장하여 운영할 수 있는 공용 데이터들의 묶음이다. 즉, 여러 사람이 공유하여 사용할 목적으로 통합, 관리하는 데이터의 집합이다. -위키백과- 더 정확히 말하면, 여러 데이터를 정리해서 통합한 후, 데이터 공유 및 저장을 쉽게하여 조직 운영에 용이하게 설계된 데이터 집합이다. 줄여서 DB라고 하는데 보통 이렇게 그린다. 1)데이터란 관찰의 결과로 나타난 정량적 혹은 정성적인 실제 값이다. 그냥 현실세계에 존재하는 사실적인 자료를 말한다. 더 나아가 DIKW 피라미드라는 것이 있는데, 데이터(DATA) -> 정보(INFORMATION) -> 지식(KNOWL.. 2019. 10. 5.
R studio 실행 오류 Fatal error(엑세스가 거부되었습니다) 1. 엑세스 거부 원인 Fatal error: ERROR system error 5 (엑세스가 거부되었습니다) 혹은 The R session had a fatal error. 이러한 에러로 R Studio가 실행이 안되는 경우가 있다. 오류는 99% 같은 이유로 발생한다. 원인은 바로 컴퓨터 사용자 계정이름이 한글이기 때문이다. R Studio는 한글에 대해 상당히 무심한 경우가 많다.(무심하다는 건 오류 및 제대로 읽어오지 못한다는 뜻) 따라서, 실제 사용할때도 변수명이나 파일명을 되도록 영어로 해주는 것이 좋다. 필자도 컴퓨터 초기화한 후 R Studio 실행이 안 될 때가 있었다. 어쨌든, fatal error 해결 방법은 크게 3가지가 있다. 2. R Studio fatal error 해결 방법 .. 2019. 9. 28.
R 설치 및 R Studio 설치 방법 1. R이란 R은 컴퓨터 언어이자 다양한 패키지의 집합이다. 인터프리터 언어라고도 하는데 해석기라는 의미이다. 예를들어 '데이터를 분석해서 상관계수를 알려줘'라고 하면 결과를 알려준다. 또한 패기지 무한 확장이 가능하다. 패키지에는 다양한 함수, 예제 데이터셋, 함수 사용 방법 등으로 구성되어 있다. 즉, 데이터 분석을 위한 통계 및 그래픽스를 지원하는 자유 소프트웨어 환경이다. 이러한 R을 다루기 편리하고 풍부한 기능을 가지고 있는 것이 RStudio이다. RStudio는 IDE로 무료버전 사용이 가능하며 사용환경이 매우 편리하다. IDE(Integrated Development Environment) : 통합 개발 환경이란 뜻으로 코딩, 디버그, 컴파일 등 프로그램 개발에 관련된 모든 작업을 하나의 .. 2019. 9. 28.
k-means 군집화와 PAM 군집화 예시 목차 군집분석1.군집분석이란2.군집분석의 전형적인 11 단계3.가장 대중적인 군집화 방법 두 가지4.위계적 군집 분석 예시5.k-means 군집화 예시6.PAM 군집화 예시 5.k-means 군집화 1)데이터 불러오기library(rattle)data(wine)wine$Type 2019. 3. 13.
위계적 군집 분석 목차 군집분석1.군집분석이란2.군집분석의 전형적인 11 단계3.가장 대중적인 군집화 방법 두 가지4.위계적 군집 분석 예시5.k-means 군집화 예시6.PAM 군집화 예시 4.위계적 군집 분석 예시1)데이터 불러오기library(flexclust)data(nutrient)str(nutrient)## 'data.frame': 27 obs. of 5 variables:## $ energy : int 340 245 420 375 180 115 170 160 265 300 ...## $ protein: int 20 21 15 19 22 20 25 26 20 18 ...## $ fat : int 28 17 39 32 10 3 7 5 20 25 ...## $ calcium: int 9 9 7 9 17 8 12 1.. 2019. 3. 13.
군집분석 목차 군집분석1.군집분석이란2.군집분석의 전형적인 11 단계3.가장 대중적인 군집화 방법 두 가지4.위계적 군집 분석 예시5.k-means 군집화 예시6.PAM 군집화 예시 1.군집분석이란 군집분석은 데이터셋 내에 존재하는 관측치들의 하위집단을 드러내도록 설계된 데이터 축소 테크닉이다. -많은 수의 관측치들을 훨씬 적은 수의 군집이나 유형으로 축소-군집은 다른 집단의 관측치들에 비해 매우 상호유사한 관측치들의 집단으로 정의-생물학, 행동과학, 마케팅, 의학연구 등에서 광범위하게 사용 2.군집분석의 전형적인 11 단계 1)적절한 속성들을 선택 -가장 중요한 단계-관측치들의 집단들 간 차이를 식별하고 이해하는데 가장 중요할 것으로 판단되는 변수들을 선정-아무리 정교한 군집분석도 빈약한 변수선정을 보상하지 못.. 2019. 3. 13.
인공신경망 목차 인공신경망 1.인공신경망이란 2.신경망 모형 구축시 고려사항 1.인공신경망이란 인공신경망(Artificial Neural Network)은 인간의 뇌를 기반으로 한 추론 모델이다. 즉, 생물학의 신경망에서 영감을 얻은 학습 알고리즘이다. 시냅스의 결합으로 네트워크를 형성한 인공 뉴런이 학습을 통해 시냅스의 결합 세기를 변화시켜 문제해결능력을 가지는 비선형 모델이다. 1)인공 신경망의 학습 -신경망은 가중치를 반복적으로 조정하며 학습한다.-뉴런은 링크로 연결되어 있고 각 링크에는 수치적인 가중치가 있다.-인공 신경망의 가중치 조정 방식--신경망의 가중치를 초기화하고 훈련 데이터를 통해 가중치를 갱신한다.--신경망의 구조를 선택하고 활용할 학습 알고리즘을 결정한 후 신경망을 훈련시킨다. 2)뉴런의 특징.. 2019. 3. 13.
랜덤포레스트 목차 앙상블 기법 1.앙상블 기법이란 2.배깅 3.부스팅 4.스태킹 5.랜덤 포레스트 6.성과분석 5.랜덤 포레스트(random forest) 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법이다. Random subset of training data(bagging) + Random selection of features 즉, 나무마다 독립변수가 다르게 들어가도록 독립변수의 수를 제한하는 기법인데, 어떤 데이터에는 나이, 성별을 어떤데이터에는 주소, 나이를 사용하는 식으로 변수가 동일하지 않는 것이다. 1)랜덤 포레스트 특징 -랜덤한 forest에는 많은 트리들이 생성된다.-수천 개의 변.. 2019. 3. 12.
앙상블 목차 앙상블 기법 1.앙상블 기법이란 2.배깅 3.부스팅 4.스태킹 5.랜덤 포레스트 6.성과분석 1.앙상블 기법이란 앙상블이라는 용어는 본래 프랑스어로 '통일, 조화' 등을 나타내는 용어이다. 앙상블 기법은 주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종 예측모형을 마드는 방법을 말한다. 다중 모델 조합(combining multiple models), 분류기 조합(classifier combination)이라고도 한다. 1)앙상블 기법 종류 배깅(bagging:bootstrap aggregation)부스팅(boosting)랜덤 포레스트(random forest)스태킹(stacking) 2)학습방법의 불안정성: 학습자료의 작은 변화에 의해 예측모형이 크게 변하는 경우.. 2019. 3. 12.
의사결정나무 목차 의사결정나무 1.의사결정나무란 2.불순도와 확실성 3.여러 가지 의사결정나무 알고리즘 4.의사결정나무 분석 과정 5.의사결정나무 생성 함수 6.의사결정나무 예시 1.의사결정나무란 우리가 관심을 가지는 분류 문제를 해결하기 위해 매우 강력하고 유용한 데이터 마이닝 알고리즘이다. 이 알고리즘은 분류를 하기 위한 목표 변수에 영향을 줄 수 있는 입력 변수들을 이용해 최적의 분류를 위한 의사결정 규칙을 생성하는데, 의사결정 규칙을 트리 구조로 나타내준다. 즉, 의사결정 규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류(classification)하거나 예측(prediction)을 수행하는 분석방법이다.(범주, 연속형 수치 모두 예측 가능) 트리구조는 연속적으로 발생하는 의사결정 문제를 시각.. 2019. 3. 12.
데이터 마이닝 목차 데이터 마이닝 1.데이터 마이닝 개요 2.교사학습과 비교사학습 3.데이터 마이닝의 목적에 따른 작업 유형 4.데이터 마이닝 추진 단계 5.데이터 마이닝을 위한 데이터 분할 1.데이터 마이닝 개요 데이터 마이닝은 대용량 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법이다. 1)통계분석과 데이터 마이닝의 차이점: 통계분석은 가설이나 가정에 따른 분석이나 검증을 하지만, 데이터 마이닝은 다양한 수리 알고리즘을 이용해 데이터 베이스의 데이터로부터 의미있는 정보를 찾아내는 방법을 통칭한다. 2)데이터 마이닝 종류 정보를 찾는 방법론에 따라분석대상이나 활용 목적, 표현 방법에 따라인공지능의사결정나무k-평균군집화연관분석회귀분석로싲분석최근접이웃시각화분석분류군집화포케스팅 3)데이터 마이닝 .. 2019. 3. 11.
시계열 분석 목차 시계열 분석 1.시계열 분석 개요 2.평활화 기법 3.정상성과 차분 4.시계열 모형 5.자기상관성과 부분 자기상관성 6.요소분해법 1.시계열 분석 개요 시계열 자료(time series data)는연도별, 분기별, 월별, 일별, 시간별 등 시간의 흐름에 따라 순서대로 관측되는 자료를 말한다. 시간 단위 외에도 사회적 변화나 환경적 변동요인을 기준으로 시계열자료를 구분하는 경우도 있다. 일반적으로 시계열 자료는 추세변동, 순환변동, 계절변동, 불규칙변동 요인으로 구성된다. 1)시계열 분석을 위한 기본 용어 (1)시점(time point) -어느 한 특정 점(순간) (2)적시성(timeliness) -언제 시행하느냐 (3)기간(period) -시점과 시점 사이의 거리 (4)시차(time lag) -'기.. 2019. 3. 8.
회귀분석 목차 회귀분석 1.회귀분석이란 2.회귀 모형 3.회귀분석 절차 4.오차와 잔차 비교 1.회귀분석이란(Regression Analysis) 1)회귀분석 두 변수의 관계를 회귀식으로 간단하게 설명하고, 한 변수로 다른 변수의 값을 추정하거나 예측한다. 2)회귀분석과 상관분석 회귀분석과 상관분석은 아주 밀접한 관계가 있다.상관분석: 변수들이 함께 변화하는 정도를 알려준다.회귀분석: 변수들 사이의 원인과 결과를 설명해준다. 3)회귀 방정식원인(x)에 의해 결정된 결과(y)에 대한 방정식 x: 원인이 되는 변수(=독립 변수=설명 변수=예측 변수)y: 결과가 되는 변수(=종속 변수=반응 변수=결과 변수) 두 변수 간에 상관관계가 높으면,독립변수는 종속변수를 더 잘 설명할 수 있고, 독립변수 값으로 종속변수 값을 정.. 2019. 3. 7.
가설 검정(2) 목차 가설검정 1.가설검정이란 2.귀무가설과 대립가설 3.오류 4.유의수준과 검정력 5.검정통계량과 기각값 6.기각역과 채택역 7.양측검정과 단측검정 8.유의확률 5.검정통계량과 기각값 1)검정통계량(test statistics)통계적 가설을 검정할 목적으로 사용되는 통계량통계적 결론을 내릴 때 근거가 되는 통계량 기호: 귀무가설을 기각시킬지 채택시킬지의 용도로 사용한다.기각값을 기준으로 정한다. 2)기각값(critical value)귀무가설을 기각하는 기준값연구자가 정한 유의수준 확률에 따른 값기호: t 유의수준과 자유도(df)를 가지고 확률분포표를 통해 해당하는 값(y값)을 찾는다.그 y값에 해당하는 x값이 기각값이고 임계값이라고도 한다. *주의* 그래프에서 검정통계량, 기각값은 x값이다. (유의수준.. 2019. 2. 27.
가설 검정(1) 목차 가설검정 1.가설검정이란 2.귀무가설과 대립가설 3.오류 4.유의수준과 검정력 5.검정통계량과 기각값 6.기각역과 채택역 7.양측검정과 단측검정 8.유의확률 1.가설검정이란추측통계에서 모수값을 미리 가정하고, 표본의 통계량과 일치하는 지를 검정하는 통계적 절차를 말한다. 1)목적 모수와 통계량의 차이가 참인지 우연인지를 판정하기 위함즉, 모수를 추론할때 가설검정을 한다.모수에 대한 추론은 1.추정 2.가설검정 으로 한다.(통계의 기본개념 5번을 참고하자) 2)가설을 세운다. 모수의 값을 가정한다는 의미이 가설을 통계적 가설(statistically hypothesis)라 한다.통계적 가설은 귀무가설과 대립가설이 있고 맞다고 판정되면 채택, 아니면 기각한다. 2.귀무가설과 대립가설 1)귀무가설(nul.. 2019. 2. 27.
10.회귀모형(Regression Model) 회귀모형(Regression Model) 목차 0.데이터 불러오기 1.상관 분석 2.회귀모형 찾기 3.다항회귀모형 0.데이터 불러오기 data(women) str(women) ## 'data.frame': 15 obs. of 2 variables: ## $ height: num 58 59 60 61 62 63 64 65 66 67 ... ## $ weight: num 115 117 120 123 126 129 132 135 139 142 ... women(여성 데이터셋) -height: 키(단위:in) -weight: 몸무게(단위:lb) R에 있는 기본 데이터셋인 women을 불러온다.2개의 변수와 15개의 관측치가 있다. 1.상관 분석 여성의 키와 몸무게의 인과관계를 위한 회귀분석하기 전에, 두 변수의.. 2019. 2. 18.
9.다변량 분산분석(MANOVA:Multi-variate Analysis Of Variance) 다변량 분산분석(MANOVA:Multi-variate Analysis Of Variance) 목차 0.데이터 불러오기 1.다변량 분산분석이란 2.MANOVA 0.데이터 불러오기 data(iris) str(iris) ## 'data.frame': 150 obs. of 5 variables: ## $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ... ## $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ... ## $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ... ## $ Petal.Width : num 0.2 0.2 0.2 0.2 0... 2019. 2. 17.