본문 바로가기

전체 글73

JAVA JDK 다운로드 및 설치 완벽 정리 JAVA JDK 1.8 download 정리 JAVA를 사용하지 않아도 필요한 경우가 있다. (oracle developer, konlp 등) 이번 기회에 설치부터 환경변수 설정까지 다 해보자. 1. JAVA 설치 확인 먼저 자바가 설치되어 있는지 CMD창으로 확인한다. 윈도우키+R 을 누르고 cmd를 입력. java -version 을 입력하면 라고 뜨면 설치가 안되어 있다는 뜻. 2. 다운로드 하기 오라클 페이지에 접속한다.(클릭하면 바로 감) 1) 무슨 창이 뜨는데 모든 쿠키허용한다. (안하면 다운안됨) 2) 스크롤 내리면 윈도우가 있다. (각자 맞는 운영체제로 다운로드) 3) 내 컴퓨터 사항 확인한다. 윈도우키+R 을 누르고 control system 검색 - 64비트니까 Window x64를 다.. 2020. 3. 24.
[python] 파이썬 결측치 처리 데이터프레임 결측치 확인 및 처리 데이터 분석할 때, 결측치를 무조건 제거하는 방법은 옮지 않다. 상황에 따라 새로운 값으로 채우거나 제거하는 등 다양한 방법을 사용한다. python 결측치 확인 python 결측치 제거 python 결측치 대체 python 결측치 연산 1. python 결측치 확인 예제 데이터를 살펴보자. import pandas as pd import numpy as np a = ['2/18', '2/18', '2/18', '2/18', '2/20', '2/20', '2/20', '2/20', '2/25', '2/25', '2/25'] b = ['철수', '철수', '철수', '영희', '영희', '영희', '영희', '철수', '영희', '영희', '철수'] c = ['치킨', N.. 2020. 3. 20.
[python] 파이썬 crosstab pandas crosstab을 이용하여 데이터 계산하기 crosstab은 범주형 변수를 기준으로 개수 파악이나 수치형 데이터를 넣어 계산할 때 사용한다. 아래의 예제를 보는게 더 이해가 빠를 것이다. crosstab 파라미터 기본 수치 계산하기 이름 바꾸기 정규화 1. crosstab 파라미터 기본 파라미터를 살펴보자. 하나씩 예제로 접근해보자. 2. 기본 먼저 데이터를 부른다. import pandas as pd import numpy as np a = ['2/18', '2/18', '2/18', '2/18', '2/20', '2/20', '2/20', '2/20', '2/25', '2/25', '2/25'] b = ['철수', '철수', '철수', '영희', '영희', '영희', '영희', '철수',.. 2020. 3. 19.
[python] 파이썬 날짜 변환 python 변수 타입을 날짜 형식으로 바꾸기 문자열 날짜 변환 리스트 날짜 변환 데이터프레임 날짜 변환 1. 문자열 -> 날짜 문자 타입으로 되어 있는 값 하나만 날짜 형식으로 바꿀때 import datetime date = '20200314' datetime.datetime.strptime(date,'%Y%m%d') datetime.datetime(2020, 3, 14, 0, 0) date = '2020-03-14' datetime.datetime.strptime(date,'%Y-%m-%d') datetime.datetime(2020, 3, 14, 0, 0) 문자 형식에 맞춰 바꿔줘야 한다. (Y:년, m:월, d:일) 하지만, 모든 날짜 형식을 알아서 인식해서 바꿔주는 함수도 있다. from dat.. 2020. 3. 17.
EOL while scanning string literal 에러 *복사 붙여넣기는 실력향상에 도움이 안됩니다* 에러 내용 EOL while scanning string literal 흔하게 나오는 에러. 원인 및 해결방법 원인은 오타에 있다. 코드에 괄호나 따옴표가 빠져있는지 확인해보자. 특히, 문자열 주변을 살펴본다. 2020. 2. 25.
python get_dummies 함수 *복사 붙여넣기는 실력향상에 도움이 안됩니다* 함수 pd.get_dummies(df) 판다스에 있는 함수로 데이터프레임 컬럼 중 범주형 변수에 사용할 수 있다. 변수를 컬럼으로 만들고 값은 binary(0 또는 1)로 나타난다. 여기서 df는 데이터프레임이다. 예시를 통해 알아보자. 예시 데이터프레임을 만든다. import pandas as pd df = pd.DataFrame(['서울','경기','경기','서울','부산'], columns=['지역']) df 지역이라는 범주형 변수가 생성되었다. 이제 함수를 사용해보자. pd.get_dummies(df) 위와 같이 해당 변수 값에는 1을 주고 나머지 값에는 0을 준다. pd.get_dummies()는 회귀분석 등 머신러닝에 사용하기 위해 범주형을 수치로.. 2020. 1. 30.
python 데이터프레임 columns 이름 설정 에러 *복사 붙여넣기는 실력향상에 도움이 안됩니다* 에러 내용 Index(...) must be called with a collection of some kind 데이터프레임을 만들때 컬럼에 이름을 줄 때 발생하는 에러다. 예시를 통해 알아보자. 예시 데이터프레임을 만든다. import pandas as pd df = pd.DataFrame(['서울','경기','경기','서울','부산'], columns='지역') TypeError: Index(...) must be called with a collection of some kind, '지역' was passed 컬럼명에 '지역'이라는 이름을 부여하려는데 바로 에러가 난다. 에러나는 부분 columns='지역' 에러가 나는 부분은 바로 컬럼 인자다. 원인 .. 2020. 1. 30.
python JSON 파싱 에러 *복사 붙여넣기는 실력향상에 도움이 안됩니다* 에러 내용 pd.read_json ValueError: Expected object or value JSON 파일을 판다스를 이용해서 불러올때 발생하는 에러이다. JSON 파일의 값이 정확했지만 에러나는 경우인데 예시를 통해 알아보자. 예시 JSON 파일을 생성한다 %%writefile example.json [{'a':1,'b':2,'c':3}, {'a':4,'b':5,'c':6}, {'a':7,'b':8,'c':9}] Writing example.json 생성이 되었다. 이제 불러오자. 에러나는 부분 data = pd.read_json('example.json') ValueError Traceback (most recent call last) ValueE.. 2020. 1. 29.
python concat 에러 *복사 붙여넣기는 실력향상에 도움이 안됩니다* 에러 내용 first argument must be an iterable of pandas objects, you passed an object of type "DataFrame" 데이터 프레임 두 개를 병합할 때 발생하는 에러로 해결법은 아주 간단하다. 예시를 통해 알아보자. 예시 임의로 데이터 두 개를 만든다. import pandas as pd import numpy as np data1 = pd.DataFrame(np.random.randn(9).reshape((3,3)), columns = list('abc'), index = ['one','two','three']) data1 data2 = pd.DataFrame(np.random.randn(9)... 2020. 1. 29.
스키마 *본 내용은 정보처리기사 공부에도 도움이 됩니다* 관계형 데이터 모델을 공부하고 오면 이해가 더 잘 될 것이다. 1. 스키마란 앞서 테이블 형태로 저장된 데이터를 릴레이션이라 하고 릴레이션은 스키마와 인스턴스로 이루어졌다고 했다. 스키마(schema)는 단순 컬럼명(header)만 뜻하는 것이 아니라, 릴레이션에 어떤 정보가 담길지 정의하는 역할을 한다. 쉽게 말해, 릴레이션에 데이터를 넣기 위한 틀이다. 생각해보자. 틀은 어떻게 구성되었까. 그림처럼 틀을 구성하기 위해선 속성과 속성의 개수가 필요하다. 그리고 하나의 속성이 가질 수 있는 값의 범위가 정의되어야 한다. 따라서, 스키마는 세 가지 요소로 이루어져 있다. -속성(attribute): 릴레이션의 열(=릴레이션 스키마) -차수(degree): .. 2019. 10. 8.
관계형 데이터 모델 *본 내용은 정보처리기사 공부에도 도움이 됩니다* 이전 글을 공부하고 오면 이해가 더 잘 될 것이다. 1. 관계형 데이터 모델이란 관계형 모델은 술어 논리과 집합론에 기반을 둔 일종의 데이터베이스 모델이다. 이 모델은 에드거 커드에 의해 최초로 제안되고 체계화되었다. -위키백과- 아래 그림을 먼저 보자. 데이터는 이차원 테이블의 형태로 이루어져 있는데, 각 테이블끼리의 관계를 나타낸 데이터베이스 모델을 관계형 데이터 모델이라 한다. 이 모델을 이해하기 위해서는 관련 용어 정의와 의미를 알아야 한다. 2. 릴레이션이란 데이터는 이차원 테이블 형태로 이루어진다고 했다. 행과 열로 구성된 테이블을 릴레이션이라 한다. 아래에 '도서' 릴레이션이 있다. 1)릴레이션 용어 릴레이션은 스키마와 인스턴스로 이루어져 있.. 2019. 10. 7.
데이터 베이스 시스템 *본 내용은 정보처리기사 공부에도 도움이 됩니다* 이전 글을 공부하고 오면 이해가 더 잘 될 것이다. 1. 데이터베이스 시스템이란 데이터베이스를 포함하여 운영, 관리, 활용에 필요한 소프트웨어 시스템을 말한다. 줄여서 DBS(DataBase System)라고 하는데, 말 그대로 데이터베이스의 시스템인거다. 그림으로 보는게 이해가 더 빠르다. 위 그림을 보면 여백이 있다. 당연히 DBS에는 DB만 있지 않겠지. 2. 데이터베이스 시스템 구조 아래의 그림은 DBS를 아주 간단하게 나타낸 것이다. (자세히 들어가면 복잡하다) 쉽게 말해, DBS = DB + DBMS + 데이터 모델 1)DBMS(DataBase Management System) 다수의 사용자들이 데이터베이스 내의 데이터를 접근할 수 있도록 해주.. 2019. 10. 5.
데이터 베이스 개념 특징 *본 내용은 정보처리기사 공부에도 도움이 됩니다* 1. 데이터베이스란 체계화된 데이터 모임이다. 작성된 목록으로써 여러 응용 시스템들의 통합된 정보들을 저장하여 운영할 수 있는 공용 데이터들의 묶음이다. 즉, 여러 사람이 공유하여 사용할 목적으로 통합, 관리하는 데이터의 집합이다. -위키백과- 더 정확히 말하면, 여러 데이터를 정리해서 통합한 후, 데이터 공유 및 저장을 쉽게하여 조직 운영에 용이하게 설계된 데이터 집합이다. 줄여서 DB라고 하는데 보통 이렇게 그린다. 1)데이터란 관찰의 결과로 나타난 정량적 혹은 정성적인 실제 값이다. 그냥 현실세계에 존재하는 사실적인 자료를 말한다. 더 나아가 DIKW 피라미드라는 것이 있는데, 데이터(DATA) -> 정보(INFORMATION) -> 지식(KNOWL.. 2019. 10. 5.
R studio 실행 오류 Fatal error(엑세스가 거부되었습니다) 1. 엑세스 거부 원인 Fatal error: ERROR system error 5 (엑세스가 거부되었습니다) 혹은 The R session had a fatal error. 이러한 에러로 R Studio가 실행이 안되는 경우가 있다. 오류는 99% 같은 이유로 발생한다. 원인은 바로 컴퓨터 사용자 계정이름이 한글이기 때문이다. R Studio는 한글에 대해 상당히 무심한 경우가 많다.(무심하다는 건 오류 및 제대로 읽어오지 못한다는 뜻) 따라서, 실제 사용할때도 변수명이나 파일명을 되도록 영어로 해주는 것이 좋다. 필자도 컴퓨터 초기화한 후 R Studio 실행이 안 될 때가 있었다. 어쨌든, fatal error 해결 방법은 크게 3가지가 있다. 2. R Studio fatal error 해결 방법 .. 2019. 9. 28.
R 설치 및 R Studio 설치 방법 1. R이란 R은 컴퓨터 언어이자 다양한 패키지의 집합이다. 인터프리터 언어라고도 하는데 해석기라는 의미이다. 예를들어 '데이터를 분석해서 상관계수를 알려줘'라고 하면 결과를 알려준다. 또한 패기지 무한 확장이 가능하다. 패키지에는 다양한 함수, 예제 데이터셋, 함수 사용 방법 등으로 구성되어 있다. 즉, 데이터 분석을 위한 통계 및 그래픽스를 지원하는 자유 소프트웨어 환경이다. 이러한 R을 다루기 편리하고 풍부한 기능을 가지고 있는 것이 RStudio이다. RStudio는 IDE로 무료버전 사용이 가능하며 사용환경이 매우 편리하다. IDE(Integrated Development Environment) : 통합 개발 환경이란 뜻으로 코딩, 디버그, 컴파일 등 프로그램 개발에 관련된 모든 작업을 하나의 .. 2019. 9. 28.