가설 검정(이변량 분석): 숫자-숫자 / 범주-숫자 / 범주-범주 / 숫자-범주
·
데이터 분석/비즈니스 데이터 분석
1. 가설과 가설 검정이변량 분석은 가설을 확인하는 것이다. 즉, 앞서 언급한 x와 y와의 관계를 확인한다. 이러한 과정을 가설 검정이라고 한다.  대세, 기존의 입장이 존재한다고 해보자. 이를테면 뉴턴의 만류인력의 법칙이 대세인데, 그것을 깨는 새로운 가설이 등장할 수도 있다. 그렇게 기존의 가설을 깨트리며 세운 우리의 주장을 대립가설이라고 한다. 우리는 표본으로부터 우리가 세운 가설을 확인하려고 한다. 만약 가설 검정해서 표본에서 이 가설이 맞는 것이 확인된다면, '모집단에서 맞을 거야'라고 우기고자 한다. 그런데 통계적으로 근거가 있는 우김이다. 대립가설은 주로 '차이가 있을 것이다' 혹은 '영향을 끼칠 것이다'로 이야기될 수 있다. 귀무가설은 우리가 세운 적은 없지만 그냥 기존에 있는, 관련이 없..
개별 변수 분석(단변량 분석): 숫자형 변수 & 범주형 변수
·
데이터 분석/비즈니스 데이터 분석
1. 숫자형 변수(양적 데이터) 카페 안 손님 20명의 나이 데이터(정보)가 있다고 하자. 이 데이터를 한눈에 파악하기 위해 무엇을 하면 좋을까?이처럼 숫자형 변수를 정리하는 방법에는 두 가지가 있다.  1-1) 기초통계량: 숫자(정보의 대푯값)로 요약하는 describe()어떤 데이터를 하나의 숫자로 요약하면 뭐야? 한두 개의 숫자로 요약해봐. 했을 때 그 숫자가 대푯값이다. 숫자형 변수를 한눈에 파악하기 위해서는 이러한 대푯값으로 요약하는 방법이 있다.(1) 평균(mean)우리는 보통 산술평균을 사용하고 있지만, 평균에는 산술 평균, 기하 평균, 조화 평균 등 다양한 종류가 있다. 어떤 평균을 활용할지 잘 검토하여 선택하자.# 넘파이 함수 이용하기- 넘파이 어레이로 변화시켜서 계산. 시리즈, 리스트 ..
데이터 분석 방법론(CRISP-DM)
·
데이터 분석/비즈니스 데이터 분석
CRISP-DM이란?  CRISP-DM은 Cross Industry Standard Process for Data Mining의 약자이다. 크리스프 디엠이라고 읽기도 하며,데이터 분석의 표준 절차를 체계적으로 정리한 방법론인데, 이를 따르면 데이터 분석 프로젝트를 진행할 때 단계별로 명확하게 수행할 수 있다. 쉽게 말하면, 데이터 분석을 대체 어떻게 시작하고 끝내야하는지 단계별로 구분해서 정리해둔 로드맵이라고 이해하면 된다.  간단하게 데이터 분석 방법론이라고 이해해도 되지만, 우리는 이를 비즈니스 문제해결 방법론이라고 이해해보자.   그림을 보면, 첫 번째로 비즈니스 이해가 있고, 두 번째가 데이터 이해, 그다음이 데이터 준비, 모델링, 평가, 배포로 이어진다. (배포는 시스템으로 만드는 것이다. 간단..