CRISP-DM이란?
CRISP-DM은 Cross Industry Standard Process for Data Mining의 약자이다. 크리스프 디엠이라고 읽기도 하며,
데이터 분석의 표준 절차를 체계적으로 정리한 방법론인데, 이를 따르면 데이터 분석 프로젝트를 진행할 때 단계별로 명확하게 수행할 수 있다. 쉽게 말하면, 데이터 분석을 대체 어떻게 시작하고 끝내야하는지 단계별로 구분해서 정리해둔 로드맵이라고 이해하면 된다.
간단하게 데이터 분석 방법론이라고 이해해도 되지만, 우리는 이를 비즈니스 문제해결 방법론이라고 이해해보자.
그림을 보면, 첫 번째로 비즈니스 이해가 있고, 두 번째가 데이터 이해, 그다음이 데이터 준비, 모델링, 평가, 배포로 이어진다. (배포는 시스템으로 만드는 것이다. 간단히 일반인들이 쓸 수 있도록 시스템화하는 것이라고 이해하자.) 그리고 그 가운데에는 데이터가 있다.
안쪽 파란색 화살표는 각 단계 간에 왔다갔다 할 수 있다는 것을 보여주고, 겉의 큰 하늘색 화살표는 이 단계들에서 계속 돌아간다는 것을 보여준다. 즉 이 과정이 한 바퀴 돌면 끝나는 게 아니라는 것이다. 2바퀴도 돌고, 3바퀴도 돈다. 큰 프로젝트를 진행할 때는, 이와 같은 프로세서를 타고 쭉 진행을 하되, 한 바퀴만 돌 생각으로 진행하면 망하기 십상이다. 두 세바퀴는 돌 거야. 하고 각오하자.
이 프로세스는 중요한 두 가지의 질문을 가진다.
중요한 두 가지 질문
1. 무엇이 문제인가?
2. 이 프로세스로 만든 결과물로 문제가 해결되었는가?
이 두 가지의 질문은 너무나도 중요하다. 회사의 리더급들에게 설문을 했을 때, 인공지능 시대가 도래하고 확산하고 있는 새로운 시대에 직원들이 갖춰야 할, 회사가 중요하게 보는 역량이 무엇인가? 이때 기술 쪽과 비즈니스 쪽 관점을 이야기하면, 기술 쪽은 데이터 문해력(데이터 리터러시), 비즈니스 쪽은 문제해결역량이 꼽혔다고 한다. 그런데 위 그림의 경우 문제해결역량인데, 데이터 리터러시를 활용한 문제해결역량을 그대로 보여준다. 그만큼 중요한 방법론이니 익숙해지자는 말이다.
1단계: 가설 수립(Business Understanding)
첫 단계에서는 문제를 정의하고, 요인을 파악하기 위해 가설을 수립한다. 간단하게, 문제 정의와 가설 수립 두 가지를 하는 단계로 기억해두자.
어떤 서비스에 대해 고객들이 한 달 후에 이탈을 할지 안 할지 분석을 하고 예측을 해보려고 한다. 이때, 무엇을 알아야 할까? 요인이다. 이탈 여부에 영향을 미치는 요인을 x라고 표현하자. 이 사람이 최근 통화량이 어땠고, 소득수준이 어땠고, ... 이런 등등의 요인들에 대해서 가설을 세워보는 것이다.
이처럼 비즈니스 현장의 문제를 해결할 때, 어떤 절차로 문제를 해결하는가 보면 비즈니스 상황에서는 가설을 먼저 뽑게 된다. 우리가 해결하고 싶은 문제가 무엇인지 정의하고, 거기에 영향을 주는 것이 무엇이냐. x 같다. 그리고 x이면 y이다. 이런 형식으로 쓰고, 얘를 가설이라고 부른다.
가설은 누가 뽑는가?
가설은 외부 컨설턴트가 뽑는다기보다, 경영자 얘기도 듣고, 영업팀 등 각 부서 이야기도 각 파트별로 뽑아서 취합해서 정하든지 하는 방식으로 설정될 수 있다. 왜냐, 가설에는 '비즈니스'가 담겨있기 때문에 그렇다. 만일 이탈 여부를 예측하는 데 있어 프로모션이 관련이 있다고 하면 마케팅 팀에서 비즈니스와 더 밀접하게 관련되어 있으므로 마케팅 팀의 의견을 적극적으로 수용해서 가설을 설정해볼 수 있을 것이다.
2단계: 데이터 이해(Data Understanding) - ① 데이터 원본 식별 및 취득
두 번째 단계에서는 데이터의 원본을 식별하고 취득하는 단계이다. 가설이 진짜 그러한지 검증하려면 활용하기 위한 관련 데이터가 필요할 것이다. 그렇기에 초기 가설에서 도출된 데이터의 원본을 확인하는 작업을 거치게 된다.
앞선 단계에서 도출된 x와 y를 묶어서 우리는 '정보'라고 부르기로 해보자. 이를 또 다른 말로 '변수'라고 부르기도 한다. 우리가 분석, 모델링할 수 있는 정보는 두 가지가 있는데, 하나는 범주형, 하나는 수치형이다.
대개 범주형도 아니고 수치형도 아니고, 분류를 어떻게 해야 하나, 싶은 데이터는 거의 찾아보기 어려울 것이다. 그 정도로 명확한 분류인데, 우선 수치형은 키나 몸무게와 같은 양적 데이터를 말한다. 그리고 이 중에서도 온도와 같이, 만일 10도와 11도가 있다면, 이 사이에 데이터가 몇 개 있을 수 있나? 했을 때 셀 수 없는 데이터를 연속형 데이터라고 부른다. (자를 수 없는 데이터라고 생각하자.) 이와 다르게 딱딱 떨어지며 셀 수 있는 데이터들을 이산형 데이터라고 한다. 이를테면 '가입기간'은 연도로 하면 딱 떨어지고, 나이도 '50세' 라고 하면 딱 떨어진다. 이런 애들을 이산형이라고 부른다.
한편 범주형은 그룹으로 묶을 수 있는 데이터들이다. 남자와 여자 그룹으로 나눌 수 있는 성별이나 서울, 대전... 등으로 나눌 수 있는 주소지, 비흡연자와 흡연자로 나눌 수 있는 흡연 여부 등이 대표적이라고 볼 수 있다. 그런데 특이하게, 범주 가운데 순서가 있는 범주들이 있다. 이를테면 연령대의 경우, 10대, 20대... 이런 식으로 순서를 가지고, 고객 등급은 S등급, A등급.. 에 따라 순서가 있다. 재미있는 부분은 이러한 순서가 있는 범주는 대개 이산형 데이터로부터 나왔다는 것이다. 연령대는 나이로부터 범주를 구분해준 것이고, 고객 등급은 이산형인 구매액으로부터 나올 수 있다. (이는 pd.cut으로 숫자를 잘라서 만든 순서형 범주형 데이터로 볼 수 있다.)
월은 숫자인가, 범주인가?
월은 1월부터 12월까지 있다. 통계에서는 이산형 데이터도 범주로 보지만, 현장에서 보면 이산형 데이터를 범주로 보고 이해하는 것이 효과적이라고 본다. 식별법은 다음과 같다. 예를 들어 1월이 있고 3월이 있다고 해보자. 그런데 3월은 1월의 3배의 의미가 맞나? 아니라면 범주이다. 3배 많다! 라고 하면 숫자형이다. (이에 따르면, '개월'은 숫자형이라고 볼 수 있다)
이런 정보들이 어디에 있는지 확인하는 단계가 바로 원본 식별 단계이다. 이를테면 고객의 통화량은 회사 내부 정보인데, 어떤 시스템의 어떤 데이터프레임의 어떤 칼럼에 있나? 이런 작업을 바로 데이터 원본 식별이라고 한다.
정보가 회사 내부에 있는지, 아니면 외부에 있는지? 만일 내부에 있다면 그대로 가져오는지, 아니면 가공해서 써야 하는지? 없는 데이터의 경우는 우리가 과연 얻어낼 수 있는 데이터인지? 얻어낸다면 돈을 주고 사올 것인지, 프로젝트를 통해 정보를 새롭게 수집할 것인지? 아니면 아예 취득조차 불가능한 데이터인지? 이러면서 정리하게 된다. 취득이 불가능한 데이터 외에는 전부 '가용 데이터'라는 이름으로 부른다.
데이터를 직접 수집해야 한다면 어떻게 정리?
회사가 보유하고 있는 센서 측정 기반으로 예측 모델을 만드려고 한다고 해보자. 그러면 센서로 측정한 측정 데이터들이 수집될 것이다. 이것들을 하나의 데이터프레임 형태로 정리하여 분석 준비를 하게 된다. 이때 필요한 기술이 앞서 배웠던
groupby, concat, merge 등이다. 이처럼 하나의 데이터프레임 형태로 정리된 후에야 '데이터 분석' 작업을 본격적으로 시작할 수 있다.
2단계: 데이터 이해(Data Understanding) - ② 데이터 분석: EDA, CDA
데이터를 확보한 뒤, 간단한 전처리를 거쳐 하나의 데이터프레임으로 만들어주면, 이제는 본격적인 데이터 분석으로 들어갈 수 있다.
데이터가 엄청 많은데, 이 데이터를 한 눈에 파악하는 방법은 없을까? 이때 두 가지의 중요하고 유용한 도구가 있다. 하나는 통계량을 계산하는 것, 하나는 그래프를 그리는 것이다.
한편, 데이터 분석을 진행할 때 두 가지 용어가 자주 사용된다. 정리된 데이터셋을 가지고 분석하는 두 가지 방법이다. 하나는 탐색적 데이터 분석(EDA)이고, 다른 하나는 확증적 데이터 분석(CDA)인데, 이들은 데이터를 분석할 때 서로 다른 접근을 가지고 있다. EDA는 데이터를 자유롭게 탐색하며 아이디어를 얻기 위한 방법이고, CDA는 이미 정한 가설을 검증하는 데 초점을 두고 있는 방법으로 이해하자.
EDA는 대체로 데이터를 처음 만났을 때 하게 되는 분석이라고 생각하면 된다. 데이터에 어떤 패턴이 숨어있지는 않은지, 이상치나 결측값이 어느 정도 있는지 확인하고 데이터의 구조를 전반적으로 탐색하며 이해한다. 즉, 개별 데이터의 분포와 가설이 맞는지를 기본적으로 파악하며, 결측치나 이상치를 파악하는 단계라고 이해해보자. 이때는 정해진 가설 같은 것들을 고려하지 않고 데이터를 자유롭게 관찰하게 된다. EDA를 진행하면 데이터를 이해한만큼 향후 분석 방향을 정하는 데에도 큰 도움이 되고, 예상하지 못했던 새로운 패턴이나 이상치를 미리 발견해서 추후에 진행할 모델링과 가설 검증에 대해서 기반을 마련하고 문제상황을 대비하는 데 도움을 줄 수 있다.
EDA 단계에서 파악하기 애매한 정보의 경우, CDA에서 통계적 분석 도구(가설 검정)를 사용해 확인해볼 수 있다. 자유롭게 탐색하던 EDA와 달리 명확한 가설을 가지고, '내가 생각한 그 가설이 정말 맞는지 틀렸는지' 판단하기 위해 통계적으로 확인하는 것이다. CDA를 진행하면 EDA에서 발견하고 확인했던 아이디어나 가정들을 통계적으로 입증하여 신뢰할 수 있는 결과를 얻게 될 수 있다. 비즈니스에서 문제상황에 대한 의사결정을 내릴 때 이와 같은 데이터를 기반으로 한 결과를 제공한다면 큰 도움을 줄 수 있을 것이다.
여기까지는 데이터 이해 단계에서 할만한 것들이다.
타이타닉 데이터를 예시로 EDA와 CDA 수행 과정을 생각해보자.
먼저, ① 단변량 분석을 진행하는데, 개별 변수의 분포를 파악해볼 수 있다. 파란색 라인의 'Age' 열의 분포를 확인해서 타이타닉 탑승객의 나이를 분석해볼 수 있을 것이다.
- 단변량 분석은 칼럼 하나짜리 분석이다. 하나의 정보를 가지고 분석하는 것을 단변량 분석이라고 한다.
② 이변량 분석으로 먼저, feature(Pclass, Sex, Fare...)와 target(Survived) 간의 관계를 파악해볼 수 있다. 이것이 바로 가설을 확인하는 단계라고 볼 수 있는데, 예를 들어 객실등급에 따라 생존여부에 차이가 있는지 등을 확인해볼 수 있다.
- 이변량 분석에서 '이'는 숫자 2이다. 즉, 두 개 정보 간의 관계를 분석하는 것이다. 이변량 분석에서는 우리가 앞선 단계에서 세웠던 가설을 데이터를 보며 확인하는 단계이다.
③ 이변량 분석으로 다음으로는, feature(Pclass, Sex, Fare...)들 간의 관계를 파악해볼 수 있다. 변수 간 관계를 파악하면 어떤 변수가 더 중요하고, 어떤 변수가 덜 중요한지 알 수 있다. 또한, 다중공선성 문제를 파악하고 해결해볼 수 있다. 두 변수 간 강한 상관관계가 발견될 경우, 한 변수를 다른 변수로 대체하거나 중복 변수로 처리하여 다중공선성 문제를 해결할 수 있을 것이다.
여기에서 우리가 알아야 할 사항들
1. [언제, 어떤] 그래프를 그리고 [어떻게] 해석하나?
2. [언제, 어떤] 통계량을 구하고 [어떻게] 해석하나?
3. [언제, 어떤] 가설검정 방법을 사용하고 [어떻게] 해석하나?
3단계: 데이터 준비(Data Preparation)
세 번째 단계는 데이터 준비 단계인데, 여기서부터는 머신러닝에 관련된 것이라고 생각하면 된다.
앞서 말한 정보(데이터)들이 어떤 형태로 모이면 좋을까? 기본적으로는 2차원 구조로 만들어야 한다. 즉, 표 형태로 하나의 데이터 프레임을 만들어줘야 한다.
데이터프레임의 칼럼(열)은 정보들로 구분되어 있다. 승객의 ID, 생존여부, 객실등급, 이름, 성별, 나이, 운임, 승선지역 등이 각각의 정보이다. 정보는 2차원 구조상에서 열로 와줘야 한다.
한편, 행을 구성하는 것들은 열보다 훨씬 중요한 부분인데, 행은 다른 말로 '관측치'라고 한다. 행이 중요한 점은, 행이 바로 '분석 단위'이기 때문이다. 만일 고객을 분석하려고 한다면 분석 단위인 한 행의 의미는 '고객 한 명'이어야 한다. 위 데이터프레임의 경우, 한 행은 탑승객 한 명 한 명의 데이터를 분석하기 위해 구조가 짜여 있구나 라고 짐작해볼 수 있다.
행에 대한 관심을 높이자
지금까지는 행에 대해 관심이 없었다면, 이제는 행에 대해 관심이 많아져야 한다. 행의 의미가 뭐지? 이것을 파악해야 한다. 이를 파악하지 못하면 분석이 불가능하다. 프로젝트 시에 행의 의미를 어떻게 할지 고민도 많이 해보고, 테스트도 많이 해보자.
현장에서 행이 딱 원하는 대로 구성되어 있는 경우는 거의 없다. 우리가 groupby 등으로 한 행을 의미있는 분석 단위, 결정 단위로 만들어서 분석해야 한다.
분석 단위는 어떻게 결정?
주가를 분석할 때는 어떤 단위로 데이터를 분석하면 좋을까? 분석 단위가 시간 단위로 집계한 단위가 될 것이다. 이 단위는 누가 결정했나? 내가 결정하는 것이다. 이 행을 구성하는 것은 그야말로 의사결정 사항이다. 데이터셋이 주어졌는데 행이 그냥 이렇게 생겼구나, 하는 게 아니고, 비즈니스 문제를 해결하는 것이 어떤 단위로 분석하고 예측하는 게 문제인지 봐야 한다. 만일 수익이 문제이고 수익을 높이고 싶다면 어떤 단위로 예측하는 게 적절한지 치열하게 고민해야 할 것이다.
그러나 모델링을 하기 위해서는 이러한 2차원 구조만 가지고서는 안 되고, 몇 가지 요건을 더 갖추어야 한다. 즉, 모델링을 위해 값의 준비가 필요하다는 것이다.
공식 용어는 아니나, 이해를 위해 위 그림에서 2차원 구조의 한 조각을 셀이라고 해보자. 이 각각의 셀에는 값이 모두 다 있어야 한다. 그리고 이 값들은 모두 다 숫자여야 한다. 숫자 이외에 다른 것이 들어오면 모델링을 할 수 없다. 그리고 세 번째로는 필수는 아니지만 필요한 순간들이 있는데, 나이, 운임 등의 칼럼(열)의 범위를 필요에 따라서는 일치를 시켜줘야 한다. 이러한 요건들을 갖춰야만 모델링을 할 수 있다.
이 요건들을 갖추기 위해 우리는 결측치에 대해 입장 정리를 해주어야 한다. 앞서 결측치 처리에 두 가지 방법이 있다고 했다. 삭제를 하든지, 채우든지. 둘 중에 하나를 우리가 처리해주어야만 한다. 또한 숫자여야 하기에 가변수화를 해주어야 한다. 마지막으로 범위를 맞춰주기 위해서 스케일링을 진행해야 한다. 그러나 이 방법들에 주목하지 말고, 이 방법들을 수행해야 하는 세 가지 요건이 더 중요하므로 세 요건을 잘 기억해두자.
데이터 준비를 위한 작업 목록
- 결측치 조치
- 가변수화
- 스케일링
- 데이터 분할
결측치 처리에 대한 입장 정리가 어려운 이유?
패션 회사에서 개인화된 추천시스템을 만들고 싶다. 그런데 고객 정보를 받아서 열어봤더니 나이 열의 결측치가 30%나 된다. 나이를 모르는데 옷을 추천할 수 있나? 어떻게 해야 할까. 30%를 삭제해서 추천 대상에서 제외하든지, 나이 칼럼을 제거하든지, 아니면 빈 자리의 값을 채워줘야 한다. 그러나 30%나 되는 결측치를 어떤 경영자든 삭제하긴 어려울 것이다.
그래서 채우자고 했는데, 어떻게 할까. 평균과 중앙값은 제일 먼저 고민해볼 값인데, 만약 30%를 전부 평균으로 채우면, 이 회사 고객의 평균 연령이 45세일 때 갑자기 전체 고객의 30%의 나이가 45세가 된다. 만일 전체 고객이 대규모일수록 너무 이상해진다. 그럼 나이를 예측해서 채워줄까? 그러면 추후 추천시스템을 만들었을 때 예측 모델을 기반으로 또 예측을 하는 것이기에 정확도가 떨어지는 문제가 발생된다.
이후에 가다보면, 분석하거나 모델링하는 것이 오히려 쉽고, 하나하나 이러한 데이터를 처리하는 것을 결정하는 부분들이 정말 어려워진다. 현장에 가면 그런 일 하는데 전체 시간의 대부분이 쓰인다고 보면 된다.
[참고] 데이터 전처리의 두 가지 종류(feat. CRISP-DM 2단계 & 3단계)
데이터 전처리는 크게 두 가지를 얘기할 수 있다. 하나는 분석을 위한 전처리이고, 다른 하나는 모델링을 위한 전처리이다. 많은 사람들이 혼용해서 '전처리'라고 퉁쳐서 말하지만, 그렇게 해도 크게는 상관 없긴 하다. 굳이 따지자면
분석을 위한 전처리는 데이터 구조를 행과 열로 잘 짜인 2차원 구조로 만드는 것이다. 이때 정보들로 열을 구성하고, 행은 (결정된 사항대로) 분석 단위로서 구성해주게 된다. 이는 사실상 CRISP-DM 2단계의 EDA, CDA 작업에 앞서 수행해주어야 하는 전처리이다.
이후 모델링을 위한 전처리에서는 앞서 언급한 세 가지 요건이 충족되도록 하는 것이다. 첫째는 모든 셀에 값이 있도록 해야 하고, 둘째는 그 값들이 모두 숫자여야 하며, 셋째로는 범위도 맞춰줘야 한다. 이는 CRISP-DM 3단계에서 수행하는 전처리라고 생각하면 된다.
4단계: 모델링(Modeling)
다음은, 모델링 단계이다. 데이터 안에는 패턴이 존재한다. 그 패턴을 시각화하고 통계를 내는 것이 데이터 분석 작업이고, 모델링은 데이터로부터 패턴을 찾는 것이다.
정확히 말하면, 패턴을 찾는데, 오차를 최소화하는 패턴을 찾아서 그 결과물을 모델로 낸 것이 바로 '모델링'이라고 할 수 있다. 이때 수학적인 패턴이나 통계적인 패턴을 찾는 게 아니라, 비즈니스적인 패턴을 찾는 것이 매우 중요하다.
5단계: 평가(Evaluation)
다음 단계는 평가 단계인데, 앞서 우리가 이 전체 프로세스에서 중요한 두 가지의 질문을 가진다고 하였다. 첫째는 무엇이 문제인가이고, 둘째는 문제가 해결되었는가였다. 이때, 문제가 해결되었는가의 질문과 관계된 부분이 바로 이 평가 단계라고 볼 수 있다.
이 단계에서는 우리가 분석해서 만든 모델이 결국에 비즈니스 목표를 잘 달성할 수 있었는가 하는 부분을 점검하게 된다. 단순히 '예측을 잘하네'하고 끝나는 것이 아니라, 실제로 비즈니스 상황에서 발생한 문제를 해결하는 데 도움이 되었는지를 확인하는 것이다.
이때, 두 가지를 확인한다.
확인해야 할 두 가지
1. 데이터 분석에 관한 목표를 달성하였는가?
2. 비즈니스 목표를 달성하였는가?
즉 예측이 정확한지 뿐만 아니라, 비즈니스 상황에서도 문제를 해결하는 데 도움이 되었는지도 따져봐야 한다.
먼저 데이터 분석에 관한 목표를 달성했는지 확인하기 위해서는 모델이 데이터 전체에 적용 가능한 규칙을 찾았는지 확인해야 한다. 만일 특정 시기 등의 데이터에만 맞춰진 패턴이라면, 다른 상황에서는 적용하지 못할 수도 있다. 이런 문제를 과적합(Overfitting)이라고 한다.
한편, 비즈니스 문제 해결에 도움이 되었는지 확인도 해야한다. 만약 매출을 올리는 것이 목표인데 모델이 잘 작동하더라도 매출에 실질적으로 도움이 되지 않았다면 이는 문제가 될 수 있다.
이 단계에서 구체적으로 어떤 작업들이 수행되는가?
1. 최종 모델 평가: Test Set 활용
2. 비즈니스 기대 가치 평가
이 단계에서 구체적으로 수행되는 작업은, 먼저 데이터 분석 목표 확인 차원에서 Test Set을 이용한 최종 모델 평가를 진행할 수 있다. 즉 훈련용 데이터로 만든 모델이 새로운 데이터(Test Set)에서도 성능이 좋은지 확인해주어야 한다.
다른 한편으로 비즈니스 목표 달성 차원에서 평가를 위해 비즈니스 기대가치 평가를 수행할 수 있다. 이때, 모델의 성능이 기대했던 비즈니스 가치를 만들어낼 수 있는지 검토하는데, 가령 이탈 고객 예측 모델이 정확하다면, 이 모델로 이탈을 막아 매출을 얼마나 더 확보할 수 있을지 평가한다. 즉, 단순히 '정확하네'에서 끝나는 게 아니라, 이 정확성이 얼마나 비즈니스 문제 해결에 도움이 되는지를 계산해보는 것이다.
이런 두 가지의 부분들이 최종 확인되어야만 분석 결과를 믿고 실제 비즈니스에 적용할 수 있게 된다.
6단계: 배포(Deployment)
CRISP-DM의 마지막 단계는 배포 단계로, 데이터 분석 결과물을 실제 운영 환경에 적용하는 단계이다.
이때 Production Environment에 모델과 데이터 파이프라인을 배포한다. 여기서 Production Environment란, 실제 운영에서 사용되는 시스템을 의미한다. 이를테면, 고객 이탈 예측 모델을 고객관리 시스템에 연결해 이탈 가능성이 높은 고객을 자동으로 경고해주는 시스템을 적용해줄 수 있다.
한편, 단순히 배포하는 것만이 아니라, 운영 중에도 성능이 유지되는지 정기적으로 확인해야 한다. 즉 배포 모델이 기존에 요구되었던 비즈니스 목표를 제대로 충족하는지 확인해야 하는 것이다.
배포 단계에서 수행되는 작업
- 시스템 유효성 검사: 배포된 모델과 고객 요구사항을 충족하는지 확인
- 프로젝트 이전: 운영환경으로 배포
- 데이터 수집부터 모델 배포 관리까지 파이프라인으로 구성해야 함!
이 흐름이 큰 줄기로, 이 프로세스는 비즈니스 문제를 해결하기 위한 것이다. 비즈니스 데이터 안에서 패턴을 찾아 문제를 해결하는데, 이를 분석으로 찾을 수도 있고, 모델링을 통해 찾을 수도 있다.
한편 IT 기획의 경우, 이러한 데이터 분석 방법론을 기반으로 어떤 비즈니스 문제가 발생했을 때 이 문제를 어떻게 해결할 것인지 기획안을 내는 것으로 이해해볼 수 있다.
'데이터 분석 > 비즈니스 데이터 분석' 카테고리의 다른 글
가설 검정(이변량 분석): 숫자-숫자 / 범주-숫자 / 범주-범주 / 숫자-범주 (1) | 2024.09.28 |
---|---|
개별 변수 분석(단변량 분석): 숫자형 변수 & 범주형 변수 (1) | 2024.09.27 |