머신러닝 3일차
·
데이터 분석/머신러닝
보호되어 있는 글입니다.
머신러닝 2일차
·
데이터 분석/머신러닝
보호되어 있는 글입니다.
머신러닝(ML): 개념, 관련 용어, 회귀와 분류의 구분, 모델링 코드
·
데이터 분석/머신러닝
보호되어 있는 글입니다.
[KT 에이블스쿨 DX 6기] 6주차 회고: 데이터 분석 표현
·
AIBLE SCHOOL 6기_DX 컨설턴트 과정/본 학습
새로운 강사님과의 만남월~수 동안 2차 미니 프로젝트가 끝나고, 머신러닝 과정을 시작하기 전에 새로운 강사님께서 데이터 분석 표현 강의를 진행해주셨다. 이에 따라 목, 금 이틀 간에 걸쳐서 Streamlit과 MS Power BI에 대해서 강의가 이루어졌다.  Streamlit의 경우 사전학습에서 미리 배웠던 것이긴 하지만 유용해보임에도 한 강의로 후루룩 지나갔어서 조금 아쉬움이 있었는데 이번 기회에 다시 볼 수 있어서 무척 반가웠다.  Power BI는 에이블스쿨에 들어오기 이전, 데이터분석 학회에서 6개월 간 스터디를 진행한 적이 있어서 조금 수월하겠다는 생각이 들었지만, 또 실무 관점에서 다르게 쓰일 수 있는 부분들을 가르쳐주실까? 하는 기대감을 안고 수업을 들었다.  해당 강의를 진행하기 전에는 ..
[KT 에이블스쿨 DX 6기] 2차 미니 프로젝트(feat. 2일차, 오프라인)
·
AIBLE SCHOOL 6기_DX 컨설턴트 과정/본 학습
KT 본사 분당교육장 후기2일차는 분당교육장에서 오프라인으로 진행했다.우리 팀은 안양쪽 분들이 거의 절반이 되었어서 가능하면 안양쪽 무료 장소 대여를 할 수 있는 곳을 찾아보자 했었는데, 교육장 예약 마감 전까지 아무리 찾아봐도 마땅한 곳이 없어서 그나마 안양에서 가까운 분당교육장에서 진행하기로 결정했다.  지난 1차 미프 때에는 전농교육장에서 진행했어서 분당교육장은 처음 가는 것이었기에 괜히 들떴다. 사실 매일 앉아서 하루 종일 강의를 듣는다는 것은.... 너무나 고된 일이기 때문이다. 움직이고 싶은데 또 집중하다보면 몸이 경직되어서 손가락만 우다다다 코드를 치고 있어서 저녁만 되면 손목이 너무 아팠다.  정말 너무 아픈 나머지 생애 처음으로 손목보호대라는 것을 착용하고 수업을 듣기 시작한 것이 어언 ..
[KT 에이블스쿨 DX 6기] 2차 미니 프로젝트(feat. 1일차, 온라인)
·
AIBLE SCHOOL 6기_DX 컨설턴트 과정/본 학습
미니 프로젝트 전오늘은 미니 프로젝트 2일차!이번에도 미니 프로젝트는 2일 간 진행이 되었는데, 1차 미프 때보다는 조금 더 본격적으로 데이터 분석에 들어갈 것 같아서 긴장을 많이 했었다. 이번에는 조편성 발표날과 개천절과 주말 등.. 공휴일이 겹쳐서 오픈 채팅방을 파서 링크를 공유한 그날 4시까지 교육장 마감이었다. 미프 준비기간에 주의할 점교육장 예약은 주말 및 공휴일을 제외한 2일 전까지이기 때문에 꼭 미니프로젝트 시작 요일과 마지막 요일을 확인하고 미프 기간 중에 언제 교육장을 이용할지 빠르게 팀원들과 얘기를 나눠야 한다. 예를 들어 마감일이 이틀 전이기며 평일 기준이기 때문에 월요일에 미프인데 교육장을 이용하고 싶다면, 전주 목요일 오후 4시 전까지 모든 팀원들이 예약을 마쳐야 한다.  오후 4..
[KT 에이블스쿨 DX 6기] 4주차 회고: 데이터 분석
·
AIBLE SCHOOL 6기_DX 컨설턴트 과정/본 학습
새로운 강사님과의 만남이번 주차에는 새로운 강사님께서 강의를 진행해주셨다. 데이터 분석을 맡아서 강의를 해주시기로 했는데, 말씀을 들어보니 우리 DX트랙에서 가장 많이 만나게 될 강사님이시라고 한다. 1기부터 계속 지금까지 함께하고 계시다는데, 가끔 아재개그를 치시기는 하지만 에이블러에 대한 애정이 많이 느껴지는 강사님이셨다.  미니 프로젝트가 끝나고 이제 본격적인 분석으로 들어가는 게 조금 긴장되었는데, 시작하기에 앞서 지금까지의 설문도 잠시 진행하면서 서로에 대해서 알아가는 시간도 조금 가지면서 리프레시를 해주셨다.  이 글을 적는 것은 데이터 분석 과정의 4일 중 마지막 날인데, 아래에서 말하겠지만.. 정말 이론 설명을 기가막히게 쉽게 해주시는 것 같다. 정말 매일마다 오전에 꼼꼼하게 전날 복습도 ..
가설 검정(이변량 분석): 숫자-숫자 / 범주-숫자 / 범주-범주 / 숫자-범주
·
데이터 분석/비즈니스 데이터 분석
1. 가설과 가설 검정이변량 분석은 가설을 확인하는 것이다. 즉, 앞서 언급한 x와 y와의 관계를 확인한다. 이러한 과정을 가설 검정이라고 한다.  대세, 기존의 입장이 존재한다고 해보자. 이를테면 뉴턴의 만류인력의 법칙이 대세인데, 그것을 깨는 새로운 가설이 등장할 수도 있다. 그렇게 기존의 가설을 깨트리며 세운 우리의 주장을 대립가설이라고 한다. 우리는 표본으로부터 우리가 세운 가설을 확인하려고 한다. 만약 가설 검정해서 표본에서 이 가설이 맞는 것이 확인된다면, '모집단에서 맞을 거야'라고 우기고자 한다. 그런데 통계적으로 근거가 있는 우김이다. 대립가설은 주로 '차이가 있을 것이다' 혹은 '영향을 끼칠 것이다'로 이야기될 수 있다. 귀무가설은 우리가 세운 적은 없지만 그냥 기존에 있는, 관련이 없..
개별 변수 분석(단변량 분석): 숫자형 변수 & 범주형 변수
·
데이터 분석/비즈니스 데이터 분석
1. 숫자형 변수(양적 데이터) 카페 안 손님 20명의 나이 데이터(정보)가 있다고 하자. 이 데이터를 한눈에 파악하기 위해 무엇을 하면 좋을까?이처럼 숫자형 변수를 정리하는 방법에는 두 가지가 있다.  1-1) 기초통계량: 숫자(정보의 대푯값)로 요약하는 describe()어떤 데이터를 하나의 숫자로 요약하면 뭐야? 한두 개의 숫자로 요약해봐. 했을 때 그 숫자가 대푯값이다. 숫자형 변수를 한눈에 파악하기 위해서는 이러한 대푯값으로 요약하는 방법이 있다.(1) 평균(mean)우리는 보통 산술평균을 사용하고 있지만, 평균에는 산술 평균, 기하 평균, 조화 평균 등 다양한 종류가 있다. 어떤 평균을 활용할지 잘 검토하여 선택하자.# 넘파이 함수 이용하기- 넘파이 어레이로 변화시켜서 계산. 시리즈, 리스트 ..
데이터 분석 방법론(CRISP-DM)
·
데이터 분석/비즈니스 데이터 분석
CRISP-DM이란?  CRISP-DM은 Cross Industry Standard Process for Data Mining의 약자이다. 크리스프 디엠이라고 읽기도 하며,데이터 분석의 표준 절차를 체계적으로 정리한 방법론인데, 이를 따르면 데이터 분석 프로젝트를 진행할 때 단계별로 명확하게 수행할 수 있다. 쉽게 말하면, 데이터 분석을 대체 어떻게 시작하고 끝내야하는지 단계별로 구분해서 정리해둔 로드맵이라고 이해하면 된다.  간단하게 데이터 분석 방법론이라고 이해해도 되지만, 우리는 이를 비즈니스 문제해결 방법론이라고 이해해보자.   그림을 보면, 첫 번째로 비즈니스 이해가 있고, 두 번째가 데이터 이해, 그다음이 데이터 준비, 모델링, 평가, 배포로 이어진다. (배포는 시스템으로 만드는 것이다. 간단..
데이터프레임 변경(4): Rolling과 Shift / Pivot과 Melt
·
데이터 분석/Pandas 기초
1. Rollingrolling() 메서드를 사용하면 일정 기간에 대한 집계를 수행할 수 있다. 예를 들어 최근 3일간 혹은 일주일 간의 평균이나 합을 집계 가능하다. 우선 일상적으로 우리가 하는 집계부터 살펴보자. 1) 일상적인 집계일상적으로는 특정 열의 평균이나 합 등과 같은 집계를 수행한다. 전체 평균을 이런 식으로 집계해서 새로운 열로 만들어주면, 이후에 전체 평균 대비 오존 농도 평균이 얼마인지에 대해 시각화해볼 수도 있다. # 새로운 열 추가air['OZ_mean'] = round(air['Ozone'].mean(), 1)  2) Rolling 집계시계열 데이터의 경우, 최근 일정 기간에 대한 집계가 필요할 수 있다. 이때 rolling() 메서드를 적용하게 되는데, 특정 창(window)을 ..
데이터프레임 변경(3): 합치기(Concat)와 조인(Merge)
·
데이터 분석/Pandas 기초
1. 데이터프레임 합치기: Concat()예를 들어 한 회사의 구성원들의 휴가 정보 테이블이 있다고 해보자. 이 테이블이 너무 커서, 파일을 3개로 잘라내서 나에게 도착했다. 1번 파일은 2024년 휴가 정보, 2번 파일은 2023년 휴가 정보, 3번 파일은 2022년 휴가 정보라고 해보자. 이 3개의 파일을 하나로 붙여서 통합된 데이터로 만들고 싶을 수 있다.  우리는 지금까지 하나의 데이터프레임을 가지고 작업을 해왔기 때문에, 그 형태로 맞춰주는 것이 좋겠다. 이때 concat() 함수를 사용해서 인덱스 값을 기준으로 두 데이터프레임을 가로 혹은 세로로 합칠 수 있으며, 이를 '연결'이라고 한다. 테이블이 가로로 분리되어 있다면 가로로 다시 연결해주고, 세로로 분리되어 있다면 세로로 다시 연결해주는 ..