데이터프레임 변경(2): 결측치 처리 / 가변수(Dummy Variable) 생성
·
데이터 분석/Pandas 기초
1. 결측치 처리(전처리 작업): 누락 데이터와 중복 데이터의 처리정확한 데이터 분석을 위해서는 정확한 데이터가 준비되어야 할 필요가 있다. 이를 위해 누락된 데이터나 중복 데이터를 제거해주는 전처리 작업이 요구된다. 결측치를 NaN 값이라고 보통 부르는데, 이러한 결측치는 정확한 분석을 하는 데 방해를 줄 수 있다. 아래와 같이 값이 끊기거나, NaN 값을 만나면 오류가 발생하는 함수도 있기 때문에 이는 반드시 어떤 방식으로든 처리해주는 것이 필요하다. 결측치를 처리하는 방법은 두 가지로, 제거하거나 다른 값(EX. 평균값, 최빈값 등)으로 채우는 방법이 있다. 1) 결측치 찾기: info(), isnull(), notnull(), sum()결측치 처리에 앞서 해야 할 일은, 결측치의 존재 여부를 확인..