+ 리포트를 만들 때 어떤 데이터를 추출하는지, 어떤 성질을 가진 데이터를 다루는지 명확하게 하지 않으면 잘못된 리포트가 만들어질 수 있다!
+ 업무 전에 어떤 종류의 데이터를 가지고 있는지부터 파악하면 가능한 것과 불가능한 것을 예측 가능!
1. 데이터의 종류
- 업무 데이터: 업무에 필요한 데이터
- 서비스와 시스템을 운용하기 위한 목적으로 구축된 데이터베이스에 존재하는 데이터
- 대부분 '갱신형' 데이터
Ex. 상품을 추가할 때는 새로운 데이터로 레코드 하나를 삽입. 해당 데이터의 가격 변경 등이 있을 때, 새로운 데이터를 삽입하는 대신 기존의 데이터를 갱신
(1) 트랜젝션 데이터: 구매 데이터, 리뷰 데이터, 게임 플레이 데이터처럼 서비스와 시스템을 통해 사용자의 행동을 기록한 데이터
- 데이터에는 날짜, 시각, 마스터 데이터의 회원 ID, 상품 ID, 수량, 가격 등이 포함된 경우가 많음
- 이러한 데이터는 사용자 또는 운용 상의 이유로 변경되거나 제거 가능
- 주로 이러한 데이터를 기반으로 리포트를 만듦
- BUT, 회원 ID와 상품 ID로 저장된 경우가 많으므로, 회원의 성별 또는 주소지, 상품의 카테고리 또는 이름 등을 곧바로 추출 어려움(일반적으로 <사용자 ID>, <상품 ID>, <개수>처럼 외부 키를 사용해 저장되므로 '170414' 이렇게 데이터가 기록됨
(2) 마스터 데이터 : 카테고리 마스터, 상품 마스터처럼 서비스와 시스템이 정의하고 있는 데이터
- 앞선 이유로 트랜젝션 데이터를 기반으로 리포트를 만들 때, 이어서 설명하는 마스터 데이터가 필요(-> 트랜젝션 데이터의 상품 ID와 마스터 데이터를 결합해서 상품 이름, 상품 카테고리, 발매일 등을 명확하게 만들어야 리포트 업무의 폭을 넓힐 수 있음
- 회원과 관련된 정보도 사용자 마스터 테이블에 저장하므로 마스터 데이터로 분류함
- 트렌젝션 데이터만으로는 분석 범위가 한정되어 버리므로, 트랜젝션 데이터에 포함된 마스터 데이터는 리포트 업무 전에 대충 확인해두기 - 로그 데이터: 업무에 직접적으로 필요하지는 않지만 분석을 위해 추출해야 하는 데이터
- 통계 또는 분석을 주 용도로 설계된 데이터
- 특정 태그를 포함해서 전송된 데이터
- 특정 행동을 서버 측에 출력한 데이터
- 누적형 데이터(출력 시점의 정보를 축적해둠) -> 따라서 로그 출력 이후에 가격이 변경되거나 사용자 정보가 변경되더라도 기존의 데이터를 수정하지 않음
2. 업무 데이터
- 데이터의 정밀도가 높다.
- 갱신형 데이터
- 다뤄야 하는 테이블의 수가 많음
[업무 데이터 축적 방법]
- 업무 데이터를 분석 전용 환경에 전송하려면 'Apache Sqoop'처럼 RDB에서 빅데이터 분석 기반으로 데이터 로드를 해주는 시스템 등을 사용해야 함
- 모든 데이터 변경하기
- 모든 레코드의 스냅샷을 날짜별로 저장하기
- 어제와의 변경 사항만 누적하기
[업무 데이터 다루기]
- 업무 데이터를 다룰 때 생각해야 하는 부분
- 매출액, 사용자 수처럼 정확한 값을 요구할 경우 활용하기
- 서비스의 방문 횟수, 페이지뷰, 사용자 유도 등의 데이터 분석에는 사용할 수 없음
- 데이터 변경이 발생할 수 있으므로 추출 시점에 따라 결과가 변화할 수 있음
3. 로그 데이터
[로그 데이터의 특징]
- 시간, 사용자 엔드 포인트, IP, URL, 레퍼러, Cookie 등의 정보 저장하기
- 로그 데이터는 추출 방법에 따라 데이터의 정밀도가 달라짐
- 계속 기록을 추가하는 것뿐이므로 과거의 데이터가 변경되지는 않음
[로그 데이터 축적 방법]
- 로그 데이터를 활용할 때는 해당 데이터가 어떤 로그 데이터인지 파악하고, 어떠한 방법을 사용할지 검토하고, 리포트로 설명할 범위 등을 명확하게 결정해야 함
- 태그, SDK를 통해 사용자 장치에서 데이터를 전송하고 출력하기(비컨 형태)
- 서버에서 데이터를 추출하고 출력하기(서버 형태)
[로그 데이터 다루기]
- 로그 데이터의 특징과 업무 데이터와의 차이를 이해했다면, 업무에 어떻게 다루어야 하는지, 다룰 때 생각해야 할 부분 생각해보기
- 사이트 방문 횟수, 페이지뷰, 사용자 유도 상황을 집계하고 분석할 때 주로 사용
- 최신 상태를 고려한 분석에는 적합하지 않음
- 계속 기록을 누적하는 형태이므로 추출 결과가 변할 가능성이 적음
- 데이터의 정확도는 업무 데이터에 비해 낮음
4. 두 데이터를 사용해서 생성되는 가치
- 업무 데이터와 로그 데이터를 어떻게 활용할지, 두 데이터를 함께 사용했을 때 새로 생성되는 가치는 무엇인가?
- 웹사이트에서의 행동이 오프라인의 행동에 어떠한 영향을 미치는지 등을 조사 가능
- EX. 특정 미디어 또는 광고로 유입된 사용자가 오프라인에서 계약할 가능성이 더 높다면, 해당 미디어와 광고를 더 활용할 수있음
- EX. 음식점 방문 전에 사람들이 웹사이트에서 많이 본 상품이 실제 매장에서도 많이 팔린다는 경향이 있다면, 고객이 방문했을 때 어떤 식으로 접객해야 하는지 조금 더 명확하게 만들 수 있음
'독서 > 데이터 분석을 위한 SQL 레시피' 카테고리의 다른 글
3. 빅데이터 활용 도구(PostgreSQL, Apache Hive, Amazon Redshift, Google BigQuery, SparkSQL) (0) | 2024.04.13 |
---|---|
2-2. 엔지니어의 과제 (0) | 2024.04.13 |
2-1. 분석 담당자의 과제 (0) | 2024.04.13 |
2-0. 저장된 데이터에 접근하려면? 미들웨어 부속도구의 사용 (0) | 2024.04.12 |