4. 데이터

2024. 5. 10. 14:10·독서/데이터 분석을 위한 SQL 레시피
+ 리포트를 만들 때 어떤 데이터를 추출하는지, 어떤 성질을 가진 데이터를 다루는지 명확하게 하지 않으면 잘못된 리포트가 만들어질 수 있다!
+ 업무 전에 어떤 종류의 데이터를 가지고 있는지부터 파악하면 가능한 것과 불가능한 것을 예측 가능!

 

1. 데이터의 종류
  1. 업무 데이터: 업무에 필요한 데이터
    - 서비스와 시스템을 운용하기 위한 목적으로 구축된 데이터베이스에 존재하는 데이터
    - 대부분 '갱신형' 데이터
    Ex. 상품을 추가할 때는 새로운 데이터로 레코드 하나를 삽입. 해당 데이터의 가격 변경 등이 있을 때, 새로운 데이터를 삽입하는 대신 기존의 데이터를 갱신

    (1) 트랜젝션 데이터: 구매 데이터, 리뷰 데이터, 게임 플레이 데이터처럼 서비스와 시스템을 통해 사용자의 행동을 기록한 데이터
    - 데이터에는 날짜, 시각, 마스터 데이터의 회원 ID, 상품 ID, 수량, 가격 등이 포함된 경우가 많음

    - 이러한 데이터는 사용자 또는 운용 상의 이유로 변경되거나 제거 가능

    - 주로 이러한 데이터를 기반으로 리포트를 만듦
    - BUT, 회원 ID와 상품 ID로 저장된 경우가 많으므로, 회원의 성별 또는 주소지, 상품의 카테고리 또는 이름 등을 곧바로 추출 어려움(일반적으로 <사용자 ID>, <상품 ID>, <개수>처럼 외부 키를 사용해 저장되므로 '170414' 이렇게 데이터가 기록됨
    (2) 마스터 데이터 : 카테고리 마스터, 상품 마스터처럼 서비스와 시스템이 정의하고 있는 데이터
    - 앞선 이유로 트랜젝션 데이터를 기반으로 리포트를 만들 때, 이어서 설명하는 마스터 데이터가 필요(-> 트랜젝션 데이터의 상품 ID와 마스터 데이터를 결합해서 상품 이름, 상품 카테고리, 발매일 등을 명확하게 만들어야 리포트 업무의 폭을 넓힐 수 있음
    - 회원과 관련된 정보도 사용자 마스터 테이블에 저장하므로 마스터 데이터로 분류함
    - 트렌젝션 데이터만으로는 분석 범위가 한정되어 버리므로, 트랜젝션 데이터에 포함된 마스터 데이터는 리포트 업무 전에 대충 확인해두기

  2. 로그 데이터: 업무에 직접적으로 필요하지는 않지만 분석을 위해 추출해야 하는 데이터
    - 통계 또는 분석을 주 용도로 설계된 데이터
    - 특정 태그를 포함해서 전송된 데이터
    - 특정 행동을 서버 측에 출력한 데이터

    - 누적형 데이터(출력 시점의 정보를 축적해둠) -> 따라서 로그 출력 이후에 가격이 변경되거나 사용자 정보가 변경되더라도 기존의 데이터를 수정하지 않음
2. 업무 데이터
  1. 데이터의 정밀도가 높다. 
  2. 갱신형 데이터
  3. 다뤄야 하는 테이블의 수가 많음

[업무 데이터 축적 방법]
- 업무 데이터를 분석 전용 환경에 전송하려면 'Apache Sqoop'처럼 RDB에서 빅데이터 분석 기반으로 데이터 로드를 해주는 시스템 등을 사용해야 함

  1. 모든 데이터 변경하기
  2. 모든 레코드의 스냅샷을 날짜별로 저장하기
  3. 어제와의 변경 사항만 누적하기

[업무 데이터 다루기]
- 업무 데이터를 다룰 때 생각해야 하는 부분

  1. 매출액, 사용자 수처럼 정확한 값을 요구할 경우 활용하기
  2. 서비스의 방문 횟수, 페이지뷰, 사용자 유도 등의 데이터 분석에는 사용할 수 없음
  3. 데이터 변경이 발생할 수 있으므로 추출 시점에 따라 결과가 변화할 수 있음
3. 로그 데이터

 

[로그 데이터의 특징]

  • 시간, 사용자 엔드 포인트, IP, URL, 레퍼러, Cookie 등의 정보 저장하기
  • 로그 데이터는 추출 방법에 따라 데이터의 정밀도가 달라짐
  • 계속 기록을 추가하는 것뿐이므로 과거의 데이터가 변경되지는 않음

[로그 데이터 축적 방법]
- 로그 데이터를 활용할 때는 해당 데이터가 어떤 로그 데이터인지 파악하고, 어떠한 방법을 사용할지 검토하고, 리포트로 설명할 범위 등을 명확하게 결정해야 함

  • 태그, SDK를 통해 사용자 장치에서 데이터를 전송하고 출력하기(비컨 형태)
  • 서버에서 데이터를 추출하고 출력하기(서버 형태)

[로그 데이터 다루기]
- 로그 데이터의 특징과 업무 데이터와의 차이를 이해했다면, 업무에 어떻게 다루어야 하는지, 다룰 때 생각해야 할 부분 생각해보기

  • 사이트 방문 횟수, 페이지뷰, 사용자 유도 상황을 집계하고 분석할 때 주로 사용
  • 최신 상태를 고려한 분석에는 적합하지 않음
  • 계속 기록을 누적하는 형태이므로 추출 결과가 변할 가능성이 적음
  • 데이터의 정확도는 업무 데이터에 비해 낮음
4. 두 데이터를 사용해서 생성되는 가치

- 업무 데이터와 로그 데이터를 어떻게 활용할지, 두 데이터를 함께 사용했을 때 새로 생성되는 가치는 무엇인가?

  • 웹사이트에서의 행동이 오프라인의 행동에 어떠한 영향을 미치는지 등을 조사 가능
  • EX. 특정 미디어 또는 광고로 유입된 사용자가 오프라인에서 계약할 가능성이 더 높다면, 해당 미디어와 광고를 더 활용할 수있음
  • EX. 음식점 방문 전에 사람들이 웹사이트에서 많이 본 상품이 실제 매장에서도 많이 팔린다는 경향이 있다면, 고객이 방문했을 때 어떤 식으로 접객해야 하는지 조금 더 명확하게 만들 수 있음

 

 

'독서 > 데이터 분석을 위한 SQL 레시피' 카테고리의 다른 글

3. 빅데이터 활용 도구(PostgreSQL, Apache Hive, Amazon Redshift, Google BigQuery, SparkSQL)  (0) 2024.04.13
2-2. 엔지니어의 과제  (3) 2024.04.13
2-1. 분석 담당자의 과제  (0) 2024.04.13
2-0. 저장된 데이터에 접근하려면? 미들웨어 부속도구의 사용  (2) 2024.04.12
'독서/데이터 분석을 위한 SQL 레시피' 카테고리의 다른 글
  • 3. 빅데이터 활용 도구(PostgreSQL, Apache Hive, Amazon Redshift, Google BigQuery, SparkSQL)
  • 2-2. 엔지니어의 과제
  • 2-1. 분석 담당자의 과제
  • 2-0. 저장된 데이터에 접근하려면? 미들웨어 부속도구의 사용
KURIKU
KURIKU
학습을 기록하기 위한 공간입니다.
  • KURIKU
    꾸리 log
    KURIKU
  • 전체
    오늘
    어제
    • 학습기록 (113)
      • 독서 (5)
        • 데이터 분석을 위한 SQL 레시피 (5)
      • 데이터 분석 (44)
        • 기타 환경 설정 (3)
        • 파이썬 기초 (11)
        • Pandas 기초 (6)
        • 비즈니스 데이터 분석 (3)
        • 웹 크롤링 (2)
        • 데이터 시각화 (0)
        • 머신러닝 (7)
        • 딥러닝 (7)
        • IT 인프라 (5)
        • 클라우드 서비스 (0)
        • 제안서 작성 (0)
      • AIBLE SCHOOL 6기_DX 컨설턴트 과정 (45)
        • 사전학습 (25)
        • 본 학습 (20)
      • 데이터리안 SQL 캠프 (0)
        • 입문반 (0)
        • 심화반 (0)
      • UXUI 심리학 (0)
      • 기업분석, 취준 (1)
      • 관심산업 경제뉴스브리핑 (16)
        • 카드산업 (6)
        • IT산업 (9)
        • 헬스케어산업 (0)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    kt aivle school#기자단#6기
    4차 미니프로젝트
    분당교육장
    DX 컨설턴트 트랙
    에이블스쿨
    2차 미니프로젝트
    6기
    kt aible
    kt aible school
    kt aivle school
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.0
KURIKU
4. 데이터
상단으로

티스토리툴바