4. 데이터
·
독서/데이터 분석을 위한 SQL 레시피
+ 리포트를 만들 때 어떤 데이터를 추출하는지, 어떤 성질을 가진 데이터를 다루는지 명확하게 하지 않으면 잘못된 리포트가 만들어질 수 있다!+ 업무 전에 어떤 종류의 데이터를 가지고 있는지부터 파악하면 가능한 것과 불가능한 것을 예측 가능! 1. 데이터의 종류업무 데이터: 업무에 필요한 데이터- 서비스와 시스템을 운용하기 위한 목적으로 구축된 데이터베이스에 존재하는 데이터- 대부분 '갱신형' 데이터Ex. 상품을 추가할 때는 새로운 데이터로 레코드 하나를 삽입. 해당 데이터의 가격 변경 등이 있을 때, 새로운 데이터를 삽입하는 대신 기존의 데이터를 갱신(1) 트랜젝션 데이터: 구매 데이터, 리뷰 데이터, 게임 플레이 데이터처럼 서비스와 시스템을 통해 사용자의 행동을 기록한 데이터- 데이터에는 날짜, 시각,..
3. 빅데이터 활용 도구(PostgreSQL, Apache Hive, Amazon Redshift, Google BigQuery, SparkSQL)
·
독서/데이터 분석을 위한 SQL 레시피
PostgreSQL 오픈소스 RDB(Relational Database)* 다양한 플랫폼을 지원, GUI 인스톨러 제공되어 쉽게 컴퓨터 설치 가능 MySQL 등의 오픈소스 RDB와 비교하면 표준 SQL을 잘 준수하며, 윈도 함수, CTE(WITH 구문) 등 분석에 필수로 사용하는 구문을 모두 구현 여기에서 소개되는 미들웨어 중 가장 역사가 오래됨 특유의 확장기능도 많이 제공하여 편리하게 사용 가능 *RDB: 관계형 데이터베이스. 엑셀 시트처럼 빈칸에 내용을 차곡차곡 쌓아가는 데이터베이스 방식을 가리킴(A-1, B-2처럼 각각 칸에 번호가 매겨져 있고, 이 번호를 통해 각각의 데이터를 확인) Apache Hive PostgreSQL 등의 RDB에서 대량의 데이터를 처리할 때 보틀넥이 발생하는 가장 큰 부분..
2-2. 엔지니어의 과제
·
독서/데이터 분석을 위한 SQL 레시피
분석 담당자가 기술 부족 등으로 서비스를 개발하는 엔지니어에게 업무를 준다면? 1. 리포팅 방법과 분석 노하우가 없으면 단순한 집계만 제공하므로 기존의 접근 해석 도구 수준을 못 벗어남 2. 분석 담당자 또는 경영층이 어떤 리포트를 원하는지, 어떤 과제를 해결하고 싶어하는지 잘 모를 수 있음 3. 분석에 특화된 SQL을 모르므로 간단한 데이터 추출에도 고생함 분석 담당자와 엔지니어가 함께 팀을 이루어 분석 업무 담당? 1. 분석 담당자가 요구한 데이터를 추출하더라도 이후에 비슷한 의뢰를 할 때마다 비슷한 SQL을 계속 만들어줘야 함 2. 분석 담당자도 무엇이 가능한지 몰라 애매모호한 의뢰를 하므로 최종적인 결과물이 마음에 들지 않아 재의뢰
2-1. 분석 담당자의 과제
·
독서/데이터 분석을 위한 SQL 레시피
접근 해석 기술을 보유한 분석 담당자가 빅데이터 분석 기반을 다룰 때 겪는 문제 1. 지금까지 지표를 도구가 제공해주었지만 이제 스스로 지표를 결정해야 함 2. 데이터를 추출할 때 SQL을 사용해야 하므로 SQL을 배워야 함 3. SQL을 배우지 않은 상태에서는 무엇을 집계할 수 있는지 자체를 생각할 수 없음 4. 리포트를 만들 때 필요한 데이터와 도구가 갖추어져 있더라도 SQL을 모르면 리포트를 만들 수 없음 5. 리포트 작성보다도 SQL을 사용하면서 겪는 시행착오에 시간이 더 오래 걸려서 리포트의 품질을 담보할 수 없게 됨 관리 화면에서 마우스 조작 OR 텍스트 입력으로 데이터 추출하던 부분이 SQL 언어로 변경? 필요 기술 자체가 변경되었기에, 기존 분석방법으로 일하면 업무 정체 & 내려받은 데이터..
2-0. 저장된 데이터에 접근하려면? 미들웨어 부속도구의 사용
·
독서/데이터 분석을 위한 SQL 레시피
어떤 회사에서 빅데이터 분석 기반을 도입하기로 결정했다? 1. 접근 로그 또는 회사가 가진 데이터를 한 곳에 저장해야! 2. 저장된 데이터에 접근하려면 빅데이터를 관리하는 미들웨어 부속도구를 사용해야 함 - 해당 도구들로 추출하고 싶은 데이터의 조건 또는 형식을 SQL로 표현하여 추출하는 것이 첫 번째 단계 https://code-code.tistory.com/101 하둡 Hue / Zeppelin 소개 하둡 에코시스템(Haddop Ecosystem) : 빅데이터는 수집, 정제, 분석, 시각화 등 여러 단계를 거치는데 이 단계를 거치는 동안 여러가지 기술을 이용하여 처리되는데 이 기술을 통틀어 빅데이터 에코 code-code.tistory.com