본문 바로가기

분류 전체보기

(40)
통계 실습 : 다양한 통계분석 방법, 언제 사용할까? 독학으로 통계를 공부하다 보니 개념만 이해하고 다양한 분석 기법들이 어떻게 활용되는지는 잘 모르는 경우가 많습니다. 저 또한 그렇습니다. 오늘은 다양한 통계분석 방법들이 언제 어떻게 사용되는지 간단한 예시를 통해 살펴보도록 하겠습니다. 설명하는 예제는 어느 정도 통계분석 방법에 대한 개념은 이해하고 있다고 가정하고 있기 때문에 해당 분석 방법의 개념을 전혀 모른다면 왜 이런 분석방법을 사용하는지 이해하기 어려울 수도 있으니 개념을 먼저 이해하시고 보시면 좋을 것입니다. 가상의 표본 30대 남성 100명과 여성 100명이 있다고 가정해봅니다. 1. 독립표본 t 검정 남성과 여성의 평균 키를 비교했을 때, 두 집단의 신장 차이가 유의한지 비교하고 싶은 경우 2. 대응표본 t 검정 여성 100명을 대상으로 다..
SQL 실무 : 나이, 연령대, 연령대별 회원수 계산 오늘 살펴볼 내용은 CRM 업무를 담당하거나 고객 데이터를 분석해야 할 때 자주 쓰이는 고객의 나이, 연령대, 연령대별 인원 계산입니다. 기본적인 SQL 문법과 간단한 서브쿼리를 이용하면 매우 간단하게 계산할 수 있고, 연령대별 분석은 실무에서 매우 자주 사용되는 만큼 알아두면 굉장히 유익할 것 입니다. 아래와 같이 고객의 ID, 성별, 생년월일, 회원가입일, 가입경로의 정보가 포함되어 있는 고객 데이터가 있다고 가정하겠습니다. 우리는 여기서 생년월일(birth_date) 컬럼을 이용해 나이, 연령대 분석을 해보도록 하겠습니다. 고객 데이터(예제) user_id sex birth_date register_date register_device U001 M 1977-06-17 2016-10-01 pc U00..
통계 실습 : One-way ANOVA (with 파이썬) t-test에 이어서 이번 시간에는 ANOVA(분산분석)에 대해 이야기 해보려고 합니다. ANOVA는 크게 One-way ANOVA(일원배치 분산분석)과 Two-way ANOVA(이원배치 분산분석)로 분류 되는데요. 오늘은 One-way ANOVA를 먼저 설명하고 다음 시간에 Two-way ANOVA를 별도로 다루도록 하겠습니다. 우선 앞 부분에서는 간략하게 ANOVA에 대한 개념을 다룬 뒤에 파이썬을 통해 실습을 해보도록 하겠습니다. ANOVA(분산분석)이란? ANOVA(분산분석)은 Analysis Of Varience을 줄여서 표현한 것인데요. t-test의 경우에는 두 집단의 평균 값의 차이가 통계적으로 유의한지 비교하였다면, ANOVA(분산분석)는 '세 개 이상의 집단 평균 값의 차이가 통계적으로..
통계 실습 : t-검정 (t-test)이란 무엇인가? (with 파이썬) 안녕하세요. 데이터 분석에 필요한 통계를 주제로도 포스팅을 해보려 합니다. 첫 번째 주제는 데이터 분석 결과에 대한 유의성을 판단하기 위한 t-검정(t-test)에 대해서 이야기 해보도록 하겠습니다. 1. t-test을 해야 하는 이유? t-test은 2개 집단의 평균 값의 차이가 통계적으로 같은 집단인지, 다른 집단인지 비교하기 위해 사용하는 검정 방법입니다. 두 집단의 평균을 비교하는 분석 방법은 t-test 외에도 z-test가 있는데, z-test는 모집단의 분산을 알고 있는 경우에 사용됩니다. 하지만 우리는 일상에서 모집단의 분산을 알고 있는 경우는 거의 없기 때문에 t-test를 주로 사용합니다. 2. t-test의 종류 t-test는 아래와 같이 3가지 방법으로 구분 됩니다. 구분 정의 일표..
SQL 실무 : 매출 누계, 전년동기 증감율(YoY) 계산 오늘 살펴볼 내용은 매출 데이터를 SQL로 어떻게 핸들링하는지에 대한 부분 입니다. 사실 회사에서는 SQL, Python 등과 같은 프로그래밍 언어가 아닌 엑셀을 이용해서도 매출 관련 데이터 지표를 관리하고 분석을 많이 하곤 합니다. 그렇지만 엑셀의 경우 분석할 수 있는 데이터의 양이 제한되어 있기 때문에 대용량 데이터를 분석할 때 적합하지 못합니다. 그렇기 때문에 지금부터는 SQL을 활용해 데이터를 추출하는 방법을 알아보도록 하겠습니다. 오늘 우리가 살펴볼 주제는 다음과 같습니다. 1. 매출 누계 구하기 2. 월별 매출의 전년대비 증감율(YoY) 구하기 해당 주제들은 실제 현업에서 매출 데이터를 관리하는 담당자라면 굉장히 자주 마주치게 되는 데이터이니 유심히 봐주시기 바랍니다! 1. 매출 누계 구하기 ..
SQL 고급 : 집계 함수 vs. 윈도우 함수 비교 SQL을 공부하면서 처음 윈도우 함수(Window Fuctions)를 접했을 때 기존의 집계함수(Aggregate Functions)와 비슷해서 헷갈렸던 적이 있습니다. 그럼 서로 비슷해 보이는 집계함수와 윈도우 함수, 언제 어떻게 사용하는걸까요? 이 글에서는 집계함수와 윈도우 함수에 관련된 실무 예제를 활용해 살펴보면서 데이터 분석을 할 때 두 함수가 어떻게 사용되는지 알아보도록 하겠습니다. 먼저, 집계함수와 윈도우 함수에 대해 알아보기에 앞서 여러분이 가상의 이커머스 회사 '로켓마트'의 데이터 지표를 관리하고 분석하는 담당자가 되었다고 가정해보겠습니다. 유관부서에서 다음과 같은 데이터를 추출해달라고 요청이 들어왔을 때, 여러분은 어떤 함수를 이용해 데이터를 추출하면 될까요? 1. 연도별, 카테고리별 ..
SQL vs. Pandas 비교 (2) - JOIN, PIVOT, WINDOW FUNCTIONS 지난 글에 이어서 SQL의 쿼리문과 Pandas 코드를 계속 비교해보도록 하겠습니다. 이번에는 조금 심화 레벨의 JOIN, PIVOT, WINDOW FUNCTIONS 에 대해 알아보겠습니다. 지난 글에서는 NBA 선수 연봉 정보 테이블을 예시로 했었다면, 이번에는 렌터카 회사의 예약 데이터를 활용할 예정입니다. 지금부터 여러분은 렌터카 회사의 데이터 분석을 담당하고 있는 직원이고, 다음과 같이 예약정보(Reservation), 고객정보(Customer) 라는 가상의 테이블이 있다고 해보겠습니다. 데이터는 2016년 4월에서 5월까지 렌터카 예약정보를 가지고 있습니다. 예약 정보(Reservation) Seq Region System Customer_id Car_name Start_date Start_ti..
SQL vs. Pandas 비교 (1) - SELECT, WHERE, GROUP BY, LIMIT 처음 SQL을 공부하면서 Python의 Pandas 라이브러리와 많이 비슷하다는 생각이 들어 동일한 결과값을 출력하게 끔 하는 SQL 쿼리문과 Pandas 코드를 비교해보고자 합니다. 비교를 위해 아래 나와 있는 NBA 선수들의 연봉 정보를 가지고 SELECT, FROM, WHERE, GROUP BY, LIMIT 등 SQL 문법을 Pandas로 어떻게 구현하는지 함께 보도록 하겠습니다. [SELECT] 선수, 연봉 정보 SQL SELECT player, salary FROM players; Pandas players[['player', 'salary']] [WHERE] 포지션이 센터인 선수의 팀명과 연봉 정보 SQL SELECT team, player, salary, position FROM player..