인기글
-
Statistics
통계 실습 : t-검정 (t-test)이란 무엇인가? (with 파이썬)
안녕하세요. 데이터 분석에 필요한 통계를 주제로도 포스팅을 해보려 합니다. 첫 번째 주제는 데이터 분석 결과에 대한 유의성을 판단하기 위한 t-검정(t-test)에 대해서 이야기 해보도록 하겠습니다. 1. t-test을 해야 하는 이유? t-test은 2개 집단의 평균 값의 차이가 통계적으로 같은 집단인지, 다른 집단인지 비교하기 위해 사용하는 검정 방법입니다. 두 집단의 평균을 비교하는 분석 방법은 t-test 외에도 z-test가 있는데, z-test는 모집단의 분산을 알고 있는 경우에 사용됩니다. 하지만 우리는 일상에서 모집단의 분산을 알고 있는 경우는 거의 없기 때문에 t-test를 주로 사용합니다. 2. t-test의 종류 t-test는 아래와 같이 3가지 방법으로 구분 됩니다. 구분 정의 일표..
-
SQL
SQL 고급 : 3개 이상의 테이블을 JOIN 하기
현실에서 데이터 분석을 하다 보면 경우에 따라서 3~4개의 테이블을 조인해야 하는 상황이 생길 수 있습니다. 하지만 JOIN과 관련된 기본 문법을 익히거나 일반적인 SQL 문제 풀이에서 3~4개 테이블을 조인해야 하는 경우를 찾기가 쉽지 않은데요. 다행스럽게도 최근 새롭게 풀어본 SQL 문제를 통해 어떻게 3개 이상의 테이블을 JOIN할 수 있는지 보여드리려고 합니다. 역대 올림픽 경기와 관련된 데이터가 들어가 있는 테이블을 가지고 문제를 풀어볼텐데요. 우리가 해결해야 할 문제는 복수 국적으로 메달을 수상한 선수를 찾는 문제입니다. 예를 들면 쇼트트랙의 안현수(빅토르 안) 선수와 같이 올림픽에서 한국 국적과 러시아 국적으로 모두 메달을 딴 선수를 찾아야 한다는 것이죠. 문제 내용에 대해서는 저작권 이슈가..
-
SQL
SQL 실무 : 나이, 연령대, 연령대별 회원수 계산
오늘 살펴볼 내용은 CRM 업무를 담당하거나 고객 데이터를 분석해야 할 때 자주 쓰이는 고객의 나이, 연령대, 연령대별 인원 계산입니다. 기본적인 SQL 문법과 간단한 서브쿼리를 이용하면 매우 간단하게 계산할 수 있고, 연령대별 분석은 실무에서 매우 자주 사용되는 만큼 알아두면 굉장히 유익할 것 입니다. 아래와 같이 고객의 ID, 성별, 생년월일, 회원가입일, 가입경로의 정보가 포함되어 있는 고객 데이터가 있다고 가정하겠습니다. 우리는 여기서 생년월일(birth_date) 컬럼을 이용해 나이, 연령대 분석을 해보도록 하겠습니다. 고객 데이터(예제) user_id sex birth_date register_date register_device U001 M 1977-06-17 2016-10-01 pc U00..
-
SQL
SQL 고급 : 윈도우 함수(순위 함수) - RANK(), DENSE_RANK(), ROW_NUMBER()
오늘은 윈도우 함수 중 하나인 순위 함수를 어떻게 사용하는 지에 대해서 야구 데이터를 활용하여 함께 알아보도록 하겠습니다. 이를 위해 국내 프로야구 통산 홈런 개수가 300개가 넘는 선수들의 데이터를 가지고 홈런 순위를 계산하는 방법을 순위 함수를 통해 살펴보겠는데요. 이름 포지션 홈런 박경완 포수 314 이승엽 내야수 467 최정 내야수 403 이대호 내야수 351 장종훈 내야수 340 이호준 내야수 337 이범호 내야수 329 박병호 내야수 327 김태균 내야수 311 최형우 외야수 342 심정수 외야수 328 송지만 외야수 311 박재홍 외야수 300 양준혁 지명타자 351 1. RANK() 함수 첫 번째로 살펴볼 순위 함수는 RANK() 함수입니다. RANK() 함수는 순위 함수 중에서도 일반적으..
-
SQL
SQL 실무 : 매출 누계, 전년동기 증감율(YoY) 계산
오늘 살펴볼 내용은 매출 데이터를 SQL로 어떻게 핸들링하는지에 대한 부분 입니다. 사실 회사에서는 SQL, Python 등과 같은 프로그래밍 언어가 아닌 엑셀을 이용해서도 매출 관련 데이터 지표를 관리하고 분석을 많이 하곤 합니다. 그렇지만 엑셀의 경우 분석할 수 있는 데이터의 양이 제한되어 있기 때문에 대용량 데이터를 분석할 때 적합하지 못합니다. 그렇기 때문에 지금부터는 SQL을 활용해 데이터를 추출하는 방법을 알아보도록 하겠습니다. 오늘 우리가 살펴볼 주제는 다음과 같습니다. 1. 매출 누계 구하기 2. 월별 매출의 전년대비 증감율(YoY) 구하기 해당 주제들은 실제 현업에서 매출 데이터를 관리하는 담당자라면 굉장히 자주 마주치게 되는 데이터이니 유심히 봐주시기 바랍니다! 1. 매출 누계 구하기 ..
리스트 예시: 게시물이 존재할 경우 3건을 노출합니다.