신뢰구간 의미 (실용 가이드)
통계 분석의 본질은 측정에 내재된 불확실성을 탐색하는 것입니다. 예를 들어, 우리나라 기업의 평균 매출액을 계산해야 한다고 가정해 보죠. 우리나라의 모든 기업의 매출금액을 확인하여 평균을 낸다는 것은 현실적으로 너무 어렵습니다. 불가능에 …
나와 세상의 지혜가 공유되는 그곳
통계 분석의 본질은 측정에 내재된 불확실성을 탐색하는 것입니다. 예를 들어, 우리나라 기업의 평균 매출액을 계산해야 한다고 가정해 보죠. 우리나라의 모든 기업의 매출금액을 확인하여 평균을 낸다는 것은 현실적으로 너무 어렵습니다. 불가능에 …
이번 포스팅에서는 꼭 알아야 할 Seaborn 그래프 14가지를 소개하고자 합니다. Matplotlib에서 태어난 Seaborn을 사용하면 쉽게 놀라운 시각화를 만들 수 있습니다. (자세한 내용은 https://seaborn.pydata.org/ 참고) 몇 줄의 코드만 있으면 분석과 프레젠테이션에서 …
이번 포스팅에서는 분석을 향상시키는 7가지 판다스 함수 에 대해서 알아보겠습니다. 단순히 dropna()나 fillna()를 말하는 것이 아닙니다. 여러 프로젝트를 진행하고 더 많은 것을 공부한 데이터 분석가로서, 이번 포스팅에서 설명하고 있는 판다스 …
이번 포스팅에서는 범주형 데이터 인코딩 방법에 대해 알아보겠습니다. 우선, 범주형 데이터에 대해 간단히 설명하고, 인코딩이 필요한 이유에 대해 예제 데이터와 함께 설명하겠습니다. 범주형 데이터 정의 및 범주형 데이터에 인코딩이 필요한 …
이번 포스팅에서는 이상치 제거 할 것인가, 제거하지 않을 것인가 ? 물음에 대해 심도 있게 알아보겠습니다. 이상치(Outlier)를 제거해야 할까요? 이상치는 모든 사람이 알고 있지만 대부분 사람이 어떻게 처리해야 할지 잘 모르는 …
파일 작업을 하다 보면, 특정 디렉토리에 무수히 많은 파일 중에서 특정 문자열(Ex. “매출”, “금액” 등)을 포함하는 파일만 찾아 압축하여 누군가에서 전달해야 하는 상황이 많이 발생합니다. 파일의 개수가 많지 않은 경우, …
이번 포스팅에서는 파이썬을 활용한 데이터 전처리 방법에 대해서 알아보겠습니다. 실습에 활용할 데이터는 구인공고 데이터(indeed_job_data.csv) 입니다. 데이터 전처리를 위한 실습 데이터 확인 데이터 행은 203개, 열은 7개입니다. 모든 열은 객체(문자열) 데이터 …
이번 포스팅에서는 판다스 패키지를 활용한 데이터 필터링 방법에 대해서 알아보겠습니다. Python을 사용한 데이터 분석에서 다양한 조건, 차원 및 조합을 기반으로 데이터를 추출하고 필터링하는 것은 가장 일반적인 작업 중 하나입니다. 이를 …
이번 포스팅에서는 합성 데이터가 필요한 이유에 대해서 알아보겠습니다. 머신러닝 모델을 훈련하려면 데이터가 필요합니다. 데이터 과학 작업은 일반적으로 미리 라벨이 붙은 잘 정제된 데이터 세트가 있는 Kaggle 대회가 아닙니다. 때로는 자신의 …
이번 포스팅에서는 테이터 탐색 분석 시 알아야 할 파이썬 기본 함수에 대해서 알아보겠습니다. 간단하지만, 가장 많이 사용하고 유용한 함수로 꼭 알고 있어야 하는 함수입니다. 데이터 탐색 분석의 기본 프로세스를 보다 …