확률변수 평균 분산 표준편차
이번 포스팅에서는 통계학의 기초 개념인 확률변수 평균 분산 표준편차 에 대해서 알아보겠습니다. 영국의 수학자 칼 피어슨이 말했듯이, 통계는 과학의 문법이며 이는 특히 컴퓨터 및 정보 과학, 물리 과학, 생물 과학에 …
나와 세상의 지혜가 공유되는 그곳
Blog Contents는 블러그의 모든 컨텐츠를 나타냅니다. 총 10개의 주제로 이루어져 있습니다.
이번 포스팅에서는 통계학의 기초 개념인 확률변수 평균 분산 표준편차 에 대해서 알아보겠습니다. 영국의 수학자 칼 피어슨이 말했듯이, 통계는 과학의 문법이며 이는 특히 컴퓨터 및 정보 과학, 물리 과학, 생물 과학에 …
이번 포스팅에서는 파이썬 데이터 전처리 방법 중 매우 기본적인 내용에 대해서 알아보겠습니다. 예제를 위한 기초 데이터를 생성한 후 필요 라이브러이 가져오기, 결측치 처리, 대소문자가 섞여 있는 텍스트 데이터 표준화 방법, …
이번 포스팅에서는 파이썬을 이용한 통계적 추론 방법에 대해서 알아보겠습니다. 통계적 추론은 데이터 샘플을 사용하여 결론을 유추하고, 예측하고, 모집단에 대한 가설을 검정하는 것을 수반합니다. 다시 말해, 통계적 추론은 작은 데이터 샘플을 …
이번 포스팅에서는 랜덤포레스트 하이퍼파라미터 조정 방법에 대해서 알아보겠습니다. 사이킷런을 사용하여 랜덤포레스트의 하이퍼파라미터 조정 프로세스를 탐색하려면 하이퍼파라미터의 중요성을 이해해야 합니다. 최적의 하이퍼파라미터를 찾기 위해 GridSearchCV를 활용하고, 체계적인 실험을 통해 모델의 정확도를 …
통계 분석의 본질은 측정에 내재된 불확실성을 탐색하는 것입니다. 예를 들어, 우리나라 기업의 평균 매출액을 계산해야 한다고 가정해 보죠. 우리나라의 모든 기업의 매출금액을 확인하여 평균을 낸다는 것은 현실적으로 너무 어렵습니다. 불가능에 …
이번 포스팅에서는 꼭 알아야 할 Seaborn 그래프 14가지를 소개하고자 합니다. Matplotlib에서 태어난 Seaborn을 사용하면 쉽게 놀라운 시각화를 만들 수 있습니다. (자세한 내용은 https://seaborn.pydata.org/ 참고) 몇 줄의 코드만 있으면 분석과 프레젠테이션에서 …
이번 포스팅에서는 분석을 향상시키는 7가지 판다스 함수 에 대해서 알아보겠습니다. 단순히 dropna()나 fillna()를 말하는 것이 아닙니다. 여러 프로젝트를 진행하고 더 많은 것을 공부한 데이터 분석가로서, 이번 포스팅에서 설명하고 있는 판다스 …
이번 포스팅에서는 범주형 데이터 인코딩 방법에 대해 알아보겠습니다. 우선, 범주형 데이터에 대해 간단히 설명하고, 인코딩이 필요한 이유에 대해 예제 데이터와 함께 설명하겠습니다. 범주형 데이터 정의 및 범주형 데이터에 인코딩이 필요한 …
이번 포스팅에서는 이상치 제거 할 것인가, 제거하지 않을 것인가 ? 물음에 대해 심도 있게 알아보겠습니다. 이상치(Outlier)를 제거해야 할까요? 이상치는 모든 사람이 알고 있지만 대부분 사람이 어떻게 처리해야 할지 잘 모르는 …
파일 작업을 하다 보면, 특정 디렉토리에 무수히 많은 파일 중에서 특정 문자열(Ex. “매출”, “금액” 등)을 포함하는 파일만 찾아 압축하여 누군가에서 전달해야 하는 상황이 많이 발생합니다. 파일의 개수가 많지 않은 경우, …