효율적인 데이터 정제를 위한 10가지

효율적인 데이터 정제 를 위한 10가지

이번 포스팅에서는 효율적인 데이터 정제 를 위한 10가지 방법에 대해서 알아보겠습니다. 데이터 정제는 데이터 분석의 기본이지만, 정확한 통찰력과 의사 결정의 기초를 마련하기 위해 필요한 단계입니다. 효율적인 데이터 정제의 기본 사항에 …

확률분포함수

확률분포함수

이번 포스팅에서는 확률분포함수 에 대해서 알아보겠습니다. 확률분포함수 (Probability Distribution Function, PDF)는 발생 가능한 모든 결과값, 표본 공간, 그리고 주어진 범위 내에서 확률 변수가 취할 수 있는 확률값을 설명하는 함수로 최소값과 …

확률변수 평균 분산 표준편차

확률변수 평균 분산 표준편차

이번 포스팅에서는 통계학의 기초 개념인 확률변수 평균 분산 표준편차 에 대해서 알아보겠습니다. 영국의 수학자 칼 피어슨이 말했듯이, 통계는 과학의 문법이며 이는 특히 컴퓨터 및 정보 과학, 물리 과학, 생물 과학에 …

머신러닝 변수 선택 방법

머신러닝 변수 선택 방법

이번 포스팅에서는 머신러닝 변수 선택 방법에 대해서 알아보겠습니다. 변수 선택은 예측 모델을 개발할 때 입력 변수의 수를 줄이는 데 사용되는 기술입니다. 특히 데이터 세트의 차원이 높은 상황일수록 더 중요합니다. 변수의 …

파이썬 데이터 전처리 기초

파이썬 데이터 전처리 기초

이번 포스팅에서는 파이썬 데이터 전처리 방법 중 매우 기본적인 내용에 대해서 알아보겠습니다. 예제를 위한 기초 데이터를 생성한 후 필요 라이브러이 가져오기, 결측치 처리, 대소문자가 섞여 있는 텍스트 데이터 표준화 방법, …

파이썬을 이용한 통계적 추론

파이썬을 이용한 통계적 추론

이번 포스팅에서는 파이썬을 이용한 통계적 추론 방법에 대해서 알아보겠습니다. 통계적 추론은 데이터 샘플을 사용하여 결론을 유추하고, 예측하고, 모집단에 대한 가설을 검정하는 것을 수반합니다. 다시 말해, 통계적 추론은 작은 데이터 샘플을 …

사이킷런을 사용한 랜덤포레스트 하이퍼파라미터 조정

사이킷런을 사용한 랜덤포레스트 하이퍼파라미터 조정

이번 포스팅에서는 랜덤포레스트 하이퍼파라미터 조정 방법에 대해서 알아보겠습니다. 사이킷런을 사용하여 랜덤포레스트의 하이퍼파라미터 조정 프로세스를 탐색하려면 하이퍼파라미터의 중요성을 이해해야 합니다. 최적의 하이퍼파라미터를 찾기 위해 GridSearchCV를 활용하고, 체계적인 실험을 통해 모델의 정확도를 …

신뢰구간 의미 (실용 가이드)

신뢰구간 의미 (실용 가이드)

통계 분석의 본질은 측정에 내재된 불확실성을 탐색하는 것입니다. 예를 들어, 우리나라 기업의 평균 매출액을 계산해야 한다고 가정해 보죠. 우리나라의 모든 기업의 매출금액을 확인하여 평균을 낸다는 것은 현실적으로 너무 어렵습니다. 불가능에 …

꼭 알아야 할 Seaborn 그래프 14가지

꼭 알아야 할 Seaborn 그래프 14가지

이번 포스팅에서는 꼭 알아야 할 Seaborn 그래프 14가지를 소개하고자 합니다. Matplotlib에서 태어난 Seaborn을 사용하면 쉽게 놀라운 시각화를 만들 수 있습니다. (자세한 내용은 https://seaborn.pydata.org/ 참고) 몇 줄의 코드만 있으면 분석과 프레젠테이션에서 …