이상치 제거 할 것인가, 제거하지 않을 것인가
이번 포스팅에서는 이상치 제거 할 것인가, 제거하지 않을 것인가 ? 물음에 대해 심도 있게 알아보겠습니다. 이상치(Outlier)를 제거해야 할까요? 이상치는 모든 사람이 알고 있지만 대부분 사람이 어떻게 처리해야 할지 잘 모르는 …
나와 세상의 지혜가 공유되는 그곳
이번 포스팅에서는 이상치 제거 할 것인가, 제거하지 않을 것인가 ? 물음에 대해 심도 있게 알아보겠습니다. 이상치(Outlier)를 제거해야 할까요? 이상치는 모든 사람이 알고 있지만 대부분 사람이 어떻게 처리해야 할지 잘 모르는 …
파일 작업을 하다 보면, 특정 디렉토리에 무수히 많은 파일 중에서 특정 문자열(Ex. “매출”, “금액” 등)을 포함하는 파일만 찾아 압축하여 누군가에서 전달해야 하는 상황이 많이 발생합니다. 파일의 개수가 많지 않은 경우, …
이번 포스팅에서는 파이썬을 활용한 데이터 전처리 방법에 대해서 알아보겠습니다. 실습에 활용할 데이터는 구인공고 데이터(indeed_job_data.csv) 입니다. 데이터 전처리를 위한 실습 데이터 확인 데이터 행은 203개, 열은 7개입니다. 모든 열은 객체(문자열) 데이터 …
이번 포스팅에서는 판다스 패키지를 활용한 데이터 필터링 방법에 대해서 알아보겠습니다. Python을 사용한 데이터 분석에서 다양한 조건, 차원 및 조합을 기반으로 데이터를 추출하고 필터링하는 것은 가장 일반적인 작업 중 하나입니다. 이를 …
이번 포스팅에서는 합성 데이터가 필요한 이유에 대해서 알아보겠습니다. 머신러닝 모델을 훈련하려면 데이터가 필요합니다. 데이터 과학 작업은 일반적으로 미리 라벨이 붙은 잘 정제된 데이터 세트가 있는 Kaggle 대회가 아닙니다. 때로는 자신의 …
이번 포스팅에서는 테이터 탐색 분석 시 알아야 할 파이썬 기본 함수에 대해서 알아보겠습니다. 간단하지만, 가장 많이 사용하고 유용한 함수로 꼭 알고 있어야 하는 함수입니다. 데이터 탐색 분석의 기본 프로세스를 보다 …
이번 포스팅에서는 특정 문자열 위치 반환 함수 find() 에 대해서 알아보겠습니다. find() 함수는 특정 문자열의 포함 여부를 확인하여 특정 문자열이 처음 시작되는 인덱스를 반환합니다. find() 함수 구문에 대해서 알아보고, 간단한 …
이번 포스팅에서는 판다스 패키지를 사용하여 고정된 자리수의 빈자리를 특정문자로 채워 반환 하는 방법에 대해서 알아보겠습니다. 예를 들어, 숫자 앞에 0을 추가하여 5자리로 고정한 후, ‘ID_’ 문자열을 맨 앞에 추가하여 총 …
xlwings 라이브러리 는 엑셀과 상호작용할 수 있게 해주는 파이썬 라이브러리입니다. 엑셀 파일을 읽고 쓰는 것 뿐만 아니라, 엑셀의 고급 기능을 파이썬 스크립트로 제어할 수 있습니다. 또한, xlwings는 엑셀의 VBA(Visual Basic …
이번 포스팅에서는 parquet 파일의 열 추출 방법 에 대해서 알아보겠습니다. 데이터 용량이 큰 빅데이터를 분석할 때, 모든 데이터를 메모리에 로드하는 것은 불가능합니다. 따라서, 분석에 필요한 열(column)만 추출하는 것이 필요합니다. 열의 …