특정 문자열을 포함하는 파일명 찾아 압축 파일 생성하기
파일 작업을 하다 보면, 특정 디렉토리에 무수히 많은 파일 중에서 특정 문자열(Ex. “매출”, “금액” 등)을 포함하는 파일만 찾아 압축하여 누군가에서 전달해야 하는 상황이 많이 발생합니다. 파일의 개수가 많지 않은 경우, …
나와 세상의 지혜가 공유되는 그곳
파일 작업을 하다 보면, 특정 디렉토리에 무수히 많은 파일 중에서 특정 문자열(Ex. “매출”, “금액” 등)을 포함하는 파일만 찾아 압축하여 누군가에서 전달해야 하는 상황이 많이 발생합니다. 파일의 개수가 많지 않은 경우, …
이번 포스팅에서는 파이썬을 활용한 데이터 전처리 방법에 대해서 알아보겠습니다. 실습에 활용할 데이터는 구인공고 데이터(indeed_job_data.csv) 입니다. 데이터 전처리를 위한 실습 데이터 확인 데이터 행은 203개, 열은 7개입니다. 모든 열은 객체(문자열) 데이터 …
이번 포스팅에서는 판다스 패키지를 활용한 데이터 필터링 방법에 대해서 알아보겠습니다. Python을 사용한 데이터 분석에서 다양한 조건, 차원 및 조합을 기반으로 데이터를 추출하고 필터링하는 것은 가장 일반적인 작업 중 하나입니다. 이를 …
이번 포스팅에서는 합성 데이터가 필요한 이유에 대해서 알아보겠습니다. 머신러닝 모델을 훈련하려면 데이터가 필요합니다. 데이터 과학 작업은 일반적으로 미리 라벨이 붙은 잘 정제된 데이터 세트가 있는 Kaggle 대회가 아닙니다. 때로는 자신의 …
이번 포스팅에서는 특정 문자열 위치 반환 함수 find() 에 대해서 알아보겠습니다. find() 함수는 특정 문자열의 포함 여부를 확인하여 특정 문자열이 처음 시작되는 인덱스를 반환합니다. find() 함수 구문에 대해서 알아보고, 간단한 …
이번 포스팅에서는 판다스 패키지를 사용하여 고정된 자리수의 빈자리를 특정문자로 채워 반환 하는 방법에 대해서 알아보겠습니다. 예를 들어, 숫자 앞에 0을 추가하여 5자리로 고정한 후, ‘ID_’ 문자열을 맨 앞에 추가하여 총 …
xlwings 라이브러리 는 엑셀과 상호작용할 수 있게 해주는 파이썬 라이브러리입니다. 엑셀 파일을 읽고 쓰는 것 뿐만 아니라, 엑셀의 고급 기능을 파이썬 스크립트로 제어할 수 있습니다. 또한, xlwings는 엑셀의 VBA(Visual Basic …
이번 포스팅에서는 파이썬에서 발생할 수 있는 ParserError 해결 방법에 대해서 알아보겠습니다. 지난 번 포스팅에서는 빅데이터 분석 시 기초적이지만, 필수적인 데이터 encoding 형식을 확인하는 방법에 대해서 알아보았는데요. 데이터 encoding 형식을 확인한 …
이번 포스팅에서는 빅데이터 처리를 위한 encoding 형식 확인 방법에 대해서 알아보겠습니다. “encoding(인코딩)”은 데이터를 특정 형식이나 체계로 변환하는 과정을 의미합니다. 이 용어는 주로 문자나 숫자와 같은 데이터를 컴퓨터가 이해하고 처리할 수 …
이번 포스팅에서는 대용량 CSV 파일을 Parquet 파일로 변환 하는 Python 함수를 생성하는 방법에 대해서 알아보겠습니다. 개요 Python은 기본적으로 메모리 기반입니다. 분석에 필요한 모든 데이터들을 메모리에 적재하는 작업이 선행됩니다. 아무리 성능이 …