파이썬으로 대용량 파일을 다루는 10가지 방법
이번 포스팅에서는 파이썬에서 대용량 텍스트 파일을 다루는 10가지 방법에 대해서 알아보겠습니다. 대용량 파일을 한꺼번에 메모리에 로드하려고 시도하면, 메모리 오류로 프로그램이 충돌할 수 있습니다. 파이썬은 메모리나 성능을 저하시키지 않고 이러한 파일을 …
나와 세상의 지혜가 공유되는 그곳
이번 포스팅에서는 파이썬에서 대용량 텍스트 파일을 다루는 10가지 방법에 대해서 알아보겠습니다. 대용량 파일을 한꺼번에 메모리에 로드하려고 시도하면, 메모리 오류로 프로그램이 충돌할 수 있습니다. 파이썬은 메모리나 성능을 저하시키지 않고 이러한 파일을 …
이번 포스팅에서는 랜덤포레스트 하이퍼파라미터 조정 방법에 대해서 알아보겠습니다. 사이킷런을 사용하여 랜덤포레스트의 하이퍼파라미터 조정 프로세스를 탐색하려면 하이퍼파라미터의 중요성을 이해해야 합니다. 최적의 하이퍼파라미터를 찾기 위해 GridSearchCV를 활용하고, 체계적인 실험을 통해 모델의 정확도를 …
이번 포스팅에서는 범주형 데이터 인코딩 방법에 대해 알아보겠습니다. 우선, 범주형 데이터에 대해 간단히 설명하고, 인코딩이 필요한 이유에 대해 예제 데이터와 함께 설명하겠습니다. 범주형 데이터 정의 및 범주형 데이터에 인코딩이 필요한 …
이번 포스팅에서는 이상치 제거 할 것인가, 제거하지 않을 것인가 ? 물음에 대해 심도 있게 알아보겠습니다. 이상치(Outlier)를 제거해야 할까요? 이상치는 모든 사람이 알고 있지만 대부분 사람이 어떻게 처리해야 할지 잘 모르는 …
이번 포스팅에서는 parquet 파일의 열 추출 방법 에 대해서 알아보겠습니다. 데이터 용량이 큰 빅데이터를 분석할 때, 모든 데이터를 메모리에 로드하는 것은 불가능합니다. 따라서, 분석에 필요한 열(column)만 추출하는 것이 필요합니다. 열의 …
이번 포스팅에서는 파이썬에서 발생할 수 있는 ParserError 해결 방법에 대해서 알아보겠습니다. 지난 번 포스팅에서는 빅데이터 분석 시 기초적이지만, 필수적인 데이터 encoding 형식을 확인하는 방법에 대해서 알아보았는데요. 데이터 encoding 형식을 확인한 …
이번 포스팅에서는 파싱 ( parsing ) 에 대해서 알아보겠습니다. 파싱(Parsing)이란? 파싱은 주어진 데이터나 문자열을 해석하고 구문 분석하는 과정을 말합니다. 컴퓨터 과학 분야에서 파싱은 일련의 문자열을 특정 문법 규칙에 따라 해석하여 …
이번 포스팅에서는 빅데이터 처리를 위한 encoding 형식 확인 방법에 대해서 알아보겠습니다. “encoding(인코딩)”은 데이터를 특정 형식이나 체계로 변환하는 과정을 의미합니다. 이 용어는 주로 문자나 숫자와 같은 데이터를 컴퓨터가 이해하고 처리할 수 …
빅데이터 처리 및 데이터 과학 분야에서는 데이터의 효율적 관리와 처리 방법이 매우 중요합니다. 이를 지원해 주는 라이브러리는 여러 종류가 있지만, 이 중에서 pyarrow와 fastparquet는 데이터 처리 및 저장에 널리 사용되는 …
이번 포스팅에서는 대용량 CSV 파일을 Parquet 파일로 변환 하는 Python 함수를 생성하는 방법에 대해서 알아보겠습니다. 개요 Python은 기본적으로 메모리 기반입니다. 분석에 필요한 모든 데이터들을 메모리에 적재하는 작업이 선행됩니다. 아무리 성능이 …