대용량 CSV 파일을 Parquet 파일로 변환 (fastparquet 엔진 사용)
이번 포스팅에서는 대용량 CSV 파일을 Parquet 파일로 변환 하는 Python 함수를 생성하는 방법에 대해서 알아보겠습니다. 개요 Python은 기본적으로 메모리 기반입니다. 분석에 필요한 모든 데이터들을 메모리에 적재하는 작업이 선행됩니다. 아무리 성능이 …
나와 세상의 지혜가 공유되는 그곳
이번 포스팅에서는 대용량 CSV 파일을 Parquet 파일로 변환 하는 Python 함수를 생성하는 방법에 대해서 알아보겠습니다. 개요 Python은 기본적으로 메모리 기반입니다. 분석에 필요한 모든 데이터들을 메모리에 적재하는 작업이 선행됩니다. 아무리 성능이 …
이번 포스팅에서는 DataFrame 작업 시 자주 사용되는 데이터 유형인 문자열 데이터를 처리하는 작업에 대해 알아보겠습니다( Polars 문자열 처리 방법 ). 문자열 처리는 예측할 수 없는 메모리 크기로 인해 종종 비효율적일 …
이번 포스팅에서는 Polars 라이브러리에서의 데이터 유형 변환 방법에 대해서 알아보겠습니다. Polars Casting (캐스팅)은 열의 기본 데이터 유형을 새 데이터 유형으로 변환합니다. Polars는 Arrow를 사용하여 메모리의 데이터를 관리하고 Rust 구현의 컴퓨팅 …
Polars 표현식에는 수많은 내장 함수가 있습니다. 이를 사용하면, 사용자 정의 함수 없이도 복잡한 쿼리를 생성할 수 있습니다. 여기에서 다루어야 할 내용이 너무 많지만, 가장 널리 사용되는 Polars 내장 함수 에 …
이전 포스팅에서는 Polars 기본 연산에 대해서 알아보았습니다. 이번 포스팅에서는 Polars 열 선택 방법에 대해서 알아보겠습니다. 열 선택 방법에는 크게 표현 확장 방법과 selectors를 사용하는 방법이 있습니다. 예제 데이터프레임 생성 표현 …
이전 포스팅에서는 Polars 라이브러리를 시작하는 방법에 대해서 알아보았습니다. 이번 포스팅에서는 표현식과 함께 Polars 기본 연산 (예: 더하기, 빼기 등)을 사용하는 방법에 대해서 알아보겠습니다. 다음 데이터프레임의 맥락에서 다양한 테마와 여러 예제를 …
Polars 라이브러리 시작하기 에 도움이 되고자 하는 마음에 이번 포스팅 글을 작성하였습니다. Polars 라이브러리의 모든 기본 특징과 기능을 다루기 때문에, 신규 사용자가 초기 설치 및 설정부터 핵심 기능까지 기본 사항을 …
Polars 라이브러리 는 Rust 프로그래밍 언어로 작성된 고성능 데이터 조작 및 분석을 위한 라이브러리입니다. Pandas와 유사한 기능을 제공하지만, Rust의 속도와 안정성을 활용하여 대용량 데이터에 대한 작업을 빠르고 효율적으로 수행할 수 …
이번 포스팅에서는 데이터 분석 프로세스의 네 번째 단계인 데이터 전처리 에 대해서 알아 보겠습니다. 데이터 전처리는 데이터 분석 전 목적에 맞게 데이터를 깨끗하게 정제하는 과정입니다. 분석 데이터 로드 데이터 탐색 …
이번 포스팅에서는 데이터 시각화 라이브러리 Matplotlib 테마 를 꾸미는 방법에 대해서 알아 보겠습니다. 데이터 과학자라면, 많은 데이터를 보유하고, 분석 하더라도 결과에 대한 최종 판단 및 정리는 시각화를 기반으로 한다는 것을 …