pyarrow 와 fastparquet 특성 비교
빅데이터 처리 및 데이터 과학 분야에서는 데이터의 효율적 관리와 처리 방법이 매우 중요합니다. 이를 지원해 주는 라이브러리는 여러 종류가 있지만, 이 중에서 pyarrow와 fastparquet는 데이터 처리 및 저장에 널리 사용되는 …
나와 세상의 지혜가 공유되는 그곳
빅데이터 처리 및 데이터 과학 분야에서는 데이터의 효율적 관리와 처리 방법이 매우 중요합니다. 이를 지원해 주는 라이브러리는 여러 종류가 있지만, 이 중에서 pyarrow와 fastparquet는 데이터 처리 및 저장에 널리 사용되는 …
이번 포스팅에서는 대용량 CSV 파일을 Parquet 파일로 변환 하는 Python 함수를 생성하는 방법에 대해서 알아보겠습니다. 개요 Python은 기본적으로 메모리 기반입니다. 분석에 필요한 모든 데이터들을 메모리에 적재하는 작업이 선행됩니다. 아무리 성능이 …
이번 포스팅에서는 데이터 분석 프로세스의 네 번째 단계인 데이터 전처리 에 대해서 알아 보겠습니다. 데이터 전처리는 데이터 분석 전 목적에 맞게 데이터를 깨끗하게 정제하는 과정입니다. 분석 데이터 로드 데이터 탐색 …
이번 포스팅에서는 데이터 분석 프로세스의 세 번째 단계인 데이터 탐색 에 대해서 알아 보겠습니다. 이번 포스팅 글을 이해하려면 아나콘다를 설치해야 합니다. 설치 방법은 아나콘다 설치 방법 알아보기 포스팅 글을 참고하시면 …
이번 포스팅에서는 데이터 분석 프로세스의 두 번째 단계인 데이터 수집 에 대해서 알아 보겠습니다. 데이터 수집에 가장 많이 활용되는 플랫폼은 Kaggle 입니다. Kaggle은 데이터 과학 및 기계 학습 경연 및 …
이번 포스팅에서는 데이터 분석 프로세스의 첫 번째 단계인 데이터분석 을 위한 목표 정의 에 대해서 알아 보겠습니다. 통계학에서 매우 유명한 Iris Flower(붓꽃) 데이터세트를 활용하여 단계별로 접근하겠습니다. 프로젝트 목표 식별 첫 …
이번 포스팅에서는 데이터 분석 프로세스 와 관련된 일반적인 단계를 처음부터 끝까지 개괄적으로 안내합니다. 그런 다음 후속 포스팅에서는 각 단계를 차례로 수행하고 데이터 세트에서 이를 수행합니다. 실제 프로세스를 확인하고, 자신의 프로젝트에 …
이번 포스팅은 마케팅 분석 시리즈의 첫 번째 포스팅입니다(Python을 활용한 마케팅 분석 시리즈 전체에 대한 개요를 확인하려면 여기를 클릭하시면 됩니다). Python을 사용하여 데이터 분석을 수행하는 방법을 배울 때 배우고자 하는 이가 …
이번 포스팅은 데이터 과학자에게 인기 있고 역동적인 선택인 Python을 사용한 마케팅 분석 기초에 대해 설명하기 위한 소개입니다. 총 9개의 포스팅으로 구성하였고, 각 포스팅 내용에 대한 간략한 설명은 아래에 나와 있습니다. …
이번 포스팅에서는 Python을 활용한 주식 데이터 분석 방법에 대해서 알아 보겠습니다. 실습 데이터는 지난 3개월간 Apple, Microsoft, Amazon, Google 주가입니다. 지난 3개월 동안 위의 주가 4개를 분석한 결과를 보여 드리겠습니다. …