대용량 CSV 파일을 Parquet 파일로 변환 (fastparquet 엔진 사용)
이번 포스팅에서는 대용량 CSV 파일을 Parquet 파일로 변환 하는 Python 함수를 생성하는 방법에 대해서 알아보겠습니다. 개요 Python은 기본적으로 메모리 기반입니다. 분석에 필요한 모든 데이터들을 메모리에 적재하는 작업이 선행됩니다. 아무리 성능이 …
나와 세상의 지혜가 공유되는 그곳
이번 포스팅에서는 대용량 CSV 파일을 Parquet 파일로 변환 하는 Python 함수를 생성하는 방법에 대해서 알아보겠습니다. 개요 Python은 기본적으로 메모리 기반입니다. 분석에 필요한 모든 데이터들을 메모리에 적재하는 작업이 선행됩니다. 아무리 성능이 …
이번 포스팅에서는 데이터 분석 프로세스의 네 번째 단계인 데이터 전처리 에 대해서 알아 보겠습니다. 데이터 전처리는 데이터 분석 전 목적에 맞게 데이터를 깨끗하게 정제하는 과정입니다. 분석 데이터 로드 데이터 탐색 …
이번 포스팅에서는 데이터 분석 프로세스의 세 번째 단계인 데이터 탐색 에 대해서 알아 보겠습니다. 이번 포스팅 글을 이해하려면 아나콘다를 설치해야 합니다. 설치 방법은 아나콘다 설치 방법 알아보기 포스팅 글을 참고하시면 …
이번 포스팅에서는 데이터 분석 프로세스의 두 번째 단계인 데이터 수집 에 대해서 알아 보겠습니다. 데이터 수집에 가장 많이 활용되는 플랫폼은 Kaggle 입니다. Kaggle은 데이터 과학 및 기계 학습 경연 및 …
이번 포스팅에서는 데이터 분석 프로세스의 첫 번째 단계인 데이터분석 을 위한 목표 정의 에 대해서 알아 보겠습니다. 통계학에서 매우 유명한 Iris Flower(붓꽃) 데이터세트를 활용하여 단계별로 접근하겠습니다. 프로젝트 목표 식별 첫 …
이번 포스팅에서는 데이터 분석 프로세스 와 관련된 일반적인 단계를 처음부터 끝까지 개괄적으로 안내합니다. 그런 다음 후속 포스팅에서는 각 단계를 차례로 수행하고 데이터 세트에서 이를 수행합니다. 실제 프로세스를 확인하고, 자신의 프로젝트에 …
이번 포스팅은 마케팅 분석 시리즈의 첫 번째 포스팅입니다(Python을 활용한 마케팅 분석 시리즈 전체에 대한 개요를 확인하려면 여기를 클릭하시면 됩니다). Python을 사용하여 데이터 분석을 수행하는 방법을 배울 때 배우고자 하는 이가 …
이번 포스팅은 데이터 과학자에게 인기 있고 역동적인 선택인 Python을 사용한 마케팅 분석 기초에 대해 설명하기 위한 소개입니다. 총 9개의 포스팅으로 구성하였고, 각 포스팅 내용에 대한 간략한 설명은 아래에 나와 있습니다. …
이번 포스팅에서는 Python을 활용한 주식 데이터 분석 방법에 대해서 알아 보겠습니다. 실습 데이터는 지난 3개월간 Apple, Microsoft, Amazon, Google 주가입니다. 지난 3개월 동안 위의 주가 4개를 분석한 결과를 보여 드리겠습니다. …
탐색적 데이터 분석 (EDA)은 데이터를 통해 통찰력을 얻고, 패턴을 식별하고, 데이터 세트의 구조를 이해하기 위해 필요한 중요한 단계로모든 데이터 과학 프로젝트에서 중요합니다. 이번 포스팅에서는 Python 탐색적 데이터 분석을 위한 명령 …