parquet 파일에서 특정 패턴을 보이는 열 추출 방법

parquet 파일의 열 추출 방법 알아보기

이번 포스팅에서는 parquet 파일의 열 추출 방법 에 대해서 알아보겠습니다. 데이터 용량이 큰 빅데이터를 분석할 때, 모든 데이터를 메모리에 로드하는 것은 불가능합니다. 따라서, 분석에 필요한 열(column)만 추출하는 것이 필요합니다. 열의 …

파싱(Parsing)이해하기

파싱 ( Parsing ) 이해하기

이번 포스팅에서는 파싱 ( parsing ) 에 대해서 알아보겠습니다. 파싱(Parsing)이란? 파싱은 주어진 데이터나 문자열을 해석하고 구문 분석하는 과정을 말합니다. 컴퓨터 과학 분야에서 파싱은 일련의 문자열을 특정 문법 규칙에 따라 해석하여 …

빅데이터 처리를 위한 encoding 형식 확인 방법

빅데이터 처리를 위한 encoding 형식 확인 방법

이번 포스팅에서는 빅데이터 처리를 위한 encoding 형식 확인 방법에 대해서 알아보겠습니다. “encoding(인코딩)”은 데이터를 특정 형식이나 체계로 변환하는 과정을 의미합니다. 이 용어는 주로 문자나 숫자와 같은 데이터를 컴퓨터가 이해하고 처리할 수 …

pyarrow 와 fastparquet 특성 비교

pyarrow 와 fastparquet 특성 비교

빅데이터 처리 및 데이터 과학 분야에서는 데이터의 효율적 관리와 처리 방법이 매우 중요합니다. 이를 지원해 주는 라이브러리는 여러 종류가 있지만, 이 중에서 pyarrow와 fastparquet는 데이터 처리 및 저장에 널리 사용되는 …

데이터 전처리 알아보기

데이터 전처리

이번 포스팅에서는 데이터 분석 프로세스의 네 번째 단계인 데이터 전처리 에 대해서 알아 보겠습니다. 데이터 전처리는 데이터 분석 전 목적에 맞게 데이터를 깨끗하게 정제하는 과정입니다. 분석 데이터 로드 데이터 탐색 …

데이터 탐색 방법 알아보기

데이터 탐색

이번 포스팅에서는 데이터 분석 프로세스의 세 번째 단계인 데이터 탐색 에 대해서 알아 보겠습니다. 이번 포스팅 글을 이해하려면 아나콘다를 설치해야 합니다. 설치 방법은 아나콘다 설치 방법 알아보기 포스팅 글을 참고하시면 …

데이터 수집 방법 알아보기

데이터 수집

이번 포스팅에서는 데이터 분석 프로세스의 두 번째 단계인 데이터 수집 에 대해서 알아 보겠습니다. 데이터 수집에 가장 많이 활용되는 플랫폼은 Kaggle 입니다. Kaggle은 데이터 과학 및 기계 학습 경연 및 …

데이터 분석을 위한 목표 정의

데이터분석을 위한 목표 정의

이번 포스팅에서는 데이터 분석 프로세스의 첫 번째 단계인 데이터분석 을 위한 목표 정의 에 대해서 알아 보겠습니다. 통계학에서 매우 유명한 Iris Flower(붓꽃) 데이터세트를 활용하여 단계별로 접근하겠습니다. 프로젝트 목표 식별 첫 …