(Big) Data Analysis Archives

상위 1% 데이터 분석가가 선택한 7가지 AI 도구 및 활용법

데이터 분석가 커리어를 한 단계 끌어올려줄 AI 도구 7가지! 단순한 대시보드 제작자가 아니라, 조직이 의지하는 상위 1% 데이터 분석가가 되려면 무엇이 필요할까요? 정답은 AI 도구의 똑똑한 활용에 있습니다. 데이터 분석가에게 …

(Big) Data Analysis / Python

데이터 클린징 자동화를 위한 파이썬 함수 생성

데이터 클린징 작업을 수행한 적이 있습니까? 데이터 클린징 작업이 모든 분석 프로젝트에서 가장 시간이 많이 걸리는 부분이라는 것을 알고 있을 것입니다. 결측치, 중복 및 데이터 유형 불일치를 수동으로 처리하는 것은 …

(Big) Data Analysis / Python

파이썬으로 대용량 파일을 다루는 10가지 방법

이번 포스팅에서는 파이썬에서 대용량 텍스트 파일을 다루는 10가지 방법에 대해서 알아보겠습니다. 대용량 파일을 한꺼번에 메모리에 로드하려고 시도하면, 메모리 오류로 프로그램이 충돌할 수 있습니다. 파이썬은 메모리나 성능을 저하시키지 않고 이러한 파일을 …

(Big) Data Analysis / Python

사이킷런을 사용한 랜덤포레스트 하이퍼파라미터 조정

이번 포스팅에서는 랜덤포레스트 하이퍼파라미터 조정 방법에 대해서 알아보겠습니다. 사이킷런을 사용하여 랜덤포레스트의 하이퍼파라미터 조정 프로세스를 탐색하려면 하이퍼파라미터의 중요성을 이해해야 합니다. 최적의 하이퍼파라미터를 찾기 위해 GridSearchCV를 활용하고, 체계적인 실험을 통해 모델의 정확도를 …

(Big) Data Analysis / Machine Learning

범주형 데이터 인코딩 하기

이번 포스팅에서는 범주형 데이터 인코딩 방법에 대해 알아보겠습니다. 우선, 범주형 데이터에 대해 간단히 설명하고, 인코딩이 필요한 이유에 대해 예제 데이터와 함께 설명하겠습니다. 범주형 데이터 정의 및 범주형 데이터에 인코딩이 필요한 …

(Big) Data Analysis / Statistics

이상치 제거 할 것인가, 제거하지 않을 것인가

이번 포스팅에서는 이상치 제거 할 것인가, 제거하지 않을 것인가 ? 물음에 대해 심도 있게 알아보겠습니다. 이상치(Outlier)를 제거해야 할까요? 이상치는 모든 사람이 알고 있지만 대부분 사람이 어떻게 처리해야 할지 잘 모르는 …

(Big) Data Analysis

parquet 파일의 열 추출 방법 알아보기

이번 포스팅에서는 parquet 파일의 열 추출 방법 에 대해서 알아보겠습니다. 데이터 용량이 큰 빅데이터를 분석할 때, 모든 데이터를 메모리에 로드하는 것은 불가능합니다. 따라서, 분석에 필요한 열(column)만 추출하는 것이 필요합니다. 열의 …

(Big) Data Analysis / Python / Python pandas 마스터하기

Python Pandas ParserError 해결 방법

이번 포스팅에서는 파이썬에서 발생할 수 있는 ParserError 해결 방법에 대해서 알아보겠습니다. 지난 번 포스팅에서는 빅데이터 분석 시 기초적이지만, 필수적인 데이터 encoding 형식을 확인하는 방법에 대해서 알아보았는데요. 데이터 encoding 형식을 확인한 …

(Big) Data Analysis / IT상식

파싱 ( Parsing ) 이해하기

이번 포스팅에서는 파싱 ( parsing ) 에 대해서 알아보겠습니다. 파싱(Parsing)이란? 파싱은 주어진 데이터나 문자열을 해석하고 구문 분석하는 과정을 말합니다. 컴퓨터 과학 분야에서 파싱은 일련의 문자열을 특정 문법 규칙에 따라 해석하여 …

(Big) Data Analysis / Python

빅데이터 처리를 위한 encoding 형식 확인 방법

이번 포스팅에서는 빅데이터 처리를 위한 encoding 형식 확인 방법에 대해서 알아보겠습니다. “encoding(인코딩)”은 데이터를 특정 형식이나 체계로 변환하는 과정을 의미합니다. 이 용어는 주로 문자나 숫자와 같은 데이터를 컴퓨터가 이해하고 처리할 수 …

[카테고리:] (Big) Data Analysis