parquet 파일의 열(column) 추출 방법 알아보기
이번 포스팅에서는 파이썬으로 parquet 파일의 특정 열(column) 추출 방법에 대해서 알아 보겠습니다. parquet 파일에 대한 자세한 설명은 parquet 파일 형식 알아보기 포스팅을 참고하시면 됩니다. parquet 파일 형식에서 특정 열만 추출하는 …
나와 세상의 지혜가 공유되는 그곳
이번 포스팅에서는 파이썬으로 parquet 파일의 특정 열(column) 추출 방법에 대해서 알아 보겠습니다. parquet 파일에 대한 자세한 설명은 parquet 파일 형식 알아보기 포스팅을 참고하시면 됩니다. parquet 파일 형식에서 특정 열만 추출하는 …
이번 포스팅에서는 ” 파이썬으로 csv 파일을 parquet 파일로 변환하는 방법 ” 에 대해서 알아 보겠습니다. parquet 파일에 대한 자세한 내용은 빅데이터 처리를 위한 Parquet(파케이) 파일 형식 알아보기 포스팅 글을 참고하시면 …
이번 포스팅에서는 파이썬을 활용하여 실제 빅데이터 처리 및 분석 실습을 위한 대용량의 Fake Data 생성 방법에 대해서 알아 보겠습니다. 일반 블러그나 유투브에서 설명하는 데이터 분석을 보면, 비슷 비슷하고, 간단한 데이터를 …
빅데이터 처리를 위한 PyArrow 라이브러리 포스팅에서 Pyarrow 라이브러리에 대해서 알아 보았습니다. 빅데이터 처리 시 Pyarrow와 연관이 있는 파일 형식 중 Parquet 파일이 있습니다. Parquet파일은 빅데이터를 저장하고 처리하기 위한 열 지향 …
PyArrow은 Apache Arrow의 Python 바인딩(두 가지 다른 소프트웨어 구성 요소 간에 상호 작용하도록 만들어진 연결)입니다. Apache Arrow는 빅데이터 시스템이 데이터를 빠르게 저장, 처리 및 이동할 수 있도록 하는 개발 플랫폼으로 …
이번 포스팅에서는 파이썬 스크래핑 실습 첫 포스팅으로 파이썬을 활용해서 네이버 증권 메뉴에 있는 국내증시 거래량 기준 top 100 종목과 종목에 대한 기본 정보를 스크랩핑해서 엑셀 파일로 저장하는 방법에 대해서 알아 …
이번 포스팅에서는 데이터를 구성하는 변수 중에서 결측치를 포함하는 변수를 확인하고, 변수에서 결측치가 얼마나 많은 비율을 차지하고 있는 지 확인하는 파이썬 함수를 작성해 보겠습니다. 인사이트 도출, 통계적 모델링 등을 수행하는 데 …
이번 포스팅에서는 오픈API를 활용해서 공공데이터포털에서 제공하는 “금융위원회 금융회사기본정보” 데이터를 가져오는 방법에 대해서 알아 보겠습니다. Tool은 파이썬을 사용하겠습니다. 그리고 나서 다음 포스팅에서는 “금융위원회 금융회사기본정보” 를 분석하는 방법과 많은 인사이트를 도출해 보겠습니다. …
데이터분석 은 비즈니스, 금융, 형사 사법, 과학, 의학 및 정부와 같은 산업에서 가장 수요가 많은 직업 중 하나 입니다. 데이터분석 기술에 대한 이러한 요구는 데이터 과학과 기계 학습이 더 나은 …