Fake Data 생성 – 빅데이터 처리 실습용 데이터 (Faker 활용)
이번 포스팅에서는 파이썬을 활용하여 실제 빅데이터 처리 및 분석 실습을 위한 대용량의 Fake Data 생성 방법에 대해서 알아 보겠습니다. 일반 블러그나 유투브에서 설명하는 데이터 분석을 보면, 비슷 비슷하고, 간단한 데이터를 …
나와 세상의 지혜가 공유되는 그곳
이번 포스팅에서는 파이썬을 활용하여 실제 빅데이터 처리 및 분석 실습을 위한 대용량의 Fake Data 생성 방법에 대해서 알아 보겠습니다. 일반 블러그나 유투브에서 설명하는 데이터 분석을 보면, 비슷 비슷하고, 간단한 데이터를 …
빅데이터 처리를 위한 PyArrow 라이브러리 포스팅에서 Pyarrow 라이브러리에 대해서 알아 보았습니다. 빅데이터 처리 시 Pyarrow와 연관이 있는 파일 형식 중 Parquet 파일이 있습니다. Parquet파일은 빅데이터를 저장하고 처리하기 위한 열 지향 …
PyArrow은 Apache Arrow의 Python 바인딩(두 가지 다른 소프트웨어 구성 요소 간에 상호 작용하도록 만들어진 연결)입니다. Apache Arrow는 빅데이터 시스템이 데이터를 빠르게 저장, 처리 및 이동할 수 있도록 하는 개발 플랫폼으로 …
이번 포스팅에서는 파이썬 스크래핑 실습 첫 포스팅으로 파이썬을 활용해서 네이버 증권 메뉴에 있는 국내증시 거래량 기준 top 100 종목과 종목에 대한 기본 정보를 스크랩핑해서 엑셀 파일로 저장하는 방법에 대해서 알아 …
이번 포스팅에서는 데이터를 구성하는 변수 중에서 결측치를 포함하는 변수를 확인하고, 변수에서 결측치가 얼마나 많은 비율을 차지하고 있는 지 확인하는 파이썬 함수를 작성해 보겠습니다. 인사이트 도출, 통계적 모델링 등을 수행하는 데 …
이번 포스팅에서는 오픈API를 활용해서 공공데이터포털에서 제공하는 “금융위원회 금융회사기본정보” 데이터를 가져오는 방법에 대해서 알아 보겠습니다. Tool은 파이썬을 사용하겠습니다. 그리고 나서 다음 포스팅에서는 “금융위원회 금융회사기본정보” 를 분석하는 방법과 많은 인사이트를 도출해 보겠습니다. …
데이터분석 은 비즈니스, 금융, 형사 사법, 과학, 의학 및 정부와 같은 산업에서 가장 수요가 많은 직업 중 하나 입니다. 데이터분석 기술에 대한 이러한 요구는 데이터 과학과 기계 학습이 더 나은 …