Pandas crosstab() 함수 이해하기
이번 포스팅에서는 pandas 모듈에서 제공하는 crosstab() 함수 에 대해서 알아 보겠습니다. crosstab 함수는 두 가지 (또는 그 이상) factor에 대한 간단한 교차표를 계산합니다. 기본적으로 factor들의 빈도표를 계산하지만, 옵션을 통하여 값을 …
나와 세상의 지혜가 공유되는 그곳
이번 포스팅에서는 pandas 모듈에서 제공하는 crosstab() 함수 에 대해서 알아 보겠습니다. crosstab 함수는 두 가지 (또는 그 이상) factor에 대한 간단한 교차표를 계산합니다. 기본적으로 factor들의 빈도표를 계산하지만, 옵션을 통하여 값을 …
이번 포스팅에서는 데이터를 구성하는 변수 중에서 결측치를 포함하는 변수를 확인하고, 변수에서 결측치가 얼마나 많은 비율을 차지하고 있는 지 확인하는 파이썬 함수를 작성해 보겠습니다. 인사이트 도출, 통계적 모델링 등을 수행하는 데 …
이번 포스팅에서는 컴퓨터에 있는 기존 파일을 새로운 파일명으로 변경할 때, 유용한 파이썬 함수를 만들어 보겠습니다. ( 파일명을 변경하는 파이썬 함수 )파일을 백업할 때, 일괄적으로 작업하는 경우가 많이 있기 때문에 매우 …
이번 포스팅에서는 컴퓨터에 빈 폴더를 찾아 이를 제거해 주는 빈 폴더 제거용 파이썬 함수를 생성해 보겠습니다. 아무 의미 없이 비어 있는 폴더를 일일이 찾아 지우는 번거로운 작업을 매우 효율적으로 처리할 …
장기간에 걸친 오랜 시간 동안 컴퓨터로 작업을 하면, 폴더가 지저분해 집니다. 폴더 속 폴더와 파일들이 복잡하고 지저분하게 생성되어 있는 경우가 매우 많습니다. 특정 폴더 안에 있는 파일들을 파일 확장자 기준으로 …
시리즈(Series)는 판다스(Pandas) 라이브러리의 데이터 구조 중 하나입니다. 시리즈(Series)는 축 라벨(시계열 포함)이 있는 1차원 ndarray입니다. 라벨은 유니크할 필요는 없지만 해시 가능한 유형이어야 합니다. 객체는 정수 및 레이블 기반 인덱싱을 모두 지원하고 …
이번 포스팅에서는 아나콘다 설치 방법 에 대해서 알아보겠습니다. 아나콘다(Anaconda)는 파이썬의 한 종류인 배포판(distribution)으로 볼 수 있습니다. 즉, 아나콘다는 파이썬 프로그램 자체를 포함하면서, 데이터 과학에 필요한 다양한 라이브러리와 도구들을 묶어서 제공합니다. …
파이썬을 활용하여 금융 데이터를 분석하려면, 판다스(Pandas) 라이브러리와 데이터프레임(DataFrame)은 기본적으로 알고 있어야 합니다. 판다스는 데이터 분석을 위해 가장 많이 사용하는 대표적인 데이터 분석을 위한 라이브러리입니다. 데이터프레임은 2차원(행,열)으로 이루어진 이질적인 데이터 형식을 …
Pandas 패키지의 read_csv() 함수는 데이터 분석을 하기 위해 CSV(Comma-Separated Values) 파일을 데이터프레임으로 변환하는 함수입니다. 또한 파일을 청크(Chunk)로 반복하거나 분할하는 것도 지원합니다. 이번 포스팅에서는 read_csv() 함수의 사용법과 인수(parameter)에 대해서 알아 보겠습니다. …
Pandas는 데이터 분석 시 매우 자주 사용하는 라이브러리 중 하나로 Pandas실습 형태로 2차에 걸쳐 포스팅을 작성하였습니다. 이번 포스팅을 보시기 전에 이전 학습이 선행되어야 합니다. Pandas실습1 을 학습하지 않으셨다면, 아래 링크를 …