이번 포스팅은 Python pandas 마스터하기 위한 마지막 포스팅입니다. ( python pandas 마스터하기 91~100 ).
이번 포스팅 내용을 학습하기 전에 이전 포스팅(Python pandas 마스터하기 1 ~10, Python pandas 마스터하기 11 ~20, Python pandas 마스터하기 21 ~30, Python pandas 마스터하기 31 ~40, Python pandas 마스터하기 41 ~50, Python pandas 마스터하기 51 ~60, Python pandas 마스터하기 61 ~70, Python pandas 마스터하기 71 ~80, Python pandas 마스터하기 71 ~80) 내용을 먼저 학습하시기 바랍니다.
간단한 예제 코드와 설명을 포함한 100가지 Python pandas 코드 중 No 91 ~ 100개에 대해서 살펴보겠습니다.
91. Pandas DataFrame을 사용한 산점도
실습을 위해 이전 포스팅에서 사용한 데이터를 계속해서 사용하겠습니다.
import pandas as pd
titanicData = pd.read_csv("D:/titanic.csv")
titanicData.plot(x = 'Age', y = 'Fare', kind = 'scatter')
이 코드는 ‘Age’ 열을 x축 값으로, ‘Fare’ 열을 y축 값으로 사용하여 산점도를 생성하는 코드입니다.
92. Pandas DataFrame을 사용한 상자 그림
import pandas as pd
titanicData.plot(y = 'Fare', kind = 'box')
이 코드는 ‘Fare’ 열의 값을 사용하여 상자 그림을 생성하는 코드입니다.
93. Pandas DataFrame을 사용한 면적 플롯
import pandas as pd
titanicData.sort_values('Age').plot(x = 'Age', y = 'Fare', kind = 'area')
이 코드는 정렬된 ‘Age’ 열을 x축 값으로, ‘Fare’ 열을 y축 값으로 사용하여 영역 도표를 생성하는 코드입니다.
94. Pandas DataFrame을 사용한 밀도 플롯
import pandas as pd
titanicData.plot(y = 'Fare', kind = 'density')
위 코드는 ‘Fare’ 열의 값을 사용하여 밀도 플롯을 생성하는 코드입니다.
95. Pandas DataFrame을 사용한 원형 차트
import pandas as pd
titanicData['Pclass'].value_counts().plot(kind = 'pie')
위 코드는 ‘Pclass’ 열의 고유 값 개수를 기반으로 원형 차트를 생성하는 코드입니다.
96. Pandas DataFrame을 사용한 Barh 플롯
import pandas as pd
titanicData.plot(y = 'Fare', x = 'Pclass', kind = 'barh')
이 코드는 ‘Fare’ 열을 y축 값으로, ‘Pclass’ 열을 x축 값으로 사용하여 가로 막대 그래프를 생성하는 코드입니다.
97. Pandas DataFrame을 사용한 산점도 행렬 플롯
import pandas as pd
from pandas.plotting import scatter_matrix
scatter_matrix(titanicData[['Age', 'Fare', 'Pclass']], figsize=(6, 6))
위 코드는 ‘Age’ 열과 ‘Fare’ 및 ‘Pclass’ 열 사이의 산점도를 보여주는 산점도 행렬 도표를 생성하는 코드입니다.
98. 크기와 색상이 포함된 산점도
import pandas as pd
titanicData.plot(x = 'Age', y = 'Fare', kind = 'scatter', s = titanicData['Pclass'], c = titanicData['Pclass'])
위 코드는 marker의 크기가 ‘Pclass’ 열에 의해 결정되고, marker의 색상이 ‘Pclass’ 열에 의해 결정되는 분산형 차트를 생성하는 코드입니다.
99. Pandas DataFrame을 사용한 도넛 플롯
import pandas as pd
titanicData['Pclass'].value_counts().plot(kind = 'pie', wedgeprops = dict(width=0.3), autopct='%1.1f%%')
위 코드는 ‘Pclass’ 열의 고유 값 개수를 기반으로 도넛 플롯을 생성하는 코드입니다.
100. Pandas DataFrame을 사용한 누적 막대 그래프
import pandas as pd
titanicData.plot(x = 'Pclass', y = ['Age', 'Fare'], kind = 'bar', stacked = True)
위 코드는 ‘Pclass’ 열을 x축 값으로 사용하고 ‘Age’, ‘Fare’ 열을 y축 값으로 사용하여 누적 막대 그래프를 생성하는 코드입니다.
이 예제에서는 DataFrame.plot() 메서드를 사용하지만 일부 고급 플롯은 pandas API를 통해 직접 사용하지 못할 수도 있습니다. 이러한 경우 시각화 라이브러리인 matplotlib 또는 seaborn을 사용하는 것이 좋습니다.
Python Pandas 마스터하기 시리즈의 마지막 포스팅에서 우리는 pandas에 내장된 플로팅에 대해서 알아 보았습니다. 선 도표, 막대 도표, 히스토그램, 산점도 도표, 상자 도표, 영역 도표 등을 포함한 광범위한 시각화 기술을 살펴 보았습니다. 모두 pandas DataFrame을 사용합니다.
이러한 기능을 활용하면 외부 플로팅 라이브러리 없이도 데이터의 통찰력을 효율적으로 분석하고 전달할 수 있습니다.
Python Pandas 마스터하기 시리즈 전반에 걸쳐 제시된 100가지 예제를 통해 Pandas와 다양한 기능에 대한 기본적인 기초 지식을 다지셨기를 바랍니다. 이러한 지식으로 무장하면 이제 복잡한 데이터 분석 작업을 처리하고 Pandas의 장점을 최대한 활용할 수 있는 준비가 되었을 거라고 확신합니다.
감사합니다!