이번 포스팅은 데이터 과학자에게 인기 있고 역동적인 선택인 Python을 사용한 마케팅 분석 기초에 대해 설명하기 위한 소개입니다. 총 9개의 포스팅으로 구성하였고, 각 포스팅 내용에 대한 간략한 설명은 아래에 나와 있습니다.
Part 1
제품 판매 매장에서 경쟁 제품 2개에 대한 주별 총 판매량을 나타내는 자체 데이터 세트를 생성하는 것부터 시작합니다.
실제 데이터와 최대한 일치하도록 다양한 종류의 데이터를 시뮬레이션하는 다양한 기술을 살펴보겠습니다.
그런 다음 Pandas 데이터 프레임에 데이터를 저장하여 추가 분석을 준비합니다.
프로세스에서 다양한 기능을 갖춘 numpy 무작위 라이브러리를 사용합니다.
Part 2
데이터를 생성한 후 추가 분석을 수행하기 위한 다음 단계로 값(이산형 및 연속형)이 어떠한 분포를 보이는 지 초기 인사이트를 얻기 위해 데이터를 요약하는 방법에 대해서 살펴보겠습니다.
또한 중요한 전제 조건 단계로 전체 데이터프레임을 요약합니다.
주로 사용하는 함수는 groupby, value_counts, plot.bar, pandas.crosstab, 분포 함수(min, max,mean,median,std,var,mad,Quantile), describe, iloc, apply 및 람다 함수입니다.
Part 3
다음으로 분포, 왜곡 등을 이해하기 위해 데이터를 시각적으로 살펴봅니다. matplotlib.pyplot.hist()를 호출하여 열당 하나의 히스토그램을 생성하는 pandas.DataFrame.hist를 사용하고, pandas.DataFrame.boxplot을 사용하여 매장 전체의 매출을 비교합니다.
scipy.stats.probplot를 활용하여 지정된 분포 [qqplot]와 데이터를 비교합니다. statsmodels.distributions를 사용하여 누적 분포를 살펴보고 cartopy.io.shapereader를 사용하여 지도에 데이터를 표시합니다.
Part 4
히스토그램과 산점도를 사용하여 데이터 분석의 다음 단계로 이동하여 데이터 변수 간의 관계를 탐색합니다.
Part 5
초기 탐색적 분석을 수행하는 더 광범위하고 스마트한 방법은 가능한 모든 변수 쌍의 값을 플로팅한 다음 변수간의 관계를 탐색하는 것입니다. 이를 학습하기 위해 예제 데이터 세트에서 matplotlib subplot 함수와 pandas.plotting.scattermatrix를 사용합니다.
Part 6
변수 간의 관계 분석에 대한 더 나은 시각화를 위해 seaborn 라이브러리인 pairGrid를 사용하여 분산 매트릭스보다 더 역동적인 플롯을 얻습니다.
Part 7
변수들 간의 관계를 실제 수치를 통해 이해하려면 통계, 특히 상관계수를 사용하여 시각화하는 것 이상으로 무엇을 해야 하는지에 대해 설명합니다.
우리는 numpy 공분산 함수를 사용하여 시작하고 numpy corrcoef 함수로 이동한 다음 scipy.stats.pearsonr(), 데이터 프레임 corr()을 사용하여 그 중요성을 이해합니다. 계수 행렬을 얻고 matplotlib imshow 및 seaborn 히트맵을 사용하여 플롯합니다.
Part 8
데이터 분석 단계를 진행하기 전에 정규 분포에 있지 않은 특정 변수의 변환은 변수 간의 관계를 찾고 올바른 예측을 하기 위해 중요한 전제 조건입니다.
간단한 scipy 통계 boxcox() 라이브러리를 사용하여 진행 중인 예제에서 그렇게 할 수 있는 옵션을 알아 보고 결과를 통해 의미 있는 통찰력을 얻는 데 어떤 차이가 있는지 알아보겠습니다.
Part 9
마지막 포스팅에서는 데이터 세트에서 범주형 변수 하나를 선택하고 의미 있는 시각화를 보기 위해 특정 변환을 수행해야 하는 방법을 설명합니다.
감사합니다.