이상치 제거 할 것인가, 제거하지 않을 것인가

이번 포스팅에서는 이상치 제거 할 것인가, 제거하지 않을 것인가 ? 물음에 대해 심도 있게 알아보겠습니다.

이상치(Outlier)를 제거해야 할까요? 이상치는 모든 사람이 알고 있지만 대부분 사람이 어떻게 처리해야 할지 잘 모르는 통계적 문제 중 하나입니다.

평균, 표준 편차, 상관 관계와 같은 대부분의 모수 통계와 이를 기반으로 하는 모든 통계는 이상치에 매우 민감합니다.

그리고 선형 회귀 및 ANOVA와 같은 일반적인 통계 절차의 가정도 이러한 통계를 기반으로 하기 때문에 이상치는 분석을 실제로 망칠 수 있습니다.

이 모든 것에도 불구하고 아무리 원하더라도 이상치라는 이유만으로 관찰치를 제거해서는 안됩니다.

이상치가 합법적인 관찰치일 수 있으며 때로는 가장 흥미로운 관찰치일 수 있습니다.

결정하기 전에 이상치의 본질을 조사하는 것이 매우 중요합니다. 고려해야 할 몇 가지 사항은 다음과 같습니다.

이상치가 잘못 입력되거나 측정된 데이터로 인해 발생한 것이 분명한 경우 이상치를 삭제해야 합니다.

예를 들어, 여성의 체중이 19파운드로 기록된 데이터 세트를 분석한 적이 있습니다.

저는 그것이 물리적으로 불가능하다는 것을 알았습니다. 그녀의 진짜 체중은 아마도 91파운드, 119파운드 또는 190파운드였을 것입니다. 하지만 어느 쪽인지 몰랐기 때문에 이상치를 제외했습니다.

이는 데이터가 의도한 바를 정확하게 측정하지 못했다는 것을 아는 상황에도 적용됩니다.

예를 들어, 이벤트에 대한 사람들의 반응 시간을 테스트하고 있지만 참가자가 주의를 기울이지 않고 무작위로 응답 키를 누르는 것을 본 경우 정확한 측정이 아니라는 것을 알 수 있습니다.


이상치가 결과를 바꾸지 않지만 가정에 영향을 미치는 경우 이상치를 삭제할 수 있습니다. (하지만 논문의 각주에 이를 기록하세요.)

아래 그래프에서 이상치가 존재하거나 존재하지 않더라도 회귀선은 변하지 않습니다.



더 일반적으로, 이상치는 결과와 가정 모두에 영향을 미칩니다.

이런 상황에서 이상치를 그냥 버리는 것은 정당하지 않습니다. 이상치를 포함하거나 포함하지 않고 분석을 실행할 수 있지만, 최소한 각주에 그러한 데이터 포인트의 삭제와 결과가 어떻게 바뀌었는지 명시해야 합니다.



이상치가 강력한 연관성을 생성하는 경우 이상치를 삭제하고 분석에서 어떠한 연관성도 보고하지 않아야 합니다.

다음 그래프에서 X와 Y 사이의 관계는 이상치에 의해 명확하게 생성됩니다. 이상치가 없으면 X와 Y 사이에 관계가 없으므로 회귀 계수는 X가 Y에 미치는 영향을 정확하게 설명하지 못합니다.



그렇다면 이상치를 삭제해서는 안 되는 경우에는 어떻게 해야 할까요?

한 가지 옵션은 변환을 시도하는 것입니다. 제곱근과 로그 변환은 모두 높은 숫자를 가져옵니다.

이렇게 하면 이상치가 종속 변수인 경우 가정이 더 잘 작동하고 이상치가 독립 변수인 경우 단일 지점의 영향을 줄일 수 있습니다.

또 다른 옵션은 다른 모델을 시도하는 것입니다.

이는 신중하게 수행해야 하지만 비선형 모델이 더 잘 맞을 수도 있습니다.

예를 들어, 예제 3에서 지수 곡선이 이상치가 그대로 있는 데이터에 맞을 수 있습니다.

어떤 접근 방식을 취하든 데이터와 연구 분야를 잘 알아야 합니다.

다양한 접근 방식을 시도하고 어떤 것이 이론적으로 의미가 있는지 확인하는 것이 필요합니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다