피어슨 상관계수 공식 | Rstat101 Week5 – 상관계수(Correlation Coefficient) 손으로 구하기 380 좋은 평가 이 답변

당신은 주제를 찾고 있습니까 “피어슨 상관계수 공식 – rstat101 week5 – 상관계수(correlation coefficient) 손으로 구하기“? 다음 카테고리의 웹사이트 https://you.khunganhtreotuong.vn 에서 귀하의 모든 질문에 답변해 드립니다: https://you.khunganhtreotuong.vn/blog/. 바로 아래에서 답을 찾을 수 있습니다. 작성자 슬기로운통계생활 이(가) 작성한 기사에는 조회수 3,444회 및 좋아요 46개 개의 좋아요가 있습니다.

다음과 같이 정의된 ρ=ρ(X,Y) ρ = ρ ( X , Y ) 를 피어스 상관계수(pearson correlation coefficient)라고 한다.

피어슨 상관계수 공식 주제에 대한 동영상 보기

여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!

d여기에서 rstat101 week5 – 상관계수(correlation coefficient) 손으로 구하기 – 피어슨 상관계수 공식 주제에 대한 세부정보를 참조하세요

이번 강의에서는 데이터가 주어졌을 때, 상관계수를 직접 손으로 구해봅니다.
또한 R 프로그램에서 제공하는 cor() 함수의 값이 어떻게 계산 되는지 이해합니다.
강의자료 사이트:
https://www.theissaclee.com/ko/courses/rstat101/week5/

피어슨 상관계수 공식 주제에 대한 자세한 내용은 여기를 참조하세요.

피어슨 상관 계수 – 위키백과, 우리 모두의 백과사전

통계학에서 , 피어슨 상관 계수(Pearson Correlation Coefficient ,PCC)란 두 변수 X 와 Y 간의 선형 상관 관계를 계량화한 수치다. 피어슨 상관 계수는 코시-슈바르츠 …

+ 여기에 보기

Source: ko.wikipedia.org

Date Published: 10/11/2022

View: 2714

4. 상관계수 정리

상관계수(r) 공식 (피어슨 상관계수 – Pearson’s correlation coefficent). 공분산(Covariance) : 두 숫자형 변수가 같은 방향으로 움직이는 정도, …

+ 여기에 보기

Source: nittaku.tistory.com

Date Published: 4/22/2021

View: 7640

피어슨 상관 계수 (Pearson Correlation Coefficient) – 엄범

추천 시스템에서 collaborative filtering 방식을 사용할 때는 User-user 간, 또는 Item-item 간 similarity를 계산해야 한다. 이 때 피어슨 상관 계수를 …

+ 여기에 더 보기

Source: umbum.dev

Date Published: 7/22/2021

View: 5735

피어슨 상관 관계 찾기 | Tableau Software

Tableau Desktop에서 두 측정값 간의 피어슨 상관 관계를 구하는 방법 … 2단계: 피어슨 상관 관계 계산 … 이 수식은 두 식의 피어슨 상관 계수를 반환합니다.

+ 여기를 클릭

Source: kb.tableau.com

Date Published: 7/3/2021

View: 8206

상관계수 – 나무위키

그러나 피어슨 상관계수의 값은 반드시 -1에서 1 사이에 위치하게 된다. … 하기 때문에 학부에서는 좀더 간단한 아래와 같은 공식도 가르친다.

+ 여기에 표시

Source: namu.wiki

Date Published: 1/5/2022

View: 4734

상관계수 :: Python 기초 통계 – 마인드스케일

상관계수(correlation coefficient): 두 변수가 함께 변하는 정도를 -1 ~ 1 범위의 수로 나타낸 것. 피어슨 상관계수. 칼 피어슨(Karl Pearson)이 개발한 상관계수 …

+ 여기에 보기

Source: mindscale.kr

Date Published: 10/7/2021

View: 5061

[내가 하는 통계 분석] 피어슨 상관 계수(Pearson correlation …

대응별 결측값 제외는 상관 계수를 계산하는 두 변수에 대해 결측값이 없는 케이스만 사용합니다. 따라서, 목록별 결측값으로 하면 모든 경우에 대해서 N …

+ 더 읽기

Source: lunch-box.tistory.com

Date Published: 6/4/2021

View: 8123

상관계수 – 진화하자

일반적으로 많이 사용되는 값은 피어슨 상관계수(Pearson’s correlation coefficient)로 다음과 같은 공식으로 얻는다. 위 공식의 latex 코드.

+ 여기에 더 보기

Source: adnoctum.tistory.com

Date Published: 8/18/2022

View: 3826

[통계] 상관관계(Correlation Coefficient) – Hyen4110

– 스피어먼 상관 계수는 “순위가 매겨진 변수 간의 피어슨 상관 계수”로 정의됩니다. – 따라서 통계적 계산에서 순서척도(ordinal scale)가 적용되는 상관 …

+ 여기에 보기

Source: hyen4110.tistory.com

Date Published: 10/21/2021

View: 75

주제와 관련된 이미지 피어슨 상관계수 공식

주제와 관련된 더 많은 사진을 참조하십시오 rstat101 week5 – 상관계수(correlation coefficient) 손으로 구하기. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.

rstat101 week5 - 상관계수(correlation coefficient) 손으로 구하기
rstat101 week5 – 상관계수(correlation coefficient) 손으로 구하기

주제에 대한 기사 평가 피어슨 상관계수 공식

  • Author: 슬기로운통계생활
  • Views: 조회수 3,444회
  • Likes: 좋아요 46개
  • Date Published: 2020. 3. 29.
  • Video Url link: https://www.youtube.com/watch?v=pv24Hoh2BIQ

피어슨 상관 계수(Pearson Correlation Coefficient)

$\bullet$ (피어슨)상관 계수는 두 변수가 서로 (선형)상관관계를 가지는지 확인하는 척도이다.

$\bullet$ 1이나 -1에 가까우면 상관관계가 있다 보고 0이면 없다고 본다.

$\bullet$ $[-1,1]$을 벗어나지 않는다.

다음과 같이 정의된 $\rho = \rho (X,Y)$ 를 피어스 상관계수(pearson correlation coefficient)라고 한다.

$$\rho = \dfrac{Cov(X,Y)}{\sigma_X \sigma_Y}=\dfrac{\sigma_{XY}}{\sigma_X\sigma_Y},\;\;\;\;\; -1 \leq \rho \leq 1$$

$Cov(X,Y)$를 $X$와 $Y$의 공분산(covariance)라 한다.

$Cov(X,Y) = E[(X-\mu_X)(Y-\mu_Y)]=E(XY)-\mu_X \mu_Y$

$E(XY) = \mu_X \mu_Y + \rho \sigma_X \sigma_Y$

$X$와 $Y$가 독립이면 상관계수는 0이된다.

하지만 상관계수가 0이라고 $X$와 $Y$가 독립인것은 아니다.

$\rho$를 정의한 식에 대해 알아보자

$\mu_X = E(X),\;\; =\mu_Y=E(Y),\;\;\; \sigma_X^2=E[(X-\mu_X)^2],\;\;\;\sigma_Y^2=E[(Y-\mu_Y)^2]$

(a) $u(X,Y) = (X-\mu_X)(Y-\mu_Y)$ 라 두면

$$E[u(X,Y)]=E[(X-\mu_X)(Y-\mu_Y)]=\sigma_{XY}=Cov(X,Y)$$

를 $X$와 $Y$의 공분산(covariance)라 한다.

(b) 표준편차 $\sigma_X, \sigma_Y>0$이라면

$$\rho = \dfrac{Cov(X,Y)}{\sigma_X \sigma_Y}=\dfrac{\sigma_{XY}}{\sigma_X \sigma_Y}$$

를 $X$와 $Y$의 상관계수라 한다.

$X$의 평균(mean)과 분산(variance)는 결합 pmf(or pdf) 혹은 주변 pmf(or pdf)를 이용해서 푼다.

ex) 이산형의 경우

$$\begin{align*}

\mu_X = E(X) & = \sum_X \sum_Y x f(x,y)\\

&=\sum_x x \left[ \sum_y f(x,y) \right] = \sum_x x f_X(x)

\end{align*}$$

공분산(Covariance)의 계산에는 joint pmf(or pdf)가 필요하다

공분산 $E[u(x,y)]$와 상관계수 $\rho = \dfrac{Cov(X,Y)}{\sigma_X \sigma_Y}$의 의미를 살펴보기전 2가지 유용한 식을 유도한다.

1)

$$\begin{align*}

Cov(X,Y) = E[(X-\mu_X)(Y-\mu_Y)]&=E(XY – \mu_X Y -\mu_Y X + \mu_X \mu_Y)\\

&=E(XY)-\mu_XE(Y)-\mu_YE(X)+\mu_X \mu_Y\\

&=E(XY) – \mu_X \mu_Y – \mu_X \mu_Y + \mu_X \mu_Y \\

&= E(XY) – \mu_X \mu_Y

\end{align*}$$

2)

$$\rho = \dfrac{Cov(X,Y)}{\sigma_X \sigma_Y} = \dfrac{E(XY) – \mu_X \mu_Y}{\sigma_X \sigma_Y}$$

$$E(XY) = \mu_X \mu_Y + \rho \sigma_X \sigma_Y$$

즉, 두 확률변수의 곱의 기댓값은 각 확률변수들의 평균(mean)과 편차(deviation)를 통해서 구할 수 있다.

예제 4.2-1 펼치기 예제 4.2-1 접기 예제 4.2-1 접기

두 확률변수 $X$와 $Y$의 상관계수(Correlation Coefficient)$\rho$에 대해 알아보자.

1) $\rho$의 부호

$$\rho = \dfrac{\sum_X\sum_Y(x-\mu_X)(y-\mu_Y)f(x,y)}{\sigma_X \sigma_Y}$$

$\bullet$ 분모는 항상 양수이다.

$\bullet$ $0 \leq f(x,y)\leq 1$ 이다.

$\therefore$ $\rho$의 부호를 결정하는 것은 $x$와 $y$, $\mu_X$, $\mu_Y$이다.

$\rho>0$ $\rho <0$ $\rho=0$ $x$가 $\mu_X$보다 크고 $y$가 $\mu_Y$보다 큰 혹은 $x$가 $\mu_X$보다 작고 $y$가 $\mu_Y$보다 작은 $(x,y)$쌍이 아주 많을 경우 $x$가 $\mu_X$보다 크고 $y$가 $\mu_Y$보다 작은 혹은 $x$가 $\mu_X$보다 작고 $y$가 $\mu_Y$보다 큰 $(x,y)$쌍이 아주 많을 경우 모든 $(x,y)$쌍에 대해 $x= \mu_X$그리고 $y=\mu_Y$일 경우 혹은 모든 항의 합이 0이 될 경우 2) $-1 \leq \rho \leq 1$ 우선 임의의 $(x,y)$쌍들을 그래프 위에 그려보겠다. 수많은 점들의 분포를 일반식으로 간단하게 표현할수는 없다 그렇기에 모든 점들을 근사적으로 표현할 수 있는 직선방정식을 찾도록 한다. 이 방정식을 만드는 기준은 i) $(\mu_X \mu_Y)$를 지난다. ii) 모든 점으로부터의 거리의 평균값이 최소가 되는 기울기 $b$를 가진다. 위 조건을 만족하는 직선 방정식을 적으면 $y=\mu_Y + b(x-\mu_X)$ 이제 ii) 조건에 맞는 $b$를 구하면 된다. 임의의 점 $(x_0,y_0)$에서 직선 방정식 까지의 거리는 $|y_0 - \mu_Y - b(x_0 - \mu_X)|$이다. 이 거리를 제곱한 값들의 평균을 취한 식을 $K(b)$로 지칭한다. $$E\{[(Y - \mu_Y)-b(X - \mu_X)]^2\}=k(b)$$ 최소제곱원리로 $K(b)$를 최소로 하는 $b$값을 찾는다. $$\begin{align*} K(b) &=E[(Y-\mu_Y)^2-2b(X-\mu_X)(Y-\mu_Y)+b^2(X-\mu_X)^2]\\ &=\sigma_Y^2 - 2b \rho \sigma_X \sigma_Y + b^2 \sigma_X^2 \end{align*}$$ 를 $b$로 편미분하여 $0$으로 놓고 $b$를 구한다 $$K'(b) = -2 \rho \sigma_X \sigma_Y + 2b \sigma_X^2=0\\ b = \rho \dfrac{\sigma_Y}{\sigma_X}$$ $K(b)$는 최고차항의 계수가 양수인 $b$에 관한 2차식인데다가 $K''(b) = 2\sigma_X^2 > 0$이므로 위의 $b$는 $K(b)$를 최소로 만드는 식임을 알 수 있다.

따라서 최량 적합 직선(the line of best fit)의 형태인 최소 제곱 회귀 직선(least squares regression line)은

$Y = \mu_Y = \rho \dfrac{\sigma_Y}{\sigma_X}(X – \mu_X)$

가 된다.

여기서 $\rho$의 값에 따라 기울기가 결정된다.

또한 $K(b)$는 제곱의 기댓값이므로 모든 $b$에 대해서 음수가 아니어야 한다. 따라서 최소값도 양수이므로

$$\begin{align*}

K \left( \rho \dfrac{\sigma_Y}{\sigma_X} \right) &= \sigma_Y^2 – 2\rho \dfrac{\sigma_Y}{\sigma_X}\rho \sigma_X \sigma_Y + \left( \rho \dfrac{\sigma_Y}{\sigma_X}\right)^2 \sigma_X^2\\

&=\sigma_Y^2 -2\rho^2\sigma_Y^2 + \rho^2 \sigma_Y^2 = \sigma_Y^2(1 – \rho^2) \geq 0

\end{align*} $$

그러므로 $-1 \leq \rho \leq 1$이 된다.

예제 4.2.2 펼치기

예제 4.2.2 접기 예제 4.2.2 접기

$X$와 $Y$가 독립이면 상관계수는 0이된다.

하지만 상관계수가 0이라고 $X$와 $Y$가 독립인것은 아니다.

아래 예로 확인해보자

예제 4.2.3 펼치기

예제 4.2.3 접기 예제 4.2.3 접기

연습문제 펼치기

연습문제 접기 연습문제 접기

피어슨 상관 계수

통계학에서 , 피어슨 상관 계수(Pearson Correlation Coefficient ,PCC)란 두 변수 X 와 Y 간의 선형 상관 관계를 계량화한 수치다. 피어슨 상관 계수는 코시-슈바르츠 부등식에 의해 +1과 -1 사이의 값을 가지며, +1은 완벽한 양의 선형 상관 관계, 0은 선형 상관 관계 없음, -1은 완벽한 음의 선형 상관 관계를 의미한다. 일반적으로 상관관계는 피어슨 상관관계를 의미하는 상관계수이다.

서로 다른 상관 계수 값 (ρ)을 갖는 산포도 다이어그램의 예

x 와 y 의 상관 계수. 상관 관계는 선형 관계의 비선형성 및 방향을 반영하지만 그 관계의 기울기 또는 비선형 관계의 여러 측면을 반영하지 않는다. NB : 중앙의 그림은 기울기가 0이지만이 경우 Y 의 분산이 0이므로 상관 계수가 정의되지 않는다. 여러 데이터셋와 각 셋의의 상관 계수. 상관 관계는 선형 관계의 비선형성 및 방향을 반영하지만 그 관계의 기울기 또는 비선형 관계의 여러 측면을 반영하지 않는다. NB : 중앙의 그림은 기울기가 0이지만이 경우의 분산이 0이므로 상관 계수가 정의되지 않는다.

정의 [ 편집 ]

표본(sample) 피어슨 상관 계수는 등간척도(간격척도)나 비례척도(비율척도)의 데이타에서 두 변수의 공분산(covariance) 을 각각의 표준 편차의 곱으로 나눈 값이다.

피 어 슨 상 관 계 수 = 공 분 산 표 준 편 차 ⋅ 표 준 편 차 {\displaystyle {\text{피 어 슨 상 관 계 수 }}={{\text{공 분 산 }} \over {{\text{표 준 편 차 }}\cdot {\text{표 준 편 차 }}}}} r X Y = ∑ i n ( X i − X ¯ ) ( Y i − Y ¯ ) n − 1 ∑ i n ( X i − X ¯ ) 2 n − 1 ∑ i n ( Y i − Y ¯ ) 2 n − 1 {\displaystyle r_{XY}={{{\sum _{i}^{n}\left(X_{i}-{\overline {X}}\right)\left(Y_{i}-{\overline {Y}}\right)} \over {n-1}} \over {{\sqrt {{\sum _{i}^{n}\left(X_{i}-{\overline {X}}\right)^{2}} \over {n-1}}}{\sqrt {{\sum _{i}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}} \over {n-1}}}}}}

따라서

r X Y = ∑ i n ( X i − X ¯ ) ( Y i − Y ¯ ) ∑ i n ( X i − X ¯ ) 2 ∑ i n ( Y i − Y ¯ ) 2 {\displaystyle r_{XY}={{\sum _{i}^{n}\left(X_{i}-{\overline {X}}\right)\left(Y_{i}-{\overline {Y}}\right)} \over {{\sqrt {\sum _{i}^{n}\left(X_{i}-{\overline {X}}\right)^{2}}}{\sqrt {\sum _{i}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}}}}}}

모집단의 경우 [ 편집 ]

피어슨의 상관 계수는 모집단에 적용될 때 일반적으로 ρ (그리스문자,로)로 표시되며 모집단 상관 계수 또는 모집단 피어슨 상관 계수라고 할 수 있다.

결정계수 [ 편집 ]

피어슨의 상관 계수를 제곱해줌으로써 결정계수를 얻을수있다.

표본 피어슨의 상관 계수 r {\displaystyle r} r 2 {\displaystyle r^{2}} 모집단 피어슨의 상관 계수 ρ {\displaystyle \rho } ρ 2 {\displaystyle \rho ^{2}}

컴퓨팅 계산 [ 편집 ]

컴퓨팅 프로그램에서 일반적인 상관관계 분석 함수로서 피어슨 상관계수가 사용되며 스프레드 시트에서는 Correl()함수를 사용할 수 있다.[1] SPSS 및 PSPP에서는 이변량 상관분석(bivariate analysis 또는 bivariate correlation analysis)등에서 보편적으로 이용된다.

같이 보기 [ 편집 ]

피어슨 상관 계수 (Pearson Correlation Coefficient)

상관계수(correlation coefficient)란 두 변수가 어떤 상관 관계를 가지는가?를 의미하는 수치다.

+1은 완벽한 양의 선형 상관 관계, 0은 선형 상관 관계 없음, -1은 완벽한 음의 선형 상관 관계를 의미한다.

https://otexts.com/fppkr/graphics-scatterplots.html

X와 Y 사이의 피어슨 상관 계수를 구하는 식은 다음과 같다

\\[r_{XY} = \frac{ \sum^n_i (X_i – \bar{X})(Y_i – \bar{Y}) }{ \sqrt{\sum^n_i (X_i – \bar{X})^2} \sqrt{\sum^n_i (Y_i – \bar{Y})^2} } \\]

여기서 X, Y는 vector인데

식을 조금 들여다보면 결국 다음과 같은 과정이다.

1. 각 vector의 표본평균\\(\bar{A}\\)를 구해서 A의 0이 아닌 각 원소에 빼주어 normalization하고,

2. normalized 된 vector들 사이의 cosine similarity를 계산한다.

피어슨 상관 계수는 다양한 상황에서 쓰이지만,

normalized된 cosine similarity를 계산하는 것이기 때문에 피어슨 상관 계수를 similarity로도 해석할 수 있다.

피어슨 상관 계수가 similarity로 쓰이는 예로는 추천 시스템이 있다.

추천 시스템에서 collaborative filtering 방식을 사용할 때는 User-user 간, 또는 Item-item 간 similarity를 계산해야 한다.

이 때 피어슨 상관 계수를 similarity로 사용하게 된다.

유저 A와 비슷하게 영화를 평가한 유저를 찾기 위해서 user A와 나머지 유저들의 similarity를 계산하려고 한다.

movie 1 m2 m3 m4 m5 m6 m7 user A 4 5 1 user B 5 5 4 …

( 평가하지 않은 항목은 0으로 집계되기 때문에 cosine similarity를 사용하게 되면 미평가 항목이 곧 안좋게 평가한 항목과 동일하게 간주된다는 문제가 있어 피어슨 상관 계수를 사용한다.)

피어슨 상관 계수를 계산해보면

\\(\bar{A} = \frac{4+5+1}{3} = \frac{10}{3} \\) \\(\bar{B} = \frac{14}{3} \\)

\\(A – \bar{A} = [\frac{2}{3}, 0, 0, \frac{5}{3}, -\frac{7}{3}, 0, 0]\\)

\\(B – \bar{B} = [\frac{1}{3}, \frac{1}{3}, -\frac{2}{3}, 0, 0, 0, 0]\\)

이제 이 둘의 cosine similarity를 계산하면 피어슨 상관 계수가 되고, 이는 곧 sim(A, B)가 된다.

\\(sim(A, B) = 0.092\\)

상관계수를 구할 때 주의할 점

상관계수(correlation coefficient)는 선형관계의 강도만 측정하기에, 종종 오해로 이어질 수 있습니다.

아래 그래프는 모두 0.82의 상관계수를 갖습니다만, 나타나는 관계는 아주 다릅니다. 이를 통해 상관계수값에만 의존하지 말고 데이터를 그려서 살펴보는 것이 얼마나 중요한지 알 수 있습니다.

https://otexts.com/fppkr/graphics-scatterplots.html

[내가 하는 통계 분석] 피어슨 상관 계수(Pearson correlation coefficient) in SPSS

반응형

안녕하세요, 산격동 너구리입니다.

이번 포스팅은,

SPSS를 이용한 “피어슨 상관 계수”입니다.

개요

피어슨 상관 계수란??

두 변수의 선형 상관 관계를 계량화한 수치입니다.

결과값은 -1 ~ 1 사이의 값이며,

양의 상관 관계가 있을수록 1에 가깝고, 음의 상관 관계가 있을수록 -1에 가깝습니다.

또한, 상관 관계가 없을수록 0에 가깝습니다.

가정

1. 두 변수는 연속형 변수이다.

2. 두 변수는 정규분포를 따른다.

(간혹 한 변수만 정규분포를 따라도 된다고는 하지만, 이론적으로는 두 변수 모두 정규분포를 따라야합니다.)

3. 두 변수는 선형 관계를 가진다.

위의 가정 외에도 신경 써야하는 부분이 있습니다.

바로 이상치입니다.

극단적으로 값이 크거나 작은 경우가 포함되어 있으면 결과가 왜곡될 수 있습니다.

가설

귀무가설 : 상관계수는 0이다(=상관 관계가 없다).

대립가설 : 상관계수는 0이 아니다(=상관 관계가 있다).

보통 상관 분석을 하면 상관계수와 p-value가 함께 나올텐데요,

p-value가 0.05이상인 경우에는 함께 보여지는 상관계수가 큰 의미가 없습니다.

귀무가설 자체가 “상관 계수는 0이다.”이기 때문에 p-value가 0.05미만일 때에만 상관계수가 의미를 가집니다.

예제

13. [산격동 너구리] 상관 분석 예제.csv 0.01MB

이번 예제로는 변수 3개를 준비했는데, 특별하게 의미를 정의하진 않을게요.

상상력에 한계가;;;;;;;;

그리고 이번 데이터는 분석 가정에 완벽하게 부합하지는 않습니다.

최대한 현실적이면서도, 가정에 완벽한 데이터를 만드는 것도 쉽지는 않네요.

가정이 정확하게 맞진 않지만, 분석 방법이나 절차에 집중해서 봐주시면 되겠습니다.

그리고, 조금 현실적인 이야기인데…

의외로 피어슨 상관계수를 구하면서 가정에 대해 완벽히 체크하는 경우는 흔치 않습니다…

데이터 불러오기

가정

1. 선형성 가정

보통은 산점도를 보고 확인합니다.

VAR2와 VAR3간에 선형성이 보이는 것 같고, 나머지 관계에서는 조금 애매해보입니다.

만약, 선형성에 대해 엄밀하게 따진다면 VAR2와 VAR3간에서만 피어슨 상관 분석을 실시하게 되겠네요.

그보다 더 엄밀하게 따진다면, 어떤 관계에서도 선형성이 없다고 할 수 있겠지만요..ㅎ

따라서, 선형성 부분은 어느정도 주관이 개입될 수 밖에 없습니다.

2. 정규성 가정

지금 결과로 보면 VAR2를 제외한 나머지 변수에서 정규성 가정이 만족되지 않습니다.

이것도 엄밀하게 따지자면 피어슨 상관 분석을 하기에는 무리가 있습니다.

[현실]

그렇지만,,,,아까 말씀드린 것처럼 상관 분석의 가정을 깊게 따지지 않는 경우도 많습니다.

연구 분야나 목표 저널에 맞춰서 융통성있게 하시는게 더 현실적이지 않을까싶습니다.

[추가 내용]

피어슨 상관 계수의 정규성 가정을 정확하게 표현하면,

“두 변수는 이변량 정규분포를 따른다.”입니다.

하지만, 이변량 정규분포에 대한 정규성 검정이 쉽지 않기 때문에

각 변수에 대한 정규성 검정을 통해서 두 변수가 정규성을 만족하는지 확인하는 것으로 대체합니다.

두 변수가 각각 정규분포라도 이변량 정규분포가 되는지는 확실치 않습니다.

그렇기 때문에 두 변수가 정규성을 만족한다는 것 자체도 이미 완화된 가정이라고 생각할 수 있습니다.

가설

귀무가설 : 두 변수 간 상관계수는 0이다(=상관 관계가 없다).

대립가설 : 두 변수 간 상관계수는 0이 아니다(=상관 관계가 있다).

피어슨 상관 분석

상관 계수와 그에 대응되는 p-value가 행렬 형태로 출력됩니다.

피어슨 상관 분석 결과,

모든 변수 간 상관 계수는 유의한 것으로 나옵니다.

따라서, 변수들 간에 유의한 상관 관계가 있음을 확인할 수 있습니다.

상관 계수의 부호에 따라 양의 상관 관계 또는 음의 상관 관계인 것을 확인하시면 됩니다.

참고로 목록별 결측값과 대응별 결측값의 차이는,

목록별 결측값 제외는 사용한 모든 변수에 대해서 결측값이 없는 케이스만 사용하는 것이고,

대응별 결측값 제외는 상관 계수를 계산하는 두 변수에 대해 결측값이 없는 케이스만 사용합니다.

따라서, 목록별 결측값으로 하면 모든 경우에 대해서 N이 같지만,

대응별 결측값으로 하면 경우에 따라 달라질 수도 있습니다.

지금 예제는 결측값이 없으니 어떤 것으로 해도 같은 결과가 나옵니다.

이것으로 SPSS를 이용한 피어슨 상관 계수에 대해 마치도록 하겠습니다.

이상, 산격동 너구리였습니다.

감사합니다.

* 잘못된 정보 및 오타가 포함되어 있을 수 있습니다.

그대로 받아들이시기보다는 다른 사람의 의견도 참고하셔서 분석하시길 바랍니다.

* 포스팅 내용 및 통계 분석 관련 질문은 언제나 환영입니다.

가능한 선에서 최대한 답변하도록 하겠습니다.

반응형

상관계수

위 공식의 latex 코드

접어두기.. \begin{eqnarray} \rho_{X, Y} & = & \frac{cov \left(X, Y\right)}{\sigma_{X} \sigma_{Y}} \\[10pt] & = & \frac{\mathbf{E}\left[\left(X – \mu_X\right)\left(Y – \mu_Y\right)\right]}{\sigma_{X} \sigma_{Y}} \\[10pt] & = & \frac{\mathbf{E}\left(XY\right) -\mathbf{E}\left(X\right)\mathbf{E}\left(Y\right)}{\sigma_{X} \sigma_{Y}} \end{eqnarray} 접어두기..

위 공식의 latex 코드

접어두기.. \begin{eqnarray} r_{x,y} & = & \frac{\sum {x_i y_i} – n \bar{x}\bar{y}}{\left(n-1\right)s_x s_y} \\[10pt] & = & \frac{n\sum x_i y_i – \sum x_i \sum y_i}{\sqrt{n\sum x_i^2 – \left( \sum x_i \right)^2}\sqrt{n \sum y_i^2 – \left( \sum y_i \right)^2}} \end{eqnarray} 접어두기..

상관계수 구하는 C++

접어두기.. // y_i = _alpha * x_i + _beta + epsilon bool get_correlation(std::vector *x, std::vector* y, double *corr, double *Rsquare, double *_alpha, double* _beta) { if(x->size() != y->size()) return false; int n = (int)(x->size()); if(n == 0) return false; std::vector::const_iterator xpos = x->begin(); std::vector::const_iterator ypos = y->begin(); double x_sum = 0; double y_sum = 0; double x_square_sum = 0; double y_square_sum = 0; double xy_sum = 0; for(; xpos != x->end(); xpos++,ypos++){ x_sum += *xpos; y_sum += *ypos; x_square_sum += (*xpos * *xpos); y_square_sum += (*ypos * *ypos); xy_sum += (*xpos * *ypos); } if(corr != NULL){ *corr = (n*xy_sum-x_sum*y_sum)/(sqrt(n*x_square_sum-x_sum*x_sum)*sqrt(n*y_square_sum-y_sum*y_sum)); } double alpha = (x_sum*y_sum-n*xy_sum)/(x_sum*x_sum-n*x_square_sum); double beta = (x_sum*xy_sum – y_sum*x_square_sum)/(x_sum*x_sum-n*x_square_sum); if(_alpha != NULL){ *_alpha = alpha; } if(_beta != NULL){ *_beta = beta; } if(Rsquare == NULL){ return true; } double y_mean = y_sum/n; double SStot = 0; double SSerr = 0; xpos = x->begin(); ypos = y->begin(); for(; xpos != x->end(); xpos++,ypos++){ SStot += ((*ypos – y_mean)*(*ypos – y_mean)); SSerr += ((*ypos – alpha*(*xpos) – beta)*(*ypos – alpha*(*xpos) – beta)); } if(Rsquare != NULL){ *Rsquare = 1 – SSerr/SStot; } return true; } 접어두기..

주의:

상관계수는 두 변수 사이의 인과관계를 설명하지 않는다

공유하기 게시글 관리

두 변수의 관계, 특히 선형 관계를 확인할 때 사용할 수 있는 값이 상관계수 이다. 일반적으로 많이 사용되는 값은 피어슨 상관계수( Pearson’s correlation coefficient )로 다음과 같은 공식으로 얻는다.X와 Y 의 covariance 를 X, Y 각각의 표준편차로 나누어주기 때문에 PCC 값은 X와 Y의 단위(scale)에 의존하지 않는다. 즉 X보다 Y 가 일반적으로 천배가 큰 수 (예를 들어 X는 kg로 표현한 몸무게, Y는 mm 로 표현한 키)여도 유의미한 값을 갖게 된다. 이와 같이 scale에 의존하지 않는 성질을 scale-invariant 라 한다.공식 (1) ~ (3) 은 모집단의 상관계수를 구하는 공식이고, 만약 모집단의 일부인 sample 을 이용하여 모집단의 PCC를 찾고자 할 때는 다음과 같은 공식을 이용할 수 있다.(3)번 공식에 있는 모평균과 모분산을, 그 각각에 대한 가장 좋은 추정치(MLE)인 sample 평균과 sample 표준편차로 바꾸어 준 공식이 식(5)가 되는 것이다.PCC 의 특징 중에 하나는 X와 Y의 크기, 이동에 의존하지 않는다는 점이다. 즉,주의할 것은, 같은 상관계수 값을 갖는다는 것과 분포양상이 같다는 것은 다른 의미라는 것이다. 위키에 있는 그림에서 이 예를 보면 다음과 같다.다루는 데이터에 따라 ‘분포가 비슷하다’ 는 것의 의미가 달라질 수 있는데, 만약 두 데이터의 선형관계 중 기울기가 비슷한 것인가를 보기 위해서는 선형회귀 시킨 것의 alpha 값, 즉 기울기를 따로 보아야 한다. PCC값은 기울기와 데이터의 noise를 같이 보는 것이기 때문이다. 즉, 위 그림에서 첫 번째 줄에 있는 데이터들은 기울기는 대부분 비슷하나 noisy한 정도가 변하기 때문에 PCC 값이 작아지는 것을 볼 수 있다.r 값, 즉 PCC 값의 제곱은 흔히 말하는 r 제곱값(r-square) 으로, coefficient of determination 의 값인데, 한 변수의 변화량이 다른 변수의 변화량으로 얼마나 설명이 될 수 있는 것인가를 표현한다. 만약 이 값이 1 이면 한 변수의 변화량으로 다른 변수의 변화량을 100% 표현할 수 있다 하겠다.PCC 값에 대한 p-value도 존재하는데, PCC 값이 0 이 아닌 것에 대한 통계적 유의미함을 표현한다. 이와 같은 값이 필요한 이유는 모집단의 PCC 값이 0 이어도 sampling 을 할 경우 우연히 PCC 값이 0 이 아닌 값이 되도록 sampling 될 수 있기 때문이다. 이와 같은 경우에 사용할 수 있는 p-value 를 계산하는 법은 위키 에 나와 있고, 몇 가지 예는 이 페이지 에 있다. 같은 통계적 유의미함 (같은 p-value)에 대해서는 데이터 개수가 크면 클수록 PCC 값이 작아진다는 것을, 다시 말해, 데이터를 많이 sampling 할수록 PCC 값이 작아도 유의미해진다는 것을 예측할 수 있고, 실제로도 그렇다.위와 같은 생각을 C++ 코드로 나타내면 다음과 같다.). 상관계수는 단지 두 변수가 관련이 있는지 없는지만을 나타낼 뿐이다. 키와 신발 크기는 분명 상관계수가 크겠지만 큰 신발을 신는다고 해서 키가 커지지 않는다. 또는 오후 2시부터 3시까지 강남역 6번 출구에서 나오는 여자들이 입고 있는 옷의 무게와 그 날 오후 2시의 기온은 anti-correlation 을 갖겠지만 여자들이 한겨울에 가벼운 옷을 입는다고해서 온도가 올라가지는 않는다. 언론에서 자주 이것을, 일부러인지 몰라서인지, 혼동하는데, 예를 들면 주가지수가 떨어지는 것과 자살인구의 상관계수를 주가지수가 떨어져서 자살자가 많아졌다고 해석하는 것과 같은 것이다. 사실에 있어서도, 가치에 있어서도 한국은 역시나 제대로 된 언론이 거의 없다. 담배가 보급되면서 평균수명이 급격히 증가했는데, 이것을 담배가 평균수명을 증가시킨 요인으로 해석하지는 않아야 한다. 담배가 보급될즈음 공중위생이란 개념이 등장했기 때문에 평균수명이 증가한 것이다.

[통계] 상관관계(Correlation Coefficient)

1. 상관관계(Correlation Coefficient)

1.1 상관관계란?

– [의미] 상관관계는 두 변수 간의 직선관계 를 나타냅니다. 상관관계가 있다는 것은 인과관계가 있다는것이 아닙니다. 상관관계가 높다고해서 두 변수에서 하나의 변수가 다른 변수의 원인을 설명할수는 없습니다. 이유는 알 수 없지만, 상관관계가 높을 뿐이죠.

– [부호] 상관관계 값이 0에 가까울수록 직선관계가 없으며, -1에 가까울수록 강한 음의관계, +1에 가까울수록 강한 양의 관계를 가집니다.

– [지표] 상관관계를 나타내는 지표 를 상관계수 라고 합니다. 대표적인 상관계수로는 피어슨 상관계수, 스피어만 상관계수가 있습니다.

– 상관관계를 분석하는데 있어서 가장 기본적이고 직관적인 방법은 산점도 를 살펴보는 것입니다. 산점도에서 분포가 직선에 가까울수록 상관관계가 높다고 할 수 있습니다.

2. 상관관계의 지표

2.1 공분산(Covariance)

– [의미] 공분산(covariance)은 2개의 확률변수의 선형 관계를 나타내는 값(위키피디아) 이라고 합니다. 위에서 본 상관관계의 정의와 거의 일치하죠. 하지만 사실상 공분산은 상관계수로 쓰이지 않습니다. 그 이유는 변수의 단위에 영향을 많이 받기 때문입니다. 아래에서 다시 한 번 설명하도록 하겠습니다.

– [부호] 공분산의 값은, 두 변수가 선형관계가 없는 경우 0 을 가지며, 두 변수가 비례하는 경우 양수 의 값, 반비례의 경우 음수 의 값을 갖습니다.

분산(Variance) 공분산(Coveriance) 변수 1개의 분포 형태 변수 2개의 분포 형태 표본의 편차제곱의 평균 X의 편차와 Y 편차를 곱한 것의 평균

– 빠른 이해를 위해서 아주 간단한 예제를 하나 보고 가겠습니다.

: 아래는 데이터의 개수가 3인 변수 X,Y가 있습니다. 이 변수의 공분산과 상관계수를 구하는 과정을 아래 그림으로 살펴보겠습니다.

2.2 피어슨 상관계수( Pearson Correlation Coefficient ,PCC)

– 위에서 구한 상관계수가 바로 피어슨 상관계수입니다.

– 피어스 상관계수는 표준점수(Z)값을 통해서 구하는 방법도 있는데요, 아래 이미지와 같습니다.

: 표준점수로 계산할 시 (N-1)로 나누어준다는 것 을 기억하면 되겠습니다!

2.3 스피어만 상관계수(Spearman Correlation)

– 스피어먼 상관 계수는 ” 순위가 매겨진 변수 간의 피어슨 상관 계수”로 정의 됩니다.

– 따라서 통계적 계산에서 순서척도(ordinal scale)가 적용되는 상관분석에서는 스피어먼 상관 계수 가 사용되며 간격척도가 적용되는 변수들 간의 분석에서는 피어슨 상관 계수 가 사용됩니다(위키피디아)

– 스피어만 상관계수의 식은 피어슨 상관계수와 동일합니다. 아래 그림의 왼쪽을 보시면 위에서 본 식과 동일한것을 볼 수있습니다. 다만, 스피어만 상관계수는 di = Xi – Yi 를 대입하여 오른쪽과 같이 변형하여 사용하는것이 일반적입니다.

(※ 스피어만 상관계수에서 1- 다음항 의 6은 다른 기호(시그마 등)가 아니라 숫자 6입니다!)

– 예를 들어, 한 고등학교 3학년 학생들의 모의고사 성적을 과목별로 등수를 매겼을 때, 언어영역 등수와 수리영역 등수간의 상관관계를 확인하기 위해서는 스피어만 상관계수로 분석할 수 있습니다.

– 빠른 이해를 위해 구체적으로 스피어만 점수를 구하는 예시를 보겠습니다.

[예시] SAT 점수와 기말고사 성적이 순위척도로 되어있는 경우의 상관관계 분석

SAT 점수(X)의 순위와 기말고사 점수(Y)의 순위를 먼저 구합니다(X rank, Y rank). 여기서 주목할점은, 순위가 같은 경우에는 같은 점수를 부여합니다. 아래 X rank에서 SAT 점수가 565로 같은 2 데이터의 경우 6,7 위에 해당하는것을 6.5로 하여 동등하게 나누었습니다.

■ 공부할때 도움되시길 바라며, 두 상관계수(피어슨/스피어만)를 구하는 과정을 이해하기 쉽게 예제파일을 엑셀로 만들었습니다. 자유롭게 사용하셔도 되며, 사용시 댓글만 남겨주세요~

3. 상관관계의 해석

3.1 상관관계에 영향을 주는 요인들

1. 상관계수는 just 선형관계(linearity)

: 상관계수는 선형관계, 직선관계를 나타내는 값이기 때문에 직선이 아닌 형태의 관계를 가진 경우에는 나타낼 수가 없다는 한계점이 있기 때문에 꼭 상관계수를 볼때에는 산점도를 먼저 확인해야합니다.

: 아래 그림에서 0에 해당하는 핑크 박스의 경우들에도 모두 상관계수 값이 0이지만, 산점도를 보고 다른 경우의 수를 생각해서 추가적으로 분석할 수 있을 것입니다.

2. 관측치들이 충분한 변량을 가지고 있어야함

– 두 변수의 상관관계를 충분히 나타내기 위해서는 한 변수가 다른 변수에 대해서 충분한 변량을 가지고 있어야합니다 .

– 예를 들어서 IQ와 시험성적간의 상관계수를 구한다고 할때, 확보한 IQ의 범위가 140 이상인 관측치밖에 없다면, 두 변수간 상관관계가 매우 낮게 나올 것입니다.

3. 관측수의 크기

– 일반적으로 상관관계를 계산하기 위한 샘플의 관측치 수는 상관관계의 크기에 영향을 주지 않습니다.

– 하지만 관측치 수의 크기가 커지면 상관관계의 정확도를 높일 수 있습니다.

3.2 상관관계의 해석

1. 상관계수의 스케일은?

– 상관계수는 순서형(ordinal) 척도입니다.

– 즉, 상관계수 r값이 0.4와 0.6간의 차이가 0.6과 0.8간의 차이와 동일하다고 할수 없으며, 0.4 값이 0.2의 2배에 해당된다고 말할수도 없습니다.

2. 상관계수 값의 해석

절대값 의미 0.9~1.0 매우 높은 음/양의 상관관계 0.7~0.9 높은 음/양의 상관관계 0.5~0.7 moderate 음/양의 상관관계 0.0~0.1 상관관계가 거의 없음

3. ‘상관계수 0.2’의 의미는?

– 절대적인 숫자 값에 대한 해석은 연구자, 연구목적, 연구분여에 따라서 다를 수 있다 . 즉, 의미있다고 볼 수도 있고 의미없다고 볼 수도 있습니다.

– 예를들어 암 치료에 효과적인 신약개발의 경우, 신약 투여량과 암의 회복속도 간의 상관관계가 0.2라고 할때, 일반적인 상황에서는 0.2가 낮은 약한 상관관계를 보인다고 할 수 있지만 의학계에서는 0.2라는 상관계수도 매우 중요한 발견이라고 여길 수 있습니다.

4. 상관계수와 유의수준(p-value)

– 상관계수와 p-value는 서로 다른 의미를 지닌 값입니다. 아래의 두 가지 경우를 예로 살펴보겠습니다.

1) 상관계수의 값은 크지만 p-value가 유의미하지 않은 경우

– 예를들어 r= 0.9 이지만 p=0.25인 경우, 높은 상관관계를 보이지만 p-value값이 터무늬없이 높습니다. 유의미하지 않은 값이죠. 즉 결과가 정확하다고 볼 수 없다는 의미입니다.

– 일반적으로 p값은 샘플의 크기에 영향을 받지만, 상관계수는 샘플의 크기와는 무관합니다. 이런 경우, 샘플의 수를 증가시켜보면 유의미한 p값을 얻을 수도 있습니다.

2) 상관계수의 값은 작지만 p-value가 유의미한 경우

– 예를들어 r= 0.035 이지만, p<0.05인 경우, 상관계수의 값은 작아서 두 변수의 상관관계는 없지만 p값은 아주 작아 유의미하다는 결론을 내릴 수 있습니다. - 유의미 하다는것의 결론은 귀무가설을 기각한다는것이고, 이 경우에서는 H0 : 'r=0' 이라는 가설을 기각한다는 말입니다. 즉 상관관계 0.035의 값이 0이 아니라는 것을 의미합니다. - 즉 r≠0 이지만, 그렇다고 r이 큰 값은 아니기 때문에 중요한 발견이라고 할 수는 없는 것이지요. - 글의 상단에서 말씀드린것처럼 상관계수로는 두 변수의 인과관계를 알 수없고 단지 직선관계만 확인할 수 있다고 하였습니다. 그렇다면, 두 변수의 인과관계는 어떻게 확인할 수 있을까요 ? 그 방법이 바로 '회귀분석법'입니다. 다음 글에서는 회귀분석에 대해서 살펴보도록 하겠습니다. 2021.05.23 - [통계 분석(Statistics)] - [통계 기초] 선형회귀분석

키워드에 대한 정보 피어슨 상관계수 공식

다음은 Bing에서 피어슨 상관계수 공식 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.

이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!

사람들이 주제에 대해 자주 검색하는 키워드 rstat101 week5 – 상관계수(correlation coefficient) 손으로 구하기

  • ADP/ADsP
  • 데이터자격시험
  • 대학통계
  • 상관계수

rstat101 #week5 #- #상관계수(correlation #coefficient) #손으로 #구하기


YouTube에서 피어슨 상관계수 공식 주제의 다른 동영상 보기

주제에 대한 기사를 시청해 주셔서 감사합니다 rstat101 week5 – 상관계수(correlation coefficient) 손으로 구하기 | 피어슨 상관계수 공식, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.

See also  Mały Książe Test Ze Znajomości Lektury Wsip | Quiz Mały Książę 17073 명이 이 답변을 좋아했습니다

Leave a Comment