篆体字网 > 知识库

pearson相关分析

来源:篆体字网 2023-12-30 14:41:41 作者:篆字君

1.数据说明

这里我对R语言的自带的数据包中states.x77(关于美国50个州的某些数据)第1至6列的50份数据从统计的角度以及R语言的角度进行分析,看看R语言是怎么做相关分析的,同时怎么看分析出的结果
首先我们观察一下states.x77中第1至6列的数据及其意义

列名 解释 单位 Population 人口 人 Income 人均收入 美元/人 Illiteracy 文盲率 % Life Exp 预期寿命 年 Murder 谋杀率 %(每100,000人) HS Grad 高中毕业率 %

2.统计学的计算过程

(1)我们拿出文盲率(设为x)和预期寿命(设为y)来从统计的角度计算相关系数r以及显著性水平α:

首先,我们假设文盲率和预期寿命符合计算Pearson相关系数的变量要求:
①两变量相互独立
②两变量为连续变量
③两变量的分布遵循正态分布
④两变量呈线性关系

换句话来说,当你选择的变量符合上要求的时候,可以选择使用Pearson相关系数来求两个变量间的相关关系

(2)按照上一篇文章对相关分析的解说,计算Pearson相关系数的时候,有两个步骤:

①计算相关系数r
②计算显著性水平α

因此这里作出简单的讲解:
①计算相关系数r
Pearson的相关系数r的公式为:
那么把数据代入到公式中计算

1234567891011121314

这个时候我们根据1977年发布的美国50个州的states.x77样本中的数据算出了相关系数r=-0.5884779,因为样本states.x77只是从总体(设为总体A)抽出来的数据(总体应该是这么多年来美国各个州的文盲率和预期寿命的数据),那么这个states.77样本中算出的相关系数r并不一定能代表总体A的相关系数ρ

②计算显著性水平α
设想一下,如果我们的总体A的相关系数ρ实际上为0的(也就是说总体上文盲率和预期寿命没有相关关系),因为误差或者抽样偏差的关系,抽样所得的states.x77的文盲率和预期寿命数据计算出来的相关系数r并不为0(也就是说样本上显示文盲率和预期寿命有相关关系),因此要进行显著性检验:

提出假设:
H0:总体A的相关系数ρ=0(也就是说假设总体上文盲率和预期寿命没有相关关系)
H1:总体A的相关系数ρ≠0(也就是说总体上文盲率和预期寿命有相关关系)

计算检验的统计量:
查表确定显著性水平α

把数据代入公式中计算:

123

得出T=-5.042706

3.R语言应用以及观察结果

在R语言中,有直接的函数cor( )计算出Pearson相关系数
同样是两个步骤:
计算文盲率和预期寿命之间的相关系数r:

123

和我们使用计算Pearson系数计算出的结果一致
进行显著性检验

12345678910111213141516171819

4.R语言扩展应用

当我们不仅仅需要计算文盲率和预期寿命的相关关系,而是计算state.x77中各个数据之间的相关关系,使用cor()也是可以做到的:
再次按照相关分析的步骤:
①计算相关系数r(两两变量间的相关系数)

12345678910111213141516171819

②计算显著性水平α

123456789101112131415161718192021222324252627282930

从以上结果可以看出,具有显著性相关关系(设显著性水平为0.05,即超过95%的概率有相关关系)的两两变量有:

变量 P值 r值 Population,Murder 0.01 0.34 Income, Illiteracy 0.00 -0.44 Income,Life Exp 0.02 0.34 Income, HS Grad 0.00 0.62 Illiteracy, Life Exp 0.00 -0.59 Illiteracy, Murder 0.00 0.70 Illiteracy, HS Grad 0.00 -0.66 Life Exp, HS Grad 0.00 0.58 Life Exp, Murder 0.00 -0.78 Murder, HS Grad 0.00 -0.49

上一篇:爸爸不哭

下一篇:7805中文资料

相关阅读