【相关系数的计算公式】在统计学中,相关系数是用来衡量两个变量之间线性关系强度和方向的一个重要指标。它可以帮助我们了解两个变量是否趋于同时增加或减少,或者其中一个增加而另一个减少。常见的相关系数有皮尔逊相关系数、斯皮尔曼等级相关系数和肯德尔等级相关系数等。
下面将对这些常见相关系数的计算公式进行总结,并以表格形式展示,便于理解和应用。
一、皮尔逊相关系数(Pearson Correlation Coefficient)
定义:衡量两个连续变量之间的线性相关程度,取值范围为 -1 到 1。
- 1 表示完全正相关
- -1 表示完全负相关
- 0 表示无线性相关
计算公式:
$$
r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \cdot \sum (y_i - \bar{y})^2}}
$$
其中:
- $ x_i, y_i $ 是样本点的观测值
- $ \bar{x}, \bar{y} $ 是样本均值
二、斯皮尔曼等级相关系数(Spearman Rank Correlation Coefficient)
定义:用于衡量两个变量的等级(排序)之间的相关性,适用于非正态分布或非线性数据。
计算公式:
$$
\rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}
$$
其中:
- $ d_i = R(x_i) - R(y_i) $,即两个变量在各自排序中的差值
- $ n $ 是样本数量
当存在相同排名时,需使用更复杂的调整公式。
三、肯德尔等级相关系数(Kendall's Tau)
定义:用于衡量两个变量的有序排列之间的一致性,适用于小样本或有序分类数据。
计算公式:
$$
\tau = \frac{C - D}{\frac{n(n - 1)}{2}}
$$
其中:
- $ C $ 是一致对数(Concordant Pairs)
- $ D $ 是不一致对数(Discordant Pairs)
- $ n $ 是样本数量
四、相关系数对比表
| 相关系数类型 | 适用数据类型 | 计算公式 | 特点 |
| 皮尔逊相关系数 | 连续变量,线性关系 | $ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \cdot \sum (y_i - \bar{y})^2}} $ | 最常用,要求数据线性且近似正态 |
| 斯皮尔曼等级相关系数 | 非正态数据或有序数据 | $ \rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} $ | 基于排序,适合非线性或离群值 |
| 肯德尔等级相关系数 | 小样本或有序分类数据 | $ \tau = \frac{C - D}{\frac{n(n - 1)}{2}} $ | 适合有序变量,计算较复杂 |
五、总结
在实际数据分析过程中,选择合适的相关系数是关键。如果数据符合正态分布且呈线性关系,推荐使用皮尔逊相关系数;若数据为非正态或等级数据,可以考虑斯皮尔曼或肯德尔相关系数。每种方法都有其适用场景和限制,合理选择有助于更准确地分析变量间的关系。


