在统计学中,决定系数(Coefficient of Determination),通常记作 \( R^2 \),是用来衡量回归模型对观测数据拟合程度的一种指标。它表示因变量的变化中有多少比例可以由自变量解释。决定系数的取值范围是 [0, 1],值越接近 1,说明模型对数据的拟合效果越好。
决定系数的定义
决定系数 \( R^2 \) 的定义为:
\[
R^2 = 1 - \frac{SS_{res}}{SS_{tot}}
\]
其中:
- \( SS_{res} \) 是残差平方和(Residual Sum of Squares),即实际值与预测值之间的差异平方和。
- \( SS_{tot} \) 是总平方和(Total Sum of Squares),即实际值与均值之间的差异平方和。
残差平方和 \( SS_{res} \)
残差平方和 \( SS_{res} \) 定义为:
\[
SS_{res} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
\]
其中:
- \( y_i \) 是第 \( i \) 个样本的实际值。
- \( \hat{y}_i \) 是第 \( i \) 个样本的预测值。
总平方和 \( SS_{tot} \)
总平方和 \( SS_{tot} \) 定义为:
\[
SS_{tot} = \sum_{i=1}^{n} (y_i - \bar{y})^2
\]
其中:
- \( \bar{y} \) 是因变量 \( y \) 的平均值。
推导过程
为了更好地理解决定系数的含义,我们可以通过分解总平方和 \( SS_{tot} \) 来进一步解释。
首先,我们将 \( SS_{tot} \) 分解为两部分:
\[
SS_{tot} = SS_{reg} + SS_{res}
\]
其中:
- \( SS_{reg} \) 是回归平方和(Regression Sum of Squares),表示模型解释的部分。
- \( SS_{res} \) 是残差平方和,表示未被模型解释的部分。
通过这个分解,我们可以重新表达决定系数 \( R^2 \):
\[
R^2 = \frac{SS_{reg}}{SS_{tot}}
\]
这意味着决定系数 \( R^2 \) 实际上是回归平方和占总平方和的比例。换句话说,它反映了模型能够解释的因变量变化的比例。
结论
决定系数 \( R^2 \) 是一个非常重要的统计指标,用于评估回归模型的拟合优度。通过上述推导可以看出,\( R^2 \) 的计算基于对数据变异性的分解,即总变异被分解为可由模型解释的部分和无法解释的部分。因此,\( R^2 \) 提供了一种直观的方式来衡量模型的预测能力。
希望本文的推导能帮助您更深入地理解决定系数的数学原理及其在实际应用中的意义。