Skip to content

第 26 课:统计分析(二)相关与多元回归

🎯 核心实操目标

通关要求:掌握 Pearson 相关 + 多元线性回归 + 前提假设检验(VIF、Durbin-Watson)+ "相关 ≠ 因果" 铁律。本课你将用 Case A 跑通"AI 焦虑 + 学习策略 → 自我效能"的多元回归,并学会规范报告 β 系数与 R²。

📋 课前准备(5 分钟自检)

工具/账号

  • [ ] Jamovi 2.5+ 或 SPSS 29+
  • [ ] 第 23 课清洗后的数据

数据/素材

  • [ ] 三个量表均分变量 + 控制变量(性别/年级/专业)

应急通道

  • VIF > 10 共线性严重 → 删除最相关的预测变量,或合并为综合得分
  • 残差非正态 → 用 Bootstrap 法估计置信区间

场景痛点破冰:相关 ≠ 因果

"学生兴奋地报告:'AI 焦虑负向预测自我效能 (β = -.34),所以 AI 焦虑导致了自我效能下降。'

审稿人立刻打回:'You cannot infer causation from cross-sectional correlations. The relationship could be reversed (low self-efficacy causes higher anxiety) or driven by a third variable (e.g., academic performance).'

横截面回归只能说"X 预测 Y",不能说"X 导致 Y"。 这一条规则违反 = 论文方法学硬伤 = 退稿。"

🗺️ 架构重组:相关 → 回归 → 因果的三个台阶

台阶 1: 相关(Pearson r)
   ↓ 只能说"X 与 Y 共变"
台阶 2: 回归(β 系数)
   ↓ 可以说"X 预测 Y"(控制其他变量后)
台阶 3: 因果
   ↓ 必须有: 时序优先 + 控制混淆 + 实验干预
   横截面研究永远到不了这一台阶!

🚀 拆解实战 A:Pearson 相关分析

Jamovi 操作

  1. Regression → Correlation Matrix
  2. Variables: 拖入 Anxiety_Mean / Strategy_Mean / Efficacy_Mean / Age 等
  3. 勾选:Pearson + Report significance + Flag significant correlations

Pearson 适用条件

条件判断
连续变量✅ 量表均分 / 年龄
大致正态分布✅(N > 100 时较宽松)
线性关系✅(用散点图初步判断)
无极端异常值✅(清洗时已处理)

不满足 → 用 Spearman 等级相关(适合非线性单调关系)

报告(APA)

Pearson 相关分析显示, AI 焦虑与学习策略呈中等负相关
(r = -.34, p < .001),
AI 焦虑与自我效能感呈中等负相关(r = -.30, p < .001),
学习策略与自我效能感呈中等正相关(r = .42, p < .001)。
(详见表 3)。

🚀 拆解实战 B:多元线性回归

Jamovi 操作

  1. Regression → Linear Regression
  2. Dependent Variable: Efficacy_Mean
  3. Covariates: Anxiety_Mean, Strategy_Mean
  4. Factors(控制变量): Gender, Grade
  5. Model Coefficients 中勾选:
    • Standardized estimate(β)
    • 95% Confidence interval
  6. Model Fit:R² + Adjusted R² + F-test
  7. Assumption Checks
    • Collinearity statistics (VIF)
    • Autocorrelation (Durbin-Watson)
    • Q-Q plot of residuals

输出关键字段

字段含义判断
β(Std. Estimate)标准化回归系数正/负方向 + 大小
t valueβ/SE显著性检验统计量
p value显著性< .05 显著
95% CI置信区间不含 0 = 显著
模型解释力越大越好(社科 0.1-0.4 常见)
Adjusted R²调整后 R²防止过拟合
F-test模型整体显著性p < .05 模型成立
VIF多重共线性< 10 安全,> 10 严重
Durbin-Watson残差独立性接近 2 表示独立

报告(APA)

为检验 H1, 以自我效能感为因变量, AI 焦虑与学习策略为预测变量,
控制性别和年级, 构建多元线性回归模型。

模型整体显著, F(4, 495) = 35.21, p < .001, R² = .22 (Adjusted R² = .21),
表明四个预测变量共解释了自我效能感 22% 的方差。

控制其他变量后, AI 焦虑显著负向预测自我效能感
(β = -.21, t(495) = -4.92, p < .001, 95% CI [-.29, -.13]),
学习策略显著正向预测自我效能感
(β = .38, t(495) = 9.18, p < .001, 95% CI [.30, .46])。

H1 得到支持。
多重共线性诊断: 所有预测变量 VIF < 2.5, 排除共线性问题;
残差 Durbin-Watson = 1.98, 满足独立性假设。

🚀 拆解实战 C:⚠️ "相关 ≠ 因果" 铁律

⚠️ 学术语言红线

横截面回归只能用以下动词: ✅ "predict"(预测) ✅ "is associated with"(关联) ✅ "is related to"(相关)

❌ "cause"(导致) ❌ "lead to"(引起) ❌ "results in"(结果是) ❌ "determine"(决定)

替换对照表

❌ 不可用✅ 应使用
"AI 焦虑导致自我效能下降""AI 焦虑负向预测自我效能"
"策略不足引起了焦虑增加""策略不足与较高焦虑相关"
"性别决定了焦虑水平""性别与焦虑水平存在显著差异"

🚀 拆解实战 D:多重共线性诊断

VIF(方差膨胀因子)越大,共线性越严重:

VIF解释行动
< 5安全无需处理
5–10中度共线性警告,考虑合并变量
> 10严重必须处理(删除/合并/降维)

Case B 案例(高 VIF)

Case B 数据集中 DigEcon_Index 与 HumanCap_per10k 相关 r = 0.91, 跑回归时 VIF 可能 > 8。处理方法:

  1. 删除其中一个(保留理论更重要的)
  2. 合并为综合得分
  3. 用 Ridge / Lasso 正则化回归

🚀 拆解实战 E:AI 辅助报告生成

markdown
【Role】APA 严谨的论文编辑。

【任务】下面是我从 Jamovi 跑出的多元回归输出(粘贴整张表),
请帮我撰写论文 4.3 节"假设检验"段落:

1. 严格使用 APA 格式: "β = -.21, t(495) = -4.92, p < .001, 95% CI [-.29, -.13]"
2. 明确报告 R² + Adjusted R² + F 检验
3. 给出 VIF 共线性诊断结论(VIF 范围)
4. **严格使用"预测"而非"导致"等因果动词!**
5. 明确说明 H1 / H2 是否得到支持

【Jamovi 输出】[粘贴]

📦 本课交付物(提交给 AI 初审/讲师抽检)

  • [ ] APA 相关矩阵表:三量表均分 + 控制变量的 Pearson r
  • [ ] 多元回归结果表:含 β、SE、t、p、95% CI、R²、VIF 全字段
  • [ ] 回归报告段落(约 300 字):含 H1 是否支持 + 共线性诊断
  • [ ] "相关 ≠ 因果"自检:标出你的报告中所有动词,确认无"导致/决定/引起"

🏁 小结与自测 (Milestone Checklist)

  • [ ] 我能正确解读 Pearson r 的方向 + 强度 + 显著性
  • [ ] 我能跑多元回归并解读 β 系数 + R² + F 检验
  • [ ] 我做了完整前提假设检验(VIF + Durbin-Watson + Q-Q plot)
  • [ ] 我的报告永远用"预测/关联"而非"导致/决定"
  • [ ] 我清楚 R² 在社科 0.1-0.4 是常见的,不要追求过高 R²
  • [ ] 我清楚 VIF > 10 必须处理共线性问题
  • [ ] 我能识别 AI 输出中的"过度解释"(如把横截面回归说成因果证据)

助力学者在 AI 时代极速产出高质量学术成果 · 55 课时双轨制 · plan v3.3