第 26 课:统计分析(二)相关与多元回归
🎯 核心实操目标
通关要求:掌握 Pearson 相关 + 多元线性回归 + 前提假设检验(VIF、Durbin-Watson)+ "相关 ≠ 因果" 铁律。本课你将用 Case A 跑通"AI 焦虑 + 学习策略 → 自我效能"的多元回归,并学会规范报告 β 系数与 R²。
📋 课前准备(5 分钟自检)
工具/账号
- [ ] Jamovi 2.5+ 或 SPSS 29+
- [ ] 第 23 课清洗后的数据
数据/素材
- [ ] 三个量表均分变量 + 控制变量(性别/年级/专业)
应急通道
- VIF > 10 共线性严重 → 删除最相关的预测变量,或合并为综合得分
- 残差非正态 → 用 Bootstrap 法估计置信区间
场景痛点破冰:相关 ≠ 因果
"学生兴奋地报告:'AI 焦虑负向预测自我效能 (β = -.34),所以 AI 焦虑导致了自我效能下降。'
审稿人立刻打回:'You cannot infer causation from cross-sectional correlations. The relationship could be reversed (low self-efficacy causes higher anxiety) or driven by a third variable (e.g., academic performance).'
横截面回归只能说"X 预测 Y",不能说"X 导致 Y"。 这一条规则违反 = 论文方法学硬伤 = 退稿。"
🗺️ 架构重组:相关 → 回归 → 因果的三个台阶
台阶 1: 相关(Pearson r)
↓ 只能说"X 与 Y 共变"
台阶 2: 回归(β 系数)
↓ 可以说"X 预测 Y"(控制其他变量后)
台阶 3: 因果
↓ 必须有: 时序优先 + 控制混淆 + 实验干预
横截面研究永远到不了这一台阶!🚀 拆解实战 A:Pearson 相关分析
Jamovi 操作
- Regression → Correlation Matrix
- Variables: 拖入 Anxiety_Mean / Strategy_Mean / Efficacy_Mean / Age 等
- 勾选:Pearson + Report significance + Flag significant correlations
Pearson 适用条件
| 条件 | 判断 |
|---|---|
| 连续变量 | ✅ 量表均分 / 年龄 |
| 大致正态分布 | ✅(N > 100 时较宽松) |
| 线性关系 | ✅(用散点图初步判断) |
| 无极端异常值 | ✅(清洗时已处理) |
不满足 → 用 Spearman 等级相关(适合非线性单调关系)
报告(APA)
Pearson 相关分析显示, AI 焦虑与学习策略呈中等负相关
(r = -.34, p < .001),
AI 焦虑与自我效能感呈中等负相关(r = -.30, p < .001),
学习策略与自我效能感呈中等正相关(r = .42, p < .001)。
(详见表 3)。🚀 拆解实战 B:多元线性回归
Jamovi 操作
- Regression → Linear Regression
- Dependent Variable:
Efficacy_Mean - Covariates:
Anxiety_Mean,Strategy_Mean - Factors(控制变量):
Gender,Grade - Model Coefficients 中勾选:
- Standardized estimate(β)
- 95% Confidence interval
- Model Fit:R² + Adjusted R² + F-test
- Assumption Checks:
- Collinearity statistics (VIF)
- Autocorrelation (Durbin-Watson)
- Q-Q plot of residuals
输出关键字段
| 字段 | 含义 | 判断 |
|---|---|---|
| β(Std. Estimate) | 标准化回归系数 | 正/负方向 + 大小 |
| t value | β/SE | 显著性检验统计量 |
| p value | 显著性 | < .05 显著 |
| 95% CI | 置信区间 | 不含 0 = 显著 |
| R² | 模型解释力 | 越大越好(社科 0.1-0.4 常见) |
| Adjusted R² | 调整后 R² | 防止过拟合 |
| F-test | 模型整体显著性 | p < .05 模型成立 |
| VIF | 多重共线性 | < 10 安全,> 10 严重 |
| Durbin-Watson | 残差独立性 | 接近 2 表示独立 |
报告(APA)
为检验 H1, 以自我效能感为因变量, AI 焦虑与学习策略为预测变量,
控制性别和年级, 构建多元线性回归模型。
模型整体显著, F(4, 495) = 35.21, p < .001, R² = .22 (Adjusted R² = .21),
表明四个预测变量共解释了自我效能感 22% 的方差。
控制其他变量后, AI 焦虑显著负向预测自我效能感
(β = -.21, t(495) = -4.92, p < .001, 95% CI [-.29, -.13]),
学习策略显著正向预测自我效能感
(β = .38, t(495) = 9.18, p < .001, 95% CI [.30, .46])。
H1 得到支持。
多重共线性诊断: 所有预测变量 VIF < 2.5, 排除共线性问题;
残差 Durbin-Watson = 1.98, 满足独立性假设。🚀 拆解实战 C:⚠️ "相关 ≠ 因果" 铁律
⚠️ 学术语言红线
横截面回归只能用以下动词: ✅ "predict"(预测) ✅ "is associated with"(关联) ✅ "is related to"(相关)
❌ "cause"(导致) ❌ "lead to"(引起) ❌ "results in"(结果是) ❌ "determine"(决定)
替换对照表
| ❌ 不可用 | ✅ 应使用 |
|---|---|
| "AI 焦虑导致自我效能下降" | "AI 焦虑负向预测自我效能" |
| "策略不足引起了焦虑增加" | "策略不足与较高焦虑相关" |
| "性别决定了焦虑水平" | "性别与焦虑水平存在显著差异" |
🚀 拆解实战 D:多重共线性诊断
VIF(方差膨胀因子)越大,共线性越严重:
| VIF | 解释 | 行动 |
|---|---|---|
| < 5 | 安全 | 无需处理 |
| 5–10 | 中度共线性 | 警告,考虑合并变量 |
| > 10 | 严重 | 必须处理(删除/合并/降维) |
Case B 案例(高 VIF)
Case B 数据集中 DigEcon_Index 与 HumanCap_per10k 相关 r = 0.91, 跑回归时 VIF 可能 > 8。处理方法:
- 删除其中一个(保留理论更重要的)
- 合并为综合得分
- 用 Ridge / Lasso 正则化回归
🚀 拆解实战 E:AI 辅助报告生成
markdown
【Role】APA 严谨的论文编辑。
【任务】下面是我从 Jamovi 跑出的多元回归输出(粘贴整张表),
请帮我撰写论文 4.3 节"假设检验"段落:
1. 严格使用 APA 格式: "β = -.21, t(495) = -4.92, p < .001, 95% CI [-.29, -.13]"
2. 明确报告 R² + Adjusted R² + F 检验
3. 给出 VIF 共线性诊断结论(VIF 范围)
4. **严格使用"预测"而非"导致"等因果动词!**
5. 明确说明 H1 / H2 是否得到支持
【Jamovi 输出】[粘贴]📦 本课交付物(提交给 AI 初审/讲师抽检)
- [ ] APA 相关矩阵表:三量表均分 + 控制变量的 Pearson r
- [ ] 多元回归结果表:含 β、SE、t、p、95% CI、R²、VIF 全字段
- [ ] 回归报告段落(约 300 字):含 H1 是否支持 + 共线性诊断
- [ ] "相关 ≠ 因果"自检:标出你的报告中所有动词,确认无"导致/决定/引起"
🏁 小结与自测 (Milestone Checklist)
- [ ] 我能正确解读 Pearson r 的方向 + 强度 + 显著性
- [ ] 我能跑多元回归并解读 β 系数 + R² + F 检验
- [ ] 我做了完整前提假设检验(VIF + Durbin-Watson + Q-Q plot)
- [ ] 我的报告永远用"预测/关联"而非"导致/决定"
- [ ] 我清楚 R² 在社科 0.1-0.4 是常见的,不要追求过高 R²
- [ ] 我清楚 VIF > 10 必须处理共线性问题
- [ ] 我能识别 AI 输出中的"过度解释"(如把横截面回归说成因果证据)
