Case B:经济学 / 管理学 / 社会科学实证
配套课程:plan v3 模块三(备选)+ 模块四(论文写作)+ 模块六(投稿)
研究蓝图
- 研究问题:数字经济发展水平对区域创新能力的影响——基于省级面板数据的实证分析
- 研究方法:省级面板回归 + 中介效应检验 + 稳健性检验
- 样本:30 个省/自治区/直辖市 × 10 年(2014–2023) = 300 个观测(清洗后约 273)
- 核心变量:
- 自变量 X:DigEcon_Index(数字经济发展指数)
- 中介变量 M:HumanCap_per10k(人力资本)、IndustryStr_Tertiary(产业结构)
- 因变量 Y:Innovation_Index(创新能力综合指数)
文件清单
| 文件 | 说明 |
|---|---|
dataset_B_provincial_economics.csv | 面板数据(300 观测,10 年跨度,达 SSCI 经管面板研究典型规模) |
dataset_B_provincial_economics.xlsx | Excel 版本(保留作历史归档) |
generate_dataset.py | 数据生成脚本(可重跑) |
data_dictionary.md | 数据字典 |
README.md | 本文件 |
快速上手
通识轨(Jamovi 用户)
- 下载
dataset_B_provincial_economics.csv - 打开 Jamovi → Open → 选择该 CSV
- 重要:Jamovi 默认按横截面处理,做面板回归需用 R 模块或导出到 Python
- 可直接做的:描述统计、ANOVA(按 Region 分组)、相关、OLS 回归
技术进阶轨(Python 用户)
python
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf
df = pd.read_csv('dataset_B_provincial_economics.csv').dropna()
# 1. 普通 OLS(基础)
model_ols = smf.ols(
'Innovation_Index ~ DigEcon_Index + HumanCap_per10k + IndustryStr_Tertiary + '
'Urbanization_Rate + GDP_PerCap',
data=df
).fit()
print(model_ols.summary())
# 2. 双向固定效应(推荐做面板时使用)
model_fe = smf.ols(
'Innovation_Index ~ DigEcon_Index + HumanCap_per10k + IndustryStr_Tertiary + '
'C(Province) + C(Year)', # 省 + 年固定效应
data=df
).fit(cov_type='cluster', cov_kwds={'groups': df['Province']})
print(model_fe.summary())
# 3. 中介检验(详见第 47 课 Jupyter 模板)预期统计结果
跑出来如果不在以下范围内,可能是清洗或方法有误:
- 描述统计:
- DigEcon_Index 均值 ~60,跨地区差异显著(East > Central > West)
- Innovation_Index 均值 ~36,East 平均 60+,West 平均 ~22
- 相关:DigEcon-Innovation r ≈ 0.95(高,注意共线性)
- OLS 回归:R² ≈ 0.95(注:模拟数据偏高,真实研究 R² 通常 0.5–0.85)
- 中介:DigEcon → IndustryStr → Innovation,间接效应 ≈ 0.32, 95% CI [0.23, 0.41]
- VIF:DigEcon 与 HumanCap 共线性高(VIF > 10),稳健性检验必做
与课程的对应
| 课次 | 本数据集的角色 |
|---|---|
| 第 24 课 | 描述统计:按地区分组对比 |
| 第 25 课 | ANOVA:地区间 Innovation 差异 |
| 第 26 课 | 多元回归(基础 OLS) |
| 第 29 课 | 中介效应 Bootstrap |
| 第 31 课 | 案例 B 综合实战 |
| 第 47 课(进阶轨) | Python 跑面板固定效应回归 |
| 模块四 | 完整经管实证论文写作 |
| 模块六 | 论文同行互评 + Cover Letter + Rebuttal |
数据来源说明
- 本数据为完全模拟,数据生成保留了真实省级面板的常见特征:
- 地区分层差异(East > Central > West)
- 时间趋势(数字经济整体上升)
- 共线性问题(让多重共线性课有得演示)
- 缺失值(5% 在次要变量)
- 真实研究请参考:
- 《中国统计年鉴》
- 《中国数字经济发展白皮书》
- 国家信息中心数字经济发展指数
- 北大数字普惠金融指数
数据集版本:v3.1 (2026-05) | 维护:年度更新
