Skip to content

Case B:经济学 / 管理学 / 社会科学实证

配套课程:plan v3 模块三(备选)+ 模块四(论文写作)+ 模块六(投稿)


研究蓝图

  • 研究问题:数字经济发展水平对区域创新能力的影响——基于省级面板数据的实证分析
  • 研究方法:省级面板回归 + 中介效应检验 + 稳健性检验
  • 样本:30 个省/自治区/直辖市 × 10 年(2014–2023) = 300 个观测(清洗后约 273)
  • 核心变量
    • 自变量 X:DigEcon_Index(数字经济发展指数)
    • 中介变量 M:HumanCap_per10k(人力资本)、IndustryStr_Tertiary(产业结构)
    • 因变量 Y:Innovation_Index(创新能力综合指数)

文件清单

文件说明
dataset_B_provincial_economics.csv面板数据(300 观测,10 年跨度,达 SSCI 经管面板研究典型规模)
dataset_B_provincial_economics.xlsxExcel 版本(保留作历史归档)
generate_dataset.py数据生成脚本(可重跑)
data_dictionary.md数据字典
README.md本文件

快速上手

通识轨(Jamovi 用户)

  1. 下载 dataset_B_provincial_economics.csv
  2. 打开 Jamovi → Open → 选择该 CSV
  3. 重要:Jamovi 默认按横截面处理,做面板回归需用 R 模块或导出到 Python
  4. 可直接做的:描述统计、ANOVA(按 Region 分组)、相关、OLS 回归

技术进阶轨(Python 用户)

python
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf

df = pd.read_csv('dataset_B_provincial_economics.csv').dropna()

# 1. 普通 OLS(基础)
model_ols = smf.ols(
    'Innovation_Index ~ DigEcon_Index + HumanCap_per10k + IndustryStr_Tertiary + '
    'Urbanization_Rate + GDP_PerCap',
    data=df
).fit()
print(model_ols.summary())

# 2. 双向固定效应(推荐做面板时使用)
model_fe = smf.ols(
    'Innovation_Index ~ DigEcon_Index + HumanCap_per10k + IndustryStr_Tertiary + '
    'C(Province) + C(Year)',  # 省 + 年固定效应
    data=df
).fit(cov_type='cluster', cov_kwds={'groups': df['Province']})
print(model_fe.summary())

# 3. 中介检验(详见第 47 课 Jupyter 模板)

预期统计结果

跑出来如果不在以下范围内,可能是清洗或方法有误:

  • 描述统计
    • DigEcon_Index 均值 ~60,跨地区差异显著(East > Central > West)
    • Innovation_Index 均值 ~36,East 平均 60+,West 平均 ~22
  • 相关:DigEcon-Innovation r ≈ 0.95(高,注意共线性)
  • OLS 回归:R² ≈ 0.95(注:模拟数据偏高,真实研究 R² 通常 0.5–0.85)
  • 中介:DigEcon → IndustryStr → Innovation,间接效应 ≈ 0.32, 95% CI [0.23, 0.41]
  • VIF:DigEcon 与 HumanCap 共线性高(VIF > 10),稳健性检验必做

与课程的对应

课次本数据集的角色
第 24 课描述统计:按地区分组对比
第 25 课ANOVA:地区间 Innovation 差异
第 26 课多元回归(基础 OLS)
第 29 课中介效应 Bootstrap
第 31 课案例 B 综合实战
第 47 课(进阶轨)Python 跑面板固定效应回归
模块四完整经管实证论文写作
模块六论文同行互评 + Cover Letter + Rebuttal

数据来源说明

  • 本数据为完全模拟,数据生成保留了真实省级面板的常见特征:
    • 地区分层差异(East > Central > West)
    • 时间趋势(数字经济整体上升)
    • 共线性问题(让多重共线性课有得演示)
    • 缺失值(5% 在次要变量)
  • 真实研究请参考:
    • 《中国统计年鉴》
    • 《中国数字经济发展白皮书》
    • 国家信息中心数字经济发展指数
    • 北大数字普惠金融指数

数据集版本:v3.1 (2026-05) | 维护:年度更新

助力学者在 AI 时代极速产出高质量学术成果 · 55 课时双轨制 · plan v3.3