Skip to content

Case B 数据字典 (Data Dictionary v3.1)

配套数据:dataset_B_provincial_economics.csv(30 省 × 5 年 = 150 观测) 适用课程:模块三(备选演示数据)+ 模块四(论文写作) 研究主题:数字经济发展水平对区域创新能力的影响——人力资本与产业结构的中介作用


一、基本信息

  • 样本类型:省级面板数据(Province-Year Panel)
  • 横截面单位:30 个省/自治区/直辖市(西藏、港澳台未纳入)
  • 时间维度:2014–2023 共 10 年
  • 总观测数:300(清洗后约 273)
  • 变量数量:14

二、变量定义表

变量名标签类型取值范围说明
Province省份名称字符串北京 / 天津 / ...30 个省级行政区
Year年份整数2019–20235 年面板
Region三大地区名义East / Central / West东 11 / 中 8 / 西 11(基于经济地理分组)
GDP_PerCap人均 GDP连续2.5–30(万元)控制变量
DigEcon_Index数字经济发展指数连续20–95核心自变量 X
HumanCap_per10k人力资本连续800–5500(每万人专科以上)中介变量 M1
IndustryStr_Tertiary产业结构连续30–85(第三产业占比 %)中介变量 M2
Urbanization_Rate城镇化率连续30–90(%)控制变量
ForeignTrade_GDPRatio对外开放度连续0.05–1.5控制变量
GovExp_GDPRatio政府支出占比连续12–45(%)控制变量
RD_IntensityR&D 强度连续0.3–6.5(R&D/GDP %)中间变量 / 稳健性检验用
Innovation_Index区域创新能力综合指数连续10–95核心因变量 Y
PatentApps_per10k每万人专利申请数连续0.2–35替换因变量(稳健性)
HighTech_Output_Bil高新技术产业产值连续30–6000(亿元)替换因变量(稳健性)

三、研究模型

                            +———— HumanCap (M1) ————+
                           /                        \
DigEcon (X) ——————————————————————————————————————→ Innovation (Y)
                           \                        /
                            +———— IndustryStr (M2)—+
                       (controlling: GDP, Urbanization, Trade, GovExp)

假设

  • H1:DigEcon 显著正向预测 Innovation(直接路径 c')
  • H2:DigEcon → HumanCap → Innovation 中介路径成立
  • H3:DigEcon → IndustryStr → Innovation 中介路径成立
  • H4:地区差异(East/Central/West)调节上述路径强度

四、数据清洗步骤

  1. 剔除缺失观测:保留所有变量均非空的行(清洗后 ~136 行)
  2. 变量标准化(如做交互效应或路径分析)
  3. 共线性检查:DigEcon 与 HumanCap、RD_Intensity 高度相关(r > 0.9),需用 VIF 监测
  4. 固定效应处理(进阶轨):引入 Province 与 Year 虚拟变量

五、可在本数据上跑通的统计分析

分析方法课次预期结果
描述统计第 24 课DigEcon 均值 ~60,跨地区差异明显
ANOVA(地区差异)第 25 课三大地区 Innovation 显著差异
相关分析第 26 课DigEcon-Innovation: r ≈ 0.95(高)
多元回归第 26 课β(DigEcon)=0.42, β(IndustryStr)=0.37, R² ≈ 0.95
Bootstrap 中介第 29 课间接效应 ≈ 0.32, 95% CI [0.23, 0.41]
分样本回归(异质性)模块四东部 β 更大;西部回归系数衰减
稳健性检验模块四替换 Innovation_Index 为 PatentApps 或 HighTech_Output
固定效应面板(进阶轨)第 47 课双向固定效应模型,β(DigEcon) 仍显著

六、面板数据的额外注意事项

  • 横截面 vs 纵向:本数据是 30 单位 × 5 年的面板,适合做面板回归而非简单 OLS
  • 观测不独立:同省不同年份高度相关,须在回归中聚类标准误(clustered SE by Province)
  • 样本量足够大吗:N=150 对面板回归足够,但分地区子样本(East 55 / Central 40 / West 55)做异质性时要谨慎

七、注意事项

  • 本数据为模拟数据,不可作为真实政策解读依据
  • 真实研究应使用国家统计局年鉴、CSY、China Industrial Economy Statistical Yearbook 等数据源
  • 数字经济发展指数可参考"国家信息中心数字经济发展指数"或"赛迪指数"等权威发布

版本:v3.1 (2026-05) | 维护:跟随 plan v3.x 同步更新

助力学者在 AI 时代极速产出高质量学术成果 · 55 课时双轨制 · plan v3.3