Case B 数据字典 (Data Dictionary v3.1)
配套数据:
dataset_B_provincial_economics.csv(30 省 × 5 年 = 150 观测) 适用课程:模块三(备选演示数据)+ 模块四(论文写作) 研究主题:数字经济发展水平对区域创新能力的影响——人力资本与产业结构的中介作用
一、基本信息
- 样本类型:省级面板数据(Province-Year Panel)
- 横截面单位:30 个省/自治区/直辖市(西藏、港澳台未纳入)
- 时间维度:2014–2023 共 10 年
- 总观测数:300(清洗后约 273)
- 变量数量:14
二、变量定义表
| 变量名 | 标签 | 类型 | 取值范围 | 说明 |
|---|---|---|---|---|
Province | 省份名称 | 字符串 | 北京 / 天津 / ... | 30 个省级行政区 |
Year | 年份 | 整数 | 2019–2023 | 5 年面板 |
Region | 三大地区 | 名义 | East / Central / West | 东 11 / 中 8 / 西 11(基于经济地理分组) |
GDP_PerCap | 人均 GDP | 连续 | 2.5–30(万元) | 控制变量 |
DigEcon_Index | 数字经济发展指数 | 连续 | 20–95 | 核心自变量 X |
HumanCap_per10k | 人力资本 | 连续 | 800–5500(每万人专科以上) | 中介变量 M1 |
IndustryStr_Tertiary | 产业结构 | 连续 | 30–85(第三产业占比 %) | 中介变量 M2 |
Urbanization_Rate | 城镇化率 | 连续 | 30–90(%) | 控制变量 |
ForeignTrade_GDPRatio | 对外开放度 | 连续 | 0.05–1.5 | 控制变量 |
GovExp_GDPRatio | 政府支出占比 | 连续 | 12–45(%) | 控制变量 |
RD_Intensity | R&D 强度 | 连续 | 0.3–6.5(R&D/GDP %) | 中间变量 / 稳健性检验用 |
Innovation_Index | 区域创新能力综合指数 | 连续 | 10–95 | 核心因变量 Y |
PatentApps_per10k | 每万人专利申请数 | 连续 | 0.2–35 | 替换因变量(稳健性) |
HighTech_Output_Bil | 高新技术产业产值 | 连续 | 30–6000(亿元) | 替换因变量(稳健性) |
三、研究模型
+———— HumanCap (M1) ————+
/ \
DigEcon (X) ——————————————————————————————————————→ Innovation (Y)
\ /
+———— IndustryStr (M2)—+
(controlling: GDP, Urbanization, Trade, GovExp)假设
- H1:DigEcon 显著正向预测 Innovation(直接路径 c')
- H2:DigEcon → HumanCap → Innovation 中介路径成立
- H3:DigEcon → IndustryStr → Innovation 中介路径成立
- H4:地区差异(East/Central/West)调节上述路径强度
四、数据清洗步骤
- 剔除缺失观测:保留所有变量均非空的行(清洗后 ~136 行)
- 变量标准化(如做交互效应或路径分析)
- 共线性检查:DigEcon 与 HumanCap、RD_Intensity 高度相关(r > 0.9),需用 VIF 监测
- 固定效应处理(进阶轨):引入 Province 与 Year 虚拟变量
五、可在本数据上跑通的统计分析
| 分析方法 | 课次 | 预期结果 |
|---|---|---|
| 描述统计 | 第 24 课 | DigEcon 均值 ~60,跨地区差异明显 |
| ANOVA(地区差异) | 第 25 课 | 三大地区 Innovation 显著差异 |
| 相关分析 | 第 26 课 | DigEcon-Innovation: r ≈ 0.95(高) |
| 多元回归 | 第 26 课 | β(DigEcon)=0.42, β(IndustryStr)=0.37, R² ≈ 0.95 |
| Bootstrap 中介 | 第 29 课 | 间接效应 ≈ 0.32, 95% CI [0.23, 0.41] |
| 分样本回归(异质性) | 模块四 | 东部 β 更大;西部回归系数衰减 |
| 稳健性检验 | 模块四 | 替换 Innovation_Index 为 PatentApps 或 HighTech_Output |
| 固定效应面板(进阶轨) | 第 47 课 | 双向固定效应模型,β(DigEcon) 仍显著 |
六、面板数据的额外注意事项
- 横截面 vs 纵向:本数据是 30 单位 × 5 年的面板,适合做面板回归而非简单 OLS
- 观测不独立:同省不同年份高度相关,须在回归中聚类标准误(clustered SE by Province)
- 样本量足够大吗:N=150 对面板回归足够,但分地区子样本(East 55 / Central 40 / West 55)做异质性时要谨慎
七、注意事项
- 本数据为模拟数据,不可作为真实政策解读依据
- 真实研究应使用国家统计局年鉴、CSY、China Industrial Economy Statistical Yearbook 等数据源
- 数字经济发展指数可参考"国家信息中心数字经济发展指数"或"赛迪指数"等权威发布
版本:v3.1 (2026-05) | 维护:跟随 plan v3.x 同步更新
