Case C 数据字典 (Data Dictionary v3.1)

配套数据：dataset_C_LLM_evaluation.csv（300 篇论文 × 29 列）适用课程：模块三（技术进阶轨备选） + 模块五 + 模块四研究主题：三种主流大语言模型在学术文献自动摘要任务上的质量对比

一、基本信息

样本类型：实验数据（同被试 × 三处理设计——同篇论文由三个 LLM 各生成摘要）
样本量：300 篇学术论文
被比较的 LLM：GPT-5 / Claude 4.7 / Gemini 2.5
评价维度：自动指标 + 人工评分（含评分员间一致性数据）
变量数量：29

二、文章特征变量（控制变量）

变量名	标签	类型	取值
`Article_ID`	论文编号	字符串	PAPER_0001 ~ PAPER_0300
`Subject`	学科领域	名义	CS / Medicine / SocialScience / Physics / Biology / Engineering
`Language`	语言	名义	EN / CN
`Length_Words`	原文长度（词数）	连续	120–1500
`Has_Formula`	是否含数学/化学公式	二项	0=无, 1=有

三、自动评价指标（每个 LLM 都有一套）

对三个 LLM 中的每一个，都生成：

变量后缀	指标	取值范围	含义
`_GPT5` / `_Claude47` / `_Gemini25`	对应的 LLM	—	见下方各 metric

每个 LLM 的具体指标（替换 <MODEL> 为 GPT5 / Claude47 / Gemini25）：

变量名	指标	取值	含义
`ROUGE1_<MODEL>`	ROUGE-1	0.10–0.90	单词重叠率
`ROUGEL_<MODEL>`	ROUGE-L	0.08–0.85	最长公共子序列
`BERTScore_<MODEL>`	BERTScore	0.65–0.97	语义相似度
`Fluency_<MODEL>`	人工评分-流畅性	1.0–5.0	摘要语言是否流畅自然
`Accuracy_<MODEL>`	人工评分-准确性	1.0–5.0	摘要是否准确反映原文
`Coverage_<MODEL>`	人工评分-覆盖度	1.0–5.0	是否涵盖原文所有要点
`Quality_<MODEL>`	综合质量分	1.0–5.0	三维平均

四、评分员间一致性数据

为演示 ICC（组内相关系数）：

变量名	含义
`Rater1_AccuracyClaude`	评分员 1 对 Claude Accuracy 的独立评分
`Rater2_AccuracyClaude`	评分员 2 同上
`Rater3_AccuracyClaude`	评分员 3 同上

五、研究模型

                    Length_Words
                    Has_Formula
                    Subject
                    Language
                         ↓
                ┌────────┴────────┐
       (control variables affect each LLM differently)
                ↓
        ┌───────────┬───────────┐
        ↓           ↓           ↓
       GPT-5    Claude 4.7   Gemini 2.5
        ↓           ↓           ↓
     Quality     Quality     Quality
        \           |           /
         \          |          /
          → Repeated-Measures ANOVA →

假设

H1：三个 LLM 的总体 Quality 存在显著差异
H2：GPT-5 在 Fluency 维度显著优于其他
H3：Claude 4.7 在 Accuracy 维度显著优于其他
H4：长文本（>500 词）摘要中 Gemini 2.5 的相对优势更明显（交互效应）

六、可在本数据上跑通的统计分析

分析方法	课次	预期结果
描述统计	第 24 课	三 LLM 综合 Quality 4.0–4.3
配对样本 t 检验	第 25 课	GPT5 vs Claude 在 Fluency 上显著差异
重复测量 ANOVA	第 25 课	F 显著，三 LLM 存在差异
相关分析	第 26 课	ROUGE 与 BERTScore 正相关（r ≈ 0.5–0.7）
多元回归	第 26 课	Length, Has_Formula 显著影响 Quality
交互效应回归	第 29 课	Length × LLM 交互项显著
ICC（评分员一致性）	第 27 课	ICC(2,k) ≈ 0.76（接近可接受）

七、数据清洗步骤

检查缺失：人工评分有 ~2% 缺失（模拟评分员漏评）
处理 ICC 数据：剔除三评分员任一缺失的行
长度分组（如做交互）：Short < 400 / Medium 400–700 / Long > 700

八、伦理与重生成

本数据为完全模拟，无真实论文内容
真实研究应使用：
- 来源：ACL Anthology / arXiv / PubMed 真实论文
- 评价：HuggingFace 上的 ROUGE/BERTScore 工具
- 人工评分：至少 3 名学术背景评分员独立评分
生成脚本见 generate_dataset.py，使用 np.random.seed(2025) 保证可复现

版本：v3.1 (2026-05) | 维护：跟随 plan v3.x 同步更新

Case C 数据字典 (Data Dictionary v3.1) ​

一、基本信息 ​

二、文章特征变量（控制变量） ​

三、自动评价指标（每个 LLM 都有一套） ​

四、评分员间一致性数据 ​

五、研究模型 ​

假设 ​

六、可在本数据上跑通的统计分析 ​

七、数据清洗步骤 ​

八、伦理与重生成 ​

Case C 数据字典 (Data Dictionary v3.1)

一、基本信息

二、文章特征变量（控制变量）

三、自动评价指标（每个 LLM 都有一套）

四、评分员间一致性数据

五、研究模型

假设

六、可在本数据上跑通的统计分析

七、数据清洗步骤

八、伦理与重生成