Case C 数据字典 (Data Dictionary v3.1)
配套数据:
dataset_C_LLM_evaluation.csv(300 篇论文 × 29 列) 适用课程:模块三(技术进阶轨备选) + 模块五 + 模块四 研究主题:三种主流大语言模型在学术文献自动摘要任务上的质量对比
一、基本信息
- 样本类型:实验数据(同被试 × 三处理设计——同篇论文由三个 LLM 各生成摘要)
- 样本量:300 篇学术论文
- 被比较的 LLM:GPT-5 / Claude 4.7 / Gemini 2.5
- 评价维度:自动指标 + 人工评分(含评分员间一致性数据)
- 变量数量:29
二、文章特征变量(控制变量)
| 变量名 | 标签 | 类型 | 取值 |
|---|---|---|---|
Article_ID | 论文编号 | 字符串 | PAPER_0001 ~ PAPER_0300 |
Subject | 学科领域 | 名义 | CS / Medicine / SocialScience / Physics / Biology / Engineering |
Language | 语言 | 名义 | EN / CN |
Length_Words | 原文长度(词数) | 连续 | 120–1500 |
Has_Formula | 是否含数学/化学公式 | 二项 | 0=无, 1=有 |
三、自动评价指标(每个 LLM 都有一套)
对三个 LLM 中的每一个,都生成:
| 变量后缀 | 指标 | 取值范围 | 含义 |
|---|---|---|---|
_GPT5 / _Claude47 / _Gemini25 | 对应的 LLM | — | 见下方各 metric |
每个 LLM 的具体指标(替换 <MODEL> 为 GPT5 / Claude47 / Gemini25):
| 变量名 | 指标 | 取值 | 含义 |
|---|---|---|---|
ROUGE1_<MODEL> | ROUGE-1 | 0.10–0.90 | 单词重叠率 |
ROUGEL_<MODEL> | ROUGE-L | 0.08–0.85 | 最长公共子序列 |
BERTScore_<MODEL> | BERTScore | 0.65–0.97 | 语义相似度 |
Fluency_<MODEL> | 人工评分-流畅性 | 1.0–5.0 | 摘要语言是否流畅自然 |
Accuracy_<MODEL> | 人工评分-准确性 | 1.0–5.0 | 摘要是否准确反映原文 |
Coverage_<MODEL> | 人工评分-覆盖度 | 1.0–5.0 | 是否涵盖原文所有要点 |
Quality_<MODEL> | 综合质量分 | 1.0–5.0 | 三维平均 |
四、评分员间一致性数据
为演示 ICC(组内相关系数):
| 变量名 | 含义 |
|---|---|
Rater1_AccuracyClaude | 评分员 1 对 Claude Accuracy 的独立评分 |
Rater2_AccuracyClaude | 评分员 2 同上 |
Rater3_AccuracyClaude | 评分员 3 同上 |
五、研究模型
Length_Words
Has_Formula
Subject
Language
↓
┌────────┴────────┐
(control variables affect each LLM differently)
↓
┌───────────┬───────────┐
↓ ↓ ↓
GPT-5 Claude 4.7 Gemini 2.5
↓ ↓ ↓
Quality Quality Quality
\ | /
\ | /
→ Repeated-Measures ANOVA →假设
- H1:三个 LLM 的总体 Quality 存在显著差异
- H2:GPT-5 在 Fluency 维度显著优于其他
- H3:Claude 4.7 在 Accuracy 维度显著优于其他
- H4:长文本(>500 词)摘要中 Gemini 2.5 的相对优势更明显(交互效应)
六、可在本数据上跑通的统计分析
| 分析方法 | 课次 | 预期结果 |
|---|---|---|
| 描述统计 | 第 24 课 | 三 LLM 综合 Quality 4.0–4.3 |
| 配对样本 t 检验 | 第 25 课 | GPT5 vs Claude 在 Fluency 上显著差异 |
| 重复测量 ANOVA | 第 25 课 | F 显著,三 LLM 存在差异 |
| 相关分析 | 第 26 课 | ROUGE 与 BERTScore 正相关(r ≈ 0.5–0.7) |
| 多元回归 | 第 26 课 | Length, Has_Formula 显著影响 Quality |
| 交互效应回归 | 第 29 课 | Length × LLM 交互项显著 |
| ICC(评分员一致性) | 第 27 课 | ICC(2,k) ≈ 0.76(接近可接受) |
七、数据清洗步骤
- 检查缺失:人工评分有 ~2% 缺失(模拟评分员漏评)
- 处理 ICC 数据:剔除三评分员任一缺失的行
- 长度分组(如做交互):Short < 400 / Medium 400–700 / Long > 700
八、伦理与重生成
- 本数据为完全模拟,无真实论文内容
- 真实研究应使用:
- 来源:ACL Anthology / arXiv / PubMed 真实论文
- 评价:HuggingFace 上的 ROUGE/BERTScore 工具
- 人工评分:至少 3 名学术背景评分员独立评分
- 生成脚本见
generate_dataset.py,使用np.random.seed(2025)保证可复现
版本:v3.1 (2026-05) | 维护:跟随 plan v3.x 同步更新
