Skip to content

Case C 数据字典 (Data Dictionary v3.1)

配套数据:dataset_C_LLM_evaluation.csv(300 篇论文 × 29 列) 适用课程:模块三(技术进阶轨备选) + 模块五 + 模块四 研究主题:三种主流大语言模型在学术文献自动摘要任务上的质量对比


一、基本信息

  • 样本类型:实验数据(同被试 × 三处理设计——同篇论文由三个 LLM 各生成摘要)
  • 样本量:300 篇学术论文
  • 被比较的 LLM:GPT-5 / Claude 4.7 / Gemini 2.5
  • 评价维度:自动指标 + 人工评分(含评分员间一致性数据)
  • 变量数量:29

二、文章特征变量(控制变量)

变量名标签类型取值
Article_ID论文编号字符串PAPER_0001 ~ PAPER_0300
Subject学科领域名义CS / Medicine / SocialScience / Physics / Biology / Engineering
Language语言名义EN / CN
Length_Words原文长度(词数)连续120–1500
Has_Formula是否含数学/化学公式二项0=无, 1=有

三、自动评价指标(每个 LLM 都有一套)

对三个 LLM 中的每一个,都生成:

变量后缀指标取值范围含义
_GPT5 / _Claude47 / _Gemini25对应的 LLM见下方各 metric

每个 LLM 的具体指标(替换 <MODEL> 为 GPT5 / Claude47 / Gemini25):

变量名指标取值含义
ROUGE1_<MODEL>ROUGE-10.10–0.90单词重叠率
ROUGEL_<MODEL>ROUGE-L0.08–0.85最长公共子序列
BERTScore_<MODEL>BERTScore0.65–0.97语义相似度
Fluency_<MODEL>人工评分-流畅性1.0–5.0摘要语言是否流畅自然
Accuracy_<MODEL>人工评分-准确性1.0–5.0摘要是否准确反映原文
Coverage_<MODEL>人工评分-覆盖度1.0–5.0是否涵盖原文所有要点
Quality_<MODEL>综合质量分1.0–5.0三维平均

四、评分员间一致性数据

为演示 ICC(组内相关系数):

变量名含义
Rater1_AccuracyClaude评分员 1 对 Claude Accuracy 的独立评分
Rater2_AccuracyClaude评分员 2 同上
Rater3_AccuracyClaude评分员 3 同上

五、研究模型

                    Length_Words
                    Has_Formula
                    Subject
                    Language

                ┌────────┴────────┐
       (control variables affect each LLM differently)

        ┌───────────┬───────────┐
        ↓           ↓           ↓
       GPT-5    Claude 4.7   Gemini 2.5
        ↓           ↓           ↓
     Quality     Quality     Quality
        \           |           /
         \          |          /
          → Repeated-Measures ANOVA →

假设

  • H1:三个 LLM 的总体 Quality 存在显著差异
  • H2:GPT-5 在 Fluency 维度显著优于其他
  • H3:Claude 4.7 在 Accuracy 维度显著优于其他
  • H4:长文本(>500 词)摘要中 Gemini 2.5 的相对优势更明显(交互效应)

六、可在本数据上跑通的统计分析

分析方法课次预期结果
描述统计第 24 课三 LLM 综合 Quality 4.0–4.3
配对样本 t 检验第 25 课GPT5 vs Claude 在 Fluency 上显著差异
重复测量 ANOVA第 25 课F 显著,三 LLM 存在差异
相关分析第 26 课ROUGE 与 BERTScore 正相关(r ≈ 0.5–0.7)
多元回归第 26 课Length, Has_Formula 显著影响 Quality
交互效应回归第 29 课Length × LLM 交互项显著
ICC(评分员一致性)第 27 课ICC(2,k) ≈ 0.76(接近可接受)

七、数据清洗步骤

  1. 检查缺失:人工评分有 ~2% 缺失(模拟评分员漏评)
  2. 处理 ICC 数据:剔除三评分员任一缺失的行
  3. 长度分组(如做交互):Short < 400 / Medium 400–700 / Long > 700

八、伦理与重生成

  • 本数据为完全模拟,无真实论文内容
  • 真实研究应使用:
    • 来源:ACL Anthology / arXiv / PubMed 真实论文
    • 评价:HuggingFace 上的 ROUGE/BERTScore 工具
    • 人工评分:至少 3 名学术背景评分员独立评分
  • 生成脚本见 generate_dataset.py,使用 np.random.seed(2025) 保证可复现

版本:v3.1 (2026-05) | 维护:跟随 plan v3.x 同步更新

助力学者在 AI 时代极速产出高质量学术成果 · 55 课时双轨制 · plan v3.3