Case C:计算机 / AI 应用 / 技术实验
配套课程:plan v3 模块三(进阶轨备选)+ 模块五 + 模块四 + 模块六 适用人群:技术进阶轨专属(通识轨学员可用案例 A 或 B 替代)
研究蓝图
- 研究问题:基于大语言模型的学术文献自动摘要生成质量评估——三种 SOTA 模型的对比研究
- 研究方法:被试内实验(每篇论文由三个 LLM 各生成一份摘要)+ 自动评价 + 人工评分
- 样本:300 篇学术论文(跨 6 个学科领域,含中英文)
- 被比较的 LLM:GPT-5 / Claude 4.7 / Gemini 2.5
- 评价维度:
- 自动指标:ROUGE-1, ROUGE-L, BERTScore
- 人工评分:流畅性、准确性、覆盖度(5 点李克特)
- 评分员间一致性:ICC(2,k)
文件清单
| 文件 | 说明 |
|---|---|
dataset_C_LLM_evaluation.csv | 评估数据(300 篇 × 29 列) |
generate_dataset.py | 数据生成脚本(可重跑) |
data_dictionary.md | 数据字典 |
README.md | 本文件 |
快速上手(Python / Jupyter,进阶轨标配)
python
import pandas as pd
import numpy as np
from scipy import stats
df = pd.read_csv('dataset_C_LLM_evaluation.csv')
# 1. 描述统计:三个 LLM 综合 Quality
for m in ['GPT5', 'Claude47', 'Gemini25']:
col = f'Quality_{m}'
print(f'{m}: M = {df[col].mean():.2f}, SD = {df[col].std():.2f}')
# 2. 配对样本 t 检验:GPT5 vs Claude 在 Fluency 上
clean = df.dropna(subset=['Fluency_GPT5', 'Fluency_Claude47'])
t, p = stats.ttest_rel(clean['Fluency_GPT5'], clean['Fluency_Claude47'])
print(f'GPT5 vs Claude on Fluency: t = {t:.3f}, p = {p:.4f}')
# 3. 重复测量 ANOVA:三 LLM 在 Quality 上(用 statsmodels)
# (代码略,详见模块五 Jupyter 模板)
# 4. ICC(2,k) 评分员间一致性:见 data_dictionary.md 第六节预期统计结果
跑出来如果不在以下范围内,可能是清洗或方法有误:
- 三 LLM Quality 均值:
- GPT-5: 4.12 ± 0.33(流畅性最强)
- Claude 4.7: 4.25 ± 0.29(准确性最强)
- Gemini 2.5: 4.03 ± 0.33(长文本最稳)
- 配对 t 检验:GPT5 vs Claude 在 Fluency 上 GPT5 显著高
- 配对 t 检验:Claude vs Gemini 在 Accuracy 上 Claude 显著高
- ICC(2,k):3 评分员对 Claude Accuracy 的 ICC ≈ 0.76(接近可接受标准 .75)
- 交互效应:长文本(>700 词)中 GPT-5 的 Quality 从 4.23 降到 3.85,而 Gemini 仅从 4.07 降到 3.99
与课程的对应
| 课次 | 本数据集的角色 |
|---|---|
| 第 24 课 | 描述统计:跨 LLM、跨学科、跨长度的均值对比 |
| 第 25 课 | 配对 t 检验 + 重复测量 ANOVA |
| 第 26 课 | 多元回归:Quality ~ Length + Has_Formula |
| 第 27 课 | ICC 评分员间一致性 |
| 第 29 课 | 交互效应:Length × LLM |
| 第 47 课 | Jupyter Notebook 完整可重现分析流程 |
| 第 48 课 | AI 编码代理辅助:让 AI 帮你写完整评估脚本 |
| 模块四 | 技术实验型论文写作(IMRaD + 实验细节描述) |
| 模块六 | 论文同行互评 + Cover Letter + Rebuttal |
真实复现指南(如想用真实数据做本研究)
- 论文采样:从 arXiv / ACL Anthology / PubMed 获取 200-300 篇近 2 年的论文,包含摘要
- 生成摘要:用三个 LLM 的 API 各生成一份摘要(统一 prompt,控制输出长度)
- 自动评价:用 bert-score 与 rouge-score 计算
- 人工评分:招募至少 3 名同领域研究生评分员,独立评分;先做 5 篇训练对齐
- 统计分析:先 ICC 检验评分员一致性,再做主效应与交互效应分析
数据来源说明
- 本数据为完全模拟,原文片段为占位符
- 真实研究应使用公开学术数据库与合规的 API 调用
- 生成脚本见
generate_dataset.py,使用np.random.seed(2025)保证可复现
数据集版本:v3.1 (2026-05) | 维护:年度更新(同步 LLM 主流版本变化)
