Case C：计算机 / AI 应用 / 技术实验

配套课程：plan v3 模块三（进阶轨备选）+ 模块五 + 模块四 + 模块六适用人群：技术进阶轨专属（通识轨学员可用案例 A 或 B 替代）

研究蓝图

研究问题：基于大语言模型的学术文献自动摘要生成质量评估——三种 SOTA 模型的对比研究
研究方法：被试内实验（每篇论文由三个 LLM 各生成一份摘要）+ 自动评价 + 人工评分
样本：300 篇学术论文（跨 6 个学科领域，含中英文）
被比较的 LLM：GPT-5 / Claude 4.7 / Gemini 2.5
评价维度：
- 自动指标：ROUGE-1, ROUGE-L, BERTScore
- 人工评分：流畅性、准确性、覆盖度（5 点李克特）
- 评分员间一致性：ICC(2,k)

文件清单

文件	说明
`dataset_C_LLM_evaluation.csv`	评估数据（300 篇 × 29 列）
`generate_dataset.py`	数据生成脚本（可重跑）
`data_dictionary.md`	数据字典
`README.md`	本文件

快速上手（Python / Jupyter，进阶轨标配）

python

import pandas as pd
import numpy as np
from scipy import stats

df = pd.read_csv('dataset_C_LLM_evaluation.csv')

# 1. 描述统计:三个 LLM 综合 Quality
for m in ['GPT5', 'Claude47', 'Gemini25']:
    col = f'Quality_{m}'
    print(f'{m}: M = {df[col].mean():.2f}, SD = {df[col].std():.2f}')

# 2. 配对样本 t 检验:GPT5 vs Claude 在 Fluency 上
clean = df.dropna(subset=['Fluency_GPT5', 'Fluency_Claude47'])
t, p = stats.ttest_rel(clean['Fluency_GPT5'], clean['Fluency_Claude47'])
print(f'GPT5 vs Claude on Fluency: t = {t:.3f}, p = {p:.4f}')

# 3. 重复测量 ANOVA:三 LLM 在 Quality 上(用 statsmodels)
# (代码略,详见模块五 Jupyter 模板)

# 4. ICC(2,k) 评分员间一致性:见 data_dictionary.md 第六节

预期统计结果

跑出来如果不在以下范围内，可能是清洗或方法有误：

三 LLM Quality 均值：
- GPT-5: 4.12 ± 0.33（流畅性最强）
- Claude 4.7: 4.25 ± 0.29（准确性最强）
- Gemini 2.5: 4.03 ± 0.33（长文本最稳）
配对 t 检验：GPT5 vs Claude 在 Fluency 上 GPT5 显著高
配对 t 检验：Claude vs Gemini 在 Accuracy 上 Claude 显著高
ICC(2,k)：3 评分员对 Claude Accuracy 的 ICC ≈ 0.76（接近可接受标准 .75）
交互效应：长文本（>700 词）中 GPT-5 的 Quality 从 4.23 降到 3.85，而 Gemini 仅从 4.07 降到 3.99

与课程的对应

课次	本数据集的角色
第 24 课	描述统计：跨 LLM、跨学科、跨长度的均值对比
第 25 课	配对 t 检验 + 重复测量 ANOVA
第 26 课	多元回归：Quality ~ Length + Has_Formula
第 27 课	ICC 评分员间一致性
第 29 课	交互效应：Length × LLM
第 47 课	Jupyter Notebook 完整可重现分析流程
第 48 课	AI 编码代理辅助：让 AI 帮你写完整评估脚本
模块四	技术实验型论文写作（IMRaD + 实验细节描述）
模块六	论文同行互评 + Cover Letter + Rebuttal

真实复现指南（如想用真实数据做本研究）

论文采样：从 arXiv / ACL Anthology / PubMed 获取 200-300 篇近 2 年的论文，包含摘要
生成摘要：用三个 LLM 的 API 各生成一份摘要（统一 prompt，控制输出长度）
自动评价：用 bert-score 与 rouge-score 计算
人工评分：招募至少 3 名同领域研究生评分员，独立评分；先做 5 篇训练对齐
统计分析：先 ICC 检验评分员一致性，再做主效应与交互效应分析

数据来源说明

本数据为完全模拟，原文片段为占位符
真实研究应使用公开学术数据库与合规的 API 调用
生成脚本见 generate_dataset.py，使用 np.random.seed(2025) 保证可复现

数据集版本：v3.1 (2026-05) | 维护：年度更新（同步 LLM 主流版本变化）

Case C：计算机 / AI 应用 / 技术实验 ​

研究蓝图 ​

文件清单 ​

快速上手（Python / Jupyter，进阶轨标配） ​

预期统计结果 ​

与课程的对应 ​

真实复现指南（如想用真实数据做本研究） ​

数据来源说明 ​

Case C：计算机 / AI 应用 / 技术实验

研究蓝图

文件清单

快速上手（Python / Jupyter，进阶轨标配）

预期统计结果

与课程的对应

真实复现指南（如想用真实数据做本研究）

数据来源说明