Skip to content

Case C:计算机 / AI 应用 / 技术实验

配套课程:plan v3 模块三(进阶轨备选)+ 模块五 + 模块四 + 模块六 适用人群:技术进阶轨专属(通识轨学员可用案例 A 或 B 替代)


研究蓝图

  • 研究问题:基于大语言模型的学术文献自动摘要生成质量评估——三种 SOTA 模型的对比研究
  • 研究方法:被试内实验(每篇论文由三个 LLM 各生成一份摘要)+ 自动评价 + 人工评分
  • 样本:300 篇学术论文(跨 6 个学科领域,含中英文)
  • 被比较的 LLM:GPT-5 / Claude 4.7 / Gemini 2.5
  • 评价维度
    • 自动指标:ROUGE-1, ROUGE-L, BERTScore
    • 人工评分:流畅性、准确性、覆盖度(5 点李克特)
    • 评分员间一致性:ICC(2,k)

文件清单

文件说明
dataset_C_LLM_evaluation.csv评估数据(300 篇 × 29 列)
generate_dataset.py数据生成脚本(可重跑)
data_dictionary.md数据字典
README.md本文件

快速上手(Python / Jupyter,进阶轨标配)

python
import pandas as pd
import numpy as np
from scipy import stats

df = pd.read_csv('dataset_C_LLM_evaluation.csv')

# 1. 描述统计:三个 LLM 综合 Quality
for m in ['GPT5', 'Claude47', 'Gemini25']:
    col = f'Quality_{m}'
    print(f'{m}: M = {df[col].mean():.2f}, SD = {df[col].std():.2f}')

# 2. 配对样本 t 检验:GPT5 vs Claude 在 Fluency 上
clean = df.dropna(subset=['Fluency_GPT5', 'Fluency_Claude47'])
t, p = stats.ttest_rel(clean['Fluency_GPT5'], clean['Fluency_Claude47'])
print(f'GPT5 vs Claude on Fluency: t = {t:.3f}, p = {p:.4f}')

# 3. 重复测量 ANOVA:三 LLM 在 Quality 上(用 statsmodels)
# (代码略,详见模块五 Jupyter 模板)

# 4. ICC(2,k) 评分员间一致性:见 data_dictionary.md 第六节

预期统计结果

跑出来如果不在以下范围内,可能是清洗或方法有误:

  • 三 LLM Quality 均值
    • GPT-5: 4.12 ± 0.33(流畅性最强)
    • Claude 4.7: 4.25 ± 0.29(准确性最强)
    • Gemini 2.5: 4.03 ± 0.33(长文本最稳)
  • 配对 t 检验:GPT5 vs Claude 在 Fluency 上 GPT5 显著高
  • 配对 t 检验:Claude vs Gemini 在 Accuracy 上 Claude 显著高
  • ICC(2,k):3 评分员对 Claude Accuracy 的 ICC ≈ 0.76(接近可接受标准 .75)
  • 交互效应:长文本(>700 词)中 GPT-5 的 Quality 从 4.23 降到 3.85,而 Gemini 仅从 4.07 降到 3.99

与课程的对应

课次本数据集的角色
第 24 课描述统计:跨 LLM、跨学科、跨长度的均值对比
第 25 课配对 t 检验 + 重复测量 ANOVA
第 26 课多元回归:Quality ~ Length + Has_Formula
第 27 课ICC 评分员间一致性
第 29 课交互效应:Length × LLM
第 47 课Jupyter Notebook 完整可重现分析流程
第 48 课AI 编码代理辅助:让 AI 帮你写完整评估脚本
模块四技术实验型论文写作(IMRaD + 实验细节描述)
模块六论文同行互评 + Cover Letter + Rebuttal

真实复现指南(如想用真实数据做本研究)

  1. 论文采样:从 arXiv / ACL Anthology / PubMed 获取 200-300 篇近 2 年的论文,包含摘要
  2. 生成摘要:用三个 LLM 的 API 各生成一份摘要(统一 prompt,控制输出长度)
  3. 自动评价:用 bert-scorerouge-score 计算
  4. 人工评分:招募至少 3 名同领域研究生评分员,独立评分;先做 5 篇训练对齐
  5. 统计分析:先 ICC 检验评分员一致性,再做主效应与交互效应分析

数据来源说明

  • 本数据为完全模拟,原文片段为占位符
  • 真实研究应使用公开学术数据库与合规的 API 调用
  • 生成脚本见 generate_dataset.py,使用 np.random.seed(2025) 保证可复现

数据集版本:v3.1 (2026-05) | 维护:年度更新(同步 LLM 主流版本变化)

助力学者在 AI 时代极速产出高质量学术成果 · 55 课时双轨制 · plan v3.3