Skip to content

第 48 课:AI 编码代理(Claude Code / Copilot / Codex)

🎯 核心实操目标

通关要求:把自己从"底层代码执行者"升级为"AI 编码审阅者"。你将掌握三大 AI 编码工具的差异化定位与协作范式——Copilot 做 IDE 内自动补全、ChatGPT / Claude 做对话式代码生成、Claude Code / Codex CLI 做自主代理执行。重点不是背语法,是学会"如何描述任务 + 如何审查 AI 代码 + 如何在报错时反复追问 AI 把过程讲清楚"。

📋 课前准备(5 分钟自检)

账号

  • [ ] Claude Code 或 Codex CLI(任选其一,必备)
    • Claude Code:claude.com/code 安装(npm 包),需订阅 Pro(约 ¥140/月,$20)或用 API key 计费
    • Codex CLI:chatgpt.com/codex — 开源免费,可用 ChatGPT 订阅或 API key 驱动
  • [ ] GitHub Copilot(推荐但可选):GitHub Pro/Business 含 Copilot
  • [ ] 已有 GitHub 账号(第 43 课已建)

工具/环境

  • [ ] Node.js 18+Python 3.10+(运行代码代理依赖)
  • [ ] VS Code 或其它支持插件的 IDE
  • [ ] 终端工具:Windows 用 PowerShell / WSL,Mac/Linux 用 Terminal
  • [ ] 至少 4 GB 可用磁盘(依赖与本地缓存)

数据/素材

  • [ ] 案例 C 数据集case_C_llm_evaluation.csv (300 行 × 29 列,本课实操用)
  • [ ] 自己之前任何写到一半的数据分析脚本(用于让 AI 帮你接力调试)

应急通道

  • 如 Claude Code 不可用 → 用 Codex CLI 或 Cursor(界面相似,范式一致)
  • 如订阅成本过高 → 使用 ChatGPT/Claude 网页版做对话式代码生成(不能自主代理,但可演示核心范式)
  • 安装报错 → 加入答疑群获取 Windows/Mac 各自的离线安装包

场景痛点破冰:不要去学“从入门到弃坑”的一万页语法说明书

“每年都有许多硕博新生,在被导师布置了爬虫采集数据的任务后,匆忙去网上买一套 400 个小时的《Python 零基础入门》网课。 这在 AI 代码算力快速发展的今天显得颇为低效。 你在视频里学完了元组、列表、高阶字典。但大模型写出这段爬虫结构链,只需千分之一秒,比你敲击回车的速度还要快。 不必去背语法。要学的是怎么‘清晰地审查并指挥’它为你修好这段出错的代码。”


🗺️ 角色重组:从代写执行到审阅把关的转变

如果 AI 运行的终端窗口出现了报错,不要慌,也不必自己逐字查文档排错。把报错信息和代码本身一并提交给 AI,让它做逆向解读:

报错中断阶段IndexError: list indexout of range in line 44将出错代码原样提交追问通俗逆向逐行解读 (架构师模式)for i in range(len(users)):▶ // 此处就是问题所在,它在循环里遍历了空列表users[i] = None▶ // 上行把所有数据清空了,下面调用必然报错

🚀 拆解实战:从盲目试错到系统化的任务派发

📋 复杂报错排查实操场景:你刚拿到一段大模型生成的上百行代码,满怀期待地把它放进了 Jupyter。一按执行,一连串红色的 KeyError 报错瞬间铺满屏幕。

应对招数:明确要求 AI 给出逐行的图文讲解

如果你这时候问它“怎么修”,它往往只会再生成上百行新代码。这容易陷入循环。你需要明确要求它为你逐行讲解:

markdown
【Role】你是一位技术功底扎实、注重表达清晰、不堆砌晦涩术语的后端架构师。

【Task】以下我粘贴的这段较为杂乱的代码(包含刚才报出的标红错误行提示),我对其内部数据传导到底哪一处出了问题感到困惑,也不确定能否信任它。请不要向我输出新的修正合并版本!请不要替代我思考!
【目标诉求:开启逐行通俗注释解读模式】
请逐行处理:在我原代码每一行功能之上,用简单、贴近日常的语言补充 `//标注说明`
并请使用 【醒目的高亮红色标记】 在关键位置明确指出:究竟是哪一个细小的传参数据在此处中断,导致程序报错中止!让我这个非专业读者也能顺着逻辑彻底看懂数据流断点在哪里!
==========================
[在下方粘贴(Ctrl+V)你运行出错的原始代码和报错信息]

让 AI 逐行讲清楚每个变量如何流转、在哪里出错——你看懂逻辑、定位失败点,而不是再要一版你看不懂的新代码。


🚀 拆解实战 B:一个真实的"AI 写错 → 你审出来 → 改对"案例(case_C)

会让 AI 写代码还不够——核心技能是审出它的错。下面用 case_C 走一遍。

任务:比较 Quality_GPT5Quality_Claude47Quality_Gemini25 三个模型的摘要质量分有没有显著差异。

① AI 给的第一版代码(看起来很顺,但有坑):

python
import pandas as pd
from scipy import stats

df = pd.read_csv("case_C_llm_evaluation.csv")
g = df['Quality_GPT5']
c = df['Quality_Claude47']
print(g.mean(), c.mean())
t, p = stats.ttest_ind(g, c)      # ← GPT-5 vs Claude
print(f"t={t:.2f}, p={p:.3f}")

② 你的审查(关键一步):能跑出数字,但方法错了——

  • 这是配对数据:同一篇文章被三个模型都评了一遍(每个 Article_ID 一行里同时有三个模型的分)。
  • 配对数据用独立样本 ttest_ind忽略配对相关、推断不准
  • 三组还逐对做 t 检验会膨胀一类错误

③ 改对:两两用配对 ttest_rel;三组整体差异用对重复测量稳健的 Friedman 检验

python
# 两两:配对 t 检验
t, p = stats.ttest_rel(df['Quality_GPT5'], df['Quality_Claude47'])

# 三模型整体差异:Friedman(适合配对/重复测量)
chi2, p_all = stats.friedmanchisquare(
    df['Quality_GPT5'], df['Quality_Claude47'], df['Quality_Gemini25'])
print(f"Friedman chi2={chi2:.1f}, p={p_all:.4f}")

这题的教训:AI 的代码能跑 ≠ 方法对。你要审的不是语法,是"它用的统计方法配不配这份数据"——这正是你作为"监工"不可外包的判断。


📦 本课交付物(提交给 AI 初审/讲师抽检)

  • [ ] 一个完整的可运行数据分析脚本:用 AI 编码代理(Claude Code / Codex / Copilot 任一)协助完成,对 case_C_llm_evaluation.csv 跑出:
    • 读取数据 + 缺失值统计
    • 三个 LLM Quality 分数的描述统计与对比表
    • 至少 1 张可视化图(如 boxplot 或柱状对比)
    • 导出结果为 Markdown 报告
  • [ ] AI 协作日志:记录至少 3 次”你描述任务 → AI 给代码 → 你审查发现问题 → 反向追问 → AI 修正”的完整对话片段
  • [ ] 代码审查清单:列出对 AI 生成代码做的逻辑检查、边界条件检查、安全性审查项

🏁 小结与自测 (Milestone Checklist)

  • [ ] 我理解三大 AI 编码工具的差异化定位(Copilot 补全 / 对话式生成 / 自主代理)
  • [ ] 我掌握了”描述任务 → AI 生成 → 人工审查 → 测试运行 → 迭代修正”的核心协作范式
  • [ ] 面对 AI 生成的代码我不再盲目复制,能识别逻辑错误、边界缺陷与潜在安全风险
  • [ ] 遇到代码报错时,我能用”逆向追问 + 通俗注释”让 AI 把每一行代码的作用讲清楚,定位失败点
  • [ ] 我清楚这些工具迭代极快,本课学到的是协作范式而非具体按钮位置,3 个月后界面变了我也能迁移

助力学者在 AI 时代极速产出高质量学术成果 · 55 课时双轨制 · plan v3.3