第 48 课:AI 编码代理(Claude Code / Copilot / Codex)
🎯 核心实操目标
通关要求:把自己从"底层代码执行者"升级为"AI 编码审阅者"。你将掌握三大 AI 编码工具的差异化定位与协作范式——Copilot 做 IDE 内自动补全、ChatGPT / Claude 做对话式代码生成、Claude Code / Codex CLI 做自主代理执行。重点不是背语法,是学会"如何描述任务 + 如何审查 AI 代码 + 如何在报错时反复追问 AI 把过程讲清楚"。
📋 课前准备(5 分钟自检)
账号
- [ ] Claude Code 或 Codex CLI(任选其一,必备)
- Claude Code:claude.com/code 安装(npm 包),需订阅 Pro(约 ¥140/月,$20)或用 API key 计费
- Codex CLI:chatgpt.com/codex — 开源免费,可用 ChatGPT 订阅或 API key 驱动
- [ ] GitHub Copilot(推荐但可选):GitHub Pro/Business 含 Copilot
- [ ] 已有 GitHub 账号(第 43 课已建)
工具/环境
- [ ] Node.js 18+ 或 Python 3.10+(运行代码代理依赖)
- [ ] VS Code 或其它支持插件的 IDE
- [ ] 终端工具:Windows 用 PowerShell / WSL,Mac/Linux 用 Terminal
- [ ] 至少 4 GB 可用磁盘(依赖与本地缓存)
数据/素材
- [ ] 案例 C 数据集:case_C_llm_evaluation.csv (300 行 × 29 列,本课实操用)
- [ ] 自己之前任何写到一半的数据分析脚本(用于让 AI 帮你接力调试)
应急通道
- 如 Claude Code 不可用 → 用 Codex CLI 或 Cursor(界面相似,范式一致)
- 如订阅成本过高 → 使用 ChatGPT/Claude 网页版做对话式代码生成(不能自主代理,但可演示核心范式)
- 安装报错 → 加入答疑群获取 Windows/Mac 各自的离线安装包
场景痛点破冰:不要去学“从入门到弃坑”的一万页语法说明书
“每年都有许多硕博新生,在被导师布置了爬虫采集数据的任务后,匆忙去网上买一套 400 个小时的《Python 零基础入门》网课。 这在 AI 代码算力快速发展的今天显得颇为低效。 你在视频里学完了元组、列表、高阶字典。但大模型写出这段爬虫结构链,只需千分之一秒,比你敲击回车的速度还要快。 不必去背语法。要学的是怎么‘清晰地审查并指挥’它为你修好这段出错的代码。”
🗺️ 角色重组:从代写执行到审阅把关的转变
如果 AI 运行的终端窗口出现了报错,不要慌,也不必自己逐字查文档排错。把报错信息和代码本身一并提交给 AI,让它做逆向解读:
🚀 拆解实战:从盲目试错到系统化的任务派发
📋 复杂报错排查实操场景:你刚拿到一段大模型生成的上百行代码,满怀期待地把它放进了 Jupyter。一按执行,一连串红色的 KeyError 报错瞬间铺满屏幕。
应对招数:明确要求 AI 给出逐行的图文讲解
如果你这时候问它“怎么修”,它往往只会再生成上百行新代码。这容易陷入循环。你需要明确要求它为你逐行讲解:
【Role】你是一位技术功底扎实、注重表达清晰、不堆砌晦涩术语的后端架构师。
【Task】以下我粘贴的这段较为杂乱的代码(包含刚才报出的标红错误行提示),我对其内部数据传导到底哪一处出了问题感到困惑,也不确定能否信任它。请不要向我输出新的修正合并版本!请不要替代我思考!
【目标诉求:开启逐行通俗注释解读模式】
请逐行处理:在我原代码每一行功能之上,用简单、贴近日常的语言补充 `//标注说明`。
并请使用 【醒目的高亮红色标记】 在关键位置明确指出:究竟是哪一个细小的传参数据在此处中断,导致程序报错中止!让我这个非专业读者也能顺着逻辑彻底看懂数据流断点在哪里!
==========================
[在下方粘贴(Ctrl+V)你运行出错的原始代码和报错信息]让 AI 逐行讲清楚每个变量如何流转、在哪里出错——你看懂逻辑、定位失败点,而不是再要一版你看不懂的新代码。
🚀 拆解实战 B:一个真实的"AI 写错 → 你审出来 → 改对"案例(case_C)
会让 AI 写代码还不够——核心技能是审出它的错。下面用 case_C 走一遍。
任务:比较 Quality_GPT5、Quality_Claude47、Quality_Gemini25 三个模型的摘要质量分有没有显著差异。
① AI 给的第一版代码(看起来很顺,但有坑):
import pandas as pd
from scipy import stats
df = pd.read_csv("case_C_llm_evaluation.csv")
g = df['Quality_GPT5']
c = df['Quality_Claude47']
print(g.mean(), c.mean())
t, p = stats.ttest_ind(g, c) # ← GPT-5 vs Claude
print(f"t={t:.2f}, p={p:.3f}")② 你的审查(关键一步):能跑出数字,但方法错了——
- 这是配对数据:同一篇文章被三个模型都评了一遍(每个
Article_ID一行里同时有三个模型的分)。 - 配对数据用独立样本
ttest_ind会忽略配对相关、推断不准。 - 三组还逐对做 t 检验会膨胀一类错误。
③ 改对:两两用配对 ttest_rel;三组整体差异用对重复测量稳健的 Friedman 检验:
# 两两:配对 t 检验
t, p = stats.ttest_rel(df['Quality_GPT5'], df['Quality_Claude47'])
# 三模型整体差异:Friedman(适合配对/重复测量)
chi2, p_all = stats.friedmanchisquare(
df['Quality_GPT5'], df['Quality_Claude47'], df['Quality_Gemini25'])
print(f"Friedman chi2={chi2:.1f}, p={p_all:.4f}")这题的教训:AI 的代码能跑 ≠ 方法对。你要审的不是语法,是"它用的统计方法配不配这份数据"——这正是你作为"监工"不可外包的判断。
📦 本课交付物(提交给 AI 初审/讲师抽检)
- [ ] 一个完整的可运行数据分析脚本:用 AI 编码代理(Claude Code / Codex / Copilot 任一)协助完成,对
case_C_llm_evaluation.csv跑出:- 读取数据 + 缺失值统计
- 三个 LLM Quality 分数的描述统计与对比表
- 至少 1 张可视化图(如 boxplot 或柱状对比)
- 导出结果为 Markdown 报告
- [ ] AI 协作日志:记录至少 3 次”你描述任务 → AI 给代码 → 你审查发现问题 → 反向追问 → AI 修正”的完整对话片段
- [ ] 代码审查清单:列出对 AI 生成代码做的逻辑检查、边界条件检查、安全性审查项
🏁 小结与自测 (Milestone Checklist)
- [ ] 我理解三大 AI 编码工具的差异化定位(Copilot 补全 / 对话式生成 / 自主代理)
- [ ] 我掌握了”描述任务 → AI 生成 → 人工审查 → 测试运行 → 迭代修正”的核心协作范式
- [ ] 面对 AI 生成的代码我不再盲目复制,能识别逻辑错误、边界缺陷与潜在安全风险
- [ ] 遇到代码报错时,我能用”逆向追问 + 通俗注释”让 AI 把每一行代码的作用讲清楚,定位失败点
- [ ] 我清楚这些工具迭代极快,本课学到的是协作范式而非具体按钮位置,3 个月后界面变了我也能迁移
