第 48 课：AI 编码代理(Claude Code / Copilot / Codex)

🎯 核心实操目标

通关要求：把自己从"底层代码执行者"升级为"AI 编码审阅者"。你将掌握三大 AI 编码工具的差异化定位与协作范式——Copilot 做 IDE 内自动补全、ChatGPT / Claude 做对话式代码生成、Claude Code / Codex CLI 做自主代理执行。重点不是背语法，是学会"如何描述任务 + 如何审查 AI 代码 + 如何在报错时反复追问 AI 把过程讲清楚"。

📋 课前准备（5 分钟自检）

账号

[ ] Claude Code 或 Codex CLI（任选其一，必备）
- Claude Code：claude.com/code 安装（npm 包），需订阅 Pro（约 ¥140/月，$20）或用 API key 计费
- Codex CLI：chatgpt.com/codex — 开源免费，可用 ChatGPT 订阅或 API key 驱动
[ ] GitHub Copilot（推荐但可选）：GitHub Pro/Business 含 Copilot
[ ] 已有 GitHub 账号（第 43 课已建）

工具/环境

[ ] Node.js 18+ 或 Python 3.10+（运行代码代理依赖）
[ ] VS Code 或其它支持插件的 IDE
[ ] 终端工具：Windows 用 PowerShell / WSL，Mac/Linux 用 Terminal
[ ] 至少 4 GB 可用磁盘（依赖与本地缓存）

数据/素材

[ ] 案例 C 数据集：case_C_llm_evaluation.csv （300 行 × 29 列，本课实操用）
[ ] 自己之前任何写到一半的数据分析脚本（用于让 AI 帮你接力调试）

应急通道

如 Claude Code 不可用 → 用 Codex CLI 或 Cursor（界面相似，范式一致）
如订阅成本过高 → 使用 ChatGPT/Claude 网页版做对话式代码生成（不能自主代理，但可演示核心范式）
安装报错 → 加入答疑群获取 Windows/Mac 各自的离线安装包

场景痛点破冰：不要去学“从入门到弃坑”的一万页语法说明书

“每年都有许多硕博新生，在被导师布置了爬虫采集数据的任务后，匆忙去网上买一套 400 个小时的《Python 零基础入门》网课。这在 AI 代码算力快速发展的今天显得颇为低效。你在视频里学完了元组、列表、高阶字典。但大模型写出这段爬虫结构链，只需千分之一秒，比你敲击回车的速度还要快。不必去背语法。要学的是怎么‘清晰地审查并指挥’它为你修好这段出错的代码。”

🗺️ 角色重组：从代写执行到审阅把关的转变

如果 AI 运行的终端窗口出现了报错，不要慌，也不必自己逐字查文档排错。把报错信息和代码本身一并提交给 AI，让它做逆向解读：

🚀 拆解实战：从盲目试错到系统化的任务派发

📋 复杂报错排查实操场景：你刚拿到一段大模型生成的上百行代码，满怀期待地把它放进了 Jupyter。一按执行，一连串红色的 KeyError 报错瞬间铺满屏幕。

应对招数：明确要求 AI 给出逐行的图文讲解

如果你这时候问它“怎么修”，它往往只会再生成上百行新代码。这容易陷入循环。你需要明确要求它为你逐行讲解：

逐行逆向解读提示词 (一键复制)

markdown

【Role】你是一位技术功底扎实、注重表达清晰、不堆砌晦涩术语的后端架构师。

【Task】以下我粘贴的这段较为杂乱的代码（包含刚才报出的标红错误行提示），我对其内部数据传导到底哪一处出了问题感到困惑，也不确定能否信任它。请不要向我输出新的修正合并版本！请不要替代我思考！
【目标诉求：开启逐行通俗注释解读模式】
请逐行处理：在我原代码每一行功能之上，用简单、贴近日常的语言补充 `//标注说明`。
并请使用 【醒目的高亮红色标记】 在关键位置明确指出：究竟是哪一个细小的传参数据在此处中断，导致程序报错中止！让我这个非专业读者也能顺着逻辑彻底看懂数据流断点在哪里！
==========================
[在下方粘贴（Ctrl+V）你运行出错的原始代码和报错信息]

让 AI 逐行讲清楚每个变量如何流转、在哪里出错——你看懂逻辑、定位失败点，而不是再要一版你看不懂的新代码。

🚀 拆解实战 B：一个真实的"AI 写错 → 你审出来 → 改对"案例（case_C）

会让 AI 写代码还不够——核心技能是审出它的错。下面用 case_C 走一遍。

任务：比较 Quality_GPT5、Quality_Claude47、Quality_Gemini25 三个模型的摘要质量分有没有显著差异。

① AI 给的第一版代码（看起来很顺，但有坑）：

python

import pandas as pd
from scipy import stats

df = pd.read_csv("case_C_llm_evaluation.csv")
g = df['Quality_GPT5']
c = df['Quality_Claude47']
print(g.mean(), c.mean())
t, p = stats.ttest_ind(g, c)      # ← GPT-5 vs Claude
print(f"t={t:.2f}, p={p:.3f}")

② 你的审查（关键一步）：能跑出数字，但方法错了——

这是配对数据：同一篇文章被三个模型都评了一遍（每个 Article_ID 一行里同时有三个模型的分）。
配对数据用独立样本 ttest_ind 会忽略配对相关、推断不准。
三组还逐对做 t 检验会膨胀一类错误。

③ 改对：两两用配对 ttest_rel；三组整体差异用对重复测量稳健的 Friedman 检验：

python

# 两两：配对 t 检验
t, p = stats.ttest_rel(df['Quality_GPT5'], df['Quality_Claude47'])

# 三模型整体差异：Friedman（适合配对/重复测量）
chi2, p_all = stats.friedmanchisquare(
    df['Quality_GPT5'], df['Quality_Claude47'], df['Quality_Gemini25'])
print(f"Friedman chi2={chi2:.1f}, p={p_all:.4f}")

这题的教训：AI 的代码能跑 ≠ 方法对。你要审的不是语法，是"它用的统计方法配不配这份数据"——这正是你作为"监工"不可外包的判断。

📦 本课交付物（提交给 AI 初审/讲师抽检）

[ ] 一个完整的可运行数据分析脚本：用 AI 编码代理（Claude Code / Codex / Copilot 任一）协助完成，对 case_C_llm_evaluation.csv 跑出：
- 读取数据 + 缺失值统计
- 三个 LLM Quality 分数的描述统计与对比表
- 至少 1 张可视化图（如 boxplot 或柱状对比）
- 导出结果为 Markdown 报告
[ ] AI 协作日志：记录至少 3 次”你描述任务 → AI 给代码 → 你审查发现问题 → 反向追问 → AI 修正”的完整对话片段
[ ] 代码审查清单：列出对 AI 生成代码做的逻辑检查、边界条件检查、安全性审查项

🏁 小结与自测 (Milestone Checklist)

[ ] 我理解三大 AI 编码工具的差异化定位（Copilot 补全 / 对话式生成 / 自主代理）
[ ] 我掌握了”描述任务 → AI 生成 → 人工审查 → 测试运行 → 迭代修正”的核心协作范式
[ ] 面对 AI 生成的代码我不再盲目复制，能识别逻辑错误、边界缺陷与潜在安全风险
[ ] 遇到代码报错时，我能用”逆向追问 + 通俗注释”让 AI 把每一行代码的作用讲清楚，定位失败点
[ ] 我清楚这些工具迭代极快，本课学到的是协作范式而非具体按钮位置，3 个月后界面变了我也能迁移

第 48 课：AI 编码代理(Claude Code / Copilot / Codex) ​

📋 课前准备（5 分钟自检） ​

账号 ​

工具/环境 ​

数据/素材 ​

应急通道 ​

场景痛点破冰：不要去学“从入门到弃坑”的一万页语法说明书 ​

🗺️ 角色重组：从代写执行到审阅把关的转变 ​

🚀 拆解实战：从盲目试错到系统化的任务派发 ​

应对招数：明确要求 AI 给出逐行的图文讲解 ​

🚀 拆解实战 B：一个真实的"AI 写错 → 你审出来 → 改对"案例（case_C） ​

📦 本课交付物（提交给 AI 初审/讲师抽检） ​

🏁 小结与自测 (Milestone Checklist) ​