Table of Contents
明白,重新设计PPT大纲,每个创新点都带上"理论依据→方法→实验证据"的完整论证链,经得住质询。
答辩PPT大纲(修订版,8分钟,14页) #
Slide 1:封面(10秒)
Slide 2:问题与动机(40秒)
- 一句话背景:社交媒体评论的重要性
- 两个未解决的问题(用红色标出):
- 问题1:如何让LLM生成用户真正满意的评论?(不是"能生成",而是"生成得好")
- 问题2:如何自动度量"满意"?(BLEU/ROUGE不适用于开放式评论)
- 现有方法的不足:单步直接生成、评估维度单一、生成与评估割裂
Slide 3:本文工作总览(30秒)
- 一张闭环图:生成 → 评估 → 反馈 → 再生成
- 三个创新点对应图中三个环节
- 底部:技术栈一行字(FastAPI + React + LLM API)
创新点1:链式分析生成框架(Slides 4-5,共1分钟) #
Slide 4:为什么不能直接生成?(30秒)
标题:“直接生成 vs 链式分析生成”
| 直接生成(现有方法) | 本文方法 | |
|---|---|---|
| 做法 | 帖子→LLM→评论(一步到位) | 帖子→分析→Prompt组装→生成(三阶段) |
| 问题 | LLM缺乏对帖子的深度理解,易跑题、风格不对、内容空洞 | 先提取关键信息,再针对性生成 |
- 底部理论支撑(一行字):
- Plan-then-Generate范式:NLG经典理论认为生成应分为"规划→实现"(Reiter & Dale, 2000)
- 分解式提示优于单步提示:Least-to-Most Prompting (Zhou et al., NeurIPS 2022)、Plan-and-Solve Prompting (Wang et al., ACL 2023)
Slide 5:消融实验证据(30秒)
标题:“每个组件都在起作用”
- 柱状图:5组条件的综合满意度对比(EXP-1实际数据)
- 旁边放一个实际对比案例:同一帖子,基线 vs 完整框架的生成结果
- 底部结论一句话:“完整框架相比基线提升XX%,去掉任意组件均导致评分下降”
被质询时:
“这不就是正常的工程流程吗?” → “确实是工程方法,但关键在于我们用消融实验量化了每个阶段的贡献。此前没有人在社交媒体评论场景下做过这样的系统性验证。分解式方法优于单步方法在其他任务上已被证实(Zhou 2022, Wang 2023),本文在评论生成场景下提供了新的实证。”
创新点2:多Agent仿真评估框架(Slides 6-9,共2.5分钟,最重点) #
Slide 6:为什么需要多Agent?(40秒)
标题:“单一评分 vs 多视角评估”
- 左边:传统方法——一个指标(BLEU)或一个LLM打一个分 → 无法反映受众多样性
- 右边:本文方法——8个Agent从不同视角独立评分 → 模拟真实受众的多元反应
- 核心论点:同一条评论,严谨的人觉得差、幽默的人觉得好——这种分歧本身就是有价值的信息
- 底部理论支撑(三篇核心文献,每篇一句话):
| 文献 | 支撑什么 |
|---|---|
| Zheng et al., NeurIPS 2023 | LLM作为评判器与人类评估一致性>80%(LLM-as-Judge有效) |
| Argyle et al., Political Analysis 2023 | 不同Persona Prompt可模拟不同群体的观点分布(角色模拟有效) |
| Park et al., UIST 2023 | LLM智能体可模拟可信的人类社会行为(仿真可行) |
Slide 7:Agent设计原则(30秒)
标题:“8个Agent的设计不是随意的”
- 设计原则表:沿三个轴覆盖多样性
| 多样性轴 | 覆盖范围 | 对应Agent |
|---|---|---|
| 严格度(严 → 宽) | 挑剔 ↔ 宽容 | 资深爱好者、批判者 ↔ 路人用户、幽默爱好者 |
| 关注点(理性 → 感性) | 逻辑数据 ↔ 情感共鸣 | 理性分析者 ↔ 情感共鸣者 |
| 视角(专业 → 大众) | 深度分析 ↔ 实用趣味 | 资深爱好者、理性分析者 ↔ 路人用户、实用主义者 |
| 立场(倾向性 → 中立) | 有偏好 ↔ 无偏好 | 幽默爱好者、批判者 ↔ 中立观察者 |
- 一句话:“确保任何一条评论都能被从专业性、趣味性、情感性、实用性等多角度审视”
Slide 8:4个评估维度(20秒)
标题:“满意度 = 愿不愿意发出去”
- 4个维度用图标+一句话解释:
- 场景适配度:搭不搭?
- 风格达成度:像不像?
- 自然度:真不真?
- 互动潜力:有人理吗?
- 综合满意度 = 四维度等权平均
Slide 9:Agent有效性验证(40秒)
标题:“三重验证:Agent评估是靠谱的”
| 验证 | 方法 | 结果 |
|---|---|---|
| EXP-2 基准测试 | 好评/差评各10条,看Agent能否区分 | Mann-Whitney U检验 p < 0.05(实际数据) |
| EXP-3 评估者间信度 | 8 Agent对150条评论,计算ICC | ICC = XX(实际数据) |
| EXP-4 差异性验证 | 各Agent评分分布箱线图 | 幽默爱好者给幽默评论高分,资深爱好者更严格(实际数据) |
- 底部结论:“Agent之间既有一致性(信度合格),又有系统性差异(符合人设设计),说明评估框架有效且有区分度”
被质询时:
“这不就是换了个Prompt吗?” → “Argyle(2023)在Political Analysis上实证表明,Persona Prompting输出的观点分布与对应真实人群具有统计显著一致性。我们的EXP-4也验证了不同Agent确实产生系统性差异——资深爱好者的平均评分比幽默爱好者低X分,且在专业性维度上差异最大。这不是随机噪声,是符合人设预期的系统性偏差。”
“为什么是8个Agent?为什么不是5个或20个?” → “8个Agent沿严格度、关注点、视角、立场四个轴覆盖了主要的受众类型。太少(如3个)缺乏多样性,太多(如20个)引入冗余且增加计算成本。EXP-3的信度分析可以验证当前数量是否足够——如果ICC已达到良好水平,说明8个Agent的采样已足够稳定。”
创新点3:反馈优化闭环(Slide 10,40秒) #
Slide 10:评估结果如何驱动生成改进
- 上半部分:流程图(识别短板 → 增强Prompt → 再生成 → 评分提升)
- 下半部分:一个实际案例的前后对比
| 优化前 | 优化后 | |
|---|---|---|
| 评论 | “这个产品不错,推荐购买。” | “从续航和屏幕素质来看确实有提升,不过这个定价…建议等618再下手,到时候应该能省个几百。” |
| 短板维度 | 互动潜力 2.1分 | 互动潜力 3.8分 |
| 增强指令 | — | “请加入能引发回复的元素” |
- 底部:EXP-5数据——“30条低分评论优化后,短板维度平均提升X分(paired t-test, p < 0.05)”
被质询时:
“这不就是改了下Prompt吗?” → “关键不在于’改Prompt’本身,而在于系统自动识别哪里需要改、改什么。短板维度由8个Agent的评估结果自动决定,增强指令由维度映射表自动选择。这是一个可复现的自动化优化流程,不是人工调参。”
实验总览 + 系统演示(Slides 11-12,共1.5分钟) #
Slide 11:实验结果总览(50秒)
标题:“6组实验,用数据说话”
| 实验 | 结论 |
|---|---|
| EXP-1 消融 | 完整框架比基线提升XX%,各组件均有贡献 |
| EXP-2 基准 | Agent能有效区分好/坏评论(p < 0.05) |
| EXP-3 信度 | ICC = XX,Agent评估内部一致 |
| EXP-4 差异 | 不同Agent评分模式符合人设预期 |
| EXP-5 反馈 | 短板维度平均提升X分(p < 0.05) |
| EXP-6 交叉 | 幽默型在生活类最优,理性型在争议类最优 |
Slide 12:系统演示(40秒)
- 2-3张系统截图或现场演示
- 走一遍:输入帖子 → 选风格 → 生成 → 评估报告(雷达图+Agent评语)→ 反馈优化
结论(Slides 13-14,共30秒) #
Slide 13:结论
本文围绕"如何生成用户满意的社交媒体评论"这一问题,提出了三项技术贡献:
(1)链式分析生成框架:将Plan-then-Generate范式引入评论生成,消融实验验证了各组件的有效贡献,完整框架比基线提升XX%。
(2)多Agent仿真评估框架:基于LLM-as-Judge和Persona Simulation理论,构建了8个差异化Agent的4维度评估体系,基准测试和信度分析验证了评估的有效性。
(3)评估反馈优化机制:实现了生成-评估-优化的完整闭环,反馈优化使低分评论的短板维度平均提升X分。
Slide 14:致谢 + Q&A
时间分配 #
| 部分 | 幻灯片 | 时间 | 说明 |
|---|---|---|---|
| 问题与动机 | 1-3 | 1分20秒 | |
| 创新点1 | 4-5 | 1分钟 | 理论(Plan-then-Generate) + 消融数据 |
| 创新点2 | 6-9 | 2分30秒 | 理论(3篇文献) + 设计原则 + 三重验证 |
| 创新点3 | 10 | 40秒 | 案例对比 + 配对检验数据 |
| 实验+演示 | 11-12 | 1分30秒 | |
| 结论 | 13-14 | 30秒 | |
| 合计 | 14页 | 8分钟 |
创新点2给了最多篇幅(4页),因为它是最大创新点,也最容易被质询。每一页都有支撑:理论文献→设计逻辑→实验数据,形成完整的论证闭环。