Skip to main content
  1. Posts/

·335 words·2 mins

明白,重新设计PPT大纲,每个创新点都带上"理论依据→方法→实验证据"的完整论证链,经得住质询。


答辩PPT大纲(修订版,8分钟,14页) #


Slide 1:封面(10秒)


Slide 2:问题与动机(40秒)

  • 一句话背景:社交媒体评论的重要性
  • 两个未解决的问题(用红色标出):
    • 问题1:如何让LLM生成用户真正满意的评论?(不是"能生成",而是"生成得好")
    • 问题2:如何自动度量"满意"?(BLEU/ROUGE不适用于开放式评论)
  • 现有方法的不足:单步直接生成、评估维度单一、生成与评估割裂

Slide 3:本文工作总览(30秒)

  • 一张闭环图:生成 → 评估 → 反馈 → 再生成
  • 三个创新点对应图中三个环节
  • 底部:技术栈一行字(FastAPI + React + LLM API)

创新点1:链式分析生成框架(Slides 4-5,共1分钟) #

Slide 4:为什么不能直接生成?(30秒)

标题:“直接生成 vs 链式分析生成”

直接生成(现有方法) 本文方法
做法 帖子→LLM→评论(一步到位) 帖子→分析→Prompt组装→生成(三阶段)
问题 LLM缺乏对帖子的深度理解,易跑题、风格不对、内容空洞 先提取关键信息,再针对性生成
  • 底部理论支撑(一行字):
    • Plan-then-Generate范式:NLG经典理论认为生成应分为"规划→实现"(Reiter & Dale, 2000)
    • 分解式提示优于单步提示:Least-to-Most Prompting (Zhou et al., NeurIPS 2022)、Plan-and-Solve Prompting (Wang et al., ACL 2023)

Slide 5:消融实验证据(30秒)

标题:“每个组件都在起作用”

  • 柱状图:5组条件的综合满意度对比(EXP-1实际数据)
  • 旁边放一个实际对比案例:同一帖子,基线 vs 完整框架的生成结果
  • 底部结论一句话:“完整框架相比基线提升XX%,去掉任意组件均导致评分下降”

被质询时:

“这不就是正常的工程流程吗?” → “确实是工程方法,但关键在于我们用消融实验量化了每个阶段的贡献。此前没有人在社交媒体评论场景下做过这样的系统性验证。分解式方法优于单步方法在其他任务上已被证实(Zhou 2022, Wang 2023),本文在评论生成场景下提供了新的实证。”


创新点2:多Agent仿真评估框架(Slides 6-9,共2.5分钟,最重点) #

Slide 6:为什么需要多Agent?(40秒)

标题:“单一评分 vs 多视角评估”

  • 左边:传统方法——一个指标(BLEU)或一个LLM打一个分 → 无法反映受众多样性
  • 右边:本文方法——8个Agent从不同视角独立评分 → 模拟真实受众的多元反应
  • 核心论点:同一条评论,严谨的人觉得差、幽默的人觉得好——这种分歧本身就是有价值的信息
  • 底部理论支撑(三篇核心文献,每篇一句话):
文献 支撑什么
Zheng et al., NeurIPS 2023 LLM作为评判器与人类评估一致性>80%(LLM-as-Judge有效)
Argyle et al., Political Analysis 2023 不同Persona Prompt可模拟不同群体的观点分布(角色模拟有效)
Park et al., UIST 2023 LLM智能体可模拟可信的人类社会行为(仿真可行)

Slide 7:Agent设计原则(30秒)

标题:“8个Agent的设计不是随意的”

  • 设计原则表:沿三个轴覆盖多样性
多样性轴 覆盖范围 对应Agent
严格度(严 → 宽) 挑剔 ↔ 宽容 资深爱好者、批判者 ↔ 路人用户、幽默爱好者
关注点(理性 → 感性) 逻辑数据 ↔ 情感共鸣 理性分析者 ↔ 情感共鸣者
视角(专业 → 大众) 深度分析 ↔ 实用趣味 资深爱好者、理性分析者 ↔ 路人用户、实用主义者
立场(倾向性 → 中立) 有偏好 ↔ 无偏好 幽默爱好者、批判者 ↔ 中立观察者
  • 一句话:“确保任何一条评论都能被从专业性、趣味性、情感性、实用性等多角度审视”

Slide 8:4个评估维度(20秒)

标题:“满意度 = 愿不愿意发出去”

  • 4个维度用图标+一句话解释:
    • 场景适配度:搭不搭?
    • 风格达成度:像不像?
    • 自然度:真不真?
    • 互动潜力:有人理吗?
  • 综合满意度 = 四维度等权平均

Slide 9:Agent有效性验证(40秒)

标题:“三重验证:Agent评估是靠谱的”

验证 方法 结果
EXP-2 基准测试 好评/差评各10条,看Agent能否区分 Mann-Whitney U检验 p < 0.05(实际数据)
EXP-3 评估者间信度 8 Agent对150条评论,计算ICC ICC = XX(实际数据)
EXP-4 差异性验证 各Agent评分分布箱线图 幽默爱好者给幽默评论高分,资深爱好者更严格(实际数据)
  • 底部结论:“Agent之间既有一致性(信度合格),又有系统性差异(符合人设设计),说明评估框架有效且有区分度”

被质询时:

“这不就是换了个Prompt吗?” → “Argyle(2023)在Political Analysis上实证表明,Persona Prompting输出的观点分布与对应真实人群具有统计显著一致性。我们的EXP-4也验证了不同Agent确实产生系统性差异——资深爱好者的平均评分比幽默爱好者低X分,且在专业性维度上差异最大。这不是随机噪声,是符合人设预期的系统性偏差。”

“为什么是8个Agent?为什么不是5个或20个?” → “8个Agent沿严格度、关注点、视角、立场四个轴覆盖了主要的受众类型。太少(如3个)缺乏多样性,太多(如20个)引入冗余且增加计算成本。EXP-3的信度分析可以验证当前数量是否足够——如果ICC已达到良好水平,说明8个Agent的采样已足够稳定。”


创新点3:反馈优化闭环(Slide 10,40秒) #

Slide 10:评估结果如何驱动生成改进

  • 上半部分:流程图(识别短板 → 增强Prompt → 再生成 → 评分提升)
  • 下半部分:一个实际案例的前后对比
优化前 优化后
评论 “这个产品不错,推荐购买。” “从续航和屏幕素质来看确实有提升,不过这个定价…建议等618再下手,到时候应该能省个几百。”
短板维度 互动潜力 2.1分 互动潜力 3.8分
增强指令 “请加入能引发回复的元素”
  • 底部:EXP-5数据——“30条低分评论优化后,短板维度平均提升X分(paired t-test, p < 0.05)”

被质询时:

“这不就是改了下Prompt吗?” → “关键不在于’改Prompt’本身,而在于系统自动识别哪里需要改、改什么。短板维度由8个Agent的评估结果自动决定,增强指令由维度映射表自动选择。这是一个可复现的自动化优化流程,不是人工调参。”


实验总览 + 系统演示(Slides 11-12,共1.5分钟) #

Slide 11:实验结果总览(50秒)

标题:“6组实验,用数据说话”

实验 结论
EXP-1 消融 完整框架比基线提升XX%,各组件均有贡献
EXP-2 基准 Agent能有效区分好/坏评论(p < 0.05)
EXP-3 信度 ICC = XX,Agent评估内部一致
EXP-4 差异 不同Agent评分模式符合人设预期
EXP-5 反馈 短板维度平均提升X分(p < 0.05)
EXP-6 交叉 幽默型在生活类最优,理性型在争议类最优

Slide 12:系统演示(40秒)

  • 2-3张系统截图或现场演示
  • 走一遍:输入帖子 → 选风格 → 生成 → 评估报告(雷达图+Agent评语)→ 反馈优化

结论(Slides 13-14,共30秒) #

Slide 13:结论

本文围绕"如何生成用户满意的社交媒体评论"这一问题,提出了三项技术贡献:

(1)链式分析生成框架:将Plan-then-Generate范式引入评论生成,消融实验验证了各组件的有效贡献,完整框架比基线提升XX%。

(2)多Agent仿真评估框架:基于LLM-as-Judge和Persona Simulation理论,构建了8个差异化Agent的4维度评估体系,基准测试和信度分析验证了评估的有效性。

(3)评估反馈优化机制:实现了生成-评估-优化的完整闭环,反馈优化使低分评论的短板维度平均提升X分。

Slide 14:致谢 + Q&A


时间分配 #

部分 幻灯片 时间 说明
问题与动机 1-3 1分20秒
创新点1 4-5 1分钟 理论(Plan-then-Generate) + 消融数据
创新点2 6-9 2分30秒 理论(3篇文献) + 设计原则 + 三重验证
创新点3 10 40秒 案例对比 + 配对检验数据
实验+演示 11-12 1分30秒
结论 13-14 30秒
合计 14页 8分钟

创新点2给了最多篇幅(4页),因为它是最大创新点,也最容易被质询。每一页都有支撑:理论文献→设计逻辑→实验数据,形成完整的论证闭环。