毕业设计最终计划(v2 确认版)
Table of Contents
毕业设计最终计划 #
题目:社交媒体评论生成与评估系统设计与实现
学校:深圳技术大学
定稿日期:2026年3月18日
本文档经过多轮讨论确认,包含项目定位、创新点、论文大纲、评估维度、实验设计、技术栈、开发计划等全部内容。
一、项目定位 #
1.1 核心研究问题 #
如何通过提示工程,让LLM在特定帖子场景下生成用户满意的社交媒体评论?如何度量"满意"?如何通过反馈持续提升满意度?
“满意"的操作定义:用户愿意把这条评论发出去。拆解为4个可度量维度:场景适配度、风格达成度、自然度、互动潜力。
1.2 系统定位 #
本系统是一个社交媒体评论生成与质量评估研究平台,不面向真实社交平台发布。
- 生成模块:制造可控的评论素材
- 评估模块:用多Agent仿真度量评论质量
- 反馈模块:根据评估结果针对性优化生成
- 核心价值:闭环(生成 → 评估 → 反馈 → 再生成)
1.3 系统工作流 #
用户输入帖子(手动粘贴 / 爬虫导入[预留接口])
↓
帖子内容分析(主题、情感、争议点 → 结构化JSON)
↓
多风格评论生成(5种风格,基于链式Prompt框架)
↓
多智能体仿真评估(8个Agent,4个维度独立打分)
↓
识别短板维度 → 增强Prompt → 再生成 → 再评估
↓
输出:满意的评论 + 评估分析报告 + 可视化
二、创新点 #
创新点1:基于链式分析的上下文增强评论生成框架 #
大多数LLM评论生成采用单步直接生成。本研究提出三阶段链式框架:
阶段1:帖子深度分析
- 输入:原始帖子(标题+内容+分类)
- 输出:结构化JSON(核心主题、情感倾向、讨论焦点、潜在争议点)
- 使用统一分析模板,不区分分类(如实验中发现特定分类效果差,再针对性优化,优化过程写入论文)
阶段2:动态Prompt组装
- 根据阶段1的结构化输出 + 目标风格,自适应组合Prompt组件
- 组件:角色设定 + 上下文注入 + Few-shot示例 + 生成约束
- 不同风格使用不同的角色描述和约束条件
阶段3:约束生成 + 后处理
- 调用LLM生成评论
- 后处理:去除多余符号、控制长度、格式清理
创新性:
- 结构化中间表示(JSON)显式传递上下文,提高可控性和可解释性
- 动态组装而非固定模板
- 通过消融实验(EXP-1)量化每个阶段的贡献
理论来源:
- Chain-of-Thought Prompting (Wei et al., 2022) → 链式分析的方法论基础
- 可控文本生成综述 (Liang et al., 2024) → 可控生成技术谱系定位
创新点2:基于LLM角色模拟的多智能体仿真评估框架 #
理论依据:
| 理论来源 | 文献 | 支撑什么 |
|---|---|---|
| LLM-as-Judge | Zheng et al., NeurIPS 2023 | LLM具备有效评估文本质量的能力 |
| Persona模拟 | Argyle et al., Political Analysis 2023 | 不同Persona Prompt可模拟不同群体的观点分布 |
| 生成式智能体 | Park et al., UIST 2023 | LLM可模拟可信的人类行为模式 |
Agent不只是"换了个Prompt”——每个Agent具有完整的人格配置:
| 配置维度 | 作用 |
|---|---|
| 人口特征(年龄/职业) | 锚定评价视角 |
| 性格特质 | 影响评价严格度 |
| 评价关注点 | 决定维度偏好 |
| System Prompt | 详细角色描述 |
8个Agent设计:
| Agent | 年龄 | 职业 | 性格 | 评价关注点 |
|---|---|---|---|---|
| 资深爱好者 | 28 | 行业从业者 | 严谨、挑剔 | 专业性、准确性 |
| 路人用户 | 25 | 上班族 | 随和、实用 | 可读性、趣味性 |
| 批判者 | 32 | 评论员 | 批判性思维 | 逻辑漏洞、偏见 |
| 情感共鸣者 | 23 | 学生 | 感性、善良 | 情感真挚、共鸣 |
| 理性分析者 | 30 | 研究员 | 理性、客观 | 数据、逻辑 |
| 幽默爱好者 | 21 | 学生 | 乐观、轻松 | 趣味性、创意 |
| 中立观察者 | 35 | 管理者 | 中立、包容 | 全面性、平衡性 |
| 实用主义者 | 27 | 创业者 | 务实、高效 | 实用价值 |
验证方法:
- EXP-2 基准测试:验证Agent能区分明显好/坏评论
- EXP-3 评估者间信度:验证Agent之间的一致性(ICC/Krippendorff’s alpha)
- EXP-4 差异性分析:验证不同Agent存在系统性的评分差异模式
评估维度体系: 见第三节。
[待填充] 补充评估维度的文献支撑(搜索方向:comment quality dimensions, social media engagement metrics)
创新点3:评估反馈驱动的生成优化机制 #
连接创新点1和创新点2的闭环。
流程:
第一轮:正常生成 + 多Agent评估
→ 得到4个维度评分
识别短板:取评分最低的维度
构建增强Prompt:在原始Prompt末尾追加维度特定指令
第二轮:增强生成 + 再评估
→ 对比分数变化
维度增强指令:
| 短板维度 | 追加指令 |
|---|---|
| 场景适配度低 | “请确保评论紧密围绕帖子的核心主题,直接回应帖子中的具体观点或事实” |
| 风格达成度低 | “请强化{目标风格}的表达特征,让读者一眼就能识别出这是{目标风格}的评论” |
| 自然度低 | “请用社交媒体上真实用户的口吻表达,避免任何模板化、格式化的AI腔调” |
| 互动潜力低 | “请在评论中加入能引发回复的元素,如提出问题、分享个人经历、或提出可讨论的观点” |
验证: EXP-5 反馈优化效果实验。
三、评估维度与评分标准 #
3.1 四个评估维度 #
维度1:场景适配度(Context Fit) #
“这条评论放在这个帖子底下,搭不搭?”
| 分数 | 标准 |
|---|---|
| 5 | 紧扣帖子核心话题,直接回应帖子中的具体内容 |
| 4 | 与帖子话题相关,但没有直接回应具体细节 |
| 3 | 与帖子话题沾边,但略显泛泛 |
| 2 | 与帖子关系不大,放在其他帖子下也成立 |
| 1 | 完全跑题或答非所问 |
维度2:风格达成度(Style Achievement) #
“我要的是幽默风格,它确实好笑吗?”
| 分数 | 标准 |
|---|---|
| 5 | 风格鲜明,一读就能识别出目标风格 |
| 4 | 基本体现目标风格,但不够突出 |
| 3 | 有一点目标风格的影子,但不明显 |
| 2 | 风格模糊,难以判断 |
| 1 | 完全不符合目标风格 |
维度3:自然度(Naturalness) #
“这读起来像人写的吗?”
| 分数 | 标准 |
|---|---|
| 5 | 完全像真人在社交媒体上的自然发言 |
| 4 | 基本自然,偶尔有一点不够口语化 |
| 3 | 能接受,但有明显的"AI腔"或模板感 |
| 2 | 读起来生硬,像是机器生成的 |
| 1 | 一看就是AI写的,充满套话和格式化表达 |
维度4:互动潜力(Engagement Potential) #
“发出去会有人理吗?”
| 分数 | 标准 |
|---|---|
| 5 | 很想点赞/回复,评论本身就能带动讨论 |
| 4 | 值得点赞,但不一定会回复 |
| 3 | 看到了会看一眼,但不太会互动 |
| 2 | 无感,会直接滑过 |
| 1 | 看到会反感或觉得是垃圾评论 |
3.2 综合满意度 #
综合满意度 = 4个维度的等权平均
满意度 = (场景适配度 + 风格达成度 + 自然度 + 互动潜力) / 4
3.3 Agent额外输出 #
除了4个维度评分,每个Agent还输出:
- 态度:like / neutral / dislike
- 评语:50字以内的简要理由
四、论文目录与大纲 #
总体结构 #
| 章节 | 标题 | 预估字数 |
|---|---|---|
| 第1章 | 绪论 | 2800 |
| 第2章 | 相关技术与理论基础 | 1800 |
| 第3章 | 需求分析与系统设计 | 2500 |
| 第4章 | 系统实现 | 4000 |
| 第5章 | 实验与分析 | 3500 |
| 第6章 | 总结与展望 | 1000 |
| 合计 | - | 15600+ |
详细大纲 #
第1章 绪论(2800字)
1.1 研究背景与意义(800字)
- 社交媒体评论的重要性
- 两个核心问题:高质量评论生成 + 质量评估方法
- 理论意义:构建生成-评估-优化闭环
- 实践意义:为评论质量研究提供仿真平台
1.2 国内外研究现状(1000字)
1.2.1 社交媒体文本生成技术(300字)
- 模板/规则 → Seq2Seq → LLM可控生成
1.2.2 文本质量评估方法(300字)
- BLEU/ROUGE的局限性
- LLM-as-Judge范式(Zheng et al., 2023)
1.2.3 基于LLM的角色模拟与社会仿真(250字)
- Generative Agents (Park et al., 2023)
- Persona-based Simulation (Argyle et al., 2023)
1.2.4 现有研究不足与本文定位(150字)
- 生成与评估割裂
- 评估维度过于简化
- 缺乏闭环优化机制
1.3 研究内容与创新点(600字)
- 创新点1:链式分析评论生成框架
- 创新点2:多智能体仿真评估方法
- 创新点3:评估反馈驱动的生成优化
1.4 研究的伦理考量(200字)
- 系统定位为研究工具,不用于生成虚假评论
- 详细讨论见第6章
[待填充] AI伦理文献
1.5 论文组织结构(200字)
第2章 相关技术与理论基础(1800字)
2.1 大语言模型与提示工程(600字)
2.1.1 大语言模型概述(200字)
2.1.2 提示工程方法论(400字)
- Chain-of-Thought、Few-shot Learning
- 可控生成的Prompt策略
2.2 多智能体系统与LLM角色模拟(600字)
2.2.1 多智能体系统概述(200字)
2.2.2 基于LLM的角色模拟理论(400字)
- Persona Prompting原理
- LLM-as-Judge有效性
- 理论支撑文献
2.3 开发技术简介(400字)
- FastAPI(100字)、React + Ant Design(100字)
- 数据可视化(100字)、SQLite(100字)
2.4 本章小结(100字)
第3章 需求分析与系统设计(2500字)
3.1 需求分析(800字)
3.1.1 功能性需求(表格)
3.1.2 非功能性需求
3.2 系统总体架构设计(600字)
- 架构图
- 三层架构说明
- 核心模块交互流程图
3.3 数据库设计(600字)
- ER图
- 各表结构
3.4 接口设计(400字)
- RESTful API列表
3.5 本章小结(100字)
第4章 系统实现(4000字)
4.1 开发环境与项目结构(300字)
4.2 链式分析评论生成模块(1200字)
4.2.1 LLM客户端封装(200字)
- 统一接口、速率控制、token计数、异常重试
4.2.2 帖子分析阶段(300字)
- 统一分析Prompt模板
- 结构化JSON输出解析
4.2.3 多风格Prompt模板设计(400字)
- 5种风格的设计(幽默/理性/情感共鸣/争议/支持)
- Few-shot示例
- 动态Prompt组装逻辑
4.2.4 生成服务与后处理(300字)
4.3 多智能体仿真评估模块(1400字)
4.3.1 Agent人设体系设计(500字)
- 8个Agent完整配置(表格)
- 设计原则
4.3.2 评估Prompt工程(400字)
- 评估Prompt结构
- 4维度评分rubric嵌入
- 严格JSON输出控制
4.3.3 评估服务实现(300字)
- asyncio并发调用8个Agent
- 结果解析与异常处理
4.3.4 评估结果分析引擎(200字)
- 维度平均分、行为分布、争议指数
4.4 评估反馈优化模块(600字)
4.4.1 短板维度识别(200字)
4.4.2 维度增强Prompt构建(200字)
4.4.3 迭代优化流程(200字)
4.5 前端可视化模块(400字)
- 页面结构
- 雷达图、柱状图、对比视图
- 配截图
4.6 本章小结(100字)
第5章 实验与分析(3500字)
5.1 实验环境与数据集(300字)
- 环境配置表
- 数据集:30个帖子(5分类×6条),手动采集
- 生成评论:150条(30帖子×5风格)
5.2 功能测试与性能测试(400字)
- 功能测试用例表(精简)
- 响应时间(串行 vs 并发优化对比)
5.3 EXP-1 生成模块消融实验(600字)
- 5组对照(完整/去分析/去示例/去角色/基线)
- 多Agent评估打分
- 各条件各维度得分对比表
- 分析各组件贡献
5.4 EXP-2/3 多Agent评估有效性验证(800字)
5.4.1 基准测试(EXP-2)
- 构造明显好评/差评各10条
- 验证Agent能正确区分
5.4.2 评估者间信度(EXP-3)
- 8个Agent对150条评论的评分
- 计算ICC / Krippendorff's alpha
- 分维度报告信度
5.5 EXP-4 Agent差异性分析(400字)
- 各Agent评分分布(箱线图)
- 验证系统性差异模式
- 如:幽默爱好者是否给幽默评论更高分
5.6 EXP-5 反馈优化效果(500字)
- 取第一轮评分最低的30条评论
- 应用维度增强Prompt后重新生成
- 对比优化前后各维度得分(paired t-test)
- 报告实际提升幅度
5.7 EXP-6 风格×场景交叉分析(300字)
- 5风格×5分类的评分矩阵
- 分析哪种风格在哪种场景下最优
5.8 本章小结(200字)
第6章 总结与展望(1000字)
6.1 工作总结(300字)
6.2 伦理讨论与社会影响(400字)
- AI生成内容的伦理边界
- 本系统的合规使用场景
- 防滥用讨论
[待填充] AI伦理文献(至少2篇)
6.3 不足与展望(300字)
- 数据规模有限
- 评估全部基于LLM,未做大规模人工验证
- 未来:强化学习优化、真实平台对接、多语言支持
五、实验设计 #
5.1 实验总表 #
| 实验 | 目标 | 方法 | 样本量 | 评估方式 |
|---|---|---|---|---|
| EXP-1 消融实验 | 验证生成框架各组件贡献 | 5组对照生成,多Agent评分 | 75条评论 | 8 Agent |
| EXP-2 基准测试 | 验证Agent评分的基本有效性 | 好评/差评各10条,检验区分能力 | 20条评论 | 8 Agent |
| EXP-3 评估者间信度 | 验证8个Agent之间的一致性 | 对150条评论计算ICC | 150条评论 | 8 Agent |
| EXP-4 Agent差异性 | 验证不同Agent有系统性差异 | 分析各Agent评分分布和偏好 | 复用EXP-3数据 | 统计分析 |
| EXP-5 反馈优化 | 验证闭环反馈能提升分数 | 低分评论优化前后对比 | 30条评论 | 8 Agent |
| EXP-6 风格×场景 | 分析最优风格-场景组合 | 5风格×5分类交叉评分 | 复用生成数据 | 统计分析 |
5.2 EXP-1 消融实验详细设计 #
正交对照组:
| 条件 | 帖子分析 | Few-shot | 详细角色 | 说明 |
|---|---|---|---|---|
| A 完整框架 | ✓ | ✓ | ✓ | 三阶段全开 |
| B 去帖子分析 | ✗ | ✓ | ✓ | 不做阶段1,直接组装Prompt |
| C 去Few-shot | ✓ | ✗ | ✓ | 不提供示例 |
| D 去角色设定 | ✓ | ✓ | ✗ | 不设角色,只给任务指令 |
| E 基线 | ✗ | ✗ | ✗ | “请对以下帖子写一条评论” |
每条件 × 5帖子 × 3条 = 75条评论,全部用8个Agent评估,比较各条件在4个维度上的平均分。
5.3 EXP-2 基准测试详细设计 #
手动构造基准评论集:
好评论标准:紧扣帖子、风格鲜明、自然流畅、有互动性 差评论标准:跑题、风格不对、AI味重、无互动价值
| 类型 | 数量 | 构造方式 |
|---|---|---|
| 明显好评 | 10条 | 手动编写或从真实热评中选取 |
| 明显差评 | 10条 | 故意编写(跑题/AI腔/空洞) |
验证指标:Agent是否给好评论显著更高的分数(Mann-Whitney U检验,p < 0.05)
5.4 EXP-3 评估者间信度 #
指标选择:
- ICC(2,1):双向随机模型,单个评估者
- Krippendorff’s alpha:更保守的信度指标
- 分维度报告:4个维度各自的信度
解读标准:
- ICC > 0.75:良好信度
- ICC 0.5-0.75:中等信度
- ICC < 0.5:需要讨论原因
5.5 EXP-5 反馈优化 #
流程:
- 从150条生成评论中,选综合满意度排名最低的30条
- 识别每条评论的最低维度
- 应用对应的增强Prompt重新生成
- 用同样的8个Agent重新评估
- Paired t-test检验:优化前后的分数差异是否显著
报告指标:
- 各维度的平均提升幅度
- 优化成功率(分数确实提升的比例)
- 失败案例分析(分数没提升或下降的原因)
5.6 原则 #
- 不预设任何实验结果,报告真实数据
- 结果不理想时,分析原因比漂亮数据更有价值
- 每个实验都报告效应量(Cohen’s d 或 η²)
六、技术栈 #
| 层次 | 技术 | 版本 | 选择理由 |
|---|---|---|---|
| 后端框架 | FastAPI | 0.100+ | 异步支持,适合LLM并发调用 |
| 前端框架 | React + TypeScript | 18.2+ | 组件化,生态丰富 |
| UI组件库 | Ant Design | 5.x | 企业级组件 |
| 数据可视化 | ECharts (echarts-for-react) | 5.x | 雷达图、柱状图 |
| 数据库 | SQLite | 3.x | 轻量级(论文中说明局限性) |
| ORM | SQLAlchemy | 2.x | Python主流ORM |
| LLM接口 | OpenAI兼容接口 | - | 支持切换多家模型 |
| 包管理 | Poetry (后端) / npm (前端) | - | - |
工程质量(答辩加分项):
| 实践 | 实现方式 |
|---|---|
| API速率限制 | slowapi库或自定义限流 |
| Token计数 | tiktoken库 |
| 异步并发 | asyncio并发8个Agent调用 |
| 异常重试 | tenacity库,指数退避 |
| JSON鲁棒解析 | 正则兜底 + 默认值回退 |
七、开发计划 #
7.1 开发阶段(3月18日 - 4月10日,24天) #
| 阶段 | 时间 | 任务 | 天数 |
|---|---|---|---|
| P1 | 3/18-3/21 | 后端框架 + 数据库 + 帖子CRUD | 4 |
| P2 | 3/22-3/25 | LLM客户端(含限流/重试)+ 评论生成模块 | 4 |
| P3 | 3/26-3/29 | 多Agent评估模块 + asyncio并发优化 | 4 |
| P4 | 3/30-4/1 | 反馈优化模块 | 3 |
| P5 | 4/2-4/6 | 前端3个核心页面 | 5 |
| P6 | 4/7-4/10 | 联调 + Bug修复 + 测试数据准备 | 4 |
7.2 实验阶段(4月11日 - 4月26日,16天) #
| 阶段 | 时间 | 任务 |
|---|---|---|
| E1 | 4/11-4/13 | 数据集构建(采集30个帖子) |
| E2 | 4/14-4/15 | EXP-1 消融实验 |
| E3 | 4/16-4/17 | EXP-2 基准测试 + EXP-3 信度分析 |
| E4 | 4/18-4/19 | EXP-4 Agent差异性分析 |
| E5 | 4/20-4/21 | EXP-5 反馈优化效果 |
| E6 | 4/22-4/23 | EXP-6 风格×场景分析 |
| E7 | 4/24-4/26 | 数据整理、图表制作 |
7.3 论文阶段(与开发/实验并行) #
| 时间 | 任务 |
|---|---|
| 3/18-4/10 | 边开发边写第1-3章 |
| 4/11-4/26 | 边实验边写第4-5章 |
| 4/27-4/30 | 写第6章 + 摘要 + 参考文献 + 致谢 |
| 5/1-5/5 | 查重 + 修改 |
| 5/6-5/10 | 导师审阅 + 修改定稿 |
7.4 答辩准备(5月11日 - 5月底) #
| 时间 | 任务 |
|---|---|
| 5/11-5/15 | 答辩PPT(15-18页) |
| 5/16-5/20 | 系统演示准备 + 录制视频(备用) |
| 5/21-5/25 | 答辩问答准备 |
| 5/26-5/31 | 答辩 |
八、代码结构 #
social-comment-system/
├── backend/
│ ├── app/
│ │ ├── main.py
│ │ ├── config.py
│ │ ├── database.py
│ │ ├── api/
│ │ │ ├── posts.py
│ │ │ ├── comments.py
│ │ │ └── evaluations.py
│ │ ├── models/
│ │ │ ├── post.py
│ │ │ ├── comment.py
│ │ │ └── evaluation.py
│ │ ├── schemas/
│ │ │ ├── post.py
│ │ │ ├── comment.py
│ │ │ └── evaluation.py
│ │ ├── services/
│ │ │ ├── comment_generator.py # 链式分析生成
│ │ │ ├── agent_evaluator.py # 多Agent评估
│ │ │ ├── feedback_optimizer.py # 反馈优化
│ │ │ ├── prompt_templates.py # 生成Prompt模板
│ │ │ ├── evaluation_prompts.py # 评估Prompt模板
│ │ │ └── agent_personas.py # Agent人设配置
│ │ └── utils/
│ │ ├── llm_client.py # LLM封装(限流/重试/token计数)
│ │ └── token_counter.py
│ ├── tests/
│ ├── .env
│ └── pyproject.toml
│
├── frontend/
│ ├── src/
│ │ ├── pages/
│ │ │ ├── PostManagement.tsx
│ │ │ ├── CommentGeneration.tsx
│ │ │ └── EvaluationResult.tsx
│ │ ├── components/
│ │ │ ├── RadarChart.tsx
│ │ │ ├── ActionDistribution.tsx
│ │ │ └── AgentComparisonTable.tsx
│ │ └── utils/
│ │ └── api.ts
│ └── package.json
│
├── experiments/
│ ├── data/
│ │ ├── test_posts.csv
│ │ ├── benchmark_good.csv
│ │ ├── benchmark_bad.csv
│ │ ├── generated_comments.csv
│ │ └── evaluation_results.csv
│ └── analysis/
│ ├── ablation_analysis.py
│ ├── benchmark_test.py
│ ├── reliability_analysis.py
│ ├── agent_diversity.py
│ ├── feedback_effect.py
│ └── style_scenario_matrix.py
│
└── docs/
├── screenshots/
└── figures/
九、参考文献 #
已有 #
[1] Perera R, Nand P. Recent Advances in Natural Language Generation…[J]. Computing and Informatics, 2017. [2] Zhao W X, et al. A Survey of Large Language Models[J]. arXiv, 2023. [3] 韩坤, 等. 融合BERT多层次特征的短视频网络舆情情感分析研究[J]. 计算机科学与探索, 2024. [4] 马晶义. 面向问答社区的评论生成关键技术研究[D]. 哈尔滨工业大学, 2019. [5] Li J, Ng H T. Think&Cite…[C]. ACL, 2025. [6] Liang X, et al. Controllable text generation for LLMs: A survey[J]. arXiv, 2024.
必须补充 #
[7] Zheng L, et al. Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena[C]. NeurIPS, 2023. [8] Park J S, et al. Generative Agents: Interactive Simulacra of Human Behavior[C]. UIST, 2023. [9] Argyle L P, et al. Out of One, Many: Using Language Models to Simulate Human Samples[J]. Political Analysis, 2023. [10] Wei J, et al. Chain-of-Thought Prompting Elicits Reasoning in LLMs[C]. NeurIPS, 2022.
待补充 #
[待填充] AI伦理相关(至少1篇) [待填充] 评论质量评估维度相关(至少1篇) [待填充] 社交媒体用户参与度相关(至少1篇) → 补齐后总量达15篇以上
十、答辩问答准备 #
Q1: 这个系统是帮人刷评论的吗? #
本系统定位为评论质量研究平台,不面向真实平台发布。核心价值在于评估和优化机制——研究什么样的Prompt策略能生成用户满意的评论。论文第6.2节对伦理问题有专门讨论。
Q2: 多个Agent不就是换了个Prompt吗? #
理论支撑来自三篇文献:Argyle(2023)证明Persona Prompting可模拟群体观点分布,Park(2023)证明LLM可模拟可信人类行为,Zheng(2023)证明LLM-as-Judge有效性。本文实验EXP-4验证了不同Agent确实存在系统性评分差异。
Q3: 没有真人评估怎么证明靠谱? #
采用三重验证:(1)基准测试验证Agent能区分好坏评论;(2)评估者间信度(ICC)验证Agent之间一致性;(3)依托LLM-as-Judge学术文献(Zheng et al., NeurIPS 2023)作为方法论基础。论文6.3节将"未做大规模人工验证"列为局限性。
Q4: 为什么不做爬虫? #
核心创新在于生成框架和评估方法,数据获取不是研究重点。系统预留了爬虫导入接口,具备扩展性。实验数据通过手动采集公开帖子构建,学术界通用做法。
Q5: 论文和开题报告不一致? #
开题阶段规划了定向爬取模块,深入研究后发现核心价值在于生成质量和评估方法。调整后系统更聚焦,采用了灵活的多来源数据导入方案。
十一、待填充点清单 #
| 编号 | 内容 | 位置 | 优先级 |
|---|---|---|---|
| F1 | 评估维度的文献支撑 | 创新点2 + 1.2节 | 高 |
| F2 | AI伦理文献 | 1.4节 + 6.2节 | 中 |
| F3 | 社交媒体用户参与度文献 | 1.1节 | 中 |
| F4 | Chain-of-Thought在生成任务中的应用 | 2.1.2节 | 低 |
十二、备忘 #
- 边开发边截图——每个功能完成就存图
- Git commit规范——每个模块一个commit
- 实验日志——每次实验的参数和结果都记录
- 不预设数据——跑出什么报什么
- 论文同步写——不堆到最后
ICC 是真的,但它不是某一篇论文标题,而是统计学术语 Intraclass Correlation Coefficient,中文通常译为“组内相关系数”或“类内相关系数”,是常见的评分者一致性/信度指标。 Krippendorff’s alpha 也是真的,同样是统计学术语,不是单篇论文标题。它是 Klaus Krippendorff 提出的编码者一致性指标,广泛用于内容分析和多标注者一致性评估。 Zheng et al. (2023) 关于 LLM-as-Judge 的研究 是真的。Exa 检到的对应论文是 Judging LLM-as-a-judge with MT-Bench and Chatbot Arena,首作者是 Lianmin Zheng,时间是 2023。这条引用基本成立。 Park et al. (2023) 关于生成式智能体的研究 是真的。Exa 检到的对应论文是 Generative Agents: Interactive Simulacra of Human Behavior,首作者是 Joon Sung Park,2023 年 arXiv 预印本,后续也进入了 UIST 2023。这条引用成立。 Argyle et al. (2023) 关于 LLM 角色模拟的实证研究 这条“有真实来源,但你的表述不够准确”。Exa 检到的真实论文是 Out of One, Many: Using Language Models to Simulate Human Samples,作者为 Lisa P. Argyle 等,2023,刊于 Political Analysis。 更准确地说,它研究的是“用语言模型模拟人类样本/特定人群代理”,而不是一个标准命名的“LLM 角色模拟”论文。所以: 如果你只是想表达“Argyle 等人在 2023 年做过 LLM 模拟人类样本的实证研究”,这是真的。 如果你想把它写成“Argyle et al. (2023) 关于 LLM 角色模拟的研究”作为精确文献描述,建议改写,否则会显得过度概括。 更稳妥的写法可以直接改成: ICC 与 Krippendorff’s alpha 是常用的一致性指标。 Zheng et al. (2023) 探讨了 LLM-as-Judge,用于开放式生成任务评估。 Park et al. (2023) 提出了 Generative Agents。 Argyle et al. (2023) 研究了使用语言模型模拟人类样本(simulate human samples)的可行性。