Table of Contents

毕业设计最终计划 #

题目：社交媒体评论生成与评估系统设计与实现

学校：深圳技术大学

定稿日期：2026年3月18日

本文档经过多轮讨论确认，包含项目定位、创新点、论文大纲、评估维度、实验设计、技术栈、开发计划等全部内容。

一、项目定位 #

1.1 核心研究问题 #

如何通过提示工程，让LLM在特定帖子场景下生成用户满意的社交媒体评论？如何度量"满意"？如何通过反馈持续提升满意度？

“满意"的操作定义：用户愿意把这条评论发出去。拆解为4个可度量维度：场景适配度、风格达成度、自然度、互动潜力。

1.2 系统定位 #

本系统是一个社交媒体评论生成与质量评估研究平台，不面向真实社交平台发布。

生成模块：制造可控的评论素材
评估模块：用多Agent仿真度量评论质量
反馈模块：根据评估结果针对性优化生成
核心价值：闭环（生成 → 评估 → 反馈 → 再生成）

1.3 系统工作流 #

用户输入帖子（手动粘贴 / 爬虫导入[预留接口]）
    ↓
帖子内容分析（主题、情感、争议点 → 结构化JSON）
    ↓
多风格评论生成（5种风格，基于链式Prompt框架）
    ↓
多智能体仿真评估（8个Agent，4个维度独立打分）
    ↓
识别短板维度 → 增强Prompt → 再生成 → 再评估
    ↓
输出：满意的评论 + 评估分析报告 + 可视化

二、创新点 #

创新点1：基于链式分析的上下文增强评论生成框架 #

大多数LLM评论生成采用单步直接生成。本研究提出三阶段链式框架：

阶段1：帖子深度分析

输入：原始帖子（标题+内容+分类）
输出：结构化JSON（核心主题、情感倾向、讨论焦点、潜在争议点）
使用统一分析模板，不区分分类（如实验中发现特定分类效果差，再针对性优化，优化过程写入论文）

阶段2：动态Prompt组装

根据阶段1的结构化输出 + 目标风格，自适应组合Prompt组件
组件：角色设定 + 上下文注入 + Few-shot示例 + 生成约束
不同风格使用不同的角色描述和约束条件

阶段3：约束生成 + 后处理

调用LLM生成评论
后处理：去除多余符号、控制长度、格式清理

创新性：

结构化中间表示（JSON）显式传递上下文，提高可控性和可解释性
动态组装而非固定模板
通过消融实验（EXP-1）量化每个阶段的贡献

理论来源：

Chain-of-Thought Prompting (Wei et al., 2022) → 链式分析的方法论基础
可控文本生成综述 (Liang et al., 2024) → 可控生成技术谱系定位

创新点2：基于LLM角色模拟的多智能体仿真评估框架 #

理论依据：

理论来源	文献	支撑什么
LLM-as-Judge	Zheng et al., NeurIPS 2023	LLM具备有效评估文本质量的能力
Persona模拟	Argyle et al., Political Analysis 2023	不同Persona Prompt可模拟不同群体的观点分布
生成式智能体	Park et al., UIST 2023	LLM可模拟可信的人类行为模式

Agent不只是"换了个Prompt”——每个Agent具有完整的人格配置：

配置维度	作用
人口特征（年龄/职业）	锚定评价视角
性格特质	影响评价严格度
评价关注点	决定维度偏好
System Prompt	详细角色描述

8个Agent设计：

Agent	年龄	职业	性格	评价关注点
资深爱好者	28	行业从业者	严谨、挑剔	专业性、准确性
路人用户	25	上班族	随和、实用	可读性、趣味性
批判者	32	评论员	批判性思维	逻辑漏洞、偏见
情感共鸣者	23	学生	感性、善良	情感真挚、共鸣
理性分析者	30	研究员	理性、客观	数据、逻辑
幽默爱好者	21	学生	乐观、轻松	趣味性、创意
中立观察者	35	管理者	中立、包容	全面性、平衡性
实用主义者	27	创业者	务实、高效	实用价值

验证方法：

EXP-2 基准测试：验证Agent能区分明显好/坏评论
EXP-3 评估者间信度：验证Agent之间的一致性（ICC/Krippendorff’s alpha）
EXP-4 差异性分析：验证不同Agent存在系统性的评分差异模式

评估维度体系： 见第三节。

[待填充] 补充评估维度的文献支撑（搜索方向：comment quality dimensions, social media engagement metrics）

创新点3：评估反馈驱动的生成优化机制 #

连接创新点1和创新点2的闭环。

流程：

第一轮：正常生成 + 多Agent评估
    → 得到4个维度评分

识别短板：取评分最低的维度

构建增强Prompt：在原始Prompt末尾追加维度特定指令

第二轮：增强生成 + 再评估
    → 对比分数变化

维度增强指令：

短板维度	追加指令
场景适配度低	“请确保评论紧密围绕帖子的核心主题，直接回应帖子中的具体观点或事实”
风格达成度低	“请强化{目标风格}的表达特征，让读者一眼就能识别出这是{目标风格}的评论”
自然度低	“请用社交媒体上真实用户的口吻表达，避免任何模板化、格式化的AI腔调”
互动潜力低	“请在评论中加入能引发回复的元素，如提出问题、分享个人经历、或提出可讨论的观点”

验证： EXP-5 反馈优化效果实验。

三、评估维度与评分标准 #

3.1 四个评估维度 #

维度1：场景适配度（Context Fit） #

“这条评论放在这个帖子底下，搭不搭？”

分数	标准
5	紧扣帖子核心话题，直接回应帖子中的具体内容
4	与帖子话题相关，但没有直接回应具体细节
3	与帖子话题沾边，但略显泛泛
2	与帖子关系不大，放在其他帖子下也成立
1	完全跑题或答非所问

维度2：风格达成度（Style Achievement） #

“我要的是幽默风格，它确实好笑吗？”

分数	标准
5	风格鲜明，一读就能识别出目标风格
4	基本体现目标风格，但不够突出
3	有一点目标风格的影子，但不明显
2	风格模糊，难以判断
1	完全不符合目标风格

维度3：自然度（Naturalness） #

“这读起来像人写的吗？”

分数	标准
5	完全像真人在社交媒体上的自然发言
4	基本自然，偶尔有一点不够口语化
3	能接受，但有明显的"AI腔"或模板感
2	读起来生硬，像是机器生成的
1	一看就是AI写的，充满套话和格式化表达

维度4：互动潜力（Engagement Potential） #

“发出去会有人理吗？”

分数	标准
5	很想点赞/回复，评论本身就能带动讨论
4	值得点赞，但不一定会回复
3	看到了会看一眼，但不太会互动
2	无感，会直接滑过
1	看到会反感或觉得是垃圾评论

3.2 综合满意度 #

综合满意度 = 4个维度的等权平均

满意度 = (场景适配度 + 风格达成度 + 自然度 + 互动潜力) / 4

3.3 Agent额外输出 #

除了4个维度评分，每个Agent还输出：

态度：like / neutral / dislike
评语：50字以内的简要理由

四、论文目录与大纲 #

总体结构 #

章节	标题	预估字数
第1章	绪论	2800
第2章	相关技术与理论基础	1800
第3章	需求分析与系统设计	2500
第4章	系统实现	4000
第5章	实验与分析	3500
第6章	总结与展望	1000
合计	-	15600+

详细大纲 #

第1章 绪论（2800字）

  1.1 研究背景与意义（800字）
      - 社交媒体评论的重要性
      - 两个核心问题：高质量评论生成 + 质量评估方法
      - 理论意义：构建生成-评估-优化闭环
      - 实践意义：为评论质量研究提供仿真平台

  1.2 国内外研究现状（1000字）
      1.2.1 社交媒体文本生成技术（300字）
            - 模板/规则 → Seq2Seq → LLM可控生成
      1.2.2 文本质量评估方法（300字）
            - BLEU/ROUGE的局限性
            - LLM-as-Judge范式（Zheng et al., 2023）
      1.2.3 基于LLM的角色模拟与社会仿真（250字）
            - Generative Agents (Park et al., 2023)
            - Persona-based Simulation (Argyle et al., 2023)
      1.2.4 现有研究不足与本文定位（150字）
            - 生成与评估割裂
            - 评估维度过于简化
            - 缺乏闭环优化机制

  1.3 研究内容与创新点（600字）
      - 创新点1：链式分析评论生成框架
      - 创新点2：多智能体仿真评估方法
      - 创新点3：评估反馈驱动的生成优化

  1.4 研究的伦理考量（200字）
      - 系统定位为研究工具，不用于生成虚假评论
      - 详细讨论见第6章
      [待填充] AI伦理文献

  1.5 论文组织结构（200字）


第2章 相关技术与理论基础（1800字）

  2.1 大语言模型与提示工程（600字）
      2.1.1 大语言模型概述（200字）
      2.1.2 提示工程方法论（400字）
            - Chain-of-Thought、Few-shot Learning
            - 可控生成的Prompt策略

  2.2 多智能体系统与LLM角色模拟（600字）
      2.2.1 多智能体系统概述（200字）
      2.2.2 基于LLM的角色模拟理论（400字）
            - Persona Prompting原理
            - LLM-as-Judge有效性
            - 理论支撑文献

  2.3 开发技术简介（400字）
      - FastAPI（100字）、React + Ant Design（100字）
      - 数据可视化（100字）、SQLite（100字）

  2.4 本章小结（100字）


第3章 需求分析与系统设计（2500字）

  3.1 需求分析（800字）
      3.1.1 功能性需求（表格）
      3.1.2 非功能性需求

  3.2 系统总体架构设计（600字）
      - 架构图
      - 三层架构说明
      - 核心模块交互流程图

  3.3 数据库设计（600字）
      - ER图
      - 各表结构

  3.4 接口设计（400字）
      - RESTful API列表

  3.5 本章小结（100字）


第4章 系统实现（4000字）

  4.1 开发环境与项目结构（300字）

  4.2 链式分析评论生成模块（1200字）
      4.2.1 LLM客户端封装（200字）
            - 统一接口、速率控制、token计数、异常重试
      4.2.2 帖子分析阶段（300字）
            - 统一分析Prompt模板
            - 结构化JSON输出解析
      4.2.3 多风格Prompt模板设计（400字）
            - 5种风格的设计（幽默/理性/情感共鸣/争议/支持）
            - Few-shot示例
            - 动态Prompt组装逻辑
      4.2.4 生成服务与后处理（300字）

  4.3 多智能体仿真评估模块（1400字）
      4.3.1 Agent人设体系设计（500字）
            - 8个Agent完整配置（表格）
            - 设计原则
      4.3.2 评估Prompt工程（400字）
            - 评估Prompt结构
            - 4维度评分rubric嵌入
            - 严格JSON输出控制
      4.3.3 评估服务实现（300字）
            - asyncio并发调用8个Agent
            - 结果解析与异常处理
      4.3.4 评估结果分析引擎（200字）
            - 维度平均分、行为分布、争议指数

  4.4 评估反馈优化模块（600字）
      4.4.1 短板维度识别（200字）
      4.4.2 维度增强Prompt构建（200字）
      4.4.3 迭代优化流程（200字）

  4.5 前端可视化模块（400字）
      - 页面结构
      - 雷达图、柱状图、对比视图
      - 配截图

  4.6 本章小结（100字）


第5章 实验与分析（3500字）

  5.1 实验环境与数据集（300字）
      - 环境配置表
      - 数据集：30个帖子（5分类×6条），手动采集
      - 生成评论：150条（30帖子×5风格）

  5.2 功能测试与性能测试（400字）
      - 功能测试用例表（精简）
      - 响应时间（串行 vs 并发优化对比）

  5.3 EXP-1 生成模块消融实验（600字）
      - 5组对照（完整/去分析/去示例/去角色/基线）
      - 多Agent评估打分
      - 各条件各维度得分对比表
      - 分析各组件贡献

  5.4 EXP-2/3 多Agent评估有效性验证（800字）
      5.4.1 基准测试（EXP-2）
            - 构造明显好评/差评各10条
            - 验证Agent能正确区分
      5.4.2 评估者间信度（EXP-3）
            - 8个Agent对150条评论的评分
            - 计算ICC / Krippendorff's alpha
            - 分维度报告信度

  5.5 EXP-4 Agent差异性分析（400字）
      - 各Agent评分分布（箱线图）
      - 验证系统性差异模式
      - 如：幽默爱好者是否给幽默评论更高分

  5.6 EXP-5 反馈优化效果（500字）
      - 取第一轮评分最低的30条评论
      - 应用维度增强Prompt后重新生成
      - 对比优化前后各维度得分（paired t-test）
      - 报告实际提升幅度

  5.7 EXP-6 风格×场景交叉分析（300字）
      - 5风格×5分类的评分矩阵
      - 分析哪种风格在哪种场景下最优

  5.8 本章小结（200字）


第6章 总结与展望（1000字）

  6.1 工作总结（300字）

  6.2 伦理讨论与社会影响（400字）
      - AI生成内容的伦理边界
      - 本系统的合规使用场景
      - 防滥用讨论
      [待填充] AI伦理文献（至少2篇）

  6.3 不足与展望（300字）
      - 数据规模有限
      - 评估全部基于LLM，未做大规模人工验证
      - 未来：强化学习优化、真实平台对接、多语言支持

五、实验设计 #

5.1 实验总表 #

实验	目标	方法	样本量	评估方式
EXP-1 消融实验	验证生成框架各组件贡献	5组对照生成，多Agent评分	75条评论	8 Agent
EXP-2 基准测试	验证Agent评分的基本有效性	好评/差评各10条，检验区分能力	20条评论	8 Agent
EXP-3 评估者间信度	验证8个Agent之间的一致性	对150条评论计算ICC	150条评论	8 Agent
EXP-4 Agent差异性	验证不同Agent有系统性差异	分析各Agent评分分布和偏好	复用EXP-3数据	统计分析
EXP-5 反馈优化	验证闭环反馈能提升分数	低分评论优化前后对比	30条评论	8 Agent
EXP-6 风格×场景	分析最优风格-场景组合	5风格×5分类交叉评分	复用生成数据	统计分析

5.2 EXP-1 消融实验详细设计 #

正交对照组：

条件	帖子分析	Few-shot	详细角色	说明
A 完整框架	✓	✓	✓	三阶段全开
B 去帖子分析	✗	✓	✓	不做阶段1，直接组装Prompt
C 去Few-shot	✓	✗	✓	不提供示例
D 去角色设定	✓	✓	✗	不设角色，只给任务指令
E 基线	✗	✗	✗	“请对以下帖子写一条评论”

每条件 × 5帖子 × 3条 = 75条评论，全部用8个Agent评估，比较各条件在4个维度上的平均分。

5.3 EXP-2 基准测试详细设计 #

手动构造基准评论集：

好评论标准：紧扣帖子、风格鲜明、自然流畅、有互动性差评论标准：跑题、风格不对、AI味重、无互动价值

类型	数量	构造方式
明显好评	10条	手动编写或从真实热评中选取
明显差评	10条	故意编写（跑题/AI腔/空洞）

验证指标：Agent是否给好评论显著更高的分数（Mann-Whitney U检验，p < 0.05）

5.4 EXP-3 评估者间信度 #

指标选择：

ICC(2,1)：双向随机模型，单个评估者
Krippendorff’s alpha：更保守的信度指标
分维度报告：4个维度各自的信度

解读标准：

ICC > 0.75：良好信度
ICC 0.5-0.75：中等信度
ICC < 0.5：需要讨论原因

5.5 EXP-5 反馈优化 #

流程：

从150条生成评论中，选综合满意度排名最低的30条
识别每条评论的最低维度
应用对应的增强Prompt重新生成
用同样的8个Agent重新评估
Paired t-test检验：优化前后的分数差异是否显著

报告指标：

各维度的平均提升幅度
优化成功率（分数确实提升的比例）
失败案例分析（分数没提升或下降的原因）

5.6 原则 #

不预设任何实验结果，报告真实数据
结果不理想时，分析原因比漂亮数据更有价值
每个实验都报告效应量（Cohen’s d 或 η²）

六、技术栈 #

层次	技术	版本	选择理由
后端框架	FastAPI	0.100+	异步支持，适合LLM并发调用
前端框架	React + TypeScript	18.2+	组件化，生态丰富
UI组件库	Ant Design	5.x	企业级组件
数据可视化	ECharts (echarts-for-react)	5.x	雷达图、柱状图
数据库	SQLite	3.x	轻量级（论文中说明局限性）
ORM	SQLAlchemy	2.x	Python主流ORM
LLM接口	OpenAI兼容接口	-	支持切换多家模型
包管理	Poetry (后端) / npm (前端)	-	-

工程质量（答辩加分项）：

实践	实现方式
API速率限制	slowapi库或自定义限流
Token计数	tiktoken库
异步并发	asyncio并发8个Agent调用
异常重试	tenacity库，指数退避
JSON鲁棒解析	正则兜底 + 默认值回退

七、开发计划 #

7.1 开发阶段（3月18日 - 4月10日，24天） #

阶段	时间	任务	天数
P1	3/18-3/21	后端框架 + 数据库 + 帖子CRUD	4
P2	3/22-3/25	LLM客户端（含限流/重试）+ 评论生成模块	4
P3	3/26-3/29	多Agent评估模块 + asyncio并发优化	4
P4	3/30-4/1	反馈优化模块	3
P5	4/2-4/6	前端3个核心页面	5
P6	4/7-4/10	联调 + Bug修复 + 测试数据准备	4

7.2 实验阶段（4月11日 - 4月26日，16天） #

阶段	时间	任务
E1	4/11-4/13	数据集构建（采集30个帖子）
E2	4/14-4/15	EXP-1 消融实验
E3	4/16-4/17	EXP-2 基准测试 + EXP-3 信度分析
E4	4/18-4/19	EXP-4 Agent差异性分析
E5	4/20-4/21	EXP-5 反馈优化效果
E6	4/22-4/23	EXP-6 风格×场景分析
E7	4/24-4/26	数据整理、图表制作

7.3 论文阶段（与开发/实验并行） #

时间	任务
3/18-4/10	边开发边写第1-3章
4/11-4/26	边实验边写第4-5章
4/27-4/30	写第6章 + 摘要 + 参考文献 + 致谢
5/1-5/5	查重 + 修改
5/6-5/10	导师审阅 + 修改定稿

7.4 答辩准备（5月11日 - 5月底） #

时间	任务
5/11-5/15	答辩PPT（15-18页）
5/16-5/20	系统演示准备 + 录制视频（备用）
5/21-5/25	答辩问答准备
5/26-5/31	答辩

八、代码结构 #

social-comment-system/
├── backend/
│   ├── app/
│   │   ├── main.py
│   │   ├── config.py
│   │   ├── database.py
│   │   ├── api/
│   │   │   ├── posts.py
│   │   │   ├── comments.py
│   │   │   └── evaluations.py
│   │   ├── models/
│   │   │   ├── post.py
│   │   │   ├── comment.py
│   │   │   └── evaluation.py
│   │   ├── schemas/
│   │   │   ├── post.py
│   │   │   ├── comment.py
│   │   │   └── evaluation.py
│   │   ├── services/
│   │   │   ├── comment_generator.py    # 链式分析生成
│   │   │   ├── agent_evaluator.py      # 多Agent评估
│   │   │   ├── feedback_optimizer.py   # 反馈优化
│   │   │   ├── prompt_templates.py     # 生成Prompt模板
│   │   │   ├── evaluation_prompts.py   # 评估Prompt模板
│   │   │   └── agent_personas.py       # Agent人设配置
│   │   └── utils/
│   │       ├── llm_client.py           # LLM封装（限流/重试/token计数）
│   │       └── token_counter.py
│   ├── tests/
│   ├── .env
│   └── pyproject.toml
│
├── frontend/
│   ├── src/
│   │   ├── pages/
│   │   │   ├── PostManagement.tsx
│   │   │   ├── CommentGeneration.tsx
│   │   │   └── EvaluationResult.tsx
│   │   ├── components/
│   │   │   ├── RadarChart.tsx
│   │   │   ├── ActionDistribution.tsx
│   │   │   └── AgentComparisonTable.tsx
│   │   └── utils/
│   │       └── api.ts
│   └── package.json
│
├── experiments/
│   ├── data/
│   │   ├── test_posts.csv
│   │   ├── benchmark_good.csv
│   │   ├── benchmark_bad.csv
│   │   ├── generated_comments.csv
│   │   └── evaluation_results.csv
│   └── analysis/
│       ├── ablation_analysis.py
│       ├── benchmark_test.py
│       ├── reliability_analysis.py
│       ├── agent_diversity.py
│       ├── feedback_effect.py
│       └── style_scenario_matrix.py
│
└── docs/
    ├── screenshots/
    └── figures/

九、参考文献 #

已有 #

[1] Perera R, Nand P. Recent Advances in Natural Language Generation…[J]. Computing and Informatics, 2017. [2] Zhao W X, et al. A Survey of Large Language Models[J]. arXiv, 2023. [3] 韩坤, 等. 融合BERT多层次特征的短视频网络舆情情感分析研究[J]. 计算机科学与探索, 2024. [4] 马晶义. 面向问答社区的评论生成关键技术研究[D]. 哈尔滨工业大学, 2019. [5] Li J, Ng H T. Think&Cite…[C]. ACL, 2025. [6] Liang X, et al. Controllable text generation for LLMs: A survey[J]. arXiv, 2024.

必须补充 #

[7] Zheng L, et al. Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena[C]. NeurIPS, 2023. [8] Park J S, et al. Generative Agents: Interactive Simulacra of Human Behavior[C]. UIST, 2023. [9] Argyle L P, et al. Out of One, Many: Using Language Models to Simulate Human Samples[J]. Political Analysis, 2023. [10] Wei J, et al. Chain-of-Thought Prompting Elicits Reasoning in LLMs[C]. NeurIPS, 2022.

待补充 #

[待填充] AI伦理相关（至少1篇） [待填充] 评论质量评估维度相关（至少1篇） [待填充] 社交媒体用户参与度相关（至少1篇） → 补齐后总量达15篇以上

十、答辩问答准备 #

Q1: 这个系统是帮人刷评论的吗？ #

本系统定位为评论质量研究平台，不面向真实平台发布。核心价值在于评估和优化机制——研究什么样的Prompt策略能生成用户满意的评论。论文第6.2节对伦理问题有专门讨论。

Q2: 多个Agent不就是换了个Prompt吗？ #

理论支撑来自三篇文献：Argyle(2023)证明Persona Prompting可模拟群体观点分布，Park(2023)证明LLM可模拟可信人类行为，Zheng(2023)证明LLM-as-Judge有效性。本文实验EXP-4验证了不同Agent确实存在系统性评分差异。

Q3: 没有真人评估怎么证明靠谱？ #

采用三重验证：(1)基准测试验证Agent能区分好坏评论；(2)评估者间信度(ICC)验证Agent之间一致性；(3)依托LLM-as-Judge学术文献(Zheng et al., NeurIPS 2023)作为方法论基础。论文6.3节将"未做大规模人工验证"列为局限性。

Q4: 为什么不做爬虫？ #

核心创新在于生成框架和评估方法，数据获取不是研究重点。系统预留了爬虫导入接口，具备扩展性。实验数据通过手动采集公开帖子构建，学术界通用做法。

Q5: 论文和开题报告不一致？ #

开题阶段规划了定向爬取模块，深入研究后发现核心价值在于生成质量和评估方法。调整后系统更聚焦，采用了灵活的多来源数据导入方案。

十一、待填充点清单 #

编号	内容	位置	优先级
F1	评估维度的文献支撑	创新点2 + 1.2节	高
F2	AI伦理文献	1.4节 + 6.2节	中
F3	社交媒体用户参与度文献	1.1节	中
F4	Chain-of-Thought在生成任务中的应用	2.1.2节	低

十二、备忘 #

边开发边截图——每个功能完成就存图
Git commit规范——每个模块一个commit
实验日志——每次实验的参数和结果都记录
不预设数据——跑出什么报什么
论文同步写——不堆到最后

ICC 是真的，但它不是某一篇论文标题，而是统计学术语 Intraclass Correlation Coefficient，中文通常译为“组内相关系数”或“类内相关系数”，是常见的评分者一致性/信度指标。 Krippendorff’s alpha 也是真的，同样是统计学术语，不是单篇论文标题。它是 Klaus Krippendorff 提出的编码者一致性指标，广泛用于内容分析和多标注者一致性评估。 Zheng et al. (2023) 关于 LLM-as-Judge 的研究是真的。Exa 检到的对应论文是 Judging LLM-as-a-judge with MT-Bench and Chatbot Arena，首作者是 Lianmin Zheng，时间是 2023。这条引用基本成立。 Park et al. (2023) 关于生成式智能体的研究是真的。Exa 检到的对应论文是 Generative Agents: Interactive Simulacra of Human Behavior，首作者是 Joon Sung Park，2023 年 arXiv 预印本，后续也进入了 UIST 2023。这条引用成立。 Argyle et al. (2023) 关于 LLM 角色模拟的实证研究这条“有真实来源，但你的表述不够准确”。Exa 检到的真实论文是 Out of One, Many: Using Language Models to Simulate Human Samples，作者为 Lisa P. Argyle 等，2023，刊于 Political Analysis。更准确地说，它研究的是“用语言模型模拟人类样本/特定人群代理”，而不是一个标准命名的“LLM 角色模拟”论文。所以：如果你只是想表达“Argyle 等人在 2023 年做过 LLM 模拟人类样本的实证研究”，这是真的。如果你想把它写成“Argyle et al. (2023) 关于 LLM 角色模拟的研究”作为精确文献描述，建议改写，否则会显得过度概括。更稳妥的写法可以直接改成： ICC 与 Krippendorff’s alpha 是常用的一致性指标。 Zheng et al. (2023) 探讨了 LLM-as-Judge，用于开放式生成任务评估。 Park et al. (2023) 提出了 Generative Agents。 Argyle et al. (2023) 研究了使用语言模型模拟人类样本（simulate human samples）的可行性。