论文阅读 | Wanghai673

9.16 论文阅读

SIMULATING HUMAN-LIKE DAILY ACTIVITIES WITH DESIRE-DRIVEN AUTONOMY 总结现在有许多使用大语言模型模拟人类行为的相关论文，使用强化学习训练等方法，但这些方法的大多数只限定为特定场景，无法拓展到人类日常生活中多样变化的场景中。作者引入了欲望驱使的大预言模型agent，来预测模拟人们日常一天生活中的行为，分为了两个模块：环境模拟、欲望驱使agent。环境模拟主要使用了Concordia论文的方法，做了一个日常生活的模拟器。欲望驱使agent更为复杂，其中最重要的部分便是欲望上下文的生成：DESIRE GENERATION，VALUE SYSTEM FOR DESIRE EVALUATION。 DESIRE GENERATION：通过预设好的相关标准，将不同形容词的不同程度映射为一个值。 VALUE SYSTEM FOR DESIRE EVALUATION分为三部分： Quantitative Value Deduction：做选择题，推理出形容词不同值 Qualitative Value Description：根据value做出总体描述 Value Update：更新值实验没咋看，准备还是看些对模型参数层面修改的论文，如LLM微调、强化学习等的论文。

9.13 论文阅读

Iterative Experience Refinement of Software-Developing Agents 总结作者迭代式地改善软件开发agents，作者在前一个论文中的提出原学习的方法，也就是记录软件开发中的捷径，但在捷径检索中只是用了简单的语义检索。本文，作者提出保持这些经验的方法：连续更改，每个任务batch中，对前一个batch的经验进行优化总结更改，根据前面所有batch的经验，更新出新的经验最后作者又提出了一个经验elimination，也就是每次保留用得最多的经验，防止检索到无效的内容作为上下文，接着就是实验。

9.9 论文阅读

Experiential Co-Learning of Software-Developing Agents 总结非常有意思的一篇文章，是前一篇agent进行软件工程的ChetDev的续集。前一篇主要加入instructor和assistant的交流互动，提高软件生成的可行性，这篇注重设计如何提高agent利用历史经验的能力。作者提出，多轮的交流互动记忆系统不一定可能会降低llm生成内容的质量，我们需要提取出能提升的边，并且学习如何在软件开发中走“最短路”。论文学习能力的设计分为三个部分：co-tracking module、co-memorizing module、co-reasoning module co-tracking：作者将历史交流记录抽象为assistant的solution为点，instructor的instruction为边的一条链 co-memorizing：探索这条链是否能创造捷径，减少中间交流过程，然后记录下跨越经验。比如Si点可以跨越到Sj点（i<j），那么llm根据两个点生成边（instruction），并且记录下这些边，供后面别的任务提供经验。 co-reasoning：top-k检索相应的捷径边，为instructor和assistant提供捷径。最后是论文的实验部分，分为Completeness Executability Consistency Quality Duration、胜率测评；定性分析；效率分析；可行性分析；参数敏感性分析（这部分没咋看hhh，但前半部分的原学习框架的设计还是很novel的）

9.7 论文阅读

Self-collaboration Code Generation via ChatGPT 总结 2023年的一篇上古论文了（GPT-3.5时代），讲的是如何通过多智能体协作结合软件工程的一些方法论实现代码生成。框架中不同智能体是通过prompt驱动的。首先将问题分解为不同stage，如何不同stage通过三个智能体：分析师、代码师、测试师来解决完成的，如下图所示。然后作者针对框架提出6个不同的RQ(论文标题写错了RQ6写成RQ7了hhh)，并实验分析。 RQ1: Self-collaboration vs. Baselines RQ2: The Effect of Roles in Self-collaboration RQ3: Self-collaboration on Different LLMs RQ4: The Effect of Interaction RQ5: Analysis for Self-collaboration RQ6: How does self-collaboration work in repository-level software development scenarios and how does it perform? ChatDev: Communicative Agents for Software Development 总结好久以前的经典文章了，感觉是上面文章的加强版，也是关于LLM agent实现软件开发的。本文在软件瀑布开发过程的每个phase中引入了讨论的机制，但只有两个agent讨论，一般是instructor和assistant。通过语言交流的过程，将交流过程的批判和分析，作为推理从而生成下一轮的代码，如下图。本文有一个减轻幻觉的机制，就是让assistant与instructor交流过程中主动进入询问环节，提出自己需要的更明确的信息给instrutor，从而缓解instructor提出模糊的需求，从而导致assistant生成内容的幻觉，通过多轮迭代优化代码完整性和准确性。

9.6 论文阅读

EduAgent: Generative Student Agents in Learning 总结本文是针对线上教育领域的学生模仿相关的研究，之前的模型多利用庞大的数据对学生学习行为进行预测，随着LLM的问世，LLM提供的前置知识能很好的针对不同场景不同内容线上教育的学生行为预测。学生行为预测受到多方面的影响，如性格、学生储备知识等，本文提供了一个数据集（350个sample），针对一段5分钟的幻灯片讲解，提供学生个人信息和每个小时间段的学生注意窗口、行为、认知状态信息等。作者结合LLM强大的推理功能，让LLM自主推理出不同信息间的关联，从而实现学生行为的预测和模仿，但这篇论文的实验没咋看懂… LLM-mediated domain-specific voice agents: the case of TextileBot 总结粗粒度地看了下… 只看了摘要和引言和结论，讲的是如何原型化地设计一个垂直领域的对话agent，包含prompt模板，随后作者自己设计了一个宣传服装环保领域的一个agent（在购物的时候跟顾客交流的），并做了用户实验。 Why language models hallucinate 总结 Why language models hallucinate | OpenAI OpenAI 9月5号刚发布的文章，主要讲述了为什么大语言模型会产生幻觉。作者描述，LLM（大语言模型）之所以产生幻觉，是因为现在对模型后训练的奖励函数，往往将答错一道题和拒答一道题（承认不知道）的惩罚都是一致的，导致LLM更倾向于去猜题，这样还有概率猜对。那有人就会说了，让答错的惩罚提升一些不就行了。确实可以，但是作者回应到现如今大多数的benchmark，只有对/错两个选项，并没有考虑到幻觉的因素，从而导致大家更宁愿LLM猜题，增加一些benchmark的准确率，而不是拒答（大幅度降低幻觉，但准确率会略微降低）。作者呼吁所有benchmark的制作者们，将幻觉这个评价指标加入到benchmark的评测之中，从而抑制LLM的胡言乱语。但现在的benchmark对幻觉的评判往往是特定的一类，大多数benmark没有考虑幻觉因素。上面都是通过后训练降低LLM幻觉的途径，那能不能在预训练的时候降低大语言模型的幻觉呢？作者回答，现在的数据都是无监督的，导致LLM并没有办法对每段数据的真实性做判断，更好的办法还是在后训练的时候减少大模型的幻觉。下图是原文的提出的LLM幻觉的一些误解与澄清：