9.13 论文阅读

Iterative Experience Refinement of Software-Developing Agents 总结 作者迭代式地改善软件开发agents,作者在前一个论文中的提出原学习的方法,也就是记录软件开发中的捷径,但在捷径检索中只是用了简单的语义检索。 本文,作者提出保持这些经验的方法: 连续更改,每个任务batch中,对前一个batch的经验进行优化 总结更改,根据前面所有batch的经验,更新出新的经验 最后作者又提出了一个经验elimination,也就是每次保留用得最多的经验,防止检索到无效的内容作为上下文,接着就是实验。

2025年09月13日

9.9 论文阅读

Experiential Co-Learning of Software-Developing Agents 总结 非常有意思的一篇文章,是前一篇agent进行软件工程的ChetDev的续集。前一篇主要加入instructor和assistant的交流互动,提高软件生成的可行性,这篇注重设计如何提高agent利用历史经验的能力。 作者提出,多轮的交流互动记忆系统不一定可能会降低llm生成内容的质量,我们需要提取出能提升的边,并且学习如何在软件开发中走“最短路”。 论文学习能力的设计分为三个部分:co-tracking module、co-memorizing module、co-reasoning module co-tracking:作者将历史交流记录抽象为assistant的solution为点,instructor的instruction为边的一条链 co-memorizing:探索这条链是否能创造捷径,减少中间交流过程,然后记录下跨越经验。比如Si点可以跨越到Sj点(i<j),那么llm根据两个点生成边(instruction),并且记录下这些边,供后面别的任务提供经验。 co-reasoning:top-k检索相应的捷径边,为instructor和assistant提供捷径。 最后是论文的实验部分,分为Completeness Executability Consistency Quality Duration、胜率测评;定性分析;效率分析;可行性分析;参数敏感性分析(这部分没咋看hhh,但前半部分的原学习框架的设计还是很novel的)

2025年09月09日

9.7 论文阅读

Self-collaboration Code Generation via ChatGPT 总结 2023年的一篇上古论文了(GPT-3.5时代),讲的是如何通过多智能体协作结合软件工程的一些方法论实现代码生成。 框架中不同智能体是通过prompt驱动的。 首先将问题分解为不同stage,如何不同stage通过三个智能体:分析师、代码师、测试师 来解决完成的,如下图所示。 然后作者针对框架提出6个不同的RQ(论文标题写错了RQ6写成RQ7了hhh),并实验分析。 RQ1: Self-collaboration vs. Baselines RQ2: The Effect of Roles in Self-collaboration RQ3: Self-collaboration on Different LLMs RQ4: The Effect of Interaction RQ5: Analysis for Self-collaboration RQ6: How does self-collaboration work in repository-level software development scenarios and how does it perform? ChatDev: Communicative Agents for Software Development 总结 好久以前的经典文章了,感觉是上面文章的加强版,也是关于LLM agent实现软件开发的。 本文在软件瀑布开发过程的每个phase中引入了讨论的机制,但只有两个agent讨论,一般是instructor和assistant。通过语言交流的过程,将交流过程的批判和分析,作为推理从而生成下一轮的代码,如下图。 本文有一个减轻幻觉的机制,就是让assistant与instructor交流过程中主动进入询问环节,提出自己需要的更明确的信息给instrutor,从而缓解instructor提出模糊的需求,从而导致assistant生成内容的幻觉,通过多轮迭代优化代码完整性和准确性。

2025年09月07日

9.6 论文阅读

EduAgent: Generative Student Agents in Learning 总结 本文是针对线上教育领域的学生模仿相关的研究,之前的模型多利用庞大的数据对学生学习行为进行预测,随着LLM的问世,LLM提供的前置知识能很好的针对不同场景不同内容线上教育的学生行为预测。 学生行为预测受到多方面的影响,如性格、学生储备知识等,本文提供了一个数据集(350个sample),针对一段5分钟的幻灯片讲解,提供学生个人信息和每个小时间段的学生注意窗口、行为、认知状态信息等。 作者结合LLM强大的推理功能,让LLM自主推理出不同信息间的关联,从而实现学生行为的预测和模仿,但这篇论文的实验没咋看懂… LLM-mediated domain-specific voice agents: the case of TextileBot 总结 粗粒度地看了下… 只看了摘要和引言和结论,讲的是如何原型化地设计一个垂直领域的对话agent,包含prompt模板,随后作者自己设计了一个宣传服装环保领域的一个agent(在购物的时候跟顾客交流的),并做了用户实验。 Why language models hallucinate 总结 Why language models hallucinate | OpenAI OpenAI 9月5号刚发布的文章,主要讲述了为什么大语言模型会产生幻觉。 作者描述,LLM(大语言模型)之所以产生幻觉,是因为现在对模型后训练的奖励函数,往往将答错一道题和拒答一道题(承认不知道)的惩罚都是一致的,导致LLM更倾向于去猜题,这样还有概率猜对。 那有人就会说了,让答错的惩罚提升一些不就行了。确实可以,但是作者回应到现如今大多数的benchmark,只有对/错两个选项,并没有考虑到幻觉的因素,从而导致大家更宁愿LLM猜题,增加一些benchmark的准确率,而不是拒答(大幅度降低幻觉,但准确率会略微降低)。 作者呼吁所有benchmark的制作者们,将幻觉这个评价指标加入到benchmark的评测之中,从而抑制LLM的胡言乱语。但现在的benchmark对幻觉的评判往往是特定的一类,大多数benmark没有考虑幻觉因素。 上面都是通过后训练降低LLM幻觉的途径,那能不能在预训练的时候降低大语言模型的幻觉呢?作者回答,现在的数据都是无监督的,导致LLM并没有办法对每段数据的真实性做判断,更好的办法还是在后训练的时候减少大模型的幻觉。 下图是原文的提出的LLM幻觉的一些误解与澄清:

2025年09月06日

9.5 论文阅读

LLM Agents for Education: Advances and Applications 总结 这是一篇综述论文,讲述了现在LLM agents在领域的各种运用。作者将教育agent分为 教学agent 和 垂直领域agent。 教学agent又分为面向学生和面向教师的,垂直领域的分为很多不同学科类的agent,不同学科agent也有不同的功能的agent,整体分类思维导图见下图。 然后作者讲述了,现有教育agent所面临的困难,如道德、偏见方面的,也有幻觉、可靠性方面的。现有的agent大多数不具备结构化的形式(更多是对话类型),无法直接在现实教育场景中插入。 最后整理介绍了现有测评教育agent各种benchmark,以供后来研究者使用。 MATHAGENT: Leveraging a Mixture-of-Math-Agent Framework for Real-World Multimodal Mathematical Error Detection 背景 大语言模型在数学问题求解中已经非常厉害了,但是在数学错误发现上还很少涉足。传统的数学老师批改,耗时耗力,并且不具备可扩展性,如无法为学生指明学生具体错误(人工成本高),多模态大模型可以识别图片,并且为学生提供错误位置和错误分类,但是MLLM还在存在较多错误,对于有细微错误的地方无法很好识别。并且现在研究多聚焦纯文本数学题改错,对于带有图片信息的不能很好应对。 方法 数据集合为下图,有文本问题描述,图片类信息,正确答案,学生的不正确答案,解题步骤。 任务分为 1:找到第一个错误步骤,2:错误分类,指标都是准确率。 作者引入了个多智能体框架,分为三个部分,流程如下图。 文本-图像一致性检测:判断图片和文字是否高度一致,避免使用图片识别功能,从而增强题目解读能力 公式-表格识别:用专门model将各种公式、表格等识别为文本形式 融合找错:将文本和转文本的图片信息融合为一个完整题目,并且让LLM完成上面具体两个任务 实验结果 将该方法运用到多个多模态大模型,大部分都能提升准确率,但相较于人工还有很大的差距。 论文写的浅显易懂,结构也很清晰,可惜本论文并未公布数据集。。。

2025年09月05日