欢迎来到我的博客👋

总得留下点什么吧~

Verl 框架下 GRPO 调参：GSM8K 实验记录（Qwen3-0.6B）

背景初始Qwen3-0.6B在GSM8K的准确率不到20%，问题主要分为以下两种情况：未能按照prompt的答案格式输出答案未能计算出正确答案经测试主要发现准确率低的原因是主要是前者导致，少部分是后者。本质上就是小模型的指令跟随和推理能力的不足。如今LLM已经有大量不同的微调方式，如强化学习微调、SFT等方向，本实验为探索GRPO在LLM微调的效果上限与优势。目标通过 GRPO 微调 Qwen3-0.6B，寻找在验证集上的最优超参数组合。使用 Qwen32B 生成答案进行蒸馏 + LoRA 微调 Qwen3-0.6B，并与 GRPO 方案对比。方法概览框架：Verl 基座模型：Qwen3-0.6B 优化：GRPO 对比：Qwen32B 蒸馏 → LoRA on Qwen3-0.6B 调节的超参数超参数重要度推荐范围 / 设定当前值影响 / 说明学习率 (LoRA, actor.optim.lr) ⭐⭐⭐⭐⭐ 1e-5 ～ 5e-5 5e-5 直接影响收敛与最终性能，建议从小到大网格/二分搜。响应数量 (rollout.n) ⭐⭐⭐⭐ 5 ～ 16 5 / 16 更多样本可提升 GRPO 信号质量，但显著增算力。 KL 系数 (kl_loss_coef) ⭐⭐⭐⭐ 1e-4 ～ 1e-2 1e-3 约束与参考模型偏离度；过大抑制探索、过小易漂移。批次大小 ⭐⭐⭐⭐ train 64/128/256/512；mini 32/64/128；micro 4/8/16 128 / 64 / 16 更大批次更稳（受显存限制）。采样温度 (temperature) ⭐⭐ 0.7 / 1.0 / 1.2 1.0 多样性与探索；高温度利探索但易噪声。 Top-p (top_p) ⭐⭐ 0.7 / 0.9 / 1.0 1.0 控制尾部截断；与温度配合调度探索强度。实验计划调整verl框架的GRPO的超参数，微调Qwen3-0.6B，探索最大验证集表现的超参数。使用Qwen32B模型，蒸馏答案，Lora微调Qwen3-0.6B，并与上面方式对比。实验过程初始实验首先在使用LLM生产了一组初始参数，并跑通。 ...

10.9 记录

Transformer 架构学习学习了 self-attention、multi-head attention 机制，位置编码等，并手动搭建了 Transformer 架构。并利用 Transfomer 框架实现了一个名字实体识别、问答生成的任务（模型参数没上去，表现不如 RNN）。 LLM 历史了解 1、GPT, GPT-2, GPT-3 GPT，GPT-2，GPT-3 论文精读【论文精读】_哔哩哔哩_bilibili GPT：Transformer 的 Decoder Only 的模型始祖 GPT-2：加大参数量，并在 fewshot 领域实现进步，但较同时期 Bert 进步不明显 GPT-3：继续加大参数和数据量，模型能力在微调和 fewshot 后大大提升 2、Bert BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibili Encoder Only 的模型始祖 3、Instruct GPT InstructGPT 论文精读【论文精读·48】_哔哩哔哩_bilibili RLHF 就是这里来的 4、GPT-4 GPT-4 论文精读【论文精读·53】_哔哩哔哩_bilibili 模型能力涌现 5、Llama 3.1 经典的开源大模型 Llama 3.1 论文精读 · 1. 导言【论文精读·54】_哔哩哔哩_bilibili 大模型 SFT 雷智凯同学总结的文档来学习大模型的 SFT 微调，一步步的教学 transformer 库的核心函数是怎么用的，如 tokenizer，AutoModelForCausalLM 等；手动搭建 Dataset。练习：对病句改错数据集进行 SFT 微调 📘 Few-shot 示例用户输入 (user) 模型输出 (assistant) 全国光伏发电平均利用率达 98%，利用水平明显提高。全国光伏发电平均利用率达 98%，利用水平明显提高。 #晚安.spuer#希望我们都能在山川尔尔里找到让自己感到快乐还有意义的事，并坚持下去。 #晚安.spuer#希望我们都能在山川尔里找到让自己感到快乐还有意义的事，并坚持下去。按照定逾期未检验车辆不得上路行驶。按照规定逾期未检验车辆不得上路行驶。 ✨ 你终回像星星那般发光发亮早安#早安# ✨ 你总会像星星那般发光发亮早安#早安# 🔬 LLM Finetune 实验结果表 ID System Prompt Finetune Few-shot Avg. Acc (%) Pos. Acc (%) Neg. Acc (%) 6 ✅ ✅ ✅ 56.02 82.4 30.35 4 ✅ ✅ ❌ 53.55 71.4 36.19 5 ✅ ❌ ✅ 9.76 16.4 3.31 2 ✅ ❌ ❌ 7.30 12.20 2.53 3 ❌ ✅ ❌ 3.55 5.2 1.95 1 ❌ ❌ ❌ 0 0 0 💡 总结观察 System Prompt + Finetune + Few-shot (ID 6) 组合效果最佳，平均准确率最高（56.02%），正样本识别表现尤其突出（82.4%）。仅使用 System Prompt + Finetune (ID 4) 也表现良好，但略低于全组合。缺少 Finetune 或 Few-shot 时（如 ID 5、2），性能急剧下降。无任何增强 (ID 1) 表现最差，验证了各增强手段的重要性。 ID 6 微调 checkpoint 下变化 ...

9.24 记录

Coursera上的深度学习课程算是完成了个大概，序列模型里还是学到很多实用的知识，如RNN、GRU、LSTM、Embedding、Attention机制、transformer模型。下面是原始RNN的一些知识点和发展历史： RNN的不同应用语音识别音乐生成情感分类 DNA序列分析机器翻译视频活动识别命名实体识别 RNN的架构类型 RNN的生成语言模型和采样学习beamsearch算法对模型生产序列进行采样，本质上也是种贪心算法。引入LSTM和GRU 传统RNN随着上下文一长，由于模型隐藏层变量大小限制，会丢失掉部分上下文信息。随后，引入了记忆门的装置，能够使得记忆信息直接传递给后续节点。 GRU结构： LSTM结构：对于特定问题，如完形填空等，需要不仅前文内容，还需要后文的内容随后，引入双向RNN。一个全连接层可能，无法很好提取上下文信息，随后引入深度RNN 之后完成了JAZZ创造的生成式RNN的作业：https://www.coursera.org/learn/nlp-sequence-models/programming/ZS7X2/jazz-improvisation-with-lstm/lab 课程内容都浅显易懂，并且配有作业。在上面的学习，主要深刻意识到了DL是一个很厉害的工具，我们可以用他做很多有意义的事情，并服务人类。而且并没有什么应用难度，人人都可以学习DL这个工具，应用到自己生活中（虽然黑盒，也就因为黑盒，才能超越人类认知）… 后面主要继续深入LLM的学习中，多看一些LLM经典论文，先打好基础，再投入到前沿研究中。

9.16 论文阅读

SIMULATING HUMAN-LIKE DAILY ACTIVITIES WITH DESIRE-DRIVEN AUTONOMY 总结现在有许多使用大语言模型模拟人类行为的相关论文，使用强化学习训练等方法，但这些方法的大多数只限定为特定场景，无法拓展到人类日常生活中多样变化的场景中。作者引入了欲望驱使的大预言模型agent，来预测模拟人们日常一天生活中的行为，分为了两个模块：环境模拟、欲望驱使agent。环境模拟主要使用了Concordia论文的方法，做了一个日常生活的模拟器。欲望驱使agent更为复杂，其中最重要的部分便是欲望上下文的生成：DESIRE GENERATION，VALUE SYSTEM FOR DESIRE EVALUATION。 DESIRE GENERATION：通过预设好的相关标准，将不同形容词的不同程度映射为一个值。 VALUE SYSTEM FOR DESIRE EVALUATION分为三部分： Quantitative Value Deduction：做选择题，推理出形容词不同值 Qualitative Value Description：根据value做出总体描述 Value Update：更新值实验没咋看，准备还是看些对模型参数层面修改的论文，如LLM微调、强化学习等的论文。

9.15 记录

今天主要看完了Coursera的CNN的week 2，主要是介绍了几个CNN里常见的网络，如classic CNN、Resnet、inception、mobile network，EfficientNet（mobile的微改版本）。之后介绍了CNN项目的一些实践经验：如要开源、迁移学习、数据增强。主要收获是重学了下Resnet，意识到short cut可以连跨过好几层网络连接（之前还以为只能跨越一层）… 最后完成了Resnet和迁移学习的tensorflow代码实现（简单填空），实现了resnet-50（但我训练过拟合这么快？），有了深度学习框架就是方便~ 论文只看了个摘要，还是保持下论文阅读的习惯吧，毕竟读论文还挺有趣的（读多了感觉我才能侃侃而谈hhh）