10.9 记录

Transformer 架构学习

学习了 self-attention、multi-head attention 机制，位置编码等，并手动搭建了 Transformer 架构。并利用 Transfomer 框架实现了一个名字实体识别、问答生成的任务（模型参数没上去，表现不如 RNN）。

3319e3d6922a2e7f2499a3130d3b5925

LLM 历史了解

1、GPT, GPT-2, GPT-3

GPT，GPT-2，GPT-3 论文精读【论文精读】_哔哩哔哩_bilibili

GPT：Transformer 的 Decoder Only 的模型始祖
GPT-2：加大参数量，并在 fewshot 领域实现进步，但较同时期 Bert 进步不明显
GPT-3：继续加大参数和数据量，模型能力在微调和 fewshot 后大大提升

2、Bert

BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibili

Encoder Only 的模型始祖

3、Instruct GPT

InstructGPT 论文精读【论文精读·48】_哔哩哔哩_bilibili

RLHF 就是这里来的

4、GPT-4

GPT-4 论文精读【论文精读·53】_哔哩哔哩_bilibili

模型能力涌现

5、Llama 3.1

经典的开源大模型

Llama 3.1 论文精读 · 1. 导言【论文精读·54】_哔哩哔哩_bilibili

大模型 SFT

雷智凯同学总结的文档来学习大模型的 SFT 微调，一步步的教学 transformer 库的核心函数是怎么用的，如 tokenizer，AutoModelForCausalLM 等；手动搭建 Dataset。

练习：对病句改错数据集进行 SFT 微调

📘 Few-shot 示例

用户输入 (user)	模型输出 (assistant)
全国光伏发电平均利用率达 98%，利用水平明显提高。	全国光伏发电平均利用率达 98%，利用水平明显提高。
#晚安.spuer#希望我们都能在山川尔尔里找到让自己感到快乐还有意义的事，并坚持下去。	#晚安.spuer#希望我们都能在山川尔里找到让自己感到快乐还有意义的事，并坚持下去。
按照定逾期未检验车辆不得上路行驶。	按照规定逾期未检验车辆不得上路行驶。
✨ 你终回像星星那般发光发亮早安#早安#	✨ 你总会像星星那般发光发亮早安#早安#

🔬 LLM Finetune 实验结果表

ID	System Prompt	Finetune	Few-shot	Avg. Acc (%)	Pos. Acc (%)	Neg. Acc (%)
6	✅	✅	✅	56.02	82.4	30.35
4	✅	✅	❌	53.55	71.4	36.19
5	✅	❌	✅	9.76	16.4	3.31
2	✅	❌	❌	7.30	12.20	2.53
3	❌	✅	❌	3.55	5.2	1.95
1	❌	❌	❌	0	0	0

💡 总结观察

System Prompt + Finetune + Few-shot (ID 6) 组合效果最佳，平均准确率最高（56.02%），正样本识别表现尤其突出（82.4%）。
仅使用 System Prompt + Finetune (ID 4) 也表现良好，但略低于全组合。
缺少 Finetune 或 Few-shot 时（如 ID 5、2），性能急剧下降。
无任何增强 (ID 1) 表现最差，验证了各增强手段的重要性。

ID 6 微调 checkpoint 下变化

output (4)

这张图展示了 短训练周期 下模型在不同 checkpoint 的正样本与负样本准确率变化趋势：

橙线（Positive Accuracy）：随训练进行迅速上升，从约 17% 提升到接近 96%，并在后期保持稳定。
蓝线（Negative Accuracy）：增长缓慢，整体维持在 5%–10% 区间，说明模型早期主要学习了正样本特征，而对负样本区分能力仍较弱。

output (3)

这张图展示了 长训练周期 下模型在不同 checkpoint 的正样本与负样本准确率变化趋势：

正样本准确率（橙线）：从约 85% 提升至 94.8%，随后保持在高位，说明模型对正确样本的识别能力持续增强。
负样本准确率（蓝线）：从约 14% 稳步提升至 30% 左右，增长缓慢但持续，表明模型逐渐学会区分错误样本。

output (2)

这张图展示了 不同 checkpoint 下模型的平均准确率变化趋势：

长训练周期（橙线）：模型准确率从约 49% 稳步提升至接近 59%，在 120–210 checkpoint 区间达到高点并趋于稳定，说明模型已收敛。
短训练周期（蓝线）：准确率快速上升，在第 9–10 个 checkpoint 达到约 50% 后趋于平稳，说明早期学习效率高，但提升空间有限。

Transformer 架构学习#

LLM 历史了解#

大模型 SFT#

练习：对病句改错数据集进行 SFT 微调#

📘 Few-shot 示例#

🔬 LLM Finetune 实验结果表#

💡 总结观察#

ID 6 微调 checkpoint 下变化#