5分钟看懂GPT系列演进过程

时间：2023-06-08 阅读：3310

技术总结专栏

作者：瑶光

GPT1到Instruct GPT，呈现参数量越来越大，下游训练任务越来越无边界的趋势。

GPT1

论文：Improving Language Understanding by Generative Pre-Training

基本思路：生成式预训练+判别式任务精调

生成式预训练（无监督）：在大规模文本数据上训练一个高容量的语言模型，从而学习更加丰富的上下文信息。

判别式任务精调（有监督）：将预训练好的模型适配到下游任务中，并使用有标注数据学习判别式任务。

模型结构：基于transformer的单向语言模型，这一点有别于BERT这种双向语言模型。参数量117M（BERT 345M）

总结：GPT1的思路还比较中规中矩：海量数据预训练+下游任务精调

GPT2

论文：Language Models are Unsupervised Multitask Learners

基本思路：去掉有监督，只保留无监督学习

举例：实现翻译任务，训练数据中构造"中文句子=英文句子"，推理时用"中文句子="，通过greedy decoding取第一个句子作为翻译结果。

模型结构：layer norm放在子模块的输入处，就是在最后一个 self-attention 模块后面增加layer norm。最终提供了四种参数量的模型。

总结：GPT2开始有“万径归一”的感觉了，虽然说看上去只是很多任务混在一起训，但是不再需要专门定义任务专门finetune，打破了各个任务人为划分的边界。

GPT3

论文：Language Models are Few-Shot Learners

基本思路：无监督学习+in-context learning

few-shot(fs). 推理的时候给一些声明作为条件，但是不更新权重。声明的样本量大约是10到100（因为上下文视野是2048）。除了这些例子，还有一个想要模型回答的问题。简单来说就是给一个问题的描述，给几个这样的例子，最后给一个类似的问题让模型回答。比如：问题描述：把英语翻译成中文。例子1：one->一。例子2：two->二。问题：three->