预训练语言模型基础理论¶

学习参考¶

1 预训练¶

1.1 预训练概念¶

不同业务的逻辑也许是相似的
通过已经训练好的模型 A，使用 A 的浅层参数
用小型专项的数据量去训练完成任务 B
最终得到一个模型 B（节省训练时间、节省成本）

可以通过微调和冻结进行处理。

2 语言模型¶

语言模型：语言+模型，解决两大任务

对于任意的词序列，它能够计算出这个序列是一句话的概率
计算下一个词可能是什么。

2.1 统计语言模型¶

2.1.1 基本概念¶

统计语言模型：统计+语言模型，用统计的方法去解决两大类问题。

比较合适词（选择）：P(“判断这个词的词性”)，P(“判断这个词的磁性”)

“判断这个词的词性” = “判断”，“这个”，“词”，“的”，“词性”

“判断这个词的磁性” = “判断”，“这个”，“词”，“的”，“磁性”

1、先把整个句子进行序列化（有顺序的）分词处理

2、条件概率的链式法则 $$ P(w_1,w_2,···,w_n)=P(w_1)P(w_2|w_1)P(w_3|w_1,w_2)···P(w_n|w_1,w_2,···,w_{n-1})\ =\prod_{i} P(w_i|w_1,w_2,···,w_{i-1}) $$

3、使用发则对求出每个词的概率，然后连乘，就是这句话出现的概率

预测下一个词（填空）：“判断这个词的 ______”

1、条件概率公式 $$ P(w_{next}|判断,这个,词,的)=\frac{count(w_{next},判断,这个,词,的)}{count(判断,这个,词,的)} $$ 2、把给定词库（词典）中的所有词做成一个集合 V $$ w_{next} \in V $$ 3、把集合中每一个词都进行概率计算，选取概率最大的结果

2.1.2 n 元统计语言模型¶

从 n 个词中，只取出 2 个词（二元），3 个词（三元）

例如：对于下列语句：

“词性是动词”
“判断单词的词性”
“磁性很强的磁铁”
“北京的词性是名词”

\[ 𝑃(词性|的) = \frac{count(词性,的)}{count(的)} = \frac{2}{3} \]

平滑策略：为了防止 $P(飞机|火车) = \frac{0}{0}$ 的情况出现，即两个词都不在集合中的情况。 $$ P(w_i|w_{i-1})=\frac{count(w_i,w_{i-1})+1}{count(w_{i-1})+|V|} $$

2.2 神经网络语言模型 NNML¶

神经网络语言模型：神经网络+语言模型，用神经网络的方法去解决两大类问题。主要用于预测词。

2.2.1 独热编码（one-hot 编码）¶

独热编码：由于字符编码过于庞大，可以只通过重新编码，让计算机认识单词。是一个向量。

例如：对于下图，在词典集合 V 中只有 8 个单词，给出一个 8*8 的矩阵让计算机认识单词。

“time” → 10000000

“fruit” → 01000000

…………………………

“banana” → 00000001

余弦相似度：通过计算两个向量在空间上距离，从而实际对两者间的关联性，相似度的计算。如 “fruit” 与 “banana”

独热编码的缺陷：

可能会由于维度过高，导致存储空间过大
忽略了词与词之间的关联性

2.2.2 神经网络语言模型预测词¶

双层感知机

1、得到 4 个单词的独热编码 w1, w2, w3, w4

2、Q 是一个随机矩阵，是一个参数（可以不断学习训练得到）

3、进行矩阵计算，得到 c1, c2, c3, c4 四个词向量，来代表单词

w1*Q=c1,
w2*Q=c2,
w3*Q=c3,
w4*Q=c4,

4、进行矩阵拼接

C=[c1,c2,c3,c4]

5、双层感知机

激活函数 softmax，感知机 $tanh(WQ+b)$ $$ softmax{U[tanh(WQ+b_1)]+b_2+W_x}==[0.1, 0.1, 0.2, 0.2, 0.4]\in[1,V_L] $$

2.3 词向量¶

词向量：由神经网络语言模型的副产品 Q 计算得到，本质就是用一个向量表示一个单词。

利用 Q 控制了词向量维度（大小）
词向量间进行余弦相似度或矩阵乘法时，可以解决词与词之间的相似度问题

3 Word2Vec 模型¶

第一个专门做词向量的模型，也是一种神经网络语言模型，主要目的是获取词向量，副产品才是预测词。主要分为 CBOW 和 Skip-gram 两种训练架构。

3.1 CBOW¶

给出一个词的上下文，预测得到这个词。

3.2 Skip-gram¶

给出一个词，预测得到词的上下文。

3.3 缺点¶

生成的 Q 矩阵有缺陷，词向量无法表示一词多义的情况。 $$ \begin{bmatrix} 0& 0& 0& 1&0 \end{bmatrix} = \begin{bmatrix} 17& 24&1 \ 23& 5&7 \ 4& 6&13 \ 10& 12&19 \ 11& 18&25 \end{bmatrix} = \begin{bmatrix} 10& 12& 19 \end{bmatrix} $$