NLP-transformer部分知识点

NLP-transformer部分知识点 2022-05-19 341

1. Scaled Dot-Product Attention中为什么要除以

计算公式：在softmax中起到temperature的作用，即使分布趋于平滑，增加可能性为什么是而不是 3、4、5等随便一个数。。。解释一下上述引用内容一个比较强的假设：q、k属于多维独立同分布（标准正太分布N~(0,1)）随机变量则，同时根据独立同分布随机变量和的方差等于方差的和，可以得到可以发现点积后，均值不变，但是方差发生明显变化；为了使模型在一个统一的标准正太分布中学习，上述式子除以即可满足要求；

2. transformer encoder对单词进行embedding时，为什么乘以（来自知乎）

假设embedding table是用 Xavier初始化，即从onehot -> embedding，相当于从上述总体分布采样了个样本，合起来称为该总体的一组子样本；记某组子样本（维）的均值、样本方差分别为、，可得

所以，乘以以达到统一的标准正态分布的目的（知乎@王四喜）那么为什么不直接用进行初始化？知乎@Towser解释：因为transformer中可以设置tied-embedding的存在（减少参数），此时比如 decoder最后输出softmax前，需要做一次线性映射（Linear）到词汇空间，linear的weight即来自于embedding的weight；线性层需要用到Xavier初始化，因此embedding层也就先用Xavier初始化，再缩放回来；

免费搭建微信查券返利机器人来轻松赚佣金

文章来自:IT技术分享网
分享地址:http://www.5ityx.cn/cate107/36140.html

上一篇： Java进阶学习之Java架构师的学习路线

下一篇：你知道大数据中的五种采集方式吗？

NLP-transformer部分知识点

NLP-transformer部分知识点 相关内容

聚合标签

NLP-transformer部分知识点相关内容