GWE:Learning Chinese Word Representations From Glyphs Of Characters读书笔记

本文总结了论文GWE:Learning Chinese Word Representations From Glyphs Of Characters中的核心思想。

导语

论文《Learning Chinese Word Representations From Glyphs Of Characters》是国立台湾大学2017年在EMNLP发表的，在词向量中引入了convolutional auto-encoder（convAE），提取字的信息，提升了词向量的质量。
论文中第二部分关于词向量在汉字领域的相关工作研究做的比较充分，在写论文的时候可以适当参考引用。

模型

模型主要有两部分，分别是特征提取器和词向量训练模型。

Character Bitmap Feature Extraction

本文使用的是Masci等在2011年提出的convAE，结构图如下：
此处输入图片的描述
得到字的glyph特征。

词向量训练

针对词向量训练，作者提出了四种不同的模型。

Enhanced by ContextWord Glyphs

此处输入图片的描述
这种模型是在CWE的基础上改进而来，词$w_i$的词向量表示为：

$\vec{w}_{i}^{ctxG}=\vec{w}_i+\frac{1}{\left| C\left( i \right) \right|}\sum_{c_j\in C\left( i \right)}{\left( \vec{c}_j+\vec{g}_j \right)}$

其中$\vec{g}_j$是由特征提取器提取出的特征。

Enhanced by TargetWord Glyphs

此处输入图片的描述
这种模型将当前词中字的特征与上下文结合，一起预测当前词。

RNN-Skipgram

以下两种模型直接从特征中学习词向量，没有使用上下文信息。
此处输入图片的描述
在Skip-gram的基础上，以特征作为输入，两层GRU，两层全连接ELU，预测当前词的上下文。

RNN-GloVe

此处输入图片的描述
类似于GloVe模型，将原模型中词向量部分改写为当前词的特征。

实验

实验从Word Similarity、Word Analogy、Case Study三方面对比GWE与其他模型的优劣。其中在有的语料上的表现并不如之前的模型。作者将这种情况归结为“If character in iformation does not play a role in learning word representations, character glyphs may not be useful.”说明不要管模型复杂与否，适合应用场景的才是最好的。