keras中的embedding层

keras中的Embedding层

将索引映射为固定维度的稠密向量，如[[4],[20]]->[[0.25,0.1],[0.6,-0.2]]。
Embedding层只能作为模型的第一层。

如何使用

从头训练
就像word2vec一样, 这一层是可学习的, 用随机数initialize , 通过BP去调整.
pre-trained + fine tuning
用其他网络(如 word2vec) 训练好的现成的词向量, 作为初始化参数, 然后继续学习.

pre-trained + static
用其他网络(如 word2vec) 训练好的现成的词向量, 作为初始化参数, 并且这些参数保持固定, 不参与网络的学习.

参数说明

keras.layers.embeddings.Embedding(input_dim, output_dim, embeddings_initializer='uniform', embeddings_regularizer=None, activity_regularizer=None, embeddings_constraint=None, mask_zero=False, input_length=None)

input_dim：大或等于0的整数，字典长度（词汇量），即输入数据最大下标+1
output_dim：大于0的整数，代表词向量的维度
embeddings_initializer: 初始化方法
embeddings_regularizer: 嵌入矩阵的正则项，为Regularizer对象
embeddings_constraint: 嵌入矩阵的约束项，为Constraints对象
mask_zero：布尔值，确定是否将输入中的‘0’看作是应该被忽略的‘填充’（padding）值，该参数在使用递归层处理变长输入时有用。设置为True的话，模型中后续的层必须都支持masking，否则会抛出异常。如果该值为True，则下标0在字典中不可用，input_dim应设置为$|vocabulary| + 1$。
input_length：当输入序列的长度固定时，该值为其长度。如果要在该层后接Flatten层，然后接Dense层，则必须指定该参数，否则Dense层的输出维度无法自动推断。