Using pre-trained word embeddings in a Keras model

shaoheshaohe · 发表于 2019-9-18 14:11:36

What are word embeddings?

“词嵌入”是一系列自然语言处理技术，旨在将语义映射到几何空间。这是通过将一个数字向量与字典中的每个词相关联来实现的，这样任意两个向量之间的距离(例如L2距离或余弦距离)将反映两个相关词之间语义关系的一部分。这些向量构成的几何空间称为嵌入空间。

例如，“椰子”和“北极熊”这两个词在语义上是完全不同的，所以一个合理的嵌入空间会把它们表示成距离很远的向量。但是“厨房”和“晚餐”是相关的词汇，所以它们应该紧密地结合在一起。

理想情况下，在一个良好的嵌入空间中，从“厨房”到“晚餐”的“路径”(一个向量)将精确地捕获这两个概念之间的语义关系。在这种情况下，关系是“where x occurs”(“x发生的地方”)，所以您可以期望向量kitchen- dinner(两个嵌入向量的区别，即从晚餐到厨房的路径)来捕获这个“x发生的地方”关系。基本上，我们应该有矢量标识:晚餐+(x发生的地方)=厨房(至少近似相等)。如果确实是这样，那么我们可以使用这样的关系向量来回答问题。例如，从一个新的向量开始，如“工作”，并且应用这个关系向量，我们应该得到一些有意义的东西，例如工作+ (x发生在哪里)=办公室，回答“工作发生在哪里?”

将降维技术应用于文本语料库中词语间共现统计数据集，计算词嵌入。这可以通过神经网络(“word2vec”技术)或矩阵分解来实现。

GloVe word embeddings
我们会用到GloVe词嵌入，你们可以在这里了解到更多信息。GloVe的含义是“表示单词的全局向量”。它是一种比较流行的基于对词共现统计量矩阵进行分解的嵌入技术。

具体来说，我们将使用在2014年的英语维基百科上计算的400k单词的100维GloVe嵌入。您可以在这里下载它们(警告:以下链接将启动822MB的下载)。

20 Newsgroup dataset
我们将尝试解决的任务是将来自20个不同新闻组的帖子分类，分成它们最初的20个类别——臭名昭著的“20 Newsgroup dataset”。您可以在这里阅读有关数据集的信息并下载原始文本数据。

类别在语义上是相当不同的，因此会有相当不同的词与它们相关。以下是一些样本类别:

comp.sys.ibm.pc.hardwarecomp.graphicscomp.os.ms-windows.misccomp.sys.mac.hardwarecomp.windows.xrec.autosrec.motorcyclesrec.sport.baseballrec.sport.hockey

Approach
下面是我们如何解决分类问题的方法:

1.将数据集中的所有文本样本转换为单词索引序列。“单词索引”只是单词的整数ID。我们将只考虑数据集中最常见的20000个单词，并将序列截断为最大长度为1000个单词。

2.准备一个“嵌入矩阵”，它将在索引i中包含索引i对应单词的嵌入向量。

3.将这个嵌入矩阵加载到一个被冻结的Keras嵌入层(它的权重，嵌入向量，在训练中不会被更新)。

4.在它的基础上建立一个一维的卷积神经网络，使用softmax层输出20个分类类型。
Preparing the text data
首先，我们将简单地迭代我们的文本样本存储的文件夹，并将它们格式化为一个样本列表。
我们亦会同时准备一份与样本相对应的类别索引列表:

texts = [] # list of text samples
labels_index = {} # dictionary mapping label name to numeric id
labels = [] # list of label ids
for name in sorted(os.listdir(TEXT_DATA_DIR)):
path = os.path.join(TEXT_DATA_DIR, name)
if os.path.isdir(path):
label_id = len(labels_index)
labels_index[name] = label_id
for fname in sorted(os.listdir(path)):
if fname.isdigit():
fpath = os.path.join(path, fname)
f = open(fpath)
texts.append(f.read())
f.close()
labels.append(label_id)
print('Found %s texts.' % len(texts))

然后我们可以将文本样本和标签格式化为张量，这些张量可以输入到神经网络中。为此，我们将依赖于Keras实用程序：
keras.preprocessing.text.Tokenizer 和 keras.preprocessing.sequence.pad_sequences。

from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
tokenizer = Tokenizer(nb_words=MAX_NB_WORDS)
tokenizer.fit_on_texts(texts)
sequences = tokenizer.texts_to_sequences(texts)
word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))
data = pad_sequences(sequences, maxlen=MAX_SEQUENCE_LENGTH)
labels = to_categorical(np.asarray(labels))
print('Shape of data tensor:', data.shape)
print('Shape of label tensor:', labels.shape)
# split the data into a training set and a validation set
indices = np.arange(data.shape[0])
np.random.shuffle(indices)
data = data[indices]
labels = labels[indices]
nb_validation_samples = int(VALIDATION_SPLIT * data.shape[0])
x_train = data[:-nb_validation_samples]
y_train = labels[:-nb_validation_samples]
x_val = data[-nb_validation_samples:]
y_val = labels[-nb_validation_samples:]

Preparing the Embedding layer
接下来，我们通过解析已备份的预先训练过的词嵌入，计算一个索引映射到已知嵌入的单词:

embeddings_index = {}
f = open(os.path.join(GLOVE_DIR, 'glove.6B.100d.txt'))
for line in f:
values = line.split()
word = values[0]
coefs = np.asarray(values[1:], dtype='float32')
embeddings_index[word] = coefs
f.close()
print('Found %s word vectors.' % len(embeddings_index))

此时，我们可以利用我们的嵌入索引（embedding_index）字典和单词索引（word_index）来计算嵌入矩阵:

embedding_matrix = np.zeros((len(word_index) + 1, EMBEDDING_DIM))
for word, i in word_index.items():
embedding_vector = embeddings_index.get(word)
if embedding_vector is not None:
# words not found in embedding index will be all-zeros.
embedding_matrix = embedding_vector

我们将这个嵌入矩阵加载到一个嵌入层中。注意，我们设置了trainable=False，以防止在训练期间更新权重。

from keras.layers import Embedding
embedding_layer = Embedding(len(word_index) + 1,
EMBEDDING_DIM,
weights=[embedding_matrix],
input_length=MAX_SEQUENCE_LENGTH,
trainable=False)

注意，嵌入层应该是输入的整数序列，即二维输入(samples、indices)。应该填充这些输入序列，以便它们在一批输入数据中具有相同的长度(尽管如果不向层传递显式的input_length参数，一个嵌入层可以处理异种长度的序列)。

嵌入层所做的就是将整数输入映射到嵌入矩阵中相应索引处的向量，即序列[1,2]将被转换为[嵌入[1]，嵌入[2]]。这意味着嵌入层的输出将是一个三维张量(samples, sequence_length, embedding_dim)。
Training a 1D convnet
最后我们可以建立一个小型的1D对流网络来解决我们的分类问题:

sequence_input = Input(shape=(MAX_SEQUENCE_LENGTH,), dtype='int32')
embedded_sequences = embedding_layer(sequence_input)
x = Conv1D(128, 5, activation='relu')(embedded_sequences)
x = MaxPooling1D(5)(x)
x = Conv1D(128, 5, activation='relu')(x)
x = MaxPooling1D(5)(x)
x = Conv1D(128, 5, activation='relu')(x)
x = MaxPooling1D(35)(x) # global max pooling
x = Flatten()(x)
x = Dense(128, activation='relu')(x)
preds = Dense(len(labels_index), activation='softmax')(x)
model = Model(sequence_input, preds)
model.compile(loss='categorical_crossentropy',
optimizer='rmsprop',
metrics=['acc'])
# happy learning!
model.fit(x_train, y_train, validation_data=(x_val, y_val),
nb_epoch=2, batch_size=128)

该模型仅对所有数据迭代两轮就达到了95%的分类精度。
我们还可以通过不使用预先训练过的词嵌入来测试我们的算法的性能，而是从头开始初始化嵌入层，并在训练中学习它的权重。我们只需要将嵌入层替换为以下内容:

embedding_layer = Embedding(len(word_index) + 1,
EMBEDDING_DIM,
input_length=MAX_SEQUENCE_LENGTH)

2轮迭代后，这种方法只能使我们达到90%的验证精度，比先前的模型迭代一轮达到的精度要低。我们预训练的词嵌入无疑给我们带来了好处。一般来说，可以使用预先训练过的与自然处理任务相关的词嵌入，当几乎没有训练数据可用的时候(从功能上来说，嵌入充当外部信息的注入，这可能对您的模型有用)。