使用Trainer和Tester快速训练和测试¶

我们使用前面介绍过的文本分类任务来进行详细的介绍。这里我们把数据集换成了SST2，使用 Trainer 和 Tester 来进行快速训练和测试。

注解

本教程中的代码没有使用 GPU 。读者可以自行修改代码，扩大数据量并使用 GPU 进行训练。

数据读入和处理¶

数据读入

我们可以使用 fastNLP fastNLP.io 模块中的 SST2Pipe 类，轻松地读取以及预处理SST2数据集。SST2Pipe 对象的 process_from_file() 方法能够对读入的SST2数据集进行数据的预处理，方法的参数为paths, 指要处理的文件所在目录，如果paths为None，则会自动下载数据集，函数默认paths值为None。此函数返回一个 DataBundle，包含SST2数据集的训练集、测试集、验证集以及source端和target端的字典。其训练、测试、验证数据集含有四个 field ：

raw_words: 原source句子
target: 标签值
words: index之后的raw_words
seq_len: 句子长度

读入数据代码如下：

from fastNLP.io import SST2Pipe

pipe = SST2Pipe()
databundle = pipe.process_from_file()
vocab = databundle.get_vocab('words')
print(databundle)
print(databundle.get_dataset('train')[0])
print(databundle.get_vocab('words'))

输出数据如下:

In total 3 datasets:
    test has 1821 instances.
    train has 67349 instances.
    dev has 872 instances.
In total 2 vocabs:
    words has 16293 entries.
    target has 2 entries.

+-------------------------------------------+--------+--------------------------------------+---------+
|                 raw_words                 | target |                words                 | seq_len |
+-------------------------------------------+--------+--------------------------------------+---------+
| hide new secretions from the parental ... |   1    | [4111, 98, 12010, 38, 2, 6844, 9042] |    7    |
+-------------------------------------------+--------+--------------------------------------+---------+

Vocabulary(['hide', 'new', 'secretions', 'from', 'the']...)

除了可以对数据进行读入的Pipe类，fastNLP还提供了读入和下载数据的Loader类，不同数据集的Pipe和Loader及其用法详见使用Loader和Pipe加载并处理数据集。

数据集分割

由于SST2数据集的测试集并不带有标签数值，故我们分割出一部分训练集作为测试集。下面这段代码展示了 split() 的使用方法，为了能让读者快速运行完整个教程，我们只取了训练集的前5000个数据。

train_data = databundle.get_dataset('train')[:5000]
train_data, test_data = train_data.split(0.015)
dev_data = databundle.get_dataset('dev')
print(len(train_data),len(dev_data),len(test_data))

输出结果为:

4925 872 75

数据集 set_input() 和 set_target() 函数

SST2Pipe 类的 process_from_file() 方法在预处理过程中还将训练、测试、验证集的 words 、seq_len field 设定为input，同时将 target field 设定为target。我们可以通过 Dataset 类的 print_field_meta() 方法查看各个 field 的设定情况，代码如下：

train_data.print_field_meta()

输出结果为:

+-------------+-----------+--------+-------+---------+
| field_names | raw_words | target | words | seq_len |
+-------------+-----------+--------+-------+---------+
|   is_input  |   False   | False  |  True |   True  |
|  is_target  |   False   |  True  | False |  False  |
| ignore_type |           | False  | False |  False  |
|  pad_value  |           |   0    |   0   |    0    |
+-------------+-----------+--------+-------+---------+

其中is_input和is_target分别表示是否为input和target。ignore_type为true时指使用 DataSetIter 取出batch数据时fastNLP不会进行自动padding，pad_value指对应 field padding所用的值，这两者只有当 field 设定为input或者target的时候才有存在的意义。

is_input为true的 field 在 DataSetIter 迭代取出的batch_x 中，而is_target为true 的 field 在 DataSetIter 迭代取出的 batch_y 中。具体分析见使用DataSetIter实现自定义训练过程。

使用内置模型训练¶

模型定义和初始化

我们可以导入 fastNLP 内置的文本分类模型 CNNText 来对模型进行定义，代码如下：

from fastNLP.models import CNNText

#词嵌入的维度
EMBED_DIM = 100

#使用CNNText的时候第一个参数输入一个tuple,作为模型定义embedding的参数
#还可以传入 kernel_nums, kernel_sizes, padding, dropout的自定义值
model_cnn = CNNText((len(vocab),EMBED_DIM), num_classes=2, dropout=0.1)

使用fastNLP快速搭建自己的模型详见使用Modules和Models快速搭建自定义模型。

评价指标

训练模型需要提供一个评价指标。这里使用准确率做为评价指标。

pred 参数对应的是模型的 forward 方法返回的 dict 中的一个 key 的名字。
target 参数对应的是 DataSet 中作为标签的 field 的名字。

这里我们用 Const 来辅助命名，如果你自己编写模型中 forward 方法的返回值或数据集中 field 的名字与本例不同，你可以把 pred 参数和 target 参数设定符合自己代码的值。代码如下：

from fastNLP import AccuracyMetric
from fastNLP import Const

# metrics=AccuracyMetric() 在本例中与下面这行代码等价
metrics=AccuracyMetric(pred=Const.OUTPUT, target=Const.TARGET)

损失函数

训练模型需要提供一个损失函数 ,fastNLP中提供了直接可以导入使用的四种loss，分别为：

CrossEntropyLoss：包装了torch.nn.functional.cross_entropy()函数，返回交叉熵损失（可以运用于多分类场景）
BCELoss：包装了torch.nn.functional.binary_cross_entropy()函数，返回二分类的交叉熵
L1Loss：包装了torch.nn.functional.l1_loss()函数，返回L1 损失
NLLLoss：包装了torch.nn.functional.nll_loss()函数，返回负对数似然损失

下面提供了一个在分类问题中常用的交叉熵损失。注意它的 初始化参数 。

pred 参数对应的是模型的 forward 方法返回的 dict 中的一个 key 的名字。
target 参数对应的是 DataSet 中作为标签的 field 的名字。

这里我们用 Const 来辅助命名，如果你自己编写模型中 forward 方法的返回值或数据集中 field 的名字与本例不同，你可以把 pred 参数和 target 参数设定符合自己代码的值。

from fastNLP import CrossEntropyLoss

# loss = CrossEntropyLoss() 在本例中与下面这行代码等价
loss = CrossEntropyLoss(pred=Const.OUTPUT, target=Const.TARGET)

除了使用fastNLP已经包装好的了损失函数，也可以通过fastNLP中的LossFunc类来构建自己的损失函数，方法如下：

# 这表示构建了一个损失函数类，由func计算损失函数，其中将从模型返回值或者DataSet的target=True的field
# 当中找到一个参数名为`pred`的参数传入func一个参数名为`input`的参数；找到一个参数名为`label`的参数
# 传入func作为一个名为`target`的参数
#下面自己构建了一个交叉熵函数，和之后直接使用fastNLP中的交叉熵函数是一个效果
import torch
from fastNLP import LossFunc
func = torch.nn.functional.cross_entropy
loss_func = LossFunc(func, input=Const.OUTPUT, target=Const.TARGET)

优化器

定义模型运行的时候使用的优化器，可以直接使用torch.optim.Optimizer中的优化器，并在实例化 Trainer 类的时候传入优化器实参

import torch.optim as optim

#使用 torch.optim 定义优化器
optimizer=optim.RMSprop(model_cnn.parameters(), lr=0.01, alpha=0.99, eps=1e-08, weight_decay=0, momentum=0, centered=False)

快速训练

现在我们对上面定义的模型使用 Trainer 进行训练。除了使用 DataSetIter 来编写自己的训练过程，具体见使用DataSetIter实现自定义训练过程

from fastNLP import Trainer

#训练的轮数和batch size
N_EPOCHS = 10
BATCH_SIZE = 16

#如果在定义trainer的时候没有传入optimizer参数，模型默认的优化器为torch.optim.Adam且learning rate为lr=4e-3
#这里只使用了loss作为损失函数输入，感兴趣可以尝试其他损失函数（如之前自定义的loss_func）作为输入
trainer = Trainer(model=model_cnn, train_data=train_data, dev_data=dev_data, loss=loss, metrics=metrics,
optimizer=optimizer,n_epochs=N_EPOCHS, batch_size=BATCH_SIZE)
trainer.train()

训练过程的输出如下:

input fields after batch(if batch size is 2):
    words: (1)type:torch.Tensor (2)dtype:torch.int64, (3)shape:torch.Size([2, 13])
    seq_len: (1)type:torch.Tensor (2)dtype:torch.int64, (3)shape:torch.Size([2])
target fields after batch(if batch size is 2):
    target: (1)type:torch.Tensor (2)dtype:torch.int64, (3)shape:torch.Size([2])

training epochs started 2020-02-26-16-45-40
Evaluate data in 0.5 seconds!
Evaluation on dev at Epoch 1/10. Step:308/3080:
AccuracyMetric: acc=0.677752

......

Evaluate data in 0.44 seconds!
Evaluation on dev at Epoch 10/10. Step:3080/3080:
AccuracyMetric: acc=0.725917


In Epoch:5/Step:1540, got best dev performance:
AccuracyMetric: acc=0.740826
Reloaded the best model.

快速测试

与 Trainer 对应，fastNLP 也提供了 Tester 用于快速测试，用法如下

from fastNLP import Tester

tester = Tester(test_data, model_cnn, metrics=AccuracyMetric())
tester.test()

训练过程输出如下:

Evaluate data in 0.43 seconds!
[tester]
AccuracyMetric: acc=0.773333

代码下载¶

点击下载 IPython Notebook 文件