一般分为:
- 训练集(train set)
- 开发测试集(training-dev set)
- 开发集(dev set):有时称为保留交叉验证集(hold out cross validation set)
- 测试集(test set)
数据集作用:
- _train set_:训练模型。
- _training-dev set_:评估模型的误差(bias、variance)原因。
- _dev set_:评估所有训练出的模型,迭代并选出适用的模型。
- _test set_:对最终所选定的神经网络系统做出无偏估计。
数据集分布:
- train set 可以是网上爬取的数据。与 dev set_、_test set 的分布可能不同。
- training-dev set 与 train set 同分布。
- dev set 一般和 test set 同分布。都来自真实场景中的数据。
如果出现了 train set 与 dev set_、_test set 不匹配的情况,可尝试以下方法:
- 分析不匹配的原因,可人工合成数据新的 _train set_。
- 迁移学习