Wetts's blog

Stay Hungry, Stay Foolish.

0%

数据集划分.md

一般分为:

  • 训练集(train set)
  • 开发测试集(training-dev set)
  • 开发集(dev set):有时称为保留交叉验证集(hold out cross validation set)
  • 测试集(test set)

数据集作用:

  • _train set_:训练模型。
  • _training-dev set_:评估模型的误差(bias、variance)原因。
  • _dev set_:评估所有训练出的模型,迭代并选出适用的模型。
  • _test set_:对最终所选定的神经网络系统做出无偏估计。

数据集分布:

  • train set 可以是网上爬取的数据。与 dev set_、_test set 的分布可能不同。
  • training-dev settrain set 同分布。
  • dev set 一般和 test set 同分布。都来自真实场景中的数据。

Bias、Variance与数据集分布优化

如果出现了 train setdev set_、_test set 不匹配的情况,可尝试以下方法:

  • 分析不匹配的原因,可人工合成数据新的 _train set_。
  • 迁移学习