中文文字识别数据集¶

数据下载¶

按照 Benchmarking-Chinese-Text-Recognition 中的设置，我们使用与 Datasets 章节中描述的相同的训练、验证和评估数据。

请下载 Download 章节中介绍的以下LMDB文件：

场景数据集：联合数据集包含 RCTW, ReCTS, LSVT, ArT, CTW
网页：MTWI
文档：使用 Text Render 生成
手写数据集：SCUT-HCCDoc

数据结构整理¶

下载文件后，请将所有训练文件放在同一个文件夹 training 下，所有验证数据放在 validation 文件夹下，所有评估数据放在evaluation下。

数据结构应该是这样的：

chinese-text-recognition/
├── evaluation
│   ├── document_test
|   |   ├── data.mdb
|   │   └── lock.mdb
│   ├── handwriting_test
|   |   ├── data.mdb
|   │   └── lock.mdb
│   ├── scene_test
|   |   ├── data.mdb
|   │   └── lock.mdb
│   └── web_test
|       ├── data.mdb
|       └── lock.mdb
├── training
│   ├── document_train
|   |   ├── data.mdb
|   │   └── lock.mdb
│   ├── handwriting_train
|   |   ├── data.mdb
|   │   └── lock.mdb
│   ├── scene_train
|   |   ├── data.mdb
|   │   └── lock.mdb
│   └── web_train
|       ├── data.mdb
|       └── lock.mdb
└── validation
    ├── document_val
    |   ├── data.mdb
    │   └── lock.mdb
    ├── handwriting_val
    |   ├── data.mdb
    │   └── lock.mdb
    ├── scene_val
    |   ├── data.mdb
    │   └── lock.mdb
    └── web_val
        ├── data.mdb
        └── lock.mdb

数据集配置¶

要使用数据集，您可以在配置文件中指定数据集，如下所示。

模型训练¶

...
train:
  ...
  dataset:
    type: LMDBDataset
    dataset_root: dir/to/chinese-text-recognition/                    # Root dir of training dataset
    data_dir: training/                                               # Dir of training dataset, concatenated with `dataset_root` to be the complete dir of training dataset
...
eval:
  dataset:
    type: LMDBDataset
    dataset_root: dir/to/chinese-text-recognition/                    # Root dir of validation dataset
    data_dir: validation/                                             # Dir of validation dataset, concatenated with `dataset_root` to be the complete dir of validation dataset
  ...

模型评估¶

...
train:
  # 训练部分不需要修改，因不会调用
...
eval:
  dataset:
    type: LMDBDataset
    dataset_root: dir/to/chinese-text-recognition/             # Root dir of evaluation dataset
    data_dir: evaluation/                                      # Dir of evaluation dataset, concatenated with `dataset_root` to be the complete dir of evaluation dataset
  ...

返回dataset converters