中文文字识别数据集¶
数据下载¶
按照 Benchmarking-Chinese-Text-Recognition 中的设置,我们使用与 Datasets 章节中描述的相同的训练、验证和评估数据。
请下载 Download 章节中介绍的以下LMDB文件:
- 场景数据集:联合数据集包含 RCTW, ReCTS, LSVT, ArT, CTW
- 网页:MTWI
- 文档:使用 Text Render 生成
- 手写数据集:SCUT-HCCDoc
数据结构整理¶
下载文件后,请将所有训练文件放在同一个文件夹 training 下,所有验证数据放在 validation 文件夹下,所有评估数据放在evaluation下。
数据结构应该是这样的:
chinese-text-recognition/
├── evaluation
│   ├── document_test
|   |   ├── data.mdb
|   │   └── lock.mdb
│   ├── handwriting_test
|   |   ├── data.mdb
|   │   └── lock.mdb
│   ├── scene_test
|   |   ├── data.mdb
|   │   └── lock.mdb
│   └── web_test
|       ├── data.mdb
|       └── lock.mdb
├── training
│   ├── document_train
|   |   ├── data.mdb
|   │   └── lock.mdb
│   ├── handwriting_train
|   |   ├── data.mdb
|   │   └── lock.mdb
│   ├── scene_train
|   |   ├── data.mdb
|   │   └── lock.mdb
│   └── web_train
|       ├── data.mdb
|       └── lock.mdb
└── validation
    ├── document_val
    |   ├── data.mdb
    │   └── lock.mdb
    ├── handwriting_val
    |   ├── data.mdb
    │   └── lock.mdb
    ├── scene_val
    |   ├── data.mdb
    │   └── lock.mdb
    └── web_val
        ├── data.mdb
        └── lock.mdb
数据集配置¶
要使用数据集,您可以在配置文件中指定数据集,如下所示。
模型训练¶
...
train:
  ...
  dataset:
    type: LMDBDataset
    dataset_root: dir/to/chinese-text-recognition/                    # Root dir of training dataset
    data_dir: training/                                               # Dir of training dataset, concatenated with `dataset_root` to be the complete dir of training dataset
...
eval:
  dataset:
    type: LMDBDataset
    dataset_root: dir/to/chinese-text-recognition/                    # Root dir of validation dataset
    data_dir: validation/                                             # Dir of validation dataset, concatenated with `dataset_root` to be the complete dir of validation dataset
  ...
模型评估¶
...
train:
  # 训练部分不需要修改,因不会调用
...
eval:
  dataset:
    type: LMDBDataset
    dataset_root: dir/to/chinese-text-recognition/             # Root dir of evaluation dataset
    data_dir: evaluation/                                      # Dir of evaluation dataset, concatenated with `dataset_root` to be the complete dir of evaluation dataset
  ...