中文文字识别数据集¶
数据下载¶
按照 Benchmarking-Chinese-Text-Recognition 中的设置,我们使用与 Datasets 章节中描述的相同的训练、验证和评估数据。
请下载 Download 章节中介绍的以下LMDB文件:
- 场景数据集:联合数据集包含 RCTW, ReCTS, LSVT, ArT, CTW
- 网页:MTWI
- 文档:使用 Text Render 生成
- 手写数据集:SCUT-HCCDoc
数据结构整理¶
下载文件后,请将所有训练文件放在同一个文件夹 training
下,所有验证数据放在 validation
文件夹下,所有评估数据放在evaluation
下。
数据结构应该是这样的:
chinese-text-recognition/
├── evaluation
│ ├── document_test
| | ├── data.mdb
| │ └── lock.mdb
│ ├── handwriting_test
| | ├── data.mdb
| │ └── lock.mdb
│ ├── scene_test
| | ├── data.mdb
| │ └── lock.mdb
│ └── web_test
| ├── data.mdb
| └── lock.mdb
├── training
│ ├── document_train
| | ├── data.mdb
| │ └── lock.mdb
│ ├── handwriting_train
| | ├── data.mdb
| │ └── lock.mdb
│ ├── scene_train
| | ├── data.mdb
| │ └── lock.mdb
│ └── web_train
| ├── data.mdb
| └── lock.mdb
└── validation
├── document_val
| ├── data.mdb
│ └── lock.mdb
├── handwriting_val
| ├── data.mdb
│ └── lock.mdb
├── scene_val
| ├── data.mdb
│ └── lock.mdb
└── web_val
├── data.mdb
└── lock.mdb
数据集配置¶
要使用数据集,您可以在配置文件中指定数据集,如下所示。
模型训练¶
...
train:
...
dataset:
type: LMDBDataset
dataset_root: dir/to/chinese-text-recognition/ # Root dir of training dataset
data_dir: training/ # Dir of training dataset, concatenated with `dataset_root` to be the complete dir of training dataset
...
eval:
dataset:
type: LMDBDataset
dataset_root: dir/to/chinese-text-recognition/ # Root dir of validation dataset
data_dir: validation/ # Dir of validation dataset, concatenated with `dataset_root` to be the complete dir of validation dataset
...
模型评估¶
...
train:
# 训练部分不需要修改,因不会调用
...
eval:
dataset:
type: LMDBDataset
dataset_root: dir/to/chinese-text-recognition/ # Root dir of evaluation dataset
data_dir: evaluation/ # Dir of evaluation dataset, concatenated with `dataset_root` to be the complete dir of evaluation dataset
...