跳转至

SynthText 数据集

数据下载

SynthText是一个合成生成的数据集,其中单词实例被放置在自然场景图像中,并考虑了场景布局。

论文 | 下载链接

下载SynthText.zip文件并解压缩到[path-to-data-dir]文件夹中:

path-to-data-dir/
 ├── SynthText/
 │   ├── 1/
 │   │   ├── ant+hill_1_0.jpg
 │   │   └── ...
 │   ├── 2/
 │   │   ├── ant+hill_4_0.jpg
 │   │   └── ...
 │   ├── ...
 │   └── gt.mat

:warning: 另外, 我们强烈建议在使用 SynthText 数据集之前先进行预处理,因为它包含一些错误的数据。可以使用下列的方式进行校正:

python tools/dataset_converters/convert.py --dataset_name=synthtext --task=det --label_dir=/path-to-data-dir/SynthText/gt.mat --output_path=/path-to-data-dir/SynthText/gt_processed.mat --image_dir=/path-to-data-dir/SynthText
以上的操作会产生与SynthText原始标注格式相同但是是经过过滤后的标注数据.

返回dataset converters