SynthText 数据集¶
数据下载¶
SynthText是一个合成生成的数据集,其中单词实例被放置在自然场景图像中,并考虑了场景布局。
下载SynthText.zip
文件并解压缩到[path-to-data-dir]
文件夹中:
path-to-data-dir/
├── SynthText/
│ ├── 1/
│ │ ├── ant+hill_1_0.jpg
│ │ └── ...
│ ├── 2/
│ │ ├── ant+hill_4_0.jpg
│ │ └── ...
│ ├── ...
│ └── gt.mat
:warning: 另外, 我们强烈建议在使用
SynthText
数据集之前先进行预处理,因为它包含一些错误的数据。可以使用下列的方式进行校正:以上的操作会产生与python tools/dataset_converters/convert.py --dataset_name=synthtext --task=det --label_dir=/path-to-data-dir/SynthText/gt.mat --output_path=/path-to-data-dir/SynthText/gt_processed.mat --image_dir=/path-to-data-dir/SynthText
SynthText
原始标注格式相同但是是经过过滤后的标注数据.