各个开放实体识别数据集信息统计

it2023-06-26  95

1、CLUENER2020:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/cluener_public

数据说明 实体类型说明地址(address)**省**市**区**街**号,**路,**街道,**村等(如单独出现也标记)。地址是标记尽量完全的, 标记到最细。书名(book)小说,杂志,习题集,教科书,教辅,地图册,食谱,书店里能买到的一类书籍,包含电子书。公司(company)**公司,**集团,**银行(央行,中国人民银行除外,二者属于政府机构), 如:新东方,包含新华网/中国军网等。游戏(game)常见的游戏,注意有一些从小说,电视剧改编的游戏,要分析具体场景到底是不是游戏。政府(government)包括中央行政机关和地方行政机关两级。中央行政机关有国务院、国务院组成部门(包括各部、委员会、中国人民银行和审计署)、国务院直属机构(如海关、税务、工商、环保总局等),军队等。电影(movie) 电影,也包括拍的一些在电影院上映的纪录片,如果是根据书名改编成电影,要根据场景上下文着重区分下是电影名字还是书名。姓名(name)一般指人名,也包括小说里面的人物,宋江,武松,郭靖,小说里面的人物绰号:及时雨,花和尚,著名人物的别称,通过这个别称能对应到某个具体人物。组织机构(organization)篮球队,足球队,乐团,社团等,另外包含小说里面的帮派如:少林寺,丐帮,铁掌帮,武当,峨眉等。职位(position)古时候的职称:巡抚,知州,国师等。现代的总经理,记者,总裁,艺术家,收藏家等。景点(scene)

常见旅游景点如:长沙公园,深圳动物园,海洋馆,植物园,黄河,长江等。

训练集:10748 实体类型

地址

书名公司游戏政府电影姓名组织机构职位景点个数2829113128972325179711093661307530521462 验证集集:1343 实体类型

地址

书名公司游戏政府电影姓名组织机构职位景点个数364152366287244150451344425199

2、MSRA:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/MSRA

训练集:45000 实体类型LOCORGPER个数368602058417615 测试集:3442 实体类型LOCORGPER个数288613311973

3、人民网(04年):https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/people_daily

数据集:19359 实体类型GPEDATEPERSONORG个数 14317834896251838

4、微博命名实体识别数据集:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/weibo

数据说明 实体标注说明PERPER.NAM名字(张三) PER.NOM代称、类别名(穷人)LOCLOC.NAM特指名称(紫玉山庄) LOC.NOM泛称(大峡谷、宾馆)GPEGPE.NAM行政区的名称(北京)ORGORG.NAM特定机构名称(通惠医院) ORG.NOM泛指名称、统称(文艺公司) 训练集 :1350 实体类型PER.NAMPER.NOMLOC.NAMLOC.NOMGPE.NAMORG.NAMORG.NOM个数574766565120518342 验证集:270 实体类型PER.NAMPER.NOMLOC.NAMLOC.NOMGPE.NAMORG.NAMORG.NOM个数902086626475 测试集:270 实体类型PER.NAMPER.NOMLOC.NAMLOC.NOMGPE.NAMORG.NAMORG.NOM个数111170199473917

 5、BosonNLP NER数据:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/boson(2000条)

实体类型company_namelocationorg_nameperson_nameproduct_nametime个数237445972689514141224250

6、影视-音乐-书籍实体标注数据:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/video_music_book_datasets

训练集:7814 实体类型bookmusicvideo个数641341252994 验证集:977 实体类型bookmusicvideo个数797626354 测试集:978 实体类型bookmusicvideo个数770371575

7、中文医学文本命名实体识别 2020CCKS:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/2020_ccks_ner

8、电子简历实体识别数据集:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/ResumeNER

训练集:3821 实体类型CONT(国家)EDU(学历)LOC(地名)NAME(人名)ORG(组织名)PRO(专业)RACE(种族背景)TITLE(工作职位)个数2608584795246112871156308 验证集:463 实体类型CONT(国家)EDU(学历)LOC(地名)NAME(人名)ORG(组织名)PRO(专业)RACE(种族背景)TITLE(工作职位)个数3310621105231815690 测试集:477 实体类型CONT(国家)EDU(学历)LOC(地名)NAME(人名)ORG(组织名)PRO(专业)RACE(种族背景)TITLE(工作职位)个数2811261125533314772

 

9 医渡云实体识别数据集:https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/yidu-s4k

训练集1:400 实体类型实验室检验影像检查手术疾病和诊断药物解剖部位个数51322341717478383604 训练集2:600 实体类型实验室检验影像检查手术疾病和诊断药物解剖部位个数68274661224659844822 测试集:379 实体类型实验室检验影像检查手术疾病和诊断药物解剖部位个数59034816213234853094
最新回复(0)