(12)发明专利申请
(10)申请公布号 CN 111125371 A(43)申请公布日 2020.05.08
(21)申请号 201911280552.1(22)申请日 2019.12.13
(71)申请人 中国地质大学(武汉)
地址 430074 湖北省武汉市洪山区鲁磨路
388号(72)发明人 王力哲 樊润宇 阎继宁 陈方
刘鹏 (74)专利代理机构 北京纽乐康知识产权代理事
务所(普通合伙) 11210
代理人 范赤(51)Int.Cl.
G06F 16/36(2019.01)G06F 40/295(2020.01)
权利要求书1页 说明书4页 附图1页
()发明名称
一种基于深度学习的地质灾害文献知识图谱构建方法(57)摘要
本发明公开了一种基于深度学习的地质灾害文献知识图谱构建方法,该方法包括以下步骤:依据地址灾害类型,检索地质灾害相关文献;依据文献知识语料,采用最大正向匹配算法,命名实体种子回标文献语句,构建地质灾害命名实体识别模板;构建地质灾害命名实体识别模型;基于深度学习的多分枝双向门控单元条件随机场模型训练地质灾害命名实体识别语料库;依据地质灾害命名实体识别模型,预测地质灾害命名实体,构建地质灾害知识图谱。通过采用该方法,实现了半自动构建地质灾害命名实体种子集合,自动构建地质灾害命名实体识别语料库,自动预测地质灾害文献中的地质灾害命名实体,有效的提高了地质灾害文献的重用和自动化知识提取。
CN 111125371 ACN 111125371 A
权 利 要 求 书
1/1页
1.一种基于深度学习的地质灾害文献知识图谱构建方法,其特征在于,包括以下步骤:依据地址灾害类型,检索地质灾害相关文献;依据文献知识语料,采用最大正向匹配算法,命名实体种子回标文献语句,构建地质灾害命名实体识别模板;
构建地质灾害命名实体识别模型,其中,实体识别模型为基于深度学习的多分枝双向门控单元条件随机场模型;
基于深度学习的多分枝双向门控单元条件随机场模型训练地质灾害命名实体识别语料库;
依据地质灾害命名实体识别模型,预测地质灾害命名实体,构建地质灾害知识图谱。2.根据权利要求1所述的一种基于深度学习的地质灾害文献知识图谱构建方法,其特征在于,所述依据文献知识语料,采用最大正向匹配算法,命名实体种子回标文献语句,构建地质灾害命名实体识别模板的步骤包括以下步骤:
定义三类地质灾害文献命名实体,其中,三类实体为方法实体、数据实体和地区实体;获取命名实体种子集合;
构建地质灾害命名实体识别语料库。
3.根据权利要求2所述的一种基于深度学习的地质灾害文献知识图谱构建方法,其特征在于,所述获取命名实体种子集合的步骤包括以下步骤:
构建正则表达式;
获取命名实体候选种子集合;人工分析、筛选所述种子集合。
4.根据权利要求1所述的一种基于深度学习的地质灾害文献知识图谱构建方法,其特征在于,所述构建地质灾害命名实体识别模型的步骤包括以下步骤:
构建Embedding层;构建Multi-branch BiGRU层;构建CRF层。
5.根据权利要求1所述的一种基于深度学习的地质灾害文献知识图谱构建方法,其特征在于,所述依据地质灾害命名实体识别模型,预测地质灾害命名实体,构建地质灾害知识图谱进一步包括以下步骤:
使用深度学习的多分枝双向门控单元条件随机场模型识别地质灾害文献进行命名实体;
获取出文献中包含的命名实体;构建知识图谱。
2
CN 111125371 A
说 明 书
1/4页
一种基于深度学习的地质灾害文献知识图谱构建方法
技术领域
[0001]本发明涉及地质灾害文献知识图谱构建技术领域,具体来说,涉及一种基于深度学习的地质灾害文献知识图谱构建方法。
背景技术
[0002]构建地质灾害文献知识图谱,可以促进地质灾害文献的重用,为地质灾害治理提供参考。命名实体识别作为构建地质灾害知识图谱的核心技术,面对以下挑战:地质灾害文献中的命名实体形式多样,语义不明确且上下文不确定,地质灾害文献的重用不够和自动化知识提取水平低。
发明内容
[0003]针对相关技术中的上述技术问题,本发明提出一种基于深度学习的地质灾害文献知识图谱构建方法,能够克服现有技术的上述不足。[0004]为实现上述技术目的,本发明的技术方案是这样实现的:
一种基于深度学习的地质灾害文献知识图谱构建方法,该方法包括以下步骤:依据地址灾害类型,检索地质灾害相关文献;依据文献知识语料,采用最大正向匹配算法,命名实体种子回标文献语句,构建地质灾害命名实体识别模板;
构建地质灾害命名实体识别模型,其中,实体识别模型为基于深度学习的多分枝双向门控单元条件随机场模型;
基于深度学习的多分枝双向门控单元条件随机场模型训练地质灾害命名实体识别语料库;
依据地质灾害命名实体识别模型,预测地质灾害命名实体,构建地质灾害知识图谱。[0005]进一步的,所述依据文献知识语料,采用最大正向匹配算法,命名实体种子回标文献语句,构建地质灾害命名实体识别模板的步骤包括以下步骤:
定义三类地质灾害文献命名实体,其中,三类实体为方法实体、数据实体和地区实体;获取命名实体种子集合;
构建地质灾害命名实体识别语料库。[0006]进一步的,所述获取命名实体种子集合的步骤包括以下步骤:
构建正则表达式;
获取命名实体候选种子集合;人工分析、筛选所述种子集合。[0007]进一步的,所述构建地质灾害命名实体识别模型的步骤包括以下步骤:
构建Embedding层,其中,Embedding层为嵌入层;构建Multi-branch BiGRU层,其中,Multi-branch BiGRU层为多分支双向门控单元层;构建CRF层,其中,CRF层为条件随机场层。
3
CN 111125371 A[0008]
说 明 书
2/4页
进一步的,所述依据地质灾害命名实体识别模型,预测地质灾害命名实体,构建地
质灾害知识图谱进一步包括以下步骤:
使用深度学习的多分枝双向门控单元条件随机场模型识别地质灾害文献进行命名实体;
获取出文献中包含的命名实体;构建知识图谱。
[0009]本发明的有益效果:通过构建地质灾害命名实体模板,结合人工筛选,半自动构建地质灾害命名实体种子集合;
通过种子集合结合最大正向匹配方法,自动构建地质灾害命名实体识别语料库;通过构建基于深度学习的多分枝双向门控单元条件随机场模型,对地质灾害命名实体语料库进行训练,自动预测地质灾害文献中的地质灾害命名实体,有效的提高了地质灾害文献的重用和自动化知识提取。
附图说明
[0010]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0011]图1是根据本发明实施例所述的一种基于深度学习的地质灾害文献知识图谱构建方法的步骤流程图。
具体实施方式
[0012]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
[0013]如图1所示,根据本发明实施例所述的一种基于深度学习的地质灾害文献知识图谱构建方法,包括以下步骤:
步骤S1,依据地址灾害类型,检索地质灾害相关文献;步骤S2,依据文献知识语料,采用最大正向匹配算法,命名实体种子回标文献语句,构建地质灾害命名实体识别模板;
步骤S3,构建地质灾害命名实体识别模型,其中,实体识别模型为基于深度学习的多分枝双向门控单元条件随机场模型;
步骤S4,基于深度学习的多分枝双向门控单元条件随机场模型训练地质灾害命名实体识别语料库;
步骤S5,依据地质灾害命名实体识别模型,预测地质灾害命名实体,构建地质灾害知识图谱。
[0014]步骤S2包括以下步骤:
步骤S21,定义三类地质灾害文献命名实体,其中,三类实体为方法实体、数据实体和地
4
CN 111125371 A
说 明 书
3/4页
区实体;
步骤S22,获取命名实体种子集合;步骤S23,构建地质灾害命名实体识别语料库。[0015]步骤S22包括以下步骤:
步骤S221,构建正则表达式;步骤S222,获取命名实体候选种子集合;步骤S223,人工分析、筛选所述种子集合。[0016]步骤S3包括以下步骤:
步骤S31,构建Embedding层;步骤S32,构建Multi-branch BiGRU层;步骤S33,构建CRF层。
[0017]步骤S5包括以下步骤:
步骤S51,使用深度学习的多分枝双向门控单元条件随机场模型识别地质灾害文献进行命名实体;
步骤S52,获取出文献中包含的命名实体;步骤S53,构建知识图谱。
[0018]为了方便理解本发明的上述技术方案,以下通过具体使用方式上对本发明的上述技术方案进行详细说明。[0019](1)构建地质灾害命名实体识别语料库。首先定义地质灾害命名实体类型,然后通过少量人工结合自动迭代方式构建命名实体识别语料库。[0020](2)构建地质灾害命名实体识别模型——基于深度学习的多分枝双向门控单元条件随机场模型(Deep Multi-branch BiGRU-CRF model)。构建基于深度学习的多分枝双向门控单元条件随机场模型对地质灾害命名实体识别语料库进行训练。多分枝双向门控单元条件随机场模型包含三个主要模块:嵌入层、多分支双向门控单元层和条件随机场层。[0021](3)知识图谱构建。根据地质灾害命名实体识别模型进行地质灾害命名实体进行预测,构建地质灾害知识图谱。 使用多分枝双向门控单元条件随机场模型对地质灾害文献进行命名实体识别,识别出文献中包含的命名实体,构建知识图谱。[0022]具体使用时:
步骤(1)包含下列子步骤:(11)定义地质灾害文献命名实体(方法实体、数据实体和地区实体)。[0023](12)构建正则表达式,获取命名实体候选种子集合,再结合人工筛选。获得最终的命名实体种子集合。构建的正则表达式如下:
对于方法实体,构建的正则表达式为:“.*(提供|使用|改进|利用|运用|提出|设计|发明|建立|构造|实现|根据|以|基于|构建|结合|采取|采用|推广|通过)(了|的|于|对应的|出){0, 1}(及){0, 1}([\\S]+)(的){0, 1}(法|模型).*”。[0024]对于地区实体,构建的正则表达式为:“*(地处|位于|在|形成|处于)(了){0, 1}([\\S]+)(的){0, 1}(地区|区域|山区|流域|区).*”。[0025]对于数据实体,构建的正则表达式为:“.*(提供|使用|利用|运用|提出|设计|发明|建立|构造|根据|以|基于|构建|制作|结合|采取|采用|通过|构建|收集) (了|的|于|
5
CN 111125371 A
说 明 书
4/4页
对|及){0, 1}([\\S]+)(的){0, 1}(数据|资料|数据集).*”。[0026](13)根据构建地质灾害命名实体识别模板构建地质灾害命名实体识别语料库。使用最大正向匹配算法,匹配句子正向包含的最大长度的实体作为命名实体种子,并将这些命名实体种子对文献语句进行回标,构建地质灾害命名实体识别语料库。[0027]步骤(2)包含下列子步骤:
(21)构建基于深度学习的多分枝双向门控单元条件随机场模型。该模型包含一个嵌入层,一个多分支双向门控单元层,和一个条件随机场输出层。模型以句子作为输入,通过嵌入层将句子表示为矩阵。然后经过一个包含三个分支(层数分别为1,2,3)的双向门控单元网络提取特征。最后经过一个条件随机场模型对特征进行再优化,获取最后的输出,即命名实体识别结果。[0028](22)用地质灾害命名实体识别语料库对多分枝双向门控单元条件随机场模型进行训练。将地质灾害命名实体识别语料库进行训练集和测试集划分,其中80%作为训练集,20%作为测试集。使用训练集对多分枝双向门控单元条件随机场模型进行训练,用测试集评估训练的结果,在测试集取得最优效果的模型作为最终的模型。[0029]步骤(3)包含下列子步骤:
(31)对地质灾害文献进行分句。[0030](32)使用训练好的多分枝双向门控单元条件随机场模型,对地质灾害文献句子中的地质灾害命名实体进行识别,用识别出的命名实体构建地质灾害知识图谱。[0031]综上所述,借助于本发明的上述技术方案,通过构建地质灾害命名实体模板,结合人工筛选,半自动构建地质灾害命名实体种子集合;通过种子集合结合最大正向匹配方法,自动构建地质灾害命名实体识别语料库;通过构建基于深度学习的多分枝双向门控单元条件随机场模型,对地质灾害命名实体语料库进行训练,自动预测地质灾害文献中的地质灾害命名实体,有效的提高了地质灾害文献的重用和自动化知识提取。[0032]以上所述仅为本发明的较佳实施例而已,并不用以本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
6
CN 111125371 A
说 明 书 附 图
1/1页
图1
7
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- shangjiatang.cn 版权所有 湘ICP备2022005869号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务