文本信息自动抽取方法、装置、可读存储介质和电子设备与流程

文档序号:20687830发布日期:2020-05-08 18:58阅读:来源:国知局

技术特征:

1.一种文本信息自动抽取方法,其特征在于,所述方法包括:

接收抽取请求,所述抽取请求中包括文本信息;

根据抽取请求确定目标文本,所述目标文本中包括至少一个概念信息和与所述概念信息对应的至少一个实体信息;

通过抽取模型对所述目标文本进行抽取,得到至少一个概念信息以及与所述各概念信息对应的实体信息,其中,所述抽取模型包括通过定位目标文本位置进行信息抽取的xpath抽取子模型和通过语义识别进行信息抽取的文本抽取子模型;

以键值对方式输出所述各概念信息和所述各概念信息对应的实体信息至预定的数据库进行存储。

2.根据权利要求1所述的方法,其特征在于,所述根据抽取请求确定目标文本包括:

获取所述抽取请求中的文本信息,所述文本信息中包括至少一个概念信息和与所述概念信息对应的至少一个实体信息;

将所述文本信息加入待执行的任务队列;

根据加入所述任务队列的时间顺序依次从所述任务队列中获取待处理的文本信息作为目标文本。

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

监控所述抽取模型对所述目标文本进行抽取的过程以确定对应的任务处理状态;

反馈所述任务处理状态。

4.根据权利要求1所述的方法,其特征在于,所述xpath抽取子模型包括页面元素抽取层、数组抽取层和键值对抽取层;

所述文本抽取子模型包括规则抽取层、分类抽取层、长短期记忆网络抽取层和语义抽取层。

5.根据权利要求4所述的方法,其特征在于,所述通过抽取模型对所述目标文本进行抽取,得到至少一个概念信息以及与所述各概念信息对应的实体信息包括:

对所述目标文本进行预处理,得到至少一个特征信息文本;

通过所述xpath抽取子模型和文本抽取子模型中的至少一个对所述各特征信息文本进行抽取,得到对应的抽取信息;

通过预设的处理规则对所述各特征信息文本对应的抽取信息进行处理得到所述目标文本对应的概念信息以及与所述各概念信息对应的实体信息。

6.根据权利要求5所述的方法,其特征在于,所述对所述目标文本进行预处理,得到至少一个特征信息文本包括:

对所述目标文本进行格式转换,得到可以被所述抽取模型识别的标准目标文本;

根据预设的拆分规则对所述标准目标文本进行拆分,得到包含所述标准目标文本内容的至少一个特征信息文本。

7.根据权利要求5所述的方法,其特征在于,所述通过所述xpath抽取子模型和文本抽取子模型中的至少一个对所述各特征信息文本进行抽取,得到对应的抽取信息具体为:

通过所述页面元素抽取层、数组抽取层、键值对抽取层、规则抽取层、分类抽取层、长短期记忆网络抽取层和语义抽取层中的至少一个对所述各特征信息文本进行抽取,以确定对应的抽取信息。

8.根据权利要求5所述的方法,其特征在于,所述处理规则为将所述各特征信息文本对应的抽取信息合并。

9.一种文本信息自动抽取装置,其特征在于,所述装置包括:

请求接收模块,用于接收抽取请求,所述抽取请求中包括文本信息;

文本确定模块,用于根据抽取请求确定目标文本,所述目标文本中包括至少一个概念信息和与所述概念信息对应的至少一个实体信息;

信息抽取模块,用于通过抽取模型对所述目标文本进行抽取,得到至少一个概念信息以及与所述各概念信息对应的实体信息,其中,所述抽取模型包括通过定位目标文本位置进行信息抽取的xpath抽取子模型和通过语义识别进行信息抽取的文本抽取子模型;

信息存储模块,用于以键值对方式输出所述各概念信息和所述各概念信息对应的实体信息至预定的数据库进行存储。

10.一种计算机可读存储介质,用于存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-8中任一项所述的方法。

11.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-8中任一项所述的方法。


技术总结
本发明实施例公开了一种文本信息自动抽取方法、装置、可读存储介质和电子设备,本发明实施例通过基于Xpath属性以及语义理解对目标文本内包含的信息进行抽取,在抽取过程中融合了多种信息抽取方式,一定程度上解决了现有技术面临的实体局限、关系局限和语义局限性等问题,进而实现抽取内容复杂、表述多变的文本中的信息,显著的节约了人工成本、提高了文本信息抽取的准确度。

技术研发人员:卜国卿;刘路辉;张巍;占翼;李正;卢艳民;茅廷
受保护的技术使用者:中汇信息技术(上海)有限公司
技术研发日:2019.12.18
技术公布日:2020.05.08
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1