一种文本处理、信息抽取方法和系统与流程

文档序号：35910683发布日期：2023-10-29 12:43阅读：30来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本说明书涉及自然语言处理，特别涉及一种文本处理、信息抽取方法和系统。

背景技术：

1、文本信息抽取旨在从文本中抽取关键或目标信息，是自然语言处理技术的一项重要应用。目前信息抽取可以通过机器学习模型或正则式匹配实现，前者需要进行语料训练，而正则表达式的编写更多依赖处理人员的经验，均难以适应高时效性的需求。

2、本说明书一些实施例致力于短文本的高时效信息抽取，为此，提供了一种用于自动生成正则表达式的文本处理方法及其相应的信息抽取方法。

技术实现思路

1、本说明书一个或多个实施例提供了一种文本处理方法，包括：获取待处理文本；将待处理文本中的至少部分字符和/或数字替换为预设符号，得到待处理文本的元模式表达式；通过机器学习模型处理待处理文本及其元模式表达式，获得用于进行信息抽取的规则。

2、本说明书一个或多个实施例提供了一种文本处理系统，包括：第一获取模块，用于获取待处理文本；第一表达式生成模块，用于将待处理文本中的至少部分字符和/或数字替换为预设符号，得到待处理文本的元模式表达式；第一规则获取模块，用于通过机器学习模型处理待处理文本及其元模式表达式，获得用于进行信息抽取的规则。

3、本说明书一个或多个实施例提供了一种存储介质，存储有计算机指令，当计算机指令被处理器执行时，实现前述的文本处理方法。

4、本说明书一个或多个实施例提供了另一种文本处理方法，包括：获取一个或多个待处理文本；将待处理文本中的至少部分字符和/或数字替换为预设符号，得到一个或多个的元模式表达式；对所述一个或多个元模式表达式进行去重，得到一个或多个目标元模式表达式；通过机器学习模型处理目标元模式表达式及其对应的待处理文本，获得用于进行信息抽取的规则。

5、本说明书一个或多个实施例提供了另一种文本处理系统，包括：第二获取模块，用于获取一个或多个待处理文本；第二表达式生成模块，用于将待处理文本中的至少部分字符和/或数字替换为预设符号得到一个或多个的元模式表达式；去重模块，用于对所述一个或多个元模式表达式进行去重，得到一个或多个目标元模式表达式；第二规则获取模块，用于通过机器学习模型处理目标元模式表达式及其对应的待处理文本，获得用于进行信息抽取的规则。

6、本说明书一个或多个实施例提供了一种存储介质，存储有计算机指令，当计算机指令被处理器执行时，实现前文的所述另一种文本处理方法。

7、本说明书一个或多个实施例提供了一种信息抽取方法，包括：获取待处理文本；基于抽取规则库中的规则对待处理文本进行信息抽取；当信息抽取失败时，按照前文的所述另一种文本处理方法获取所述待处理文本对应的规则，以便将获得的规则添加到所述抽取规则库。

8、本说明书一个或多个实施例提供了一种信息抽取系统，包括：第三获取模块，用于获取待处理文本；抽取处理模块，用于基于抽取规则库中的规则对待处理文本进行信息抽取；文本处理模块，用于当信息抽取失败时，按照前文的所述另一种文本处理方法获取所述待处理文本对应的规则，以便将获得的规则添加到所述抽取规则库。

9、本说明书一个或多个实施例提供了一种存储介质，存储有计算机指令，当计算机指令被处理器执行时，实现前述的信息抽取方法。

技术特征：

1.一种文本处理方法，包括：

2.如权利要求1所述的方法，所述待处理文本包括以下文本中的一种或多种：标题、摘要、观点评论、问题文本。

3.如权利要求1所述的方法，所述将待处理文本中的至少部分字符和/或数字替换为预设符号得到待处理文本的元模式表达式，包括：

4.如权利要求1所述的方法，所述机器学习模型为交互式模型；所述通过机器学习模型处理待处理文本及其元模式表达式，获得用于进行信息抽取的规则，包括：

5.如权利要求4所述的方法，所述自然语言交互指令还包括目标描述；所述目标描述用于指示需要从待处理文本中抽取的目标信息；

6.如权利要求1所述的方法，所述用于进行信息抽取的规则包括第二正则表达式。

7.一种文本处理系统，包括：

8.一种存储介质，存储有计算机指令，当计算机指令被处理器执行时，实现如权利要求1～6任一项所述的方法。

9.一种文本处理方法，包括：

10.如权利要求9所述的方法，所述待处理文本包括以下文本中的一种或多种：标题、摘要、观点评论、问题文本。

11.如权利要求9所述的方法，所述将待处理文本中的至少部分字符和/或数字替换为预设符号得到待处理文本的元模式表达式，包括：

12.如权利要求9所述的方法，所述对所述一个或多个元模式表达式进行去重，得到一个或多个目标元模式表达式，包括：

13.如权利要求12所述的方法，所述将元模式表达式进行规范化处理，包括：

14.如权利要求9所述的方法，所述一个或多个目标元模式表达式未被预先获得的抽取规则库覆盖，所述抽取规则库记录有一个或多个元模式表达式及其对应的规则。

15.如权利要求9所述的方法，所述机器学习模型为交互式模型；所述通过机器学习模型处理目标元模式表达式及其对应的待处理文本，获得用于进行信息抽取的规则，包括：

16.如权利要求15所述的方法，所述自然语言交互指令还包括目标描述；所述目标描述用于指示需要从待处理文本中抽取的目标信息；

17.如权利要求9所述的方法，所述用于进行信息抽取的规则包括第二正则表达式。

18.如权利要求9所述的方法，所述方法还包括：

19.一种文本处理系统，包括：

20.一种存储介质，存储有计算机指令，当计算机指令被处理器执行时，实现如权利要求9～18任一项所述的方法。

21.一种信息抽取方法，包括：

22.如权利要求21所述的方法，所述基于抽取规则库中的规则对待处理文本进行信息抽取，包括：

23.如权利要求22所述的方法，所述基于抽取规则库中的规则对待处理文本进行信息抽取，还包括：

24.一种信息抽取系统，包括：

25.一种存储介质，存储有计算机指令，当计算机指令被处理器执行时，实现如权利要求21～23任一项所述的方法。

技术总结
本说明书实施例提供一种文本处理、信息抽取方法和系统，涉及自然语言处理技术领域。技术要点包括：获取待处理文本；将待处理文本中的至少部分字符和/或数字替换为预设符号，得到待处理文本的元模式表达式；通过机器学习模型处理待处理文本及其元模式表达式，获得用于进行信息抽取的规则。

技术研发人员：王峰,丁卓非
受保护的技术使用者：支付宝（杭州）信息技术有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王峰丁卓非
技术所有人：支付宝（杭州）信息技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。