一种文本和主题匹配方法、系统、设备及存储介质与流程

文档序号:31847556发布日期:2022-10-19 00:14阅读:28来源:国知局
一种文本和主题匹配方法、系统、设备及存储介质与流程

1.本发明涉及人工智能技术领域,尤其是涉及人与计算机之间用自然语言进行有效通信,完成自然语言的处理,对自然语言文本与对比文本进行文本匹配技术,具体地说,涉及一种文本和主题匹配方法、系统、设备及存储介质。


背景技术:

2.文本匹配是自然语言处理的基本任务,是很多自然语言处理任务的基础工作。
3.传统的文本匹配方法包括相似度计算,长短时记忆网络等,传统的方法存在对长文本的效果不好,对特有的垂直领域的词汇(如海纳云)效果不好,容易受到文章中的干扰内容(如无关的链接,同义词)的干扰,影响判断效果等问题。
4.有鉴于此特提出本发明。


技术实现要素:

5.本发明要解决的技术问题在于克服现有技术的不足,提供一种能对不同长度的文本都取得较好效果,且在垂直领域的关键词都取得较好效果的文本和主题匹配方法、系统、设备及存储介质。
6.为解决上述技术问题,本发明采用技术方案的基本构思是:
7.第一方面,一种文本和主题匹配方法,所述方法包括以下步骤:
8.获取待匹配的文本信息对,所述待匹配的文本信息对包括待匹配主题关键词组和待匹配文本;
9.对待匹配的文本信息对进行分词处理,得到分词信息;
10.将分词信息输入关键词识别模型,得到文本关键词组;
11.使用隐含狄利克雷分布主题识别模型获取每个文本关键词组分别对应的一个主题关键词权重,并通过匹配模型训练继续优化;
12.根据所述主题关键词权重,对待匹配主题关键词组和文本关键词组进行加权计算或采用正则表达式,判断匹配程度,得出匹配结果。
13.在上述任一方案中优选的实施例,所述待匹配文本是根据预先设定的关键词规则组,在公开网页中抓取关键词规则组,由不同的关键词抓取规则组成,每条或每几条关键词抓取规则对应一个预先设定的主题,若公开网页中的文本符合关键词规则组中的某一条规则,则该文本和该规则对应的主题组成待匹配主题关键词组和待匹配文本信息对。
14.在上述任一方案中优选的实施例,在所述对待匹配的文本信息对进行分词处理之前,还包括:
15.对待匹配的文本信息对进行预筛除处理;
16.待匹配的文本信息对中包含负主题关键词,则跳过后续处理,直接判定不匹配,负主题关键词组由和负主题关键词组排斥的关键词组成,为人工事先制定。
17.在上述任一方案中优选的实施例,将所述将分词信息输入关键词识别模型,得到
文本关键词组之前,包括:
18.构建关键词识别模型;
19.训练所述关键词识别模型。
20.在上述任一方案中优选的实施例,所述训练所述关键词识别模型,包括:
21.设置文本训练集,训练集由文本信息组成,均经过关键词标注和词性标注;
22.从训练集中获取训练文本,每个训练文本都有对应的关键词标注和词性标注信息;
23.对文本信息进行分词处理,获取对应的分词信息;
24.将所述分词信息输入预先设定的bert模型,获取序列文本信息;
25.将序列文本信息分别输入关键词标注crf模型和词性标注crf模型,分别与关键词标注序列和词性标注序列做比较,获取对应的关键词标注损失信息和词性标注损失信息;
26.根据关键词标注损失信息和词性标注损失信息,分别使用梯度下降法,对预设的bert模型和关键词标注crf模型和词性标注crf模型的模型参数进行微调;
27.当关键词标注损失信息和词性标注损失信息都小于一定阈值或者训练轮次超过一定数量时,训练停止。
28.在上述任一方案中优选的实施例,所述将分词信息输入关键词识别模型,得到文本关键词组,包括:
29.通过关键词爬取获得待匹配文本;
30.对待匹配文本进行分词处理,得到分词信息;
31.将分词信息输入双向编码器模型中,得到包含语义信息的输出序列;
32.将输出序列输入条件随机场模型中,输出关键词标记序列;
33.根据关键词标记序列得到关键词组,关键词组中包含每个关键词在文本中出现的数量,其中的关键词包括人物名,组织名和地名。
34.在上述任一方案中优选的实施例,所述通过匹配模型训练继续优化,包括:
35.设置关键词组对匹配训练集,该训练集由多组关键词组对组成,每组关键词组对包括两个关键词组,以及两者是否匹配的标签;
36.对关键词组对进行加权计算,其中,每个关键词组对应一个权重,该权重由lda主题模型或机器学习模型预设;
37.加权计算获取匹配结果,将匹配结果和标签计算获取损失信息,根据损失信息使用梯度下降法更新关键词权重;
38.当损失信息小于一定阈值时,训练停止。
39.采用上述技术方案后,本发明与现有技术相比具有以下有益效果。
40.通过使用隐含狄利克雷分布主题识别模型获取每个文本关键词组分别对应的一个主题关键词权重,可以使其具有更高的识别率和召回率,对不同长度的文本匹配成功率高,具有较好的识别效果,推理时间较短,500字左右的文本推理时间在100毫秒左右,通过简单的迁移训练可以适应未来关键词增加的情况,因此,其扩展性更强。
41.第二方面,一种文本和主题匹配系统,包括:
42.获取模块,用于获取待匹配的文本信息对,所述待匹配的文本信息对包括待匹配主题关键词组和待匹配文本;
43.分词模块,用于对待匹配的文本信息对进行分词处理,得到分词信息;
44.输入模块,用于将分词信息输入关键词识别模型,得到文本关键词组;
45.处理模块,用于使用隐含狄利克雷分布主题识别模型获取每个文本关键词组分别对应的一个主题关键词权重,并通过匹配模型训练继续优化;
46.匹配模块,用于根据所述主题关键词权重,对待匹配主题关键词组和文本关键词组进行加权计算或采用正则表达式,判断匹配程度,得出匹配结果。
47.采用上述技术方案后,第二方面与第一方面的有益效果相同,故在此不再赘述。
48.第三方面,一种文本和主题匹配设备,包括:
49.存储器,用于存储计算机程序;
50.处理器,用于执行所述计算机程序时实现所述的文本和主题匹配方法的步骤。
51.第三方面与第一方面其有益效果一致,故在此不再赘述。
52.第四方面,一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现所述的文本和主题匹配方法。
53.第四方面与第一方面其有益效果一致,故在此不再赘述。
54.下面结合附图对本发明的具体实施方式作进一步详细的描述。
附图说明
55.附图作为本发明的一部分,用来提供对本发明的进一步的理解,本发明的示意性实施例及其说明用于解释本发明,但不构成对本发明的不当限定。显然,下面描述中的附图仅仅是一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。在附图中:
56.图1是本发明文本和主题匹配方法的流程示意图。
57.图2是本发明文本和主题匹配方法的关键词识别模型流程示意图。
58.图3是本发明文本和主题匹配方法的关键词组识别模型训练方法的流程示意图。
59.图4是本发明文本和主题匹配方法的关键词组对匹配模型训练方法的流程示意图。
60.图5为本发明实施例文本和主题匹配系统示意图。
61.图6为本发明实施例文本和主题匹配设备示意图。
62.需要说明的是,这些附图和文字描述并不旨在以任何方式限制本发明的构思范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
63.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对实施例中的技术方案进行清楚、完整地描述,以下实施例用于说明本发明,但不用来限制本发明的范围。
64.如图1所示,本发明提供了一种文本和主题匹配方法,所述方法包括以下步骤:
65.步骤1:获取待匹配的文本信息对,所述待匹配的文本信息对包括待匹配主题关键词组和待匹配文本,所述待匹配文本是根据预先设定的关键词规则组,在公开网页中抓取关键词规则组,由不同的关键词抓取规则组成,每条或每几条关键词抓取规则对应一个预
先设定的主题,若公开网页中的文本符合关键词规则组中的某一条规则,则该文本和该规则对应的主题组成待匹配主题关键词组和待匹配文本信息对;
66.在本发明实施例所述的文本和主题匹配方法中,获取待匹配主题关键词组和待匹配文本,成为一组待匹配的文本信息对,其中,待匹配文本是根据预先设定的关键词规则组在公开网页中抓取,比如:如果关键规则中包括“房产*(物业+保安)”,那么包括关键词“房产”和“物业”的文章会被抓取,而只包括“物业”或者“保安”而没有“房产”的文章将不会被抓取。关键词规则组由不同的关键词抓取规则组成,每条或每几条关键词规则对应一个预先设定的主题。如果公开网页中的文本符合关键词规则组中的某一条规则,则该文本和该规则对应的主题组成待匹配关键词组和待匹配文本的文本信息对。
67.步骤2:对待匹配的文本信息对进行预筛除处理,待匹配的文本信息对中包含负主题关键词,则跳过后续处理,直接判定不匹配,负主题关键词组由和负主题关键词组排斥的关键词组成,为人工事先制定。
68.步骤3:对待匹配的文本信息对进行分词处理,得到分词信息,其中,分词会将句子根据语义分割成独立的词语组,如“明天会更好”经过分词处理后会变成“明天+会+更好”。
69.步骤4:将分词信息输入关键词识别模型,得到文本关键词组,此处文本关键词组为待匹配文本中包含的组织名,地名和人名。
70.步骤5:使用隐含狄利克雷分布主题识别模型获取每个文本关键词组分别对应的一个主题关键词权重,并通过匹配模型训练继续优化。
71.步骤6:根据所述主题关键词权重,对待匹配主题关键词组和文本关键词组进行加权计算或采用正则表达式,判断匹配程度,得出匹配结果,。
72.在本发明实施例所述的文本和主题匹配方法中,通过使用隐含狄利克雷分布主题识别模型获取每个文本关键词组分别对应的一个主题关键词权重,可以使其具有更高的识别率和召回率,对不同长度的文本匹配成功率高,具有较好的识别效果,推理时间较短,500字左右的文本推理时间在100毫秒左右,通过简单的迁移训练可以适应未来关键词增加的情况,因此,其扩展性更强。
73.其中,每个文本关键词组都有一个权重,这个权重的初始值使用lda(隐含狄利克雷分布)主题识别模型获取,在之后的匹配模型训练过程中继续优化,基于主题关键词权重,对待匹配主题关键词组和文本关键词组进行加权计算,判断匹配程度。如果计算结果大于某个阈值,则认为该文本信息对匹配;
74.其中,m代表待匹配主题关键词组和文本关键词组共有的关键词数量,n代表待匹配主题关键词组的关键词总量,w代表关键词权重,k和l代表待匹配主题关键词组中同一关键词出现的频次。
75.如图3所示,将所述将分词信息输入关键词识别模型,得到文本关键词组之前,还包括:
76.步骤31:构建关键词识别模型;
77.步骤32:训练所述关键词识别模型,具体包括:
78.步骤321:设置文本训练集,,训练集由十万条左右长度不等的文本信息组成,均经过关键词标注和词性标注;
79.步骤322:从训练集中获取训练文本,每个训练文本都有对应的关键词标注和词性标注信息,关键词标注和词性标注信息分别可用于模型训练中的关键词标注任务和词性标注任务;
80.步骤323:对文本信息进行分词处理,获取对应的分词信息;
81.步骤324:将所述分词信息输入预先设定的bert模型,获取序列文本信息;
82.步骤325:将序列文本信息分别输入关键词标注crf模型和词性标注crf模型,分别与关键词标注序列和词性标注序列做比较,获取对应的关键词标注损失信息和词性标注损失信息;
83.步骤326:根据关键词标注损失信息和词性标注损失信息,分别使用梯度下降法,对预设的bert模型和关键词标注crf模型和词性标注crf模型的模型参数进行微调,其中bert模型的参数为关键词标注任务和词性标注任务共享;
84.步骤327:当关键词标注损失信息和词性标注损失信息都小于一定阈值或者训练轮次超过一定数量时,训练停止。此时,由分词处理模块,bert模型和关键词标注crf模型组成的模型即为关键词组识别模型,可以使其对不同长度的文本匹配成功率高,具有较好的识别效果,推理时间较短,其中,所述bert模型为来自transformer的双向编码器表征模型,所述crf模型为条件随机场模型,是一种鉴别式机率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。
85.如图2所示,所述将分词信息输入关键词识别模型,得到文本关键词组,包括:
86.步骤41:通过关键词爬取获得待匹配文本;
87.步骤42:对待匹配文本进行分词处理,得到分词信息;
88.步骤43:将分词信息输入双向编码器模型中,得到包含语义信息的输出序列;
89.步骤44:将输出序列输入条件随机场模型中,输出关键词标记序列;
90.步骤45:根据关键词标记序列得到关键词组,关键词组中包含每个关键词在文本中出现的数量,其中的关键词包括人物名,组织名和地名。
91.如图4所示,所述通过匹配模型训练继续优化,包括:
92.步骤51:设置关键词组对匹配训练集,该训练集由多组关键词组对组成,每组关键词组对包括两个关键词组,以及两者是否匹配的标签;
93.步骤52:对关键词组对进行加权计算,其中,每个关键词组对应一个权重,该权重由lda主题模型或机器学习模型预设;
94.步骤53:加权计算获取匹配结果,将匹配结果和标签计算获取损失信息,根据损失信息使用梯度下降法更新关键词权重;
95.步骤54:当损失信息小于一定阈值时,训练停止。
96.如图5所示,一种文本和主题匹配系统,包括:
97.获取模块,用于获取待匹配的文本信息对,所述待匹配的文本信息对包括待匹配主题关键词组和待匹配文本;
98.分词模块,用于对待匹配的文本信息对进行分词处理,得到分词信息;
99.输入模块,用于将分词信息输入关键词识别模型,得到文本关键词组;
100.处理模块,用于使用隐含狄利克雷分布主题识别模型获取每个文本关键词组分别对应的一个主题关键词权重,并通过匹配模型训练继续优化;
101.匹配模块,用于根据所述主题关键词权重,对待匹配主题关键词组和文本关键词组进行加权计算或采用正则表达式,判断匹配程度,得出匹配结果。
102.如图6所示,一种文本和主题匹配设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如所述文本和主题匹配方法的步骤。其中,处理器用于控制该测量设备的整体操作,以完成上述的文本和主题匹配方法中的全部或部分步骤。存储器用于存储各种类型的数据以支持在该测量设备的操作,这些数据例如可以包括用于在该测量设备上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现。
103.例如静态随机存取存储器(staticrandomaccessmemory,简称sram);电可擦除可编程只读存储器electricallyerasableprogrammableread-onlymemory,简称eeprom),可擦除可编程只读存储器(erasableprogrammableread-onlymemory,简称eprom),可编程只读存储器(programmableread-onlymemory,简称prom),只读存储器(read-onlymemory,简称rom),磁存储器,快闪存储器,磁盘或光盘。多媒体组件可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或通过通信组件发送。音频组件还包括至少一个扬声器,用于输出音频信号。i/o接口为处理器和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件用于该测量设备与其他设备之间进行有线或无线通信。无线通信,例如wi-fi,蓝牙,近场通信(nearfieldcommunication,简称nfc),2g、3g、4g或5g,或它们中的一种或几种的组合,因此相应的该通信组件可以包括:wi-fi模块,蓝牙模块,nfc模块。
104.在一示例性实施例中,测量设备可以被一个或多个应用专用集成电路(applicationspecificintegratedcircuit,简称asic);
105.数字信号处理器(digitalsignalprocessor,简称dsp)、数字信号处理设备(digitalsignalprocessingdevice,简称dspd);
106.可编程逻辑器件(programmablelogicdevice,简称pld)、现场可编程门阵列(fieldprogrammablegatearray,简称fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的文本和主题匹配方法。
107.在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的文本和主题匹配方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器,上述程序指令可由测量设备的处理器执行以完成上述的文本和主题匹配方法。
108.相应于上面的方法实施例,本公开实施例还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的一种文本和主题匹配方法可相互对应参照。
109.第四方面,一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的文本和主题匹配方法的步骤。
110.该可读存储介质具体可以为u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
111.以上所述仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专利的技术人员在不脱离本发明技术方案范围内,当可利用上述提示的技术内容作出些许更动或修饰为等同变化的等效实施例,上述实施例中的实施方案也可以进一步组合或者替换,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明方案的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1