基于短文本面向问答系统的实体链接方法及装置与流程

文档序号:33645367发布日期:2023-03-29 03:34阅读:47来源:国知局
基于短文本面向问答系统的实体链接方法及装置与流程

1.本技术属于语音问答技术领域,尤其涉及一种基于短文本面向问答系统的实体链接方法及装置。


背景技术:

2.知识库问答系统是当前应用较为广泛的问答系统,传统的实体链接方法主要针对长文本,在用户输入的问题较简短,输入文本缺失或输入文本中实体名错误的情况下,传统的实体链接不能准确地匹配出相应的问题答案,且传统的知识库构建需要耗费大量人力成本,建设成本较高。


技术实现要素:

3.本技术旨在至少解决现有技术中存在的技术问题之一。为此,本技术提出一种基于短文本面向问答系统的实体链接方法及装置,能够自动构建实体别名库,降低了构建成本,能够准确匹配与用户语音对应的目标实体别名,以输出相应的问题答案。
4.第一方面,本技术提供了一种基于短文本面向问答系统的实体链接方法,该方法包括:
5.对目标实体进行基于tf-idf的特征提取,获取多个关键词;
6.对所述多个关键词进行重组,生成实体别名库,所述实体别名库包括多个实体别名,所述实体别名包括至少一个所述关键词;
7.对用户语音进行特征识别,从所述实体别名库中获取与所述用户语音匹配的目标实体别名。
8.根据本技术实施例提供的基于短文本面向问答系统的实体链接方法,通过对目标实体进行基于tf-idf的特征提取,并获取多个关键词,然后对关键词进行重组以生成实体别名库,再基于实体别名库,获取与用户语音匹配的目标实体别名,能够自动构建实体别名库,降低了构建成本且准确度较高,从而能够准确匹配与用户语音对应的目标实体别名,便于后续在语音问答场景中输出与用户语音匹配的问题答案。
9.本技术一个实施例的基于短文本面向问答系统的实体链接方法,所述对目标实体进行基于tf-idf的特征提取,获取多个关键词,包括:
10.对所述目标实体进行分词处理,获取第一实体;
11.对所述第一实体进行基于tf-idf的关键词提取,获取所述多个关键词和所述关键词对应的重要程度。
12.根据本技术一个实施例的基于短文本面向问答系统的实体链接方法,通过对目标实体进行分词处理并获取第一实体,然后对第一实体进行基于tf-idf的关键词提取,获取多个关键词和关键词对应的重要程度,便于后续基于关键词的重要程度构建实体别名库,降低了构建成本。
13.本技术一个实施例的基于短文本面向问答系统的实体链接方法,所述对所述第一
实体进行基于tf-idf的关键词提取,获取所述多个关键词和所述关键词对应的重要程度,包括:
14.基于所述多个关键词中目标关键词在所述第一实体中出现的次数,确定所述目标关键词的词频;
15.基于语料库中文件总数和所述语料库中目标文件数,确定所述目标关键词的逆文档词频,其中,所述目标文件数为包括所述目标关键词的文件数量;
16.基于所述词频和所述逆文档词频,确定所述目标关键词对应的重要程度。
17.根据本技术一个实施例的基于短文本面向问答系统的实体链接方法,通过确定目标关键词的词频和逆文档词频,以确定目标关键词对应的重要程度,便于后续基于关键词的重要程度进行关键词组合,以生成实体别名库,从而降低了实体别名库的构建成本。
18.本技术一个实施例的基于短文本面向问答系统的实体链接方法,所述对所述目标实体进行分词处理,获取第一实体,包括:
19.在所述目标实体为已收录实体的情况下,基于前向最大匹配算法对所述目标实体进行分词处理,获取所述第一实体;
20.在所述目标实体为未收录实体的情况下,基于隐马尔克夫模型对所述目标实体进行分词处理,获取所述第一实体。
21.根据本技术一个实施例的基于短文本面向问答系统的实体链接方法,通过对已收录实体基于前向最大匹配算法进行分词处理,并对未收录实体基于隐马尔克夫模型对目标实体进行分词处理,能够基于不同的实体使用不同的方法进行分词处理,提高了分词处理的效率,以便后续进行关键词提取,以生成实体别名库,进而降低了构建实体别名库的成本。
22.本技术一个实施例的基于短文本面向问答系统的实体链接方法,所述对所述多个关键词进行重组,生成实体别名库,包括:
23.基于所述多个关键词中目标关键词对应的重要程度和目标阈值,筛选所述多个关键词得到实体别名;
24.基于所述实体别名,生成所述实体别名库。
25.根据本技术一个实施例的基于短文本面向问答系统的实体链接方法,通过基于多个关键词中目标关键词对应的重要程度和目标阈值,筛选多个关键词得到实体别名,并生成实体别名库,能够筛选出重要程度高于目标阈值的关键词,便于后续基于用户语音进行实体别名匹配,以输出与用户语音高度匹配的问题答案。
26.本技术一个实施例的基于短文本面向问答系统的实体链接方法,所述对用户语音进行特征识别,从所述实体别名库中获取与所述用户语音匹配的目标实体别名,包括:
27.将所述用户语音输入至语义表征模型,获取所述语义表征模型输出的目标实体语义表征,所述目标实体语义表征与所述实体别名库相链接;
28.其中,所述语义表征模型为以样本语音为样本,以与所述样本语音对应的样本实体别名为样本标签,进行无监督训练和有监督训练所得到的。
29.根据本技术一个实施例的基于短文本面向问答系统的实体链接方法,通过无监督训练和有监督训练得到语义表征模型,能够获得实体的向量表示,进行相似度匹配计算,完成实体链接,提高短文本实体链接效果,使得后续应用场景中,问答系统在复杂的语言环境
下也能输出与用户语音相匹配的问题答案。
30.第二方面,本技术提供了一种基于短文本面向问答系统的实体链接装置,该装置包括:
31.第一处理模块,用于对目标实体进行基于tf-idf的特征提取,获取多个关键词;
32.第二处理模块,用于对所述多个关键词进行重组,生成实体别名库,所述实体别名库包括多个实体别名,所述实体别名包括至少一个所述关键词;
33.第三处理模块,用于对用户语音进行特征识别,从所述实体别名库中获取与所述用户语音匹配的目标实体别名。
34.根据本技术实施例提供的基于短文本面向问答系统的实体链接装置,通过对目标实体进行基于tf-idf的特征提取,并获取多个关键词,然后对关键词进行重组以生成实体别名库,再基于实体别名库,获取与用户语音匹配的目标实体别名,能够自动构建实体别名库,降低了构建成本且准确度较高,从而能够准确匹配与用户语音对应的目标实体别名,便于后续在语音问答场景中输出与用户语音匹配的问题答案。
35.第三方面,本技术提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于短文本面向问答系统的实体链接方法。
36.第四方面,本技术提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的基于短文本面向问答系统的实体链接方法。
37.第五方面,本技术提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的基于短文本面向问答系统的实体链接方法。
38.本技术实施例中的上述一个或多个技术方案,至少具有如下技术效果之一:
39.通过对目标实体进行基于tf-idf的特征提取,并获取多个关键词,然后对关键词进行重组以生成实体别名库,再基于实体别名库,获取与用户语音匹配的目标实体别名,能够自动构建实体别名库,降低了构建成本,能够准确匹配与用户语音对应的目标实体别名,以输出相应的问题答案。
40.进一步的,通过对目标实体进行分词处理并获取第一实体,然后对第一实体进行基于tf-idf的关键词提取,获取多个关键词和关键词对应的重要程度,便于后续基于关键词的重要程度构建实体别名库,降低了构建成本。
41.更进一步的,通过确定目标关键词的词频和逆文档词频,以确定目标关键词对应的重要程度,便于后续基于关键词的重要程度进行关键词组合,以生成实体别名库,从而降低了实体别名库的构建成本。
42.再进一步的,通过对已收录实体基于前向最大匹配算法进行分词处理,并对未收录实体基于隐马尔克夫模型对目标实体进行分词处理,能够基于不同的实体使用不同的方法进行分词处理,提高了分词处理的效率,以便后续进行关键词提取,以生成实体别名库,进而降低了构建实体别名库的成本。
43.再进一步的,通过基于多个关键词中目标关键词对应的重要程度和目标阈值,筛选多个关键词得到实体别名,并生成实体别名库,能够筛选出重要程度高于目标阈值的关键词,便于后续基于用户语音进行实体别名匹配,以输出与用户语音高度匹配的问题答案。
44.再进一步的,通过无监督训练和有监督训练得到语义表征模型,能够增强语义表征模型的语义表征能力,完成短文本实体链接,使得问答系统在复杂的语言环境下也能输出与用户语音相匹配的问题答案。
45.本技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。
附图说明
46.本技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
47.图1是本技术实施例提供的基于短文本面向问答系统的实体链接方法的流程示意图;
48.图2是本技术实施例提供的基于短文本面向问答系统的实体链接装置的结构示意图;
49.图3是本技术实施例提供的电子设备的结构示意图。
具体实施方式
50.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本技术保护的范围。
51.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
52.下面结合图1描述本技术实施例的基于短文本面向问答系统的实体链接方法。
53.需要说明的是,基于短文本面向问答系统的实体链接方法的执行主体可以为服务器,或者可以为基于短文本面向问答系统的实体链接装置,或者还可以为用户的终端,包括但不限于移动终端和非移动终端。
54.例如,移动终端包括但不限于手机、pda智能终端、平板电脑以及车载智能终端等;非移动终端包括但不限于pc端等。
55.如图1所示,该基于短文本面向问答系统的实体链接方法,包括:步骤110、步骤120和步骤130。
56.步骤110:对目标实体进行基于tf-idf的特征提取,获取多个关键词;
57.在该步骤中,目标实体为现有实体。
58.tf-idf(term frequency

inverse document frequency)用以评估关键词对于目标实体或实体别名库的重要程度。关键词的重要性随着它在目标实体中出现的次数成正比增加,但同时会随着它在实体别名库中出现的频率成反比下降。
59.tf(term frequency)是词频,用于表示目标关键词在第一实体中出现的频率。
60.idf(inverse document frequency)是逆文档词频,可以基于语料库中文件总数和语料库中目标文件数获得,目标文件数越少,则逆文档词频越大,表明目标关键词的重要程度高。
61.步骤120:对多个关键词进行重组,生成实体别名库,实体别名库包括多个实体别名,实体别名包括至少一个关键词;
62.在该步骤中,实体是可以相互区别且独立存在的事物。
63.实体别名即为实体的别名,实体别名包括至少一个关键词。
64.实体别名库包括多个实体别名。
65.步骤130:对用户语音进行特征识别,从实体别名库中获取与用户语音匹配的目标实体别名。
66.在该步骤中,目标实体别名为与用户语音匹配的实体别名。
67.在实际执行过程中,基于tf-idf统计方法,计算出关键词的重要程度,比较关键词的重要程度,删除重要程度较低的关键词,保留重要程度较高的关键词以生成实体别名,从而构建实体别名库。
68.然后对用户语音进行特征识别,从实体别名库中获取与用户语音匹配的目标实体别名。
69.目标实体别名用于作为语音问答系统的问题,在后续语音问答场景中,基于目标实体别名,进行用户语音分析或信息抽取,以输出与用户语音相匹配的问题答案。
70.发明人在研发过程中发现,相关技术中,存在提取用户问句中的概念关键词,并基于概念关键词从知识库中匹配出最优概念序列的方法,具体为利用概念关键词对用户问句进行转译,再利用转译后的句子与标准问题进行匹配来获取标准问题;且该方法利用动态规划模型进行概念关键词提取,并基于hmm模型确定概念关键词对应的最优概念序列;然而该方法在用户语音部分缺失或用户语音中实体名错误的情况下,难以匹配出相应的目标实体别名,从而不能输出准确的问题答案,影响匹配效果。
71.而在本技术中,通过利用关键词提取技术,自动构建别名库,具体为利用tf-idf提取关键词,并对多个关键词进行关键词重组生成实体语句(即实体别名),以生成实体别名库;在实际应用过程中,通过语义表征模型对用户语音进行特征识别以从实体别名库中匹配得到最接近的实体语句,将其作为语音问答系统中的问题。
72.可以理解的是,本技术基于tf-idf统计方法提取关键词,能够较为准确地获取各关键词的重要程度,并基于准确程度对关键词进行保留或删除,从而能够提高所获取的实体别名的准确性,以进一步提高后续匹配效果;除此之外,无需耗费大量人工,降低了实体别名库的构建成本。
73.根据本技术实施例提供的基于短文本面向问答系统的实体链接方法,通过对目标实体进行基于tf-idf的特征提取,并获取多个关键词,然后对关键词进行重组以生成实体别名库,再基于实体别名库,获取与用户语音匹配的目标实体别名,能够自动构建实体别名库,降低了构建成本且准确度较高,从而能够准确匹配与用户语音对应的目标实体别名,便于后续在语音问答场景中输出与用户语音匹配的问题答案。
74.在一些实施例中,对目标实体进行基于tf-idf的特征提取,获取多个关键词,可以包括:
75.对目标实体进行分词处理,获取第一实体;
76.对第一实体进行基于tf-idf的关键词提取,获取多个关键词和关键词对应的重要程度。
77.在该实施例中,可以基于前向最大匹配算法,也可以基于隐马尔克夫模型对目标实体进行分词处理,以获取第一实体,然后基于tf-idf统计方法,对第一实体进行关键词提取,并获取多个关键词和关键词对应的重要程度。
78.根据本技术实施例提供的基于短文本面向问答系统的实体链接方法,通过对目标实体进行分词处理并获取第一实体,然后对第一实体进行基于tf-idf的关键词提取,获取多个关键词和关键词对应的重要程度,便于后续基于关键词的重要程度构建实体别名库,降低了构建成本。
79.在一些实施例中,对目标实体进行分词处理,获取第一实体,可以包括:
80.在目标实体为已收录实体的情况下,基于前向最大匹配算法对目标实体进行分词处理,获取第一实体;
81.在目标实体为未收录实体的情况下,基于隐马尔克夫模型对目标实体进行分词处理,获取第一实体。
82.在该实施例中,前向最大匹配算法为将输入的目标实体按照词典中词的最大长度分割,然后将分割的子目标实体与词典匹配,如果匹配成功则使用余下的目标实体继续匹配。
83.hmm模型为一种统计模型,用于描述一个含有未知参数的马尔可夫过程。
84.在实际执行过程中,在目标实体为已收录实体的情况下,基于前向最大匹配算法对目标实体进行分词处理,首先依据中文分词统计词典,构建统计词典中词的前缀词典;然后对输入的目标实体按照正则表达式进行分割,根据前缀词典对输入的目标实体进行dag(有向无环图)的构造;最后使用动态规划的方法在dag上找到一条概率最大路径,依据此路径进行分词。
85.在目标实体为未收录实体的情况下,基于隐马尔克夫模型对目标实体进行分词处理,用viterbi(维特比)算法找出最可能出现的隐状态序列,即完成对目标实体的分词处理。
86.根据本技术实施例提供的基于短文本面向问答系统的实体链接方法,通过对已收录实体基于前向最大匹配算法进行分词处理,并对未收录实体基于隐马尔克夫模型对目标实体进行分词处理,能够基于不同的实体使用不同的方法进行分词处理,提高了分词处理的效率,以便后续进行关键词提取,以生成实体别名库,进而降低了构建实体别名库的成本。
87.在一些实施例中,对第一实体进行基于tf-idf的关键词提取,获取多个关键词和关键词对应的重要程度,可以包括:
88.基于多个关键词中目标关键词在第一实体中出现的次数,确定目标关键词的词频;
89.基于语料库中文件总数和语料库中目标文件数,确定目标关键词的逆文档词频,其中,目标文件数为包括目标关键词的文件数量;
90.基于词频和逆文档词频,确定目标关键词对应的重要程度。
91.在该实施例中,词频(tf)表示目标关键词在第一实体中出现的频率。
92.逆文档词频可以基于语料库中文件总数和语料库中目标文件数获得,目标文件数越少,则逆文档词频(idf)越大,表明目标关键词的重要程度高。
93.在实际执行过程中,词频(tf)的计算公式如下:
[0094][0095]
其中,n
i,
是目标关键词在第一实体dj中出现的次数,分母是实体别名库中所有关键词出现的次数总和。
[0096]
逆文档词频(idf)的计算公式如下:
[0097][0098]
其中,|d|是语料库中的文件总数,|{j:ti∈dj}|是语料库中包含目标关键词ti的文件数目,即目标文件数。在目标关键词不在语料库中的情况下,分母为零,一般情况下分母可以使用(|{j:ti∈dj}|+1)。
[0099]
根据本技术实施例提供的基于短文本面向问答系统的实体链接方法,通过确定目标关键词的词频和逆文档词频,以确定目标关键词对应的重要程度,便于后续基于关键词的重要程度进行关键词组合,以生成实体别名库,从而降低了实体别名库的构建成本。
[0100]
在一些实施例中,对多个关键词进行重组,生成实体别名库,可以包括:
[0101]
基于多个关键词中目标关键词对应的重要程度和目标阈值,筛选多个关键词得到实体别名;
[0102]
基于实体别名,生成实体别名库。
[0103]
在该实施例中,目标阈值可以基于用户实际需求进行自定义。
[0104]
在目标关键词对应的重要程度高于目标阈值的情况下,将关键词组合为实体别名;在目标关键词对应的重要程度低于目标阈值的情况下,则去除该关键词。
[0105]
根据本技术实施例提供的基于短文本面向问答系统的实体链接方法,通过基于多个关键词中目标关键词对应的重要程度和目标阈值,筛选多个关键词得到实体别名,并生成实体别名库,能够筛选出重要程度高于目标阈值的关键词,便于后续基于用户语音进行实体别名匹配,以输出与用户语音高度匹配的问题答案。
[0106]
在一些实施例中,对用户语音进行特征识别,从实体别名库中获取与用户语音匹配的目标实体别名,可以包括:
[0107]
将用户语音输入至语义表征模型,获取语义表征模型输出的目标实体语义表征,目标实体语义表征与实体别名库相链接;
[0108]
其中,语义表征模型为以样本语音为样本,以与样本语音对应的样本实体别名为样本标签,进行无监督训练和有监督训练所得到的。
[0109]
在该实施例中,语义表征模型用于获得实体的向量表示,进行相似度匹配计算,完成实体链接。
[0110]
无监督训练的方式为自动构建训练样本的正例和负例,取样本进行数据增强作为正例,取同一批次里的其他样本作为负例。
[0111]
有监督训练的方式为人工构建训练样本的正例和负例,然后在构建好的实体别名库中选取正样本对,根据无监督训练的测试结果和先验知识构建难分负样本对,以增强语义表征模型的表征能力。
[0112]
在一些实施例中,可以在训练过程中增加噪声,模拟现实场景中的复杂情况,以增强模型的抗干扰性。
[0113]
在实际执行过程中,可以基于对比学习思想,减少正样本之间的距离,增大负样本之间的距离,同时采用无监督训练与有监督训练结合的二阶段训练方式,得到语义表征模型。
[0114]
其中,无监督训练的方式为:
[0115]
自动构造正样本对和负样本对。
[0116]
其中,正样本对为样本用户语音和与该样本用户语音对应的样本实体别名;负样本对为样本用户语音和与非该样本用户语音对应的样本实体别名。
[0117]
正样本对的构建方法为:采用随机dropout和随机词重复两种方法结合。
[0118]
随机dropout方法为随机失活神经元,每次目标实体经过网络,失活的神经元是不一致的,导致生成的embedding是不一致的,对每一个目标实体进行两次前向传播,得到两个不同的embedding向量,然后将样本用户语音和与该样本用户语音对应的样本实体别名作为正样本对。
[0119]
随机词重复方法为随机重复目标实体中的一些词/字,给定一个目标实体s,经过目标实体tokenizer处理后,得到序列x={x1,x2,

,xn},其中,n为序列的长度。
[0120]
将重复tokens的数量定义为:
[0121]
dup_len∈[0,max(2,int(dup_rate*n]
[0122]
其中,dup_reta为最大重复率,为超参数;dup_len是序列x={x1,x2,

,xn}中的一个随机抽样数,在扩展序列长度的时候会引入更多的分集;max函数用于求取最大值。
[0123]
在确定dup_len之后,基于均匀分布,从序列中随机选取需要重复的dup_len子词,组成dup集合如下:
[0124]
dum_set=uniform(range=[1,n],num=dep_len)
[0125]
其中,uniform函数用于随机生成下一个实数;range函数用于返回一系列连续增加的整数;num函数用于将对象参数转换为表示对象值的数字。
[0126]
在第一个子词在dup集合中的情况下,序列x为x
+
={x1,x1,x2,

,xn}。
[0127]
负样本对的构建方法为:选择样本用户语音和同一批次里的与非该样本用户语音对应的样本实体别名作为负样本对,同时设置最优批大小num,然后在批次里选取num数量的负样本。
[0128]
通过维护一个队列,选取num数量的编码嵌入来扩展负对,每个批次的训练总是将当前批次的目标实体的编码嵌入放入队列,同时将上一批次的目标实体移除队列。
[0129]
无监督训练的训练目标为:
[0130][0131]
其中,为正样本对,n是一个批次中最优批大小num数量的文本对样本。
[0132]
有监督训练的方式为:
[0133]
人工构造正样本对和难分负样本对。
[0134]
其中,正样本对的构建方法为:在构建好的实体别名库中选取正样本对。
[0135]
负样本对的构建方法为:根据无监督训练的测试结果和先验知识构建难分负样本对,同时选择样本用户语音和同一批次里的与非该样本用户语音对应的样本实体别名作为负样本对。
[0136]
有监督训练的训练目标为:
[0137][0138]
其中,为正样本对,为难分负样本对。
[0139]
通过无监督训练和有监督训练得到语义表征模型之后,将用户语音输入至语义表征模型,然后获取语义表征模型输出的目标实体语义表征。
[0140]
根据本技术实施例提供的基于短文本面向问答系统的实体链接方法,通过无监督训练和有监督训练得到语义表征模型,能够获得实体的向量表示,进行相似度匹配计算,完成实体链接,提高短文本实体链接效果,使得后续应用场景中,问答系统在复杂的语言环境下也能输出与用户语音相匹配的问题答案。
[0141]
下面对本技术提供的基于短文本面向问答系统的实体链接装置进行描述,下文描述的基于短文本面向问答系统的实体链接装置与上文描述的基于短文本面向问答系统的实体链接方法可相互对应参照。
[0142]
本技术实施例提供的基于短文本面向问答系统的实体链接方法,执行主体可以为基于短文本面向问答系统的实体链接装置。本技术实施例中以基于短文本面向问答系统的实体链接装置执行基于短文本面向问答系统的实体链接方法为例,说明本技术实施例提供的基于短文本面向问答系统的实体链接装置。
[0143]
本技术实施例还提供一种基于短文本面向问答系统的实体链接装置。
[0144]
如图2所示,该基于短文本面向问答系统的实体链接装置包括:第一处理模块210、第二处理模块220和第三处理模块230。
[0145]
第一处理模块210,用于对目标实体进行基于tf-idf的特征提取,获取多个关键词;
[0146]
第二处理模块220,用于对所述多个关键词进行重组,生成实体别名库,所述实体别名库包括多个实体别名,所述实体别名包括至少一个所述关键词;
[0147]
第三处理模块230,用于对用户语音进行特征识别,从所述实体别名库中获取与所述用户语音匹配的目标实体别名。
[0148]
根据本技术实施例提供的基于短文本面向问答系统的实体链接装置,通过对目标实体进行基于tf-idf的特征提取,并获取多个关键词,然后对关键词进行重组以生成实体别名库,再基于实体别名库,获取与用户语音匹配的目标实体别名,能够自动构建实体别名库,降低了构建成本且准确度较高,从而能够准确匹配与用户语音对应的目标实体别名,便于后续在语音问答场景中输出与用户语音匹配的问题答案。
[0149]
在一些实施例中,第一处理模块210,还可以用于:
[0150]
对目标实体进行分词处理,获取第一实体;
[0151]
对第一实体进行基于tf-idf的关键词提取,获取多个关键词和关键词对应的重要程度。
[0152]
根据本技术实施例提供的基于短文本面向问答系统的实体链接装置,通过对目标实体进行分词处理并获取第一实体,然后对第一实体进行基于tf-idf的关键词提取,获取多个关键词和关键词对应的重要程度,便于后续基于关键词的重要程度构建实体别名库,降低了构建成本。
[0153]
在一些实施例中,第二处理模块220,还可以用于:
[0154]
基于多个关键词中目标关键词对应的重要程度和目标阈值,筛选多个关键词得到实体别名;
[0155]
基于实体别名,生成实体别名库。
[0156]
根据本技术实施例提供的基于短文本面向问答系统的实体链接装置,通过基于多个关键词中目标关键词对应的重要程度和目标阈值,筛选多个关键词得到实体别名,并生成实体别名库,能够筛选出重要程度高于目标阈值的关键词,便于后续基于用户语音进行实体别名匹配,以输出与用户语音高度匹配的问题答案。
[0157]
在一些实施例中,第三处理模块230,还可以用于:
[0158]
将用户语音输入至语义表征模型,获取语义表征模型输出的目标实体语义表征,目标实体语义表征与实体别名库相链接;
[0159]
其中,语义表征模型为以样本语音为样本,以与样本语音对应的样本实体别名为样本标签,进行有监督训练和无监督训练所得到的。
[0160]
根据本技术实施例提供的基于短文本面向问答系统的实体链接装置,通过无监督训练和有监督训练得到语义表征模型,能够获得实体的向量表示,进行相似度匹配计算,完成实体链接,提高短文本实体链接效果,使得后续应用场景中,问答系统在复杂的语言环境下也能输出与用户语音相匹配的问题答案。
[0161]
在一些实施例中,该装置还可以包括第四处理模块,用于基于多个关键词中目标关键词在第一实体中出现的次数,确定目标关键词的词频;
[0162]
基于语料库中文件总数和语料库中目标文件数,确定目标关键词的逆文档词频,其中,目标文件数为包括目标关键词的文件数量;
[0163]
基于词频和逆文档词频,确定目标关键词对应的重要程度。
[0164]
根据本技术实施例提供的基于短文本面向问答系统的实体链接装置,通过确定目标关键词的词频和逆文档词频,以确定目标关键词对应的重要程度,便于后续基于关键词的重要程度进行关键词组合,以生成实体别名库,从而降低了实体别名库的构建成本。
[0165]
在一些实施例中,该装置还可以包括第五处理模块,用于将用户语音输入至语义表征模型,获取语义表征模型输出的目标实体语义表征,目标实体语义表征与实体别名库相链接;
[0166]
其中,语义表征模型为以样本语音为样本,以与样本语音对应的样本实体别名为样本标签,进行有监督训练和无监督训练所得到的。
[0167]
根据本技术实施例提供的基于短文本面向问答系统的实体链接装置,通过对已收录实体基于前向最大匹配算法进行分词处理,并对未收录实体基于隐马尔克夫模型对目标
实体进行分词处理,能够基于不同的实体使用不同的方法进行分词处理,提高了分词处理的效率,以便后续进行关键词提取,以生成实体别名库,进而降低了构建实体别名库的成本。
[0168]
本技术实施例中的基于短文本面向问答系统的实体链接装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(mobile internet device,mid)、增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本或者个人数字助理(personal digital assistant,pda)等,还可以为服务器、网络附属存储器(network attached storage,nas)、个人计算机(personal computer,pc)、电视机(television,tv)、柜员机或者自助机等,本技术实施例不作具体限定。
[0169]
本技术实施例中的基于短文本面向问答系统的实体链接装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本技术实施例不作具体限定。
[0170]
本技术实施例提供的基于短文本面向问答系统的实体链接装置能够实现图1的方法实施例实现的各个过程,为避免重复,这里不再赘述。
[0171]
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(communications interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行基于短文本面向问答系统的实体链接方法,该方法包括:对目标实体进行基于tf-idf的特征提取,获取多个关键词;对多个关键词进行重组,生成实体别名库,实体别名库包括多个实体别名,实体别名包括至少一个关键词;对用户语音进行特征识别,从实体别名库中获取与用户语音匹配的目标实体别名。
[0172]
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0173]
另一方面,本技术还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于短文本面向问答系统的实体链接方法,该方法包括:对目标实体进行基于tf-idf的特征提取,获取多个关键词;对多个关键词进行重组,生成实体别名库,实体别名库包括多个实体别名,实体别名包括至少一个关键词;对用户语音进行特征识别,从实体别名库中获取与用户语音匹配的目标实体别名。
[0174]
又一方面,本技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于短文本面向问答系统的实体链接方法,该方法包括:对目标实体进行基于tf-idf的特征提取,获取多个关键词;对多个关键词进行重组,生成实体别名库,实体别名库包括多个实体别名,实体别名包括至少一个关键词;对用户语音进行特征识别,从实体别名库中获取与用户语音匹配的目标实体别名。
[0175]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0176]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0177]
最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1