文本处理方法及装置与流程

文档序号:30938427发布日期:2022-07-30 01:35阅读:189来源:国知局
文本处理方法及装置与流程

1.本发明涉及文本处理技术领域,尤其涉及一种文本处理方法及装置。


背景技术:

2.通常,当用户进行音乐搜索时,会采用歌手名、歌曲名或语义类描述作为搜索词条在音乐平台中进行匹配。其中,用户根据歌手名或歌曲名搜索可以精确匹配到同一类歌曲。而当用户根据语义类描述(如“睡眠”、“助眠”等语义词)搜索时,对于同一类歌曲,不同用户往往采用丰富且不同的搜索词条。因此,音乐平台可以对搜索词条进行同义词改写,以提高同一类歌曲的召回能力,增强搜索结果的多样性。例如,用户搜索“催眠曲”时,可以将“催眠曲”改写为“安眠曲”、“助眠曲”等,以便音乐平台可以根据“催眠曲”、安眠曲”和“助眠曲”共同匹配歌曲。
3.目前,同义词改写主要基于同义词挖掘与替换的方法。基于同义词挖掘与替换的方法需要先通过日志信息挖掘同义词表,再使用该同义词表对搜索词条进行同义词改写。该方式中的日志信息无法满足音乐领域内的同义词的改写需求,存在数据缺失或者不准确的问题,同义词改写准确率不高。


技术实现要素:

4.本技术实施例提供一种文本处理方法及装置,可以提高对文本进行同义词改写的准确率。
5.第一方面,本技术实施例提供了一种文本处理方法,该方法包括:
6.对原始搜索文本进行分词处理,得到m个分词,m为正整数;
7.根据同义词表对所述m个分词依次进行同义词改写,得到第m候选文本集合;所述同义词表用于指示语义词与所述语义词的同义词的对应关系;所述第m候选文本集合中每个候选文本与所述原始搜索文本语义相同;
8.从所述第m候选文本集合中选取改写概率超过预设改写阈值的候选文本,组成目标文本集合,所述改写概率由所述候选文本关联的歌单的播放量确定;
9.根据所述目标文本集合确定搜索输入文本,所述搜索输入文本用于搜索得到歌单。
10.基于第一方面所描述的方法,本技术可以使用同义词表依次对原始搜索文本中的分词进行同义词改写,并在改写后通过关联的歌单播放量对改写概率(或称为改写质量)进行评估以筛选改写结果。该方式提高了同义词改写的准确率。
11.在一种可能实施方式中,所述根据同义词表对所述m个分词依次进行同义词改写,得到第m候选文本集合,包括:
12.将n设置为1,获取第n-1候选文本集合,所述第n-1候选文本集合包括至少一个候选文本,所述至少一个候选文本中每个候选文本与所述原始搜索文本语义相同,且所述每个候选文本的前n-1个分词经过同义词改写处理,n为正整数,且n小于或者等于m;
13.在同义词表中查找所述每个候选文本的第n个分词对应的同义词集合;
14.基于所述同义词集合对所述每个候选文本中的第n个分词进行同义词改写,得到待处理候选文本集合;
15.确定所述待处理候选文本集合中每个待处理候选文本的改写概率;
16.基于所述每个待处理候选文本的改写概率从所述待处理候选文本集合中选取预设数量的待处理候选文本,组成第n候选文本集合;
17.若所述n不等于m,对n执行加1操作,返回执行所述获取第n-1候选文本集合的步骤。
18.基于该方式,本技术可以依次对m个分词进行同义词改写,改写过程中也采取改写概率对每一个分词对应的待处理候选文本进行筛选。
19.在一种可能实施方式中,所述确定所述待处理候选文本集合中每个待处理候选文本的改写概率,包括:
20.将所述每个待处理候选文本中各个分词对应的条件概率的乘积作为所述每个待处理候选文本的第一概率;任一分词对应的条件概率由所述任一分词所在的第一处理片段相关的歌单的播放量确定,所述第一处理片段包括至少两个相邻分词且所述任一分词为所述至少两个相邻分词中的最后一个分词;
21.根据所述每个待处理候选文本中第n个分词对应的替换概率,确定所述每个待处理候选文本的第二概率;所述第n个分词对应的替换概率由与所述第n个分词所在的第二处理片段相关的歌单的播放量确定,所述第二处理片段与所述第n个分词的上下文相关;
22.将所述第一概率和所述第二概率的乘积作为所述改写概率。
23.基于该方式,本技术可以通过每个待处理候选文本中第一处理片段和第二处理片段与歌单播放量之间的关联关系,评估每个待处理候选文本召回歌单的常见性,进而对每个待处理候选文本的改写质量进行评估(召回的歌单播放量越高,歌单越常见,待处理候选文本的改写质量越好)。
24.在一种可能实施方式中,所述第一处理片段相关的歌单的播放量是歌单库中歌单标题与所述第一处理片段相同的歌单的播放量;所述第二处理片段相关的歌单的播放量是所述歌单库中歌单标题与所述第二处理片段相同的歌单的播放量;或者,
25.所述第一处理片段相关的歌单的播放量是所述歌单库中歌单标题包含所述第一处理片段的歌单的播放量;所述第二处理片段相关的歌单的播放量是所述歌单库中歌单标题包含所述第二处理片段的歌单的播放量。
26.基于该方式,本技术可以依据第一处理片段和第二处理片段与歌单标题的完整匹配情况或部分匹配情况来评估改写质量。其中,依据部分匹配的方式相较于完整匹配的方式,该方式提高了匹配情况的数量,增加了匹配情况的多样性。
27.在一种可能实施方式中,确定待处理候选文本集合中每个待处理候选文本的改写概率,包括:
28.将所述每个待处理候选文本中各个分词对应的条件概率的乘积作为所述每个待处理候选文本的第一概率;任一分词对应的条件概率由所述任一分词所在的第一处理片段相关的歌单的播放量确定,所述第一处理片段包括至少两个相邻分词且所述任一分词为所述至少两个相邻分词中的最后一个分词;
29.获取所述每个待处理候选文本相关的歌单的历史点击率;
30.将所述第一概率和所述历史点击率的乘积作为所述改写概率。
31.基于该方式,本技术以相关歌单的播放量和历史点击率两个维度对待处理候选文本的改写质量进行评估,提高了评估的准确率。
32.在一种可能实施方式中,所述基于所述每个待处理候选文本的改写概率从所述待处理候选文本集合中选取预设数量的待处理候选文本,组成第n候选文本集合,包括:
33.从所述待处理候选文本集合中删除第一待处理候选文本及第二待处理候选文本,得到预选集合;所述第一待处理候选文本的前n-1个分词中存在与所述第n个分词或所述第n个分词的同义词相同的分词,所述第二待处理候选文本为分词相同且组合顺序不同的多个待处理候选文本中改写概率不为最大的待处理候选文本;
34.基于所述改写概率从所述预选集合中选取预设数量的待处理候选文本,组成所述第n候选文本集合。
35.基于该方式,本技术可以将经过改写处理后与前面n-1个分词相同的词(该情况使得改写后文本的多样性降低),或多个相同词的不同组合顺序(用不同组合顺序的相同词搜索歌单,搜索出的歌单差异较小)这两种情况进行剔除,以进一步提升同义词改写的准确率,提升同义词改写的效率。
36.在一种可能实施方式中,所述根据所述目标文本集合确定搜索输入文本,包括:
37.将所述目标文本集合中改写概率最大的目标文本或者所述目标文本集合中的各个目标文本确定为所述搜索输入文本。
38.基于该方式,本技术可以基于目标文本集合确定搜索输入文本,以搜索得到歌单。
39.在一种可能实施方式中,该方法还包括:
40.获取所述歌单标题集合和所述历史搜索集合;
41.对所述歌单标题集合内的歌单标题进行分词处理得到第一分词集合以及对所述历史搜索集合内的历史搜索进行分词处理得到第二分词集合;
42.调用意图识别模型,分别对所述第一分词集合和所述第二分词集合进行语义识别,得到第一语义词集合以及第二语义词集合;
43.调用向量嵌入模型,查找所述第一语义词集合对应的第一同义词集合;
44.在预设同义挖掘词表中查找所述第二语义词集合对应的第二同义词集合;
45.从包含所述第一同义词集合和所述第二同义词集合的集合中任意选取两个语义词进行语义判定,若所述两个语义词为同义词,则所述两个语义词的对应关系记录至所述同义词表。
46.基于该方式,本技术可以采用与音乐领域强相关的歌单标题集合和历史搜索集合作为同义词表的构建语料,较好地解决了音乐领域中的同义词数据缺失或不准确问题,进而使得本技术对音乐平台中的搜索文本具有准确率更高的同义词改写能力,提高优质歌单的召回率。
47.第二方面,本技术实施例提供了一种文本处理装置,该装置包括:
48.分词单元,用于对原始搜索文本进行分词处理,得到m个分词,m为正整数;
49.改写单元,用于根据同义词表对所述m个分词依次进行同义词改写,得到第m候选文本集合;所述同义词表用于指示语义词与所述语义词的同义词的对应关系;所述第m候选
文本集合中每个候选文本与所述原始搜索文本语义相同;
50.选取单元,用于从所述第m候选文本集合中选取改写概率超过预设改写阈值的候选文本,组成目标文本集合,所述改写概率由所述候选文本关联的歌单的播放量确定;
51.确定单元,用于根据所述目标文本集合确定搜索输入文本,所述搜索输入文本用于搜索得到歌单。
52.在一种可能实施方式中,所述改写单元,在用于根据同义词表对所述m个分词依次进行同义词改写,得到第m候选文本集合时,具体包括:
53.将n设置为1,获取第n-1候选文本集合,所述第n-1候选文本集合包括至少一个候选文本,所述至少一个候选文本中每个候选文本与所述原始搜索文本语义相同,且所述每个候选文本的前n-1个分词经过同义词改写处理,n为正整数,且n小于或者等于m;
54.在同义词表中查找所述每个候选文本的第n个分词对应的同义词集合;
55.基于所述同义词集合对所述每个候选文本中的第n个分词进行同义词改写,得到待处理候选文本集合;
56.确定所述待处理候选文本集合中每个待处理候选文本的改写概率;
57.基于所述每个待处理候选文本的改写概率从所述待处理候选文本集合中选取预设数量的待处理候选文本,组成第n候选文本集合;
58.若所述n不等于m,对n执行加1操作,返回执行所述获取第n-1候选文本集合的步骤。
59.在一种可能实施方式中,所述改写单元,在用于确定所述待处理候选文本集合中每个待处理候选文本的改写概率时,具体包括:
60.将所述每个待处理候选文本中各个分词对应的条件概率的乘积作为所述每个待处理候选文本的第一概率;任一分词对应的条件概率由所述任一分词所在的第一处理片段相关的歌单的播放量确定,所述第一处理片段包括至少两个相邻分词且所述任一分词为所述至少两个相邻分词中的最后一个分词;
61.根据所述每个待处理候选文本中第n个分词对应的替换概率,确定所述每个待处理候选文本的第二概率;所述第n个分词对应的替换概率由与所述第n个分词所在的第二处理片段相关的歌单的播放量确定,所述第二处理片段与所述第n个分词的上下文相关;
62.将所述第一概率和所述第二概率的乘积作为所述改写概率。
63.在一种可能实施方式中,所述第一处理片段相关的歌单的播放量是歌单库中歌单标题与所述第一处理片段相同的歌单的播放量;所述第二处理片段相关的歌单的播放量是所述歌单库中歌单标题与所述第二处理片段相同的歌单的播放量;或者,
64.所述第一处理片段相关的歌单的播放量是所述歌单库中歌单标题包含所述第一处理片段的歌单的播放量;所述第二处理片段相关的歌单的播放量是所述歌单库中歌单标题包含所述第二处理片段的歌单的播放量。
65.在一种可能实施方式中,所述改写单元,在用于确定待处理候选文本集合中每个待处理候选文本的改写概率时,具体包括:
66.将所述每个待处理候选文本中各个分词对应的条件概率的乘积作为所述每个待处理候选文本的第一概率;任一分词对应的条件概率由所述任一分词所在的第一处理片段相关的歌单的播放量确定,所述第一处理片段包括至少两个相邻分词且所述任一分词为所
述至少两个相邻分词中的最后一个分词;
67.获取所述每个待处理候选文本相关的歌单的历史点击率;
68.将所述第一概率和所述历史点击率的乘积作为所述改写概率。
69.在一种可能实施方式中,所述选取单元,在用于基于所述每个待处理候选文本的改写概率从所述待处理候选文本集合中选取预设数量的待处理候选文本,组成第n候选文本集合时,具体包括:
70.从所述待处理候选文本集合中删除第一待处理候选文本及第二待处理候选文本,得到预选集合;所述第一待处理候选文本的前n-1个分词中存在与所述第n个分词或所述第n个分词的同义词相同的分词,所述第二待处理候选文本为分词相同且组合顺序不同的多个待处理候选文本中改写概率不为最大的待处理候选文本;
71.基于所述改写概率从所述预选集合中选取预设数量的待处理候选文本,组成所述第n候选文本集合。
72.在一种可能实施方式中,所述确定单元,在用于根据所述目标文本集合确定搜索输入文本时,具体包括:
73.将所述目标文本集合中改写概率最大的目标文本或者所述目标文本集合中的各个目标文本确定为所述搜索输入文本。
74.在一种可能实施方式中,所述文本处理装置还包括构建单元,所述构建单元用于:
75.获取所述歌单标题集合和所述历史搜索集合;
76.对所述歌单标题集合内的歌单标题进行分词处理得到第一分词集合以及对所述历史搜索集合内的历史搜索进行分词处理得到第二分词集合;
77.调用意图识别模型,分别对所述第一分词集合和所述第二分词集合进行语义识别,得到第一语义词集合以及第二语义词集合;
78.调用向量嵌入模型,查找所述第一语义词集合对应的第一同义词集合;
79.在预设同义挖掘词表中查找所述第二语义词集合对应的第二同义词集合;
80.从包含所述第一同义词集合和所述第二同义词集合的集合中任意选取两个语义词进行语义判定,若所述两个语义词为同义词,则所述两个语义词的对应关系记录至所述同义词表。
81.第三方面,本技术实施例提供了一种终端设备,包括:存储器,处理器;存储器,用于存储计算机程序;处理器,用于从存储器调用计算机程序,使得终端设备执行上述第一方面中的任意一项方法。
82.第四方面,本技术实施例提供了一种计算机可读存储介质,计算机存储介质中存储有计算机可读指令,当计算机可读指令在上述第二方面的终端设备上运行时,使得该终端设备执行上述第一方面中的任意一项方法。
83.第五方面,本技术实施例提供一种计算机程序或计算机程序产品,包括代码或指令,当代码或指令在计算机上运行时,使得计算机执行上述第一方面中的任意一项方法。
84.第二方面至第五方面中各可能实施方式的有益效果可参见第一方面中的相应描述,在此不赘述。
附图说明
85.为了更清楚地说明本技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
86.图1是本技术实施例提供的一种文本处理的系统架构示意图;
87.图2是本技术实施例提供的一种文本处理方法的流程示意图;
88.图3是本技术实施例提供的一种候选文本集合确定方法的流程示意图;
89.图4是本技术实施例提供的一种同义词表构建方法的流程示意图;
90.图5是本技术实施例提供的一种文本处理装置的结构示意图;
91.图6是本技术实施例提供的一种终端设备的结构示意图。
具体实施方式
92.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
93.在本技术的说明书、权利要求书及附图中的术语“第一”和“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
94.为了更好地理解本技术中的方案,下面先对本技术中涉及的技术领域进行介绍:
95.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,其主要通过了解智能的实质,生产出一种新的能以人类智能相似的方式做出反应的智能机器,使得智能机器具有感知、推理与决策等多种功能。ai技术是一门综合学科,其主要包括计算机视觉技术(computer vision,cv)、语音处理技术、自然语言处理技术以及机器学习(machine learning,ml)或深度学习等几大方向。
96.其中,自然语言处理技术(nature language processing,nlp)研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,是一门融语言学、计算机科学、数学于一体的科学。因此,这一技术的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
97.基于ai技术中的自然语言处理技术,本技术可以使用基于歌单标题集合和历史搜索集合构建的同义词表,依次对原始搜索文本中的分词进行同义词改写得到改写结果。接着,通过关联的歌单播放量对改写概率(或称为改写质量)进行评估以筛选改写结果。该方式较好地解决了音乐领域中的同义词数据缺失或者不准确的问题,并对同义词改写结果进行了质量评估,提高了同义词改写的准确率。
98.下面对本技术实施例的系统架构进行介绍:
99.参见图1,是本技术实施例提供的一种文本处理的系统架构示意图。如图1所示,该系统包括文本处理装置101和搜索装置102。其中,搜索装置102上显示有搜索界面,当用户需要进行搜索时,可以在该搜索界面以文本形式或语音形式等方式输入搜索内容,由搜索装置102将搜索内容转化为原始搜索文本后发送至文本处理装置101。文本处理装置101接收到原始搜索文本后可以对原始搜索文本进行改写,最终得到原始搜索文本的改写结果(或称为搜索输入文本,用于搜索得到歌单)。在另一种实现方式中,该文本处理装置101集成在该搜索装置102中,或者,该搜索装置102具备本技术实施例介绍的搜索文本改写的能力。
100.下面通过图1中的示例对原始搜索文本的改写过程进行说明,如图1所示:首先,文本处理装置101会对原始搜索文本“xxxxxx”进行分词处理,得到分词结果“w1,w2,w
3”,w1是分词结果中第一个分词,w2是分词结果中第二个分词,w3是分词结果中第三个分词;接着,按照分词结果中分词所在的位置,依次对w1、w2、w3进行同义词改写。
101.具体地,当对w1进行改写时,先确定出w1对应的同义词集合(示例包括“a1,a
2”两个词),将“w1,w2,w
3”中的w1替换为同义词集合中的任意一个词或者不对“w1,w2,w
3”中的w1进行替换,得到“w1,w2,w
3”、“a1,w2,w
3”、“a2,w2,w
3”共三个待处理候选文本。分别计算三个待处理候选文本的改写概率,基于得到的改写概率从这三个待处理候选文本中筛选出“w1,w2,w
3”、“a1,w2,w
3”共两个文本作为w2改写的输入。
102.接下来对w2进行改写,当对w2进行改写时,先确定出w2对应的同义词集合(示例包括“b1,b
2”两个词),将“w1,w2,w
3”、“a1,w2,w
3”中的w2替换为同义词集合中的任意一个词或者不对“w1,w2,w
3”、“a1,w2,w
3”中的w2进行替换,得到“w1,w2,w
3”、“w1,b1,w
3”、“w1,b2,w
3”、“a1,w2,w
3”、“a1,b1,w
3”、“a1,b2,w
3”共六个待处理候选文本,分别计算这六个待处理候选文本的改写概率,基于得到的改写概率从这六个待处理候选文本中筛选出“w1,b2,w
3”、“a1,w2,w
3”共两个文本作为w3改写的输入。
103.最后对w3进行改写,当对w3进行改写时,先确定出w3对应的同义词集合(示例包括“c1,c
2”两个词),将“w1,b2,w
3”、“a1,w2,w
3”中的w3替换为同义词集合中的任意一个词或不对“w1,b2,w
3”、“a1,w2,w
3”中的w3进行替换,得到“w1,b2,w
3”、“w1,b2,c
1”、“w1,b2,c
2”、“a1,w2,w
3”、“a1,w2,c
1”、“a1,w2,c
2”共六个待处理候选文本,分别计算这六个待处理候选文本的改写概率,基于得到的改写概率从这六个待处理候选文本中筛选出“w1,b2,c
2”、“a1,w2,w
3”作为原始搜索文本的改写结果。
104.需要说明的是,在上述每个分词的改写过程中,除了基于改写概率对多个待处理候选文本进行筛选,还可以联合其余筛选策略对多个待处理候选文本进行进一步筛选(例如,对于包括词语相同且组合顺序不同的多个待处理候选文本只保留改写概率最大的待处理候选文本),本技术对此不作限制。另外,在得到“w1,b2,c
2”、“a1,w2,w
3”后,还可以对改写结果进行一步进行过滤(如采取阈值过滤),过滤后的结果作为最终的改写结果。
105.本技术中的文本处理装置101可以为终端设备或者服务器等,搜索装置101可以为终端设备等。示例性地,终端设备可以为具有数据处理功能的设备,包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,mid)、车辆、路边设备、飞行器、可穿戴设备等,本技术对此不作限制。
106.服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或
者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
107.上述内容对本技术方案的系统架构进行了介绍,下面通过图2~图6的实施例对本技术提出的文本处理方法及装置进行详细介绍。
108.参见图2,是本技术实施例提供的一种文本处理方法的流程示意图,该方法可应用于上述文本处理装置101,包括步骤s201~步骤s204。其中:
109.s201、对原始搜索文本进行分词处理,得到m个分词,m为正整数。
110.其中,原始搜索文本(或称为原始文本、搜索文本等)为非歌曲名、非歌手名的语义类文本(当用户通过歌曲名、歌手名查找时,往往期望精确查找到某个具体的歌曲或某位歌手的歌单,此情况下不适用同义词改写)。原始搜索文本由一个或者多个语义词组成,这些语义词用于描述歌单的类型,例如“经典老歌”、“欧美歌曲”等等。文本处理设备可以接收来自搜索设备(如用户所在的客户端)中用户输入的各类文本,判断这些文本是否属于语义类文本,若属于语义类文本,则将其作为原始搜索文本进行后续处理。需要说明的是,搜索设备可以接收用户键入的文字信息,或语音输入的音频信息等,将这些信息转化为文本后再发送至文本处理设备,此处的搜索设备可以为图1中的搜索装置102。
111.具体地,文本处理装置在对原始搜索文本进行分词处理时可以采用分词工具,例如snownlp分词、thulac分词、hanlp分词、jieba分词等等。分词工具根据原始搜索文本中各个字符之间的语义关系,得到m个分词。例如,当原始搜索文本为“经典情歌粤语”时,进行分词处理可得到“经典”、“情歌”、“粤语”三个分词。
112.可选的,在对原始搜索文本进行分词处理前还可以进行一系列文本预处理工作,包括:剔除标点符号、剔除无效字符等,以提升原始搜索文本分词的处理效率。
113.s202、根据同义词表对m个分词依次进行同义词改写,得到第m候选文本集合。
114.其中,同义词表基于歌单标题集合和历史搜索集合构建,同义词表用于指示语义词与语义词的同义词的对应关系;第m候选文本集合中每个候选文本与原始搜索文本语义相同。
115.以下对如何得到第m候选文本集合进行具体的介绍。
116.文本处理装置在对原始搜索文本的m个分词进行同义词改写时,会根据分词在原始搜索文本中的位置,从前往后依次对每个分词进行改写。示例性,当文本处理装置对分词得到的文本序列w(w={w1,w2,...,wn,...,wm},wn为第n个分词)进行同义词改写时,依次对w1,w2,...,wn,...,wm进行改写,例如,对w1进行改写后得到第1候选文本集合,对w2进行改写后得到第2候选文本集合,对w3进行改写后得到第3候选文本集合,

,对wm进行改写后得到第m候选文本集合。具体的,首先,文本处理装置基于第1候选文本集合和同义词表得到第2候选文本集合,然后,基于第2候选文本集合和同义词表得到第3候选文本集合,按照此规律依次得到后续的候选文本集合,直至得到第m候选文本集合。
117.以下根据图3对改写过程中如何基于第n-1候选文本集合和同义词表得到第n候选文本集合进行进一步的介绍。其中,n为正整数,且n小于或者等于m。如图3所示,该过程包括步骤s1~步骤s5,其中:
118.步骤s1、获取第n-1候选文本集合,第n-1候选文本集合包括至少一个候选文本,至
少一个候选文本中每个候选文本与原始搜索文本语义相同,且每个候选文本的前n-1个分词经过同义词改写处理。
119.也即是说,第n-1候选文本集合中的每个候选文本的w1至w
n-1
经过同义词改写处理,而wn至wm还未经过同义词改写处理。需要说明的是,此处提及的w1至w
n-1
经过同义词改写处理是指w1至w
n-1
中的各个分词可能被替换为w1至w
n-1
的任一同义词或没有被替换为w1至w
n-1
的同义词。
120.以{励志,年少,青春}为例,当n取值为2时,第1候选文本集合中的每个候选文本中的“励志”经过同义词改写处理(此处的改写处理也包括未被改写为同义词的这一种情况)。若“励志”共包括“鼓舞、“激励”两个同义词,则第1候选文本集合包括{励志,年少,青春}、{鼓舞,年少,青春}、{激励,年少,青春}共三个文本中的一个或者多个。
121.需要说明的是,当n取值为1时,第n-1候选文本集合为第0候选文本集合,第0候选文本集合中第0个分词经过同义词改写处理,这意味着该集合内每个候选文本的所有分词均未进行同义词改写处理。也即是说,第0候选文本集合为原始搜索文本。
122.s2、在同义词表中查找每个候选文本的第n个分词对应的同义词集合。
123.其中,同义词表用于指示语义词与语义词的同义词的对应关系,同义词表基于歌单标题集合和历史搜索集合构建,具体构建方式可以参见后续图4所对应的实施例的介绍,此处不展开描述。
124.具体地,在第n-1候选文本集合的每个候选文本中,第n个分词还未进行同义词改写,因此本步骤可以先在同义词表中查找第n个分词的所有同义词以构成同义词集合sn,以便在后续步骤中可以基于sn对第n个分词进行改写。由于同义词表中存储语义相同的词的对应关系,通过在同义词表中查找与第n个分词相关的对应关系,可以根据对应关系确定第n个分词的同义词。示例性地,参见下述表1所示,表1是本技术实施例提供的一种同义词表示意表。若第n个分词为“可爱”,可以根据表1确定出“可爱”的同义词集合为“喜爱、可人、乖巧”。
125.表1
126.序号同义词1可爱、喜爱、可人、乖巧2浪漫、温情、烂漫......
127.s3、基于同义词集合对每个候选文本中的第n个分词进行同义词改写,得到待处理候选文本集合。
128.示例性地,若第n-1候选文本集合中包括i个候选文本,第n个分词的同义词集合包括j个同义词,则对于i个候选文本中任意一个候选文本,将任一候选文本中的第n个分词改写为同义词具有j种可能,基于同义词集合对第n个分词进行同义词改写可以得到i*(j+1)种组合(此处对j进行加1操作是因为:在进行同义词改写时除了将i个候选文本中的第n个分词改写为j种可能中的任一种情况,还包括i个候选文本中的第n个分词未被改写的情况),这i*(j+1)种组合构成待处理候选文本集合。
129.s4、确定待处理候选文本集合中每个待处理候选文本的改写概率。
130.其中,本技术提出两种方式来确定改写概率,下面分别对这两种方式进行介绍:
131.方式1:
132.在一种可能实施方式中,文本处理装置先分别确定第一概率和第二概率,第一概率用于表示待处理候选文本的语义合理性,第二概率用于表示当考虑第n个分词的上下文语义时,第n个分词被替换为同义词集合中任一同义词的概率。最后,将第一概率和第二概率的乘积作为待处理候选文本的改写概率,也即是:p
改写
=p1*p2。该改写概率将用于从包括i*(j+1)种组合的待处理候选文本集合中筛选出一个或多个待处理候选文本,组成第n候选文本集合。
133.下面分别对确定第一概率和第二概率进行说明:
134.①
、第一概率
135.在本技术实施例中,文本处理装置可以基于n-gram语言模型的文本处理原理来确定第一概率。在n-gram语言模型中,文本中任意一个词的出现只与前面n-1个词的出现相关;例如,2-gram语言模型中,文本中任意一个词的出现只与前面一个词的出现相关,与文本中其余任何词都不相关,在3-gram语言模型中,文本中任意一个词的出现只与前面两个词的出现相关,与文本中其余任何词都不相关,等等。并且整个文本能够形成的概率(也即是整个文本的语义合理性)等于各个词能够出现概率的乘积。因此,文本形成的概率等于文本中各个词出现的条件概率的乘积。需要说明的是,n-gram中的n的取值可以为任意大于等于2的整数,且与本技术中第n个分词、第n候选文本集合中的n无关,本技术对n-gram中n的取值不作限制。
136.基于上述n-gram语言模型原理,本技术中确定第一概率的方式具体包括:将每个待处理候选文本中各个分词对应的条件概率的乘积确定为每个待处理候选文本的第一概率;任一分词对应的条件概率由任一分词所在的第一处理片段相关的歌单的播放量确定,第一处理片段包括至少两个相邻分词且任一分词为至少两个相邻分词中的最后一个分词。
137.示例地,对于分词得到的结果w={w1,w2,...,wn,...,wm},以{v1,v2,...,vn,...,vm}表示待处理候选文本集合中任一待处理候选文本集合,其中“vn,...,v
m”与“wb,...,w
m”完全相同(表示第n个分词至第m个分词未进行同义词改写处理),“v1,v2,...,v
n-1”为“w1,w2,...,w
n-1”中各个分词或各个分词的同义词构成的一个组合(表示第1个分词至第n-1个分词经过同义词改写处理)。进而,第一概率的计算可以由每个待处理候选文本中各个分词对应的条件概率的乘积得到,示例地,以n取值为3的3-gram语言模型为例,则第一概率可以参见下述公式:
138.p1=p(b1,b2,v1,v2,...,vn,...,vm,e1,e2)
139.=p(v1|b1b2)*p(v2|b2v1)*...*p(vn|v
n-2vn-1
)*...*p(e2|vme1)
140.其中,m为分词的总数,“b1,b
2”和“e1,e
2”为额外添加的首尾标记,用于标记待处理候选文本的首尾。在分词结果前添加“b1,b
2”使得“v
1”和“v
2”具有了相关联的前两个词,分词处理装置可以分别基于“b1b2v
1”和“b2v1v
2”对“v
1”和“v
2”对应的条件概率进行计算。
[0141]“b1b2v
1”、“b2v1v
2”、“v
n-2vn-1vn”、“vme1e
2”为分词“v
1”、“v
2”、“v
n”、“e
2”的第一处理片段,p(v1|b1b2)、p(v2|b2v1)、p(vn|v
n-2vn-1
)、p(e2|vme1)为分词“v
1”、“v
2”、“v
n”、“e
2”对应的条件概率。例如,“b1b2v
1”为分词“v
1”对应的第一处理片段,p(v1|b1b2)为分词“v
1”对应的条件概率。由公式可知,待处理候选文本的第一概率为各个分词对应的条件概率的乘积。
[0142]
具体地,各个分词对应的条件概率由各个分词所在的第一处理片段相关的歌单的
播放量确定。下面以“v
1”对应的条件概率p(v1|b1b2)为例进行说明:示例性的,该条件概率可以由“b1b2v
1”相关的歌单的播放量确定,具体可以参见下述公式:
[0143][0144]
其中,count(b1b2)为“b1b
2”相关的歌单的播放量,count(b1b2v1)为“b1b2v
1”相关的歌单的播放量。p(v1|b1b2)为“b1b
2”相关的歌单的播放量与“b1b2v
1”相关的歌单的播放量的比值,本技术以歌单的播放量的比值来表示在“b1b
2”出现的前提下“b1b2v
1”出现的条件概率。确定count(b1b2)的方式与确定count(b1b2v1)的方式相同。
[0145]
在一种可能的实现方式中,第一处理片段相关的歌单的播放量是歌单库中歌单标题与第一处理片段相同的歌单的播放量。也即是说,歌单标题与第一处理片段“完全匹配”的歌单的播放量为第一处理片段相关的歌单的播放量。示例地,如果第一处理片段为“b1b2v
1”,“完全匹配”是指歌单标题与“b1b2v
1”完全相同。在具体实施时,需要从歌单库中确定出歌单标题与“b1b2v
1”完全相同的歌单的播放量,该播放量为count(b1b2v1)的取值。当count(b1b2v1)的取值越大,说明以“b1b2v
1”作为歌单标题的歌单越常见,受到用户的收听量越多。count(b1b2)可以按照同样的计算方式来计算。
[0146]
在另一种可能的实现方式中,第一处理片段相关的歌单的播放量是歌单库中歌单标题包含第一处理片段的歌单的播放量。也即是说,歌单标题与第一处理片段“部分匹配”的歌单的播放量为第一处理片段相关的歌单的播放量。在本技术中,“部分匹配”是指歌单标题包含该第一处理片段,但与该第一处理片段不完全相同。例如,当第一处理片段为“经典”时,歌单标题为“经典老歌”、“华语经典”、“传唱经典老歌”、“经典”均为满足“部分匹配”条件的歌单。相较于“完全匹配”的方式,该方式提高了匹配情况的数量,增加了匹配情况的多样性。
[0147]

、第二概率
[0148]
在一种可能实施方式中,确定第二概率的方式具体包括:根据每个待处理候选文本中第n个分词对应的替换概率,确定每个待处理候选文本的第二概率;第n个分词对应的替换概率由与第n个分词所在的第二处理片段相关的歌单的播放量确定,第二处理片段与第n个分词的上下文相关。
[0149]
其中,第二概率与正在进行同义词改写的第n个分词相关,示例性地,任意一个待处理候选文本的第二概率可以由下述公式得到:
[0150]
p2=p(wn→
sn|w
l
,wr)
[0151]
其中,wn为第n个分词,sn为wn经过同义词改写处理后的结果。在一种情况中,sn可以为wn对应的同义词集合sn中的一个词,在另一种情况中,sn可以为wn(此处为未被改写的情况),w
l
表示wn在原始搜索文本中的上文关联分词集合,wr表示wn在原始搜索文本中下文关联分词集合。p(wn→
sn|w
l
,wr)表示在考虑wn的上下文的前提下,wn被替换为sn的概率。
[0152]
为减少p2计算的工作量,可以从w
l
和wr中选取与wn最邻近的一个分词w
l
和wr参与p(wn→
sn|w
l
,wr)的计算。再有,本技术可以将考虑上文时wn被替换为sn的概率、考虑下文时wn被替换为sn的概率、同时考虑上下文时wn被替换为sn的概率,这三者概率的总和作为p(wn→
sn|w
l
,wr)的取值结果。示例地,p2可以由下述表达式得到:
[0153]
p2=0.5*rp(w
l
wnwr→wl
snwr)
[0154]
+0.25*rp(w
l
wn→wl
sn)
[0155]
+0.25*rp(wnwr→
snwr)
[0156]
其中,rp(w
l
wnwr→wl
snwr)、rp(w
l
wn→wl
sn)、rp(wnwr→
snwr)分别表示考虑上文、下文、上下文时wn被替换为sn的概率(也即是本技术中提及的替换概率)。这三个替换概率与对应权重的乘积之和为第二概率的取值。示例地,在上述表达式中,0.5、0.25和0.25为这三个替换概率分别对应的权重,该权重分配还可以为其余取值,本技术对此不作限制。rp(w
l
wnwr→wl
snwr)、rp(w
l
wn→
wnsn)和rp(wnwr→
snwr)可以参考下述表达式得到:
[0157][0158][0159][0160]
其中,w
l
snwr、w
l
sn、snwr为第二处理片段,count(w
l
snwr)、count(w
l
sn)、count(snwr)由w
l
snwr、w
l
sn、snwr相关的歌单的播放量确定。下面以rp(w
l
wnwr→wl
snwr)为例,对rp(w
l
wnwr→wl
snwr)的含义进行说明:具体地,rp(w
l
wnwr→wl
snwr)表示在考虑上下文的前提下,“w
l
snw
r”出现的频次(count(w
l
snwr))占“w
l
wnw
r”和所有“w
l
iw
r”(i∈sn)出现的频次之和的比例。示例性地,如果wn为b,上文关联词和下文关联词分别为a和c,且wn的同义词集合sn包括b1、b2、b3,sn为b1,则rp(w
l
wnwr→wl
snwr)可以表示为“ab1c”出现的频次占“abc”、“ab1c”、“ab2c”、“ab3c”出现的频次之和的概率。基于此,本技术在考虑第n个分词的上下文的前提下,确定了从所有第n个分词的同义词(还包括第n个分词本身)中选取出一个词的选取概率。
[0161]
其中,count(w
l
snwr)与“w
l
snw
r”相关的歌单的播放量相关。在一种可能实施方式中,count(w
l
snwr)的取值等于歌单库中确定出歌单标题与“w
l
snw
r”完全相同的歌单的播放量。在另一种实施方式中,count(w
l
snwr)的取值等于歌单库中确定出歌单标题包括“w
l
snw
r”的歌单的播放量(示例地,“w
l
snwrxxx”)。需要说明的是,上述rp(w
l
wnwr→wl
snwr)、rp(w
l
wn→
wnsn)和rp(wnwr→
snwr)中的所有count()的计算方式与count(w
l
snwr)相同,在此不再描述。
[0162]
方式2:
[0163]
在另一种可能实施方式中,确定改写概率的方式具体包括:将每个待处理候选文本中各个分词对应的条件概率的乘积作为每个待处理候选文本的第一概率;任一分词对应的条件概率由任一分词所在的第一处理片段相关的歌单的播放量确定,第一处理片段包括至少两个相邻分词且任一分词为至少两个相邻分词中的最后一个分词。
[0164]
其中,第一概率的确定方式与上述方式1中第一概率的确定方式相同,在此不赘述。历史点击率为多个用户在预设历史时间段内对待处理候选文本相关的歌单的点击率。此处的“待处理候选文本相关的歌单”是指通过待处理候选文本搜索得到的歌单,当历史点击率越高,说明待处理候选文本相关的歌单越常见,越受欢迎,待处理候选文本的质量越高。在此情况下,改写概率p
改写
=p1*p
历史点击率

[0165]
s5、基于每个待处理候选文本的改写概率从待处理候选文本集合中选取预设数量的待处理候选文本,组成第n候选文本集合。
[0166]
根据步骤s4可以得到待处理候选文本集合中每个待处理候选文本的改写概率p
改写
,根据每个待处理候选文本的改写概率p
改写
以及其余联合筛选方式,对待处理候选文本进行筛选,将筛选出的待处理候选文本作为第n候选文本集合。这个过程可以被视为对待处理候选文本集合进行剪枝,从而对待处理候选集合的大小进行限制,以防由于待处理候选文本过多导致模块运行耗时过长。第n候选文本集合可用于对第n+1个词进行改写以得到第n+1候选文本集合,以此类推。确定第n+1候选文本集合的方式与确定第n候选文本集合的方式相同。
[0167]
在一种可能实施方式中,步骤s5具体包括:从待处理候选文本集合中删除第一待处理候选文本及第二待处理候选文本,得到预选集合;第一待处理候选文本的前n-1个分词中存在与第n个分词或第n个分词的同义词相同的分词;第二待处理候选文本为分词相同且组合顺序不同的多个待处理候选文本中,改写概率不为最大的待处理候选文本;基于改写概率从预选集合中选取预设数量的待处理候选文本,组成第n候选文本集合。
[0168]
下面通过举例对该可能实施方式进行说明:通常来说,用户在采用搜索文本进行歌单搜索时,可能采取多个语义相似的语义词,例如原始搜索文本可以为“睡眠睡觉”。当按照本方案将第一个词“睡眠”改写为“助眠”得到“助眠睡觉”后,也将第二个词“睡觉”改写为“助眠”得到“助眠助眠”。“助眠助眠”的文本语义多样性不及“睡眠睡觉”或“助眠睡觉”,因此本技术对这种情况(也即是上述所说的第一待处理候选文本)进行剔除。
[0169]
另外,待处理候选文本集合中还可能存在有分词相同且组合顺序不同的多个待处理候选文本,例如“abc”、“acb”、“bca”,三个待处理候选文本的改写概率分别为“0.4”、“0.5”、“0.6”。对于这种情况,本技术只保留改写概率最大的待处理候选文本(如“bca”),将其余待处理候选文本(也即是第二待处理候选文本)删掉(如“abc”和“acb”)。
[0170]
将上述两种情况剔除后得到预选集合后,本技术还可以从预选集合中选取预设数量的待处理候选文本组成第n候选文本集合。可选的,若预设数量为k,可以从第二预选集合中选取改写概率最大的前k个待处理候选文本组成第n候选文本集合,第n候选文本集合为待处理候选文本集合包括的i*(j+1)种组合中的一种或多种。
[0171]
s203、从第m候选文本集合中选取改写概率超过预设改写阈值的候选文本组成目标文本集合。
[0172]
具体地,当根据上述步骤确定的第m候选文本集合中候选文本的数量过多时,可以采用预设改写阈值对候选文本进行进一步筛选,由第m候选文本集合中更为优质的候选文本组成目标文本集合。
[0173]
s204、根据目标文本集合确定搜索输入文本,搜索输入文本用于搜索得到歌单。
[0174]
具体地,当得到目标文本集合后,文本处理装置可以将目标文本集合中改写概率最大的目标文本发送至搜索设备,由搜索设备根据改写概率最大的目标文本作为搜索输入文本来搜索歌单;或者,文本处理装置将目标文本集合中的各个目标文本均发送给搜索设备,搜索设备先根据各个目标文本搜索得到歌单,将所有目标文本的歌单进行汇总后作为最终的搜索结果。可选的,若目标文本集合中的各个目标文本均与原始搜索文本不同,搜索设备在进行歌单搜索时,还可以采用原始搜索文本,以增加搜索歌单的数量。
[0175]
基于图2所示的实施例,本技术可以依次对原始搜索文本中的分词进行同义词改写,并在改写后通过关联的歌单播放量对改写概率(或称为改写质量)进行评估以进一步筛选改写结果。该方式对同义词改写结果进行质量评估,提高了同义词改写的准确率。
[0176]
图2和图3对如何依次对原始搜索文本中的分词进行同义词改写,及依据改写概率进行筛选的过程进行了介绍,下面通过图4所示的实施例对如何得到上述步骤s2中的同义词表进行介绍。
[0177]
参见图4,是本技术实施例提供的一种同义词表构建方法的流程示意图,该方法可应用于上述文本处理装置,包括步骤s401~步骤s406。其中:
[0178]
s401、获取歌单标题集合和历史搜索集合。
[0179]
其中,歌单标题集合包括多个优质歌单(如高点击率、高播放量歌单)的歌单标题,历史搜索集合包括多个用户在预设历史时间段内在音乐平台中输入的搜索记录。本技术将歌单标题和历史搜索共同作为构建同义词表的语料,可以提高音乐领域相关词条的覆盖率,解决音乐领域的数据缺失或不准确的问题。
[0180]
s402、对歌单标题集合内的歌单标题进行分词处理得到第一分词集合以及对历史搜索集合内的历史搜索进行分词处理得到第二分词集合。
[0181]
具体地,步骤s402在具体实施时,分别对歌单标题集合中的各个歌单标题进行分词处理,所有歌单标题的分词结果构成第一分词集合。例如,歌单标题集合包括5个歌单标题,每个歌单标题可划分为3个分词,则将5*3=15个分词作为第一分词集合。同理,分别对历史搜索集合内的各个历史搜索进行分词处理,所有历史搜索的分词结果构成第二分词集合。需要说明的是,分词处理时可以使用分词工具,可选的,在分词前还可以进行一系列文本预处理操作(如剔除标点符号、剔除无效字符等),以提升分词处理的效率,本技术对此不作限制。
[0182]
s403、调用意图识别模型,分别对第一分词集合和第二分词集合进行语义识别,得到第一语义词集合以及第二语义词集合。
[0183]
由于歌单标题或历史搜索的分词可能为语义词或非语义词,因此本技术需要通过意图识别模型将其中的语义词识别出来,以便后续可以对语义词进行同义词改写。
[0184]
在具体实施时,意图识别模型可以采取机器学习中的深度学习模型或其余方式,对歌单标题或历史搜索的分词的语义进行识别,将语义不明显或不含有语义(如歌手名)的分词进行过滤,以得到语义明显的词构成第一语义词集合以及第二语义词集合。
[0185]
s404、调用向量嵌入模型,查找第一语义词集合对应的第一同义词集合。
[0186]
具体地,向量嵌入模型中每一个词可以由一个向量表示,任意两个词之间的语义性可以由对应的两个向量之间的相似性表示,两个向量之间的相似性可以通过两个向量之间的余弦值计算得到。当余弦值越接近于1,两个向量相似性越高(比如等于1时,两个向量完全重合,也即是两个向量完全相同),两个词越可能互为同义词。基于此,可以将第一语义词集合输入向量嵌入模型,根据向量的余弦值查找第一语义词集合中各个词对应的同义词,以构成第一同义词集合。向量嵌入模型可以为word2vec语言模型或其余语言模型等,向量嵌入模型可以采取上述的第一分词集合作为训练数据进行训练得到。
[0187]
s405、在预设同义挖掘词表中查找第二语义词集合对应的第二同义词集合。
[0188]
其中,预设同义挖掘词表为开源同义挖掘词表,预设同义挖掘词表内已存储有大
量同义词之间的对应关系。因此,可以直接在预设同义挖掘词表中匹配第二语义词集合中各个词对应的同义词,以构成第二同义词集合。
[0189]
s406、从包含第一同义词集合和第二同义词集合的集合中任意选取两个语义词进行语义判定,若两个语义词为同义词,则两个语义词的对应关系记录至同义词表。
[0190]
在具体实施时,可以将包含第一同义词集合和第二同义词集合的集合输入二分类模型,由二分类模型从该集合中随机选取两个语义词并对两个语义词之间的语义相似性进行判断。若两个语义词之间的语义相似性大于预设阈值,则将两个语义词的对应关系记录至同义词表。二分类模型可以采取基于机器翻译模型的双向编码模型(bidirectional encoder representation from transformers,bert)等深度学习模型,本技术对此不作限制。并且二分类模型在训练时需要采用大量人工标注的同义词数据对作为训练数据。
[0191]
基于图4所示的实施例,本技术可以采用与音乐领域强相关的歌单标题集合和历史搜索集合作为同义词表的构建语料,较好地解决了音乐领域中的同义词数据缺失或不准确问题,进而使得同义词表在应用于图2对应的实施例时可以对音乐平台中的搜索文本具有准确率更高的同义词改写能力,提高优质歌单的召回率。
[0192]
参见图5,是本技术实施例提供的一种音乐评论生成装置的结构示意图,该装置包括分词单元501、改写单元502、选取单元503、确定单元504、构建单元505。其中:
[0193]
分词单元501,用于对原始搜索文本进行分词处理,得到m个分词,m为正整数;
[0194]
改写单元502,用于根据同义词表对所述m个分词依次进行同义词改写,得到第m候选文本集合;所述同义词表用于指示语义词与所述语义词的同义词的对应关系;所述第m候选文本集合中每个候选文本与所述原始搜索文本语义相同;
[0195]
选取单元503,用于从所述第m候选文本集合中选取改写概率超过预设改写阈值的候选文本,组成目标文本集合,所述改写概率由所述候选文本关联的歌单的播放量确定;
[0196]
确定单元504,用于根据所述目标文本集合确定搜索输入文本,所述搜索输入文本用于搜索得到歌单。
[0197]
在一种可能实施方式中,所述改写单元502,在用于根据同义词表对所述m个分词依次进行同义词改写,得到第m候选文本集合时,具体包括:
[0198]
将n设置为1,获取第n-1候选文本集合,所述第n-1候选文本集合包括至少一个候选文本,所述至少一个候选文本中每个候选文本与所述原始搜索文本语义相同,且所述每个候选文本的前n-1个分词经过同义词改写处理,n为正整数,且n小于或者等于m;
[0199]
在同义词表中查找所述每个候选文本的第n个分词对应的同义词集合;
[0200]
基于所述同义词集合对所述每个候选文本中的第n个分词进行同义词改写,得到待处理候选文本集合;
[0201]
确定所述待处理候选文本集合中每个待处理候选文本的改写概率;
[0202]
基于所述每个待处理候选文本的改写概率从所述待处理候选文本集合中选取预设数量的待处理候选文本,组成第n候选文本集合;
[0203]
若所述n不等于m,对n执行加1操作,返回执行所述获取第n-1候选文本集合的步骤。
[0204]
在一种可能实施方式中,所述改写单元502,在用于确定所述待处理候选文本集合中每个待处理候选文本的改写概率时,具体包括:
[0205]
将所述每个待处理候选文本中各个分词对应的条件概率的乘积作为所述每个待处理候选文本的第一概率;任一分词对应的条件概率由所述任一分词所在的第一处理片段相关的歌单的播放量确定,所述第一处理片段包括至少两个相邻分词且所述任一分词为所述至少两个相邻分词中的最后一个分词;
[0206]
根据所述每个待处理候选文本中第n个分词对应的替换概率,确定所述每个待处理候选文本的第二概率;所述第n个分词对应的替换概率由与所述第n个分词所在的第二处理片段相关的歌单的播放量确定,所述第二处理片段与所述第n个分词的上下文相关;
[0207]
将所述第一概率和所述第二概率的乘积作为所述改写概率。
[0208]
在一种可能实施方式中,所述第一处理片段相关的歌单的播放量是歌单库中歌单标题与所述第一处理片段相同的歌单的播放量;所述第二处理片段相关的歌单的播放量是所述歌单库中歌单标题与所述第二处理片段相同的歌单的播放量;或者,
[0209]
所述第一处理片段相关的歌单的播放量是所述歌单库中歌单标题包含所述第一处理片段的歌单的播放量;所述第二处理片段相关的歌单的播放量是所述歌单库中歌单标题包含所述第二处理片段的歌单的播放量。
[0210]
在一种可能实施方式中,所述改写单元502,在用于确定待处理候选文本集合中每个待处理候选文本的改写概率时,具体包括:
[0211]
将所述每个待处理候选文本中各个分词对应的条件概率的乘积作为所述每个待处理候选文本的第一概率;任一分词对应的条件概率由所述任一分词所在的第一处理片段相关的歌单的播放量确定,所述第一处理片段包括至少两个相邻分词且所述任一分词为所述至少两个相邻分词中的最后一个分词;
[0212]
获取所述每个待处理候选文本相关的歌单的历史点击率;
[0213]
将所述第一概率和所述历史点击率的乘积作为所述改写概率。
[0214]
在一种可能实施方式中,所述选取单元503,在用于基于所述每个待处理候选文本的改写概率从所述待处理候选文本集合中选取预设数量的待处理候选文本,组成第n候选文本集合时,具体包括:
[0215]
从所述待处理候选文本集合中删除第一待处理候选文本及第二待处理候选文本,得到预选集合;所述第一待处理候选文本的前n-1个分词中存在与所述第n个分词或所述第n个分词的同义词相同的分词,所述第二待处理候选文本为分词相同且组合顺序不同的多个待处理候选文本中,改写概率不为最大的待处理候选文本;
[0216]
基于所述改写概率从所述预选集合中选取预设数量的待处理候选文本,组成所述第n候选文本集合。
[0217]
在一种可能实施方式中,所述确定单元504,在用于根据所述目标文本集合确定搜索输入文本时,具体包括:
[0218]
将所述目标文本集合中改写概率最大的目标文本或者所述目标文本集合中的各个目标文本确定为所述搜索输入文本。
[0219]
在一种可能实施方式中,所述文本处理装置还包括构建单元505,所述构建单元505用于:
[0220]
获取所述歌单标题集合和所述历史搜索集合;
[0221]
对所述歌单标题集合内的歌单标题进行分词处理得到第一分词集合以及对所述
历史搜索集合内的历史搜索进行分词处理得到第二分词集合;
[0222]
调用意图识别模型,分别对所述第一分词集合和所述第二分词集合进行语义识别,得到第一语义词集合以及第二语义词集合;
[0223]
调用向量嵌入模型,查找所述第一语义词集合对应的第一同义词集合;
[0224]
在预设同义挖掘词表中查找所述第二语义词集合对应的第二同义词集合;
[0225]
从包含所述第一同义词集合和所述第二同义词集合的集合中任意选取两个语义词进行语义判定,若所述两个语义词为同义词,则所述两个语义词的对应关系记录至所述同义词表。
[0226]
需要说明的是,本技术实施例的文本处理装置的各单元模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,在此不作赘述。
[0227]
参见图6,是本技术实施例提供的一种终端设备的结构示意图。该终端设备可以包括:一个或多个处理器601、存储器602和收发器603。上述处理器601、存储器602和收发器603通过总线604连接。存储器602用于存储计算机程序,该计算机程序包括程序指令,处理器601和收发器603用于执行存储器602存储的程序指令,执行如下操作:
[0228]
对原始搜索文本进行分词处理,得到m个分词,m为正整数;
[0229]
根据同义词表对所述m个分词依次进行同义词改写,得到第m候选文本集合;所述同义词表用于指示语义词与所述语义词的同义词的对应关系;所述第m候选文本集合中每个候选文本与所述原始搜索文本语义相同;
[0230]
从第m候选文本集合中选取改写概率超过预设改写阈值的候选文本,组成目标文本集合,所述改写概率由所述候选文本关联的歌单的播放量确定;
[0231]
根据所述目标文本集合确定搜索输入文本,所述搜索输入文本用于搜索得到歌单。
[0232]
应当理解,在一些可行的实施方式中,上述处理器601可以是中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器602可以包括只读存储器和随机存取存储器,并向处理器601提供指令和数据。存储器602的一部分还可以包括非易失性随机存取存储器。例如,存储器602还可以存储设备类型的信息。
[0233]
具体实现中,上述终端设备可通过其内置的各个功能模块执行如上述图2、图3或图4中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
[0234]
本技术实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的文本处理装置所执行的计算机可读指令,且该计算机可读指令包括程序指令,当处理器执行上述程序指令时,能够执行上述图2、图3或图4所对应实施例中的方法,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本技术所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本技术方法实施例
的描述。作为示例,程序指令可以被部署在一个计算机设备上,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
[0235]
根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可以执行上述图2、图3或图4所对应实施例中的方法,因此,在此不再进行赘述。
[0236]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等。
[0237]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1