用于识别车型的同义度模型的训练方法以及识别方法与流程

文档序号:37425340发布日期:2024-03-25 19:12阅读:15来源:国知局
用于识别车型的同义度模型的训练方法以及识别方法与流程

本技术涉及数据处理技术,尤其涉及一种用于识别车型的同义度模型的训练方法以及识别方法。


背景技术:

1、目前,随着车辆技术的不断发展,各类车企所生产的车辆的车型也越来越多,对于普通购车用户以及车辆制造商而言,及时获知各车企所对应的车辆车型不仅有利于用户进行车辆挑选,还有利于车辆制造商进行车辆研发。

2、因此,如何从海量的数据中准确识别出车型信息是一个亟需解决的问题。


技术实现思路

1、本技术提供一种用于识别车型的同义度模型的训练方法以及识别方法,用以从大量数据中提取出车型信息。

2、第一方面,本技术提供一种用于识别车型的同义度模型的训练方法,所述方法包括:

3、获取检索关键词库和言论词库;其中,所述检索关键词库包括至少一个检索关键词;所述检索关键词为车型信息中的关键词;所述言论词库中包括至少一个言论词;所述言论词为车辆的评论信息中的词语;

4、确定所述言论词库中言论词的同义度;所述同义度表征言论词指示的信息为车型信息的概率;

5、根据所述检索关键词库、所述言论词库以及所述同义度,训练得到同义度模型;所述同义度模型用于识别评论信息中是否包含车型信息。

6、在一种可能的实现方式中,根据所述检索关键词库、所述言论词库以及所述同义度,训练得到同义度模型,包括:

7、根据所述检索关键词库和所述言论词库,确定第一相似度矩阵;其中,所述第一相似度矩阵中第i行第j列的值表征第i个言论词和第j个检索关键词之间的语义相似度;i和j均为正整数;

8、根据所述第一相似度矩阵和所述同义度,训练得到同义度模型。

9、在一种可能的实现方式中,根据所述检索关键词库和所述言论词库,确定第一相似度矩阵,包括:

10、确定第i个言论词的第四拼音信息和第j个检索关键词的第五拼音信息;

11、若确定所述第五拼音信息和所述第四拼音信息相同,则确定i个言论词和第j个检索关键词的编辑距离值为二者之间的语义相似度;

12、若确定所述第五拼音信息和所述第四拼音信息不同,则确定预设值为i个言论词和第j个检索关键词二者之间的语义相似度;所述预设值表征言论词和检索关键词无关;

13、根据i个言论词和第j个检索关键词的语义相似度,确定第一相似度矩阵。

14、在一种可能的实现方式中,若所述同义度模型的数量为多个,则根据所述第一相似度矩阵和所述同义度,训练得到同义度模型,包括:

15、将所述第一相似度矩阵输入至每一初始模型,得到各个初始模型各自输出的预测结果;

16、根据初始权重信息,对多个预测结果进行加权求和处理,得到求和结果;所述初始权重信息包括:初始模型对应的初始权重值;

17、根据所述求和结果和所述同义度,对所述初始权重信息以及多个初始模型进行调整处理,得到调整后的权重信息以及多个同义度模型。

18、在一种可能的实现方式中,获取检索关键词库,包括:

19、确定至少一个车型信息;

20、确定所述车型信息对应的至少一个检索关键词;其中,所述检索关键词为车型信息中经过转换处理所得到的;所述转换处理包括以下至少一项:英文字符的大小写转换处理、数字转汉字处理、分词处理、同音转换处理;其中,同音转换处理为将车型信息中的字符转换为与所述字符具有相同发音的其余字符的处理方法;

21、根据各车型信息所对应的检索关键词,得到所述检索关键词库。

22、在一种可能的实现方式中,在确定所述言论词库中言论词的同义度之前,所述方法还包括:

23、确定所述检索关键词库中的检索关键词所对应的第一拼音信息;

24、确定所述言论词库中的言论词所对应的第二拼音信息;

25、若第二拼音信息中存在第三拼音信息,且所述第三拼音信息与各第一拼音信息均不相同,则在所述言论词库中,删除所述第三拼音信息所对应的言论词,得到处理后的言论词库。

26、在一种可能的实现方式中,所述评论信息的输出形式包括以下至少一种:文本、音频、图像。

27、第二方面,本技术提供一种用于识别车型的识别方法,所述方法包括:

28、获取待分析文本,并对所述待分析文本进行分词处理,得到至少一个待分析词;

29、根据所述待分析词、检索关键词库以及同义度模型,确定所述待分析词的识别结果;所述检索关键词库包括至少一个检索关键词;所述检索关键词为车型信息中的关键词;所述同义度模型为基于第一方面中任一项所述的方法得到的模型;所述识别结果用于表征所述待分析词是否为车型信息。

30、在一种可能的实现方式中,根据所述待分析词、检索关键词库以及同义度模型,确定所述待分析词的识别结果,包括:

31、确定所述待分析词与所述检索关键词库的第二相似度矩阵;其中,所述第二相似度矩阵中的第i行第j列的值表征第i个待分析词和第j个检索关键词之间的语义相似度;i和j均为正整数;

32、将所述第二相似度矩阵输入所述同义度模型,得到待分析词的识别结果。

33、在一种可能的实现方式中,确定所述待分析词与所述检索关键词库的第二相似度矩阵,包括:

34、确定第i个待分析词的第六拼音信息和第j个检索关键词的第七拼音信息;

35、若确定所述第六拼音信息和所述第七拼音信息相同,则确定i个待分析词和第j个检索关键词的编辑距离值为二者之间的语义相似度;

36、若确定所述第六拼音信息和所述第七拼音信息不同,则确定预设值为i个待分析词和第j个检索关键词二者之间的语义相似度;所述预设值表征言论词和检索关键词无关。

37、在一种可能的实现方式中,若所述同义度模型的数量为多个,则将所述第二相似度矩阵输入所述同义度模型,得到待分析词的识别结果,包括:

38、将所述第二相似度矩阵输入至每一所述同义度模型,得到各同义度模型输出的第一结果;

39、根据训练得到的权重信息,对多个第一结果进行加权求和处理,得到待分析词的识别结果。

40、第三方面,本技术提供一种用于识别车型的同义度模型的训练装置,所述装置包括:

41、第一获取单元,用于获取检索关键词库;

42、第二获取单元,用于获取言论词库;其中,所述检索关键词库包括至少一个检索关键词;所述检索关键词为车型信息中的关键词;所述言论词库中包括至少一个言论词;所述言论词为车辆的评论信息中的词语;

43、第一确定单元,用于确定所述言论词库中言论词的同义度;所述同义度表征言论词指示的信息为车型信息的概率;

44、训练单元,用于根据所述检索关键词库、所述言论词库以及所述同义度,训练得到同义度模型;所述同义度模型用于识别评论信息中是否包含车型信息。

45、在一种可能的实现方式中,训练单元,包括:

46、第一确定模块,用于根据所述检索关键词库和所述言论词库,确定第一相似度矩阵;其中,所述第一相似度矩阵中第i行第j列的值表征第i个言论词和第j个检索关键词之间的语义相似度;i和j均为正整数;

47、训练模块,用于根据所述第一相似度矩阵和所述同义度,训练得到同义度模型。

48、在一种可能的实现方式中,第一确定模块,具体用于:

49、确定第i个言论词的第四拼音信息和第j个检索关键词的第五拼音信息;

50、若确定所述第五拼音信息和所述第四拼音信息相同,则确定i个言论词和第j个检索关键词的编辑距离值为二者之间的语义相似度;

51、若确定所述第五拼音信息和所述第四拼音信息不同,则确定预设值为i个言论词和第j个检索关键词二者之间的语义相似度;所述预设值表征言论词和检索关键词无关;

52、根据i个言论词和第j个检索关键词的语义相似度,确定第一相似度矩阵。

53、在一种可能的实现方式中,若所述同义度模型的数量为多个,则训练模块,具体用于,包括:

54、将所述第一相似度矩阵输入至每一初始模型,得到各个初始模型各自输出的预测结果;

55、根据初始权重信息,对多个预测结果进行加权求和处理,得到求和结果;所述初始权重信息包括:初始模型对应的初始权重值;

56、根据所述求和结果和所述同义度,对所述初始权重信息以及多个初始模型进行调整处理,得到调整后的权重信息以及多个同义度模型。

57、在一种可能的实现方式中,第一获取单元,包括:

58、第二确定模块,用于确定至少一个车型信息;

59、第三确定模块,用于确定所述车型信息对应的至少一个检索关键词;其中,所述检索关键词为车型信息中经过转换处理所得到的;所述转换处理包括以下至少一项:英文字符的大小写转换处理、数字转汉字处理、分词处理、同音转换处理;其中,同音转换处理为将车型信息中的字符转换为与所述字符具有相同发音的其余字符的处理装置;

60、第四确定模块,用于根据各车型信息所对应的检索关键词,得到所述检索关键词库。

61、在一种可能的实现方式中,所述装置还包括:

62、第二确定单元,用于在第一确定单元确定所述言论词库中言论词的同义度之前,确定所述检索关键词库中的检索关键词所对应的第一拼音信息;

63、第三确定单元,用于确定所述言论词库中的言论词所对应的第二拼音信息;

64、删除单元,用于若第二拼音信息中存在第三拼音信息,且所述第三拼音信息与各第一拼音信息均不相同,则在所述言论词库中,删除所述第三拼音信息所对应的言论词,得到处理后的言论词库。

65、在一种可能的实现方式中,所述评论信息的输出形式包括以下至少一种:文本、音频、图像。

66、第四方面,本技术提供一种用于识别车型的识别装置,所述装置包括:

67、第三获取单元,用于获取待分析文本;

68、处理单元,用于对所述待分析文本进行分词处理,得到至少一个待分析词;

69、第四确定单元,用于根据所述待分析词、检索关键词库以及同义度模型,确定所述待分析词的识别结果;所述检索关键词库包括至少一个检索关键词;所述检索关键词为车型信息中的关键词;所述同义度模型为基于第三方面任一项所述的装置得到的模型;所述识别结果用于表征所述待分析词是否为车型信息。

70、在一种可能的实现方式中,第四确定单元,包括:

71、第五确定模块,用于确定所述待分析词与所述检索关键词库的第二相似度矩阵;其中,所述第二相似度矩阵中的第i行第j列的值表征第i个待分析词和第j个检索关键词之间的语义相似度;i和j均为正整数;

72、第六确定模块,用于将所述第二相似度矩阵输入所述同义度模型,得到待分析词的识别结果。

73、在一种可能的实现方式中,第五确定模块,具体用于:

74、确定第i个待分析词的第六拼音信息和第j个检索关键词的第七拼音信息;

75、若确定所述第六拼音信息和所述第七拼音信息相同,则确定i个待分析词和第j个检索关键词的编辑距离值为二者之间的语义相似度;

76、若确定所述第六拼音信息和所述第七拼音信息不同,则确定预设值为i个待分析词和第j个检索关键词二者之间的语义相似度;所述预设值表征言论词和检索关键词无关;

77、确定i个待分析词和第j个检索关键词的语义相似度为第二相似度矩阵。

78、在一种可能的实现方式中,若所述同义度模型的数量为多个,则第六确定模块,具体用于:

79、将所述第二相似度矩阵输入至每一所述同义度模型,得到各同义度模型输出的第一结果;

80、根据训练得到的权重信息,对多个第一结果进行加权求和处理,得到待分析词的识别结果。

81、第五方面,本技术提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;

82、所述存储器存储计算机执行指令;

83、所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面中任一项所述的方法,或者,以实现第二方面中任一项所述的方法。

84、第六方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面中任一项所述的方法;或者,所述计算机执行指令被处理器执行时用于实现如第二方面中任一项所述的方法。

85、第七方面,本技术提供一种计算机程序产品,所述计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现第一方面中任一项所述的方法,或者,该计算机程序被处理器执行时实现第二方面中任一项所述的方法。

86、本技术提供的用于识别车型的同义度模型的训练方法以及识别方法,该方法包括:获取检索关键词库和言论词库;其中,所述检索关键词库包括至少一个检索关键词;所述检索关键词为车型信息中的关键词;所述言论词库中包括至少一个言论词;所述言论词为车辆的评论信息中的词语;确定所述言论词库中言论词的同义度;所述同义度表征言论词指示的信息为车型信息的概率;根据所述检索关键词库、所述言论词库以及所述同义度,训练得到同义度模型;所述同义度模型用于识别评论信息中是否包含车型信息。本技术中,通过预先确定出的检索关键词库、言论词库以及各言论词所对应的同义度来训练同义度模型,进而使得得到的同义度模型可用于输入至模型中的输入信息中是否包含有车型信息,以便后续可以在大量信息中筛选出车型信息,避免了需要人工浏览海量数据进行车型信息筛选所得到的车型信息耗时较长的问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1