一种多中文词组的谐音拆分处理方法及装置与流程

文档序号:37142322发布日期:2024-02-26 16:54阅读:17来源:国知局
一种多中文词组的谐音拆分处理方法及装置与流程

本发明涉及计算机,尤其涉及一种多中文词组的谐音拆分处理方法及装置。


背景技术:

1、随着社会和经济的发展,人们需要掌握的知识越来越多。不管是学习还是考试,都有大量的考点、重点需要记忆,很多时候人们需要记忆其中的多个关键的中文词组。如果是死记硬背,很难记住这些关键词组,容易遗漏。

2、目前,在对多个中文词组进行处理时,采用的组合方式较为单一,例如仅考虑从每个中文词组中取一个字进行重新组合,而忽略了其他情况,此外,在对重新组合的短语进行拆分后,仅考虑了拆分子串的本身含义,忽略了谐音情况,从而导致拆分的结果不够全面,在实际应用过程中,也不利于用户学习或者记忆多个中文词组。


技术实现思路

1、本发明提出一种多中文词组的谐音拆分处理方法及装置,用以解决或者至少部分解决现有技术中存在的拆分结果不够全面的技术问题。

2、为了解决上述技术问题,本发明技术方案为:

3、第一方面提供了一种多中文词组的谐音拆分处理方法,包括:

4、获取多个待处理中文词组;

5、从每个待处理中文词组中提取出一个汉字,组成初始汉字组合;

6、根据初始汉字组合的长度对初始汉字组合进行循环拆分,其中,循环拆分的过程包括:每次根据初始汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字组合作为第二子串;判断第二子串的长度是否大于1,如果大于1,则将第二子串作为当前汉字组合进行循环拆分,其中,每次拆分得到的所有子串的长度之和等于初始汉字组合的长度;

7、将每次拆分得到的子串转换为去声调的拼音,然后将子串对应的拼音分别与预先构建的数据库中的词语的拼音进行匹配,根据匹配情况得到匹配结果,将匹配结果和对应的子串作为一条记录加入至结果集;

8、输出结果集,作为多中文词组的谐音拆分处理结果。

9、在一种实施方式中,从每个待处理中文词组中提取出一个汉字,组成初始汉字组合,包括:

10、如果是正序处理,则从每个待处理中文词组中提取出一个汉字后,将提取出的汉字按照待处理中文词组的顺序组成初始汉字组合;

11、如果是乱序处理,则从每个待处理中文词组中提取出一个汉字后,按照排列组合的方式将提取出的汉字组成初始汉字组合。

12、在一种实施方式中,每次根据初始汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字组合作为第二子串,包括:

13、第一次截取与初始汉字组合相等长度的汉字组合作为第一子串,第二子串的长度为0,得到第一次的拆分结果;

14、第二次截取初始汉字组合长度减1长度的汉字组合作为第一子串,其余为第二子串,第二子串的长度为1,得到第二次的拆分结果;

15、第三次截取初始汉字组合长度减2长度的汉字组合作为第一子串,其余为第二子串,第二子串的长度为2,得到第三次的拆分结果,直到截取得到的第一子串的长度为1。

16、在一种实施方式中,根据匹配情况得到匹配结果,包括:

17、如果拆分得到的子串的去声调的拼音在预先构建的数据库中存在与之匹配的词语,则表明匹配成功,匹配结果为存在;

18、如果拆分得到的子串的去声调的拼音在预先构建的数据库中不存在与之匹配的词语,则表明匹配不成功,匹配结果为未找到。

19、在一种实施方式中,所述方法还包括:

20、如果拆分得到的记录中,存在其子串的去声调的拼音与预先构建的数据库中的词语不匹配的情况,则删除该条记录。

21、在一种实施方式中,在输出结果集之后,所述方法还包括:

22、根据结果集中包含的记录中的子串数量按照从少到多对记录进行排序。

23、在一种实施方式中,所述方法包括:

24、当结果集中包含的两条或多条记录中的子串数量相同时,根据子串中的汉字与对应原中文词组中提取的汉字中相同汉字的数量由多到少对记录进行排序。

25、在一种实施方式中,所述方法包括:当结果集中包含的两条或多条记录中的子串数量相同且子串中的汉字与对应原中文词组中提取的汉字为同一字的汉字数量也相同时,根据每条记录中子串对应的词语的频率之和对记录进行由高到低排序。

26、基于同样的发明构思,本发明第二方面提供了一种多中文词组的谐音拆分处理装置,包括:

27、中文词组获取模块,用于获取多个待处理中文词组;

28、汉字组合模块,用于从每个待处理中文词组中提取出一个汉字,组成初始汉字组合;

29、循环拆分模块,用于根据初始汉字组合的长度对其进行循环拆分,其中,循环拆分的过程包括:每次根据初始汉字组合的长度截取对应长度的汉字组合作为第一子串,其余汉字或者汉字组合作为第二子串;判断第二子串的长度是否大于1,如果大于1,则将第二子串作为当前汉字组合进行循环拆分,其中,每次拆分得到的所有子串的长度之和等于初始汉字组合的长度;

30、匹配模块,用于将每次拆分得到的子串转换为去声调的拼音,然后将子串对应的拼音分别与预先构建的数据库中的词语的拼音进行匹配,根据匹配情况得到匹配结果,将匹配结果和对应的子串作为一条记录加入至结果集;

31、结果输出模块,用于输出结果集,作为多中文词组的谐音拆分处理结果。

32、基于同样的发明构思,本发明第三方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。

33、本技术中提供的一个或多个技术方案,至少具有如下技术效果或优点:

34、本技术公开的多中文词组的谐音拆分处理方法,从每个待处理中文词组中提取出一个汉字组成初始汉字组合后,根据初始汉字组合的长度对该初始汉字组合进行循环拆分:每次根据初始汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串,其余汉字或者汉字组合作为第二子串;判断第二子串的长度是否大于1,如果大于1,则将第二子串作为当前汉字组合进行循环拆分,这种拆分方式考虑了多种组合拆分的情况,并且在进行匹配时,先将每次拆分得到的子串转换为拼音,然后将子串对应的拼音分别与预先构建的数据库中的词语的拼音进行匹配,考虑了汉字构成不同但拼音相同的情况,即考虑谐音,使得拆分的结果更为全面,从而多个中文词组的记忆方式更为丰富,实际应用过程中可以提高多中文词组的学习和记忆效率。

35、进一步地,当与子串的拼音匹配的词语与子串具有不同的汉字组成时,将数据库中的词语和对应的匹配结果作为一条记录,从而得到更全面的匹配结果,扩充了结果集。

36、进一步地,根据结果集中包含的记录中的子串数量对记录进行排序,可以优先将拆分部分较少的部分排列在前面。

37、进一步地,当结果集中包含的两条或多条记录中的子串数量相同时,则将子串中的汉字与对应原中文词组中提取的汉字依次进行对比,根据相同汉字的数量由多到少对记录进行排序。

38、进一步地,当结果集中包含的两条或多条记录中的子串数量相同且子串中的汉字与对应原中文词组中提取的汉字为同一字的汉字数量也相同时,则根据每条记录中子串对应的词语的频率之和对记录进行由高到低排序,从而可以得到更优的拆分结果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1