获得输入库的方法、装置及电子设备的制造方法

文档序号:9844104阅读:421来源:国知局
获得输入库的方法、装置及电子设备的制造方法
【技术领域】
[0001] 本发明涉及通信技术领域,特别是涉及一种获得输入库的方法、装置及电子设备。
【背景技术】
[0002] 拼音输入法是目前最常用的汉字输入方法。随着计算机技术以及自然语言处理技 术的日益发展,拼音输入也由单字输入发展到目前的词句输入,平均输入时间在不断减少, 输入效率不断提尚。
[0003] 在解决通用输入方面,输入法已经基本能满足绝大多数人的输入需求,但在遇到 需要输入大量专业词汇的情况时,例如撰写专业论文时,由于专业词汇属于低频词,词库中 难以收录,因此很难为用户提供其需要的候选,此时用户不得不分段上屏,并且在含有专业 词汇的长句输入中也需要用户手动分段上屏来获得想要的输入结果。其中,分段上屏是指 用户在输入长度大于1的词时,因首屏没有想要的结果,而不得不分开按一个个字(词)上 屏。这种分段上屏的方式极大的影响了用户的输入效率,用户输入体验较差。

【发明内容】

[0004] 本发明实施例所要解决的技术问题是提供一种获得输入库的方法,能够在用户输 入专业词汇和/或包含专业词汇的长句时提高输入效率,改善用户的输入体验。
[0005] 相应的,本发明实施例还提供了一种获得输入库的装置及电子设备,用以保证上 述方法的实现及应用。
[0006] 为了解决上述问题,本发明实施例公开了一种获得输入库的方法,包括:
[0007] 获得专业词汇的关联词;
[0008] 计算所述关联词与语料库中语料的相似度;
[0009] 在所述语料库中抽取相似度大于或等于第一相似度阈值的语料,作为近似语料;
[0010] 根据近似语料训练获得所述专业词汇对应的专业词库和/或语言模型。
[0011] 进一步,所述获得专业词汇的关联词,包括:
[0012] 接收关联信息,所述关联信息中包含所述专业词汇的关联词。
[0013] 进一步,所述计算所述关联词与语料库中语料的相似度,包括:
[0014] 对所述关联信息进行分词向量化,获得第一向量;
[0015] 计算所述第一向量与第二向量的相似度,其中,所述第二向量为对所述语料库中 的语料进行分词向量化后获得的向量。
[0016] 进一步,在所述根据近似语料训练获得所述专业词汇对应的专业词库和/或语言 模型之前,还包括:
[0017] 判断所述近似语料是否满足词库训练条件;
[0018] 若是,再根据所述近似语料训练获得所述专业词汇对应的专业词库和/或语言模 型;若否,则根据所述近似语料在所述语料库中重复抽取近似语料,直至所有抽取出的近似 语料满足所述词库训练条件。
[0019] 进一步,所述根据所述近似语料在所述语料库中重复抽取近似语料,包括:
[0020] 计算所述近似语料与所述语料库中语料的相似度;
[0021] 在所述语料库中抽取相似度大于或等于第二相似度阈值的语料。
[0022] 本发明实施例还公开了一种获得输入库的装置,包括:
[0023] 关联词获取单元,用于获得专业词汇的关联词;
[0024] 相似度计算单元,用于计算所述关联词与语料库中语料的相似度;
[0025] 近似词抽取单元,用于在所述语料库中抽取相似度大于或等于第一相似度阈值的 语料,作为近似语料;
[0026] 训练单元,用于根据近似语料训练获得所述专业词汇对应的专业词库和/或语言 模型。
[0027] 进一步,所述关联词获取单元,具体用于接收关联信息,所述关联信息中包含所述 专业词汇的关联词。
[0028] 进一步,所述相似度计算单元包括:
[0029] 向量获得子单元,用于对所述关联信息进行分词向量化,获得第一向量;
[0030] 第一计算子单元,用于计算所述第一向量与第二向量的相似度,其中,所述第二向 量为对所述语料库中的语料进行分词向量化后获得的向量。
[0031] 进一步,所述装置还包括:
[0032] 判断单元,用于在所述训练单元根据近似语料训练获得所述专业词汇对应的专业 词库和/或语言模型之前,判断所述近似语料是否满足词库训练条件;
[0033] 重复抽取单元,用于在所述判断单元判断所述近似语料不满足词库训练条件时, 根据所述近似语料在所述语料库中重复抽取近似语料,直至所有抽取出的近似语料满足所 述词库训练条件;
[0034] 所述训练单元,还用于在所述判断单元判断所述近似语料满足词库训练条件时, 根据所述近似语料训练获得所述专业词汇对应的专业词库和/或语言模型。
[0035] 进一步,所述重复抽取单元包括:
[0036] 第二计算子单元,用于计算所述近似语料与所述语料库中语料的相似度;
[0037] 抽取子单元,用于在所述语料库中抽取相似度大于或等于第二相似度阈值的语 料。
[0038] 本发明实施例还公开了一种电子设备,包括存储器和处理器,所述存储器用于存 储计算机指令或代码,所述处理器和所述存储器耦合,用于执行所述存储器中的计算机指 令或代码,实现以下方法:
[0039] 获得专业词汇的关联词;
[0040] 计算所述关联词与语料库中语料的相似度;
[0041] 在所述语料库中抽取相似度大于或等于第一相似度阈值的语料,作为近似语料;
[0042] 根据近似语料训练获得所述专业词汇对应的专业词库和/或语言模型。
[0043] 与现有技术相比,本发明实施例包括以下优点:
[0044] 本发明实施例通过根据专业词汇的关联词在语料库中抽取相似语料,获得了专业 词汇对应的专业词库和/或语言模型,从而在用户输入专业词汇时可以基于该专业词库实 现一次上屏,在输入专业长句时可以依据该语言模型进行长句输入,避免了分段上屏,节省 了用户输入时间,提高了字符输入效率,也极大地改善了用户在输入专业词汇尤其是在撰 写专业论文时的输入体验。
【附图说明】
[0045] 图1是本发明的一种获得输入库的方法实施例的步骤流程图;
[0046] 图2是本发明实施例中计算关联词与语料库中语料的相似度的方法流程图;
[0047] 图3是本发明的另一种获得输入库的方法实施例的步骤流程图;
[0048] 图4是本发明实施例中根据近似语料在语料库中重复抽取近似语料的方法流程 图;
[0049] 图5是本发明一种获得输入库的装置实施例的结构框图;
[0050] 图6是本发明实施例中相似度计算单元的结构框图;
[0051] 图7是本发明另一种获得输入库的装置实施例的结构框图。
【具体实施方式】
[0052] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实 施方式对本发明作进一步详细的说明。
[0053] 参照图1,示出了本发明的一种获得输入库的方法实施例的步骤流程图,具体可以 包括如下步骤:
[0054] 步骤101,获得专业词汇的关联词。
[0055] 本发明实施例中输入库可以包括用于输入专业词汇的专业词库,也可以包括用于 输入包含专业词汇的长句的语言模型,或者两者均包括。该获得输入库的装置具体可以是 服务器或其它电子设备。本步骤中,该装置获得专业词汇的关联词的方式可以是直接接收 用户输入的专业词汇的关联词,也可以是装置根据用户输入的专业词汇在网络或特定词库 中搜索查找获得专业词汇的关联词,还可以是直接接收用户输入的关联信息,该关联信息 中包含该专业词汇的关联词,例如,用户在撰写专业论文时,将整理的该专业论文的参考文 献的题目作为上述关联信息,直接提供给该装置。
[0056] 步骤102,计算关联词与语料库中语料的相似度。
[0057] 该装置在获得专业词汇的关联词后,调取语料库中的语料,计算关联词与语料库 中语料的相似度。其中,该语料库是预先建立的,可以是通过网络获得的网页语料库,该语 料库中包含大量的语料,具体可以是包含数量过T的语料。
[0058] 本步骤可以采用多种方式计算关联词与语料之间的相似度,其中一种方式是可以 分别将关联词和语料转换成向量,然后计算关联词的向量与各语料的向量之间的相似度, 还可以是计算关联词与语料的字符之间的相似度,或关键词与语料的语音之间的相似度等 等,此处不再一一列举。
[0059] 步骤103,在语料库中抽取相似度大于或等于第一相似度阈值的语料,作为近似语 料。
[0060] 在获得关联词与语料库中各语料之间的相似度后,在语料
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1