新词提取方法和装置的制造方法

文档序号：9506171阅读：178来源：国知局

新词提取方法和装置的制造方法
【技术领域】
[0001] 本公开涉及终端领域，尤其涉及新词提取方法和装置。
【背景技术】
[0002] 随着电子商务网站在售商品种类的增多、以及用户每日搜索词句的与时倶进，出现了很多特有的品牌名和流行的词语搭配。而这些词语搭配通常并未在搜索引擎原有的分词词表中保存，从而对于用户搜索的一些特有的词语搭配，搜索引擎可能无法准确的进行拆分，从而可能会出现搜索结果不符合用户预期的现象。

【发明内容】

[0003] 为克服相关技术中存在的问题，本公开提供一种新词提取方法和装置。
[0004] 根据本公开实施例的第一方面，提供一种新词提取方法，所述方法包括：
[0005] 计算多个候选词元的凝聚度；所述凝聚度表征所述候选词元作为固定词或固定词组的概率；
[0006] 计算所述多个候选词元的自由度；所述自由度表征所述候选词元与固定词或者固定词组搭配的灵活度；所述自由度取值越高，表示所述候选词元可搭配的固定词或者固定词组越多；
[0007] 对计算出的所述多个候选词元中每一个候选词元的凝聚度和自由度分别进行加权计算得到加权和；
[0008] 基于计算得到的所述加权和从所述多个候选词元中提取候选词或候选词组。
[0009] 可选的，所述方法还包括：
[0010] 获取语料；
[0011] 对获取到的所述语料进行词元拆分，以得到所述多个候选词元。
[0012] 可选的，所述语料包括商品名称和用户搜索日志。
[0013] 可选的，所述计算多个候选词元的凝聚度包括：
[0014] 统计所述多个候选词元在所有语料中的出现次数；
[0015] 将所述多个候选词元依次选定为目标候选词元；
[0016] 根据凝聚度计算公式计算选定的所述目标候选词元的凝聚度。
[0017] 其中，所述凝聚度计算公式为：

[0021] 所述S (A1A2…An)表示候选词元[A1A 2…AJ的凝聚度；所述P(A1A2-An)表示候选词元[A 1A2…AJ在所有语料中的出现概率；所述P(A1)和P(AyAn)分别表示从所述候选词兀[A 1A2…Aj中拆分出的字符[A1]和字符串[AyAJ在所有语料中的出现概率；所述出现概率为在所有语料中的出现次数与语料总长度的比值；所述η的取值表示组成所述候选词元的字符或者字母的个数。
[0022] 可选的，所述计算多个候选词元的自由度包括：
[0023] 记录所述多个候选词元的邻接字，并统计所述多个候选词元的邻接字在所有语料中的出现次数；
[0024] 依次将所述多个候选词元选定为目标候选词元；
[0025] 计算选定的所述目标候选词元的邻接字在所有语料中的出现概率；
[0026] 基于计算出的所述出现概率计算所述邻接字的信息熵；
[0027] 将计算出的所述目标候选词元的所有邻接字的信息熵相加得到所述目标候选词元的自由度。
[0028] 可选的，所述对计算出的所述多个候选词元中每一个候选词元的凝聚度和自由度分别进行加权计算得到加权和包括：
[0029] 根据预设加权公式对所述多个候选词元中每一个候选词元的凝聚度和自由度分别进行加权计算得到加权和；
[0030] 所述预设加权公式为：
[0031] F(〇) =8(0)^0^1(0)^02
[0032] 或者，
[0033] F(Co) =S(c〇)*co ,]；((〇)*(〇 2+C ( ω ) * ω 3
[0034] 其中，F(c〇)表示所述加权和；S(c〇)表示候选词元的凝聚度；〇^表示为所述凝聚度预设的权重比例；I ( ω )表示候选词元的自由度；ω 2表示预先为所述自由度预设的权重比例；C(co)表示修正参数；ω3表示为所述修正参数预设的权重比例。
[0035] 可选的，所述修正参数为所述候选词元在所有语料中的出现概率；
[0036] 所述方法还包括：
[0037] 判断所述语料总长度是否大于预设阈值；
[0038] 当所述语料总长度低于预设阈值时，基于预设的幅度提高所述候选词元在所有语料中的出现概率的权重比例；
[0039] 当所述语料总长度大于预设阈值时，基于预设幅度降低所述候选词元在所有语料中的出现概率的权重比例。
[0040] 可选的，所述基于计算得到的所述加权和从所述多个候选词元中提取候选词或候选词组包括：
[0041 ] 将计算得到的所述加权和按照数值大小进行排序；
[0042] 基于所述排序将所述多个候选词元中加权和最高的m个候选词元作为候选词或者候选词组进行提取；
[0043] 其中，所述m的取值由用户设定。
[0044] 可选的，所述方法还包括：
[0045] 将提取出的所述候选词或者候选词组在人工审核界面输出；
[0046] 将在所述人工审核界面中审核通过的候选词或者候选词组导入搜索引擎的拼写建议或者分词词表。
[0047] 根据本公开实施例的第二方面，提供一种新词提取装置，所述装置包括：
[0048] 第一计算模块，被配置为计算多个候选词元的凝聚度；所述凝聚度表征所述候选词元作为固定词或固定词组的概率；
[0049] 第二计算模块，被配置为计算所述多个候选词元的自由度；所述自由度表征所述候选词元与固定词或者固定词组搭配的灵活度；所述自由度取值越高，表示所述候选词元可搭配的固定词或者固定词组越多；
[0050] 第三计算模块，被配置为对所述第一计算模块和所述第二计算模块计算出的所述多个候选词元中每一个候选词元的凝聚度和自由度分别进行加权计算得到加权和；
[0051] 提取模块，被配置为基于所述第三计算模块计算得到的所述加权和从所述多个候选词元中提取候选词或候选词组。
[0052] 可选的，所述装置还包括：
[0053] 第一计算模块，被配置为计算多个候选词元的凝聚度；所述凝聚度表征所述候选词元作为固定词或固定词组的概率；
[0054] 第二计算模块，被配置为计算所述多个候选词元的自由度；所述自由度表征所述候选词元与固定词或者固定词组搭配的灵活度；所述自由度取值越高，表示所述候选词元可搭配的固定词或者固定词组越多；
[0055] 第三计算模块，被配置为对所述第一计算模块和所述第二计算模块计算出的所述多个候选词元中每一个候选词元的凝聚度和自由度分别进行加权计算得到加权和；
[0056] 提取模块，被配置为基于所述第三计算模块计算得到的所述加权和从所述多个候选词元中提取候选词或候选词组。
[0057] 可选的，所述装置还包括：
[0058] 获取模块，被配置为获取语料；
[0059] 拆分模块，被配置为对所述获取模块获取到的所述语料进行词元拆分，以得到所述多个候选词元。
[0060] 可选的，所述语料包括商品名称和用户搜索日志。
[0061] 可选的，所述第一计算模块包括：
[0062] 第一统计子模块，被配置为统计所述多个候选词元在所有语料中的出现次数；
[0063] 第一选定子模块，被配置为将所述多个候选词元依次选定为目标候选词元；
[0064] 第一计算子模块，被配置为根据凝聚度计算公式计算所述第一选定子模块选定的所述目标候选词元的凝聚度。
[0065] 其中，所述凝聚度计算公式为：
[0066]
[0069] 所述S (A1A2…An)表示候选词元[A1A 2…AJ的凝聚度；所述P(A1AyAn)表示候选词元[A1A 2…AJ在所有语料中的出现概率；所述P(A1)和P(AyAn)分别表示从所述候选词兀[A 1A2…Aj中拆分出的字符[A1]和字符串[AyAJ在所有语料中的出现概率；所述出现概率为在所有语料中的出现次数与语料总长度的比值；所述η的取值表示组成所述候选词元的字符或者字母的个数。
[0070] 可选的，所述第二计算模块包括：
[0071] 第二统计子模块，被配置为记录所述多个候选词元的邻接字，并统计所述多个候选词元的邻接字在所有语料中的出现次数；
[0072] 第二选定子模块，被配置为依次将所述多个候选词元选定为目标候选词元；
[0073] 第二计算子模块，被配置为计算所述第二选定子模块选定的所述目标候选词元的邻接字在所有语料中的出现概率；
[0074] 第三计算子模块，被配置为基于所述第二计算子模块计算出的所述出现概率计算所述邻接字的信息熵；
[0075] 相加子模块，被配置为将所述第三计算模块计算出的所述目标候选词元的所有邻接字的信息熵相加得到所述目标候选词元的自由度。
[0076] 可选的，所述第三计算模块包括：
[0077] 加权子模块，被配置为根据预设加权公式对所述第一计算模块和所述第二计算模块计算出的所述多个候选词元中每一个候选词元的凝聚度和自由度分别进行加权计算得到加权和；
[0078] 所述预设加权公式为：
[0079] F(Co) =S(co)*co fl ( ω ) * ω 2
[0080] 或者，
[0081] F(co) = S(co)*co fl ( ω ) * ω 2+C ( ω ) * ω 3
[0082] 其中，F(co)表示所述加权和；S(co)表示候选词元的凝聚度；〇^表示为所述凝聚度预设的权重比例；I ( ω )表示候选词元的自由度；ω 2表示预先为所述自由度预设的权重比例；C(co)表示修正参数；ω3表示为所述修正参数预设的权重比例。
[0083] 可选的，所述修正参数为所述候选词元在所有语料中的出现概率；
[0084] 所述第三计算模块还包括：
[0085] 判断子模块，被配置为判断所述语料总长度是否大于预设阈值；
[0086] 提高子模块，被配置为在所述语料总长度低于预设阈值时，基于预设的幅度提高所述候选词元在所有语料中的出现概率的权重比例；
[0087] 降低子模块，被配置为在所述语料总长度大于预设阈值时，基于预设幅度降低所述候选词元在所有语料中的出现概率的权重比例。
[0088] 可选的，所述提取模块包括：
[0089] 排序子模块，被配置为将所述第三计算模块计算得到的所述加权和按照数值大小进行排序；
[0090] 提取子模块，被配置为基于所述排序将所述多个候选词元中加权和最高的m个候选词元作为候选词或者候选词组进行提取；其中，所述m的取值由用户设定。
[0091] 可选的，所述提取模块还包括：
[0092] 输出子模块，被配置为将所述提取子模块提取出的所述候选词或者候选词组在人工审核界面输出；
[0093] 导入子模块，被配置将在所述人工审核界面中审核通过的候选词或者候选词组导入搜索引擎的拼写建议或者分词词表。
[0094] 根据本公开实施例的第三方面，还提供一种新词提取装置，包括：
[0095] 处理器；
[0096] 用于存储处理器可执行指令的存储器；
[0097] 其中，所述处理器被配置为：
[0098] 计算多个候选词元的凝聚度；所述凝聚度表征所述候选词元作为固定词或固定词组的概率；
[0099] 计算所述多个候选词元的自由度；所述自由度表征所述候选词元与固定词或者固定词组搭配的灵活度；所述自由度取值越高，表示所述候选词元可搭配的固定词或者固定词组越多；
[0100] 对计算出的所述多个候选词元中每一个候选词元的凝聚度和自由度分别进行加权计算得到加权和；
[0101] 基于计算得到的所述加权和从所述多个候选词元中提取候选词或候选词组。
[0102] 本公开的实施例提供的技术方案可以包括以下有益效果：
[0103] 本公开的以上实施例中，通过计算多个候选词元的凝聚度；所述凝聚度表征所述候选词元作为固定词或固定词组的概率；计算所述多个候选词元的自由度；所述自由度表征所述候选词元与固定词或者固定词组搭配的灵活度；所述自由度取值越高，表示所述候选词元可搭配的固定词或者固定词组越多；当计算出多个候选词的凝聚度后，对计算出的所述多个候选词元中每一个候选词元的凝聚度和自由度分别进行加权计算得到加权和，并基于计算得到的所述加权和从所述多个候选词元中提取候选词或候选词组，由于本公开中，在从候选词元中提取候选词或候选词组时，引入了候选词元的凝聚度和自由度的概念，从而可以实现从候选词元中更加智能的提取新的候选词或者候选词组，并且可以显著提升候选词或者候选词组提取的精确度。
[0104] 应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
【附图说明】
[0105] 此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
[0106] 图1是根据一示例性实施例示出的一种新词提取方法的流程示意图；
[0107] 图2是根据一示例性实施例示出的另一种新词提取方法的流程示意图；
[0108] 图3是根据一示例性实施例示出的一种新词提取装置的示意框图；
[0109] 图4是根据一示例性实施例示出的另一种新词提取装置的示意框图；
[0110] 图5是根据一示例性实施例示出的另一种新词提取装置的示意框图；
[0111] 图6是根据一示例性实施例示出的另一种新词提取装置的示意框图；
[0112] 图7是根据一示例性实施例示出的另一种新词提取装置的示意框图；
[0113] 图8是根据一示例性实施例示出的另一种新词提取装置的示意框图；
[0114] 图9是根据一示例性实施例示出的另一种新词提取装置的示意框图；
[0115] 图10是根据一示例性实施例示出的另一种新词提取装置的示意框图；
[0116] 图11是根据一示例性实施例示出的一种用于新词提取装置的一结构示意图。
【具体实施方式】
[0117] 这里将详细地

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵旭海;孟超;王海洲;张寅;
技术所有人：小米科技有限责任公司;
我是此专利的发明人

上一篇：一种多语言翻译装置和方法
上一篇：一种生物医学事件的触发词标注系统及方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。