新词提取方法和装置的制造方法

文档序号:9506171阅读:178来源:国知局
新词提取方法和装置的制造方法
【技术领域】
[0001] 本公开涉及终端领域,尤其涉及新词提取方法和装置。
【背景技术】
[0002] 随着电子商务网站在售商品种类的增多、以及用户每日搜索词句的与时倶进,出 现了很多特有的品牌名和流行的词语搭配。而这些词语搭配通常并未在搜索引擎原有的分 词词表中保存,从而对于用户搜索的一些特有的词语搭配,搜索引擎可能无法准确的进行 拆分,从而可能会出现搜索结果不符合用户预期的现象。

【发明内容】

[0003] 为克服相关技术中存在的问题,本公开提供一种新词提取方法和装置。
[0004] 根据本公开实施例的第一方面,提供一种新词提取方法,所述方法包括:
[0005] 计算多个候选词元的凝聚度;所述凝聚度表征所述候选词元作为固定词或固定词 组的概率;
[0006] 计算所述多个候选词元的自由度;所述自由度表征所述候选词元与固定词或者固 定词组搭配的灵活度;所述自由度取值越高,表示所述候选词元可搭配的固定词或者固定 词组越多;
[0007] 对计算出的所述多个候选词元中每一个候选词元的凝聚度和自由度分别进行加 权计算得到加权和;
[0008] 基于计算得到的所述加权和从所述多个候选词元中提取候选词或候选词组。
[0009] 可选的,所述方法还包括:
[0010] 获取语料;
[0011] 对获取到的所述语料进行词元拆分,以得到所述多个候选词元。
[0012] 可选的,所述语料包括商品名称和用户搜索日志。
[0013] 可选的,所述计算多个候选词元的凝聚度包括:
[0014] 统计所述多个候选词元在所有语料中的出现次数;
[0015] 将所述多个候选词元依次选定为目标候选词元;
[0016] 根据凝聚度计算公式计算选定的所述目标候选词元的凝聚度。
[0017] 其中,所述凝聚度计算公式为:

[0021] 所述S (A1A2…An)表示候选词元[A1A 2…AJ的凝聚度;所述P(A1A2-An)表示候选 词元[A 1A2…AJ在所有语料中的出现概率;所述P(A1)和P(AyAn)分别表示从所述候选词 兀[A 1A2…Aj中拆分出的字符[A1]和字符串[AyAJ在所有语料中的出现概率;所述出现 概率为在所有语料中的出现次数与语料总长度的比值;所述η的取值表示组成所述候选词 元的字符或者字母的个数。
[0022] 可选的,所述计算多个候选词元的自由度包括:
[0023] 记录所述多个候选词元的邻接字,并统计所述多个候选词元的邻接字在所有语料 中的出现次数;
[0024] 依次将所述多个候选词元选定为目标候选词元;
[0025] 计算选定的所述目标候选词元的邻接字在所有语料中的出现概率;
[0026] 基于计算出的所述出现概率计算所述邻接字的信息熵;
[0027] 将计算出的所述目标候选词元的所有邻接字的信息熵相加得到所述目标候选词 元的自由度。
[0028] 可选的,所述对计算出的所述多个候选词元中每一个候选词元的凝聚度和自由度 分别进行加权计算得到加权和包括:
[0029] 根据预设加权公式对所述多个候选词元中每一个候选词元的凝聚度和自由度分 别进行加权计算得到加权和;
[0030] 所述预设加权公式为:
[0031] F(〇) =8(0)^0^1(0)^02
[0032] 或者,
[0033] F(Co) =S(c〇)*co ,];((〇)*(〇 2+C ( ω ) * ω 3
[0034] 其中,F(c〇)表示所述加权和;S(c〇)表示候选词元的凝聚度;〇^表示为所述凝聚 度预设的权重比例;I ( ω )表示候选词元的自由度;ω 2表示预先为所述自由度预设的权重 比例;C(co)表示修正参数;ω3表示为所述修正参数预设的权重比例。
[0035] 可选的,所述修正参数为所述候选词元在所有语料中的出现概率;
[0036] 所述方法还包括:
[0037] 判断所述语料总长度是否大于预设阈值;
[0038] 当所述语料总长度低于预设阈值时,基于预设的幅度提高所述候选词元在所有语 料中的出现概率的权重比例;
[0039] 当所述语料总长度大于预设阈值时,基于预设幅度降低所述候选词元在所有语料 中的出现概率的权重比例。
[0040] 可选的,所述基于计算得到的所述加权和从所述多个候选词元中提取候选词或候 选词组包括:
[0041 ] 将计算得到的所述加权和按照数值大小进行排序;
[0042] 基于所述排序将所述多个候选词元中加权和最高的m个候选词元作为候选词或 者候选词组进行提取;
[0043] 其中,所述m的取值由用户设定。
[0044] 可选的,所述方法还包括:
[0045] 将提取出的所述候选词或者候选词组在人工审核界面输出;
[0046] 将在所述人工审核界面中审核通过的候选词或者候选词组导入搜索引擎的拼写 建议或者分词词表。
[0047] 根据本公开实施例的第二方面,提供一种新词提取装置,所述装置包括:
[0048] 第一计算模块,被配置为计算多个候选词元的凝聚度;所述凝聚度表征所述候选 词元作为固定词或固定词组的概率;
[0049] 第二计算模块,被配置为计算所述多个候选词元的自由度;所述自由度表征所述 候选词元与固定词或者固定词组搭配的灵活度;所述自由度取值越高,表示所述候选词元 可搭配的固定词或者固定词组越多;
[0050] 第三计算模块,被配置为对所述第一计算模块和所述第二计算模块计算出的所述 多个候选词元中每一个候选词元的凝聚度和自由度分别进行加权计算得到加权和;
[0051] 提取模块,被配置为基于所述第三计算模块计算得到的所述加权和从所述多个候 选词元中提取候选词或候选词组。
[0052] 可选的,所述装置还包括:
[0053] 第一计算模块,被配置为计算多个候选词元的凝聚度;所述凝聚度表征所述候选 词元作为固定词或固定词组的概率;
[0054] 第二计算模块,被配置为计算所述多个候选词元的自由度;所述自由度表征所述 候选词元与固定词或者固定词组搭配的灵活度;所述自由度取值越高,表示所述候选词元 可搭配的固定词或者固定词组越多;
[0055] 第三计算模块,被配置为对所述第一计算模块和所述第二计算模块计算出的所述 多个候选词元中每一个候选词元的凝聚度和自由度分别进行加权计算得到加权和;
[0056] 提取模块,被配置为基于所述第三计算模块计算得到的所述加权和从所述多个候 选词元中提取候选词或候选词组。
[0057] 可选的,所述装置还包括:
[0058] 获取模块,被配置为获取语料;
[0059] 拆分模块,被配置为对所述获取模块获取到的所述语料进行词元拆分,以得到所 述多个候选词元。
[0060] 可选的,所述语料包括商品名称和用户搜索日志。
[0061] 可选的,所述第一计算模块包括:
[0062] 第一统计子模块,被配置为统计所述多个候选词元在所有语料中的出现次数;
[0063] 第一选定子模块,被配置为将所述多个候选词元依次选定为目标候选词元;
[0064] 第一计算子模块,被配置为根据凝聚度计算公式计算所述第一选定子模块选定的 所述目标候选词元的凝聚度。
[0065] 其中,所述凝聚度计算公式为:
[0066]
[0069] 所述S (A1A2…An)表示候选词元[A1A 2…AJ的凝聚度;所述P(A1AyAn)表示候选 词元[A1A 2…AJ在所有语料中的出现概率;所述P(A1)和P(AyAn)分别表示从所述候选词 兀[A 1A2…Aj中拆分出的字符[A1]和字符串[AyAJ在所有语料中的出现概率;所述出现 概率为在所有语料中的出现次数与语料总长度的比值;所述η的取值表示组成所述候选词 元的字符或者字母的个数。
[0070] 可选的,所述第二计算模块包括:
[0071] 第二统计子模块,被配置为记录所述多个候选词元的邻接字,并统计所述多个候 选词元的邻接字在所有语料中的出现次数;
[0072] 第二选定子模块,被配置为依次将所述多个候选词元选定为目标候选词元;
[0073] 第二计算子模块,被配置为计算所述第二选定子模块选定的所述目标候选词元的 邻接字在所有语料中的出现概率;
[0074] 第三计算子模块,被配置为基于所述第二计算子模块计算出的所述出现概率计算 所述邻接字的信息熵;
[0075] 相加子模块,被配置为将所述第三计算模块计算出的所述目标候选词元的所有邻 接字的信息熵相加得到所述目标候选词元的自由度。
[0076] 可选的,所述第三计算模块包括:
[0077] 加权子模块,被配置为根据预设加权公式对所述第一计算模块和所述第二计算模 块计算出的所述多个候选词元中每一个候选词元的凝聚度和自由度分别进行加权计算得 到加权和;
[0078] 所述预设加权公式为:
[0079] F(Co) =S(co)*co fl ( ω ) * ω 2
[0080] 或者,
[0081] F(co) = S(co)*co fl ( ω ) * ω 2+C ( ω ) * ω 3
[0082] 其中,F(co)表示所述加权和;S(co)表示候选词元的凝聚度;〇^表示为所述凝聚 度预设的权重比例;I ( ω )表示候选词元的自由度;ω 2表示预先为所述自由度预设的权重 比例;C(co)表示修正参数;ω3表示为所述修正参数预设的权重比例。
[0083] 可选的,所述修正参数为所述候选词元在所有语料中的出现概率;
[0084] 所述第三计算模块还包括:
[0085] 判断子模块,被配置为判断所述语料总长度是否大于预设阈值;
[0086] 提高子模块,被配置为在所述语料总长度低于预设阈值时,基于预设的幅度提高 所述候选词元在所有语料中的出现概率的权重比例;
[0087] 降低子模块,被配置为在所述语料总长度大于预设阈值时,基于预设幅度降低所 述候选词元在所有语料中的出现概率的权重比例。
[0088] 可选的,所述提取模块包括:
[0089] 排序子模块,被配置为将所述第三计算模块计算得到的所述加权和按照数值大小 进行排序;
[0090] 提取子模块,被配置为基于所述排序将所述多个候选词元中加权和最高的m个候 选词元作为候选词或者候选词组进行提取;其中,所述m的取值由用户设定。
[0091] 可选的,所述提取模块还包括:
[0092] 输出子模块,被配置为将所述提取子模块提取出的所述候选词或者候选词组在人 工审核界面输出;
[0093] 导入子模块,被配置将在所述人工审核界面中审核通过的候选词或者候选词组导 入搜索引擎的拼写建议或者分词词表。
[0094] 根据本公开实施例的第三方面,还提供一种新词提取装置,包括:
[0095] 处理器;
[0096] 用于存储处理器可执行指令的存储器;
[0097] 其中,所述处理器被配置为:
[0098] 计算多个候选词元的凝聚度;所述凝聚度表征所述候选词元作为固定词或固定词 组的概率;
[0099] 计算所述多个候选词元的自由度;所述自由度表征所述候选词元与固定词或者固 定词组搭配的灵活度;所述自由度取值越高,表示所述候选词元可搭配的固定词或者固定 词组越多;
[0100] 对计算出的所述多个候选词元中每一个候选词元的凝聚度和自由度分别进行加 权计算得到加权和;
[0101] 基于计算得到的所述加权和从所述多个候选词元中提取候选词或候选词组。
[0102] 本公开的实施例提供的技术方案可以包括以下有益效果:
[0103] 本公开的以上实施例中,通过计算多个候选词元的凝聚度;所述凝聚度表征所述 候选词元作为固定词或固定词组的概率;计算所述多个候选词元的自由度;所述自由度表 征所述候选词元与固定词或者固定词组搭配的灵活度;所述自由度取值越高,表示所述候 选词元可搭配的固定词或者固定词组越多;当计算出多个候选词的凝聚度后,对计算出的 所述多个候选词元中每一个候选词元的凝聚度和自由度分别进行加权计算得到加权和,并 基于计算得到的所述加权和从所述多个候选词元中提取候选词或候选词组,由于本公开 中,在从候选词元中提取候选词或候选词组时,引入了候选词元的凝聚度和自由度的概念, 从而可以实现从候选词元中更加智能的提取新的候选词或者候选词组,并且可以显著提升 候选词或者候选词组提取的精确度。
[0104] 应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不 能限制本公开。
【附图说明】
[0105] 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施 例,并与说明书一起用于解释本公开的原理。
[0106] 图1是根据一示例性实施例示出的一种新词提取方法的流程示意图;
[0107] 图2是根据一示例性实施例示出的另一种新词提取方法的流程示意图;
[0108] 图3是根据一示例性实施例示出的一种新词提取装置的示意框图;
[0109] 图4是根据一示例性实施例示出的另一种新词提取装置的示意框图;
[0110] 图5是根据一示例性实施例示出的另一种新词提取装置的示意框图;
[0111] 图6是根据一示例性实施例示出的另一种新词提取装置的示意框图;
[0112] 图7是根据一示例性实施例示出的另一种新词提取装置的示意框图;
[0113] 图8是根据一示例性实施例示出的另一种新词提取装置的示意框图;
[0114] 图9是根据一示例性实施例示出的另一种新词提取装置的示意框图;
[0115] 图10是根据一示例性实施例示出的另一种新词提取装置的示意框图;
[0116] 图11是根据一示例性实施例示出的一种用于新词提取装置的一结构示意图。
【具体实施方式】
[0117] 这里将详细地
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1