对用户信息进行个性化处理的方法及系统的制作方法

文档序号：6623482阅读：185来源：国知局

对用户信息进行个性化处理的方法及系统的制作方法
【专利摘要】本发明提出一种对用户信息进行个性化处理的方法及系统。其中，方法包括以下步骤：获取复合词，复合词是用户的分词模型中没有的复合词；根据已有的第一语料，对复合词进行分词并确定每个分词的品词，第一语料是分词模型中的训练语料，已有的第一语料是根据用户的历史信息确定的；根据每个分词的品词以及预先建立的映射表，确定复合词的品词，映射表用于表明品词串与整体品词之间的对应关系；将复合词与复合词的品词对应保存在分词模型中，得到用户的个性化分词模型。根据本发明实施例的方法，通过每个分词的品词和映射表确定复合词的品词，以得到用户的个性化分词模型，从而可以提高分词效率，满足不同用户的各种使用需求。
【专利说明】对用户信息进行个性化处理的方法及系统

【技术领域】
[0001]本发明涉及输入法【技术领域】，特别涉及一种对用户信息进行个性化处理的方法及系统。

【背景技术】
[0002]用户的打字输入习惯因人而异，不同的用户有不同的切词习惯，而在用户输入中文日文等语言的时候，一般通过空格键等变换键来达到用户的输入目的。
[0003]对于日文而言，有些用户喜欢连续地输入一长串假名，包括复合词以及前后的助词等。而有些用户的输入行为则比较保守，即首先输入一个复合词对应的假名，然后按下变换键，之后再输入后接助词等。
[0004]现有的输入法是着重对一般用户经常使用的组合词或复合词为对象而制定的，没有考虑到每个用户的个性化需求和输入习惯，无法满足不同用户的需求，由此会影响用户的体验。

【发明内容】

[0005]本发明的目的旨在至少解决上述的技术缺陷之一。
[0006]为此，本发明的一个目的在于提出一种对用户信息进行个性化处理的方法。
[0007]本发明的另一目的在于提出一种对用户信息进行个性化处理的系统。
[0008]为达到上述目的，本发明一方面的实施例提出一种对用户信息进行个性化处理的方法，包括以下步骤:获取复合词，所述复合词是用户的分词模型中没有的复合词；根据已有的第一语料，对所述复合词进行分词并确定每个分词的品词，所述第一语料是所述分词模型中的训练语料，所述已有的第一语料是根据所述用户的历史信息确定的；根据所述每个分词的品词以及预先建立的映射表，确定所述复合词的品词，所述映射表用于表明品词串与整体品词之间的对应关系；将所述复合词与所述复合词的品词对应保存在所述分词模型中，得到所述用户的个性化分词模型。
[0009]根据本发明实施例的方法，通过每个分词的品词和映射表确定复合词的品词，以得到用户的个性化分词模型，从而可以提高分词效率，满足不同用户的各种使用需求。
[0010]在本发明的一个实施例中，所述得到所述用户的个性化分词模型之后，所述方法还包括:获取第二语料，所述第二语料是输入法模型中的训练语料；根据所述个性化分词模型，对所述第二语料重新进行分词，得到所述用户的个性化输入法模型。
[0011]在本发明的一个实施例中，所述得到所述用户的个性化输入法模型之后，所述方法还包括:接收用户输入的字符；根据所述输入的字符以及所述个性化输入法模型，向所述用户展示与所述字符对应的单词，所述单词包括至少一个字。
[0012]在本发明的一个实施例中，还包括:收集复合词，并对收集的复合词标注整体品词；获取收集的复合词的分词以及分词品词，得到由分词品词组成的品词串；建立所述品词串与所述整体品词的对应关系，以得到所述映射表。
[0013]在本发明的一个实施例中，所述获取第二语料，包括:从用户日志文件中获取使用频率大于预设阈值的复合语作为所述第二语料。
[0014]在本发明的一个实施例中，所述根据所述个性化分词模型，对所述第二语料重新进行分词，包括:如果所述第二语料包括第一部分，所述第一部分由预设粒度的至少两个单词组成，且所述第一部分在所述个性化分词模型中，则将所述第一部分作为一个复合词。
[0015]在本发明的一个实施例中，所述根据所述输入的字符及所述个性化输入法模型，向所述用户展示与所述字符对应的单词，包括:如果根据预设的概率算法，在输入为所述字符时所述第一部分的输出概率最大，则将所述第一部分作为一个复合词整体展示给所述用户，其中，所述第一部分及所述第一部分对应的品词作为整体参与所述概率算法。
[0016]本发明另一方面的实施例提出了一种对用户信息进行个性化处理的系统，包括:第一获取模块，用于获取用户的分词模型中没有的复合词；品词确定模块，用于根据已有的第一语料，对所述复合词进行分词并确定每个分词的品词，所述第一语料是所述分词模型中的训练语料，所述已有的第一语料是根据所述用户的历史信息确定的；映射表建立模块，用于根据所述每个分词的品词以及预先建立的映射表，确定所述复合词的品词，所述映射表用于表明品词串与整体品词之间的对应关系；分词模型建立模块，用于将所述复合词与所述复合词的品词对应保存在所述分词模型中，得到所述用户的个性化分词模型。
[0017]根据本发明实施例的系统，通过每个分词的品词和映射表确定复合词的品词，以得到用户的个性化分词模型，从而可以提高分词效率，满足不同用户的各种使用需求。
[0018]在本发明的一个实施例中，还包括:第二获取模块，用于获取第二语料，所述第二语料是输入法模型中的训练语料；输入法模型生成模块，用于根据所述个性化分词模型，对所述第二语料重新进行分词，得到所述用户的个性化输入法模型。
[0019]在本发明的一个实施例中，所述输入法模型生成模块还用于，根据用户输入的字符以及所述个性化输入法模型，向所述用户展示与所述字符对应的单词，所述单词包括至少一个字。
[0020]在本发明的一个实施例中，所述映射表建立模块用于对收集的复合词标注整体品词，并获取收集的复合词的分词以及分词品词，得到由分词品词组成的品词串，以建立所述品词串与所述整体品词的对应关系，以得到所述映射表。
[0021]在本发明的一个实施例中，所述第二获取模块从用户日志文件中获取使用频率大于预设阈值的复合语作为所述第二语料。
[0022]在本发明的一个实施例中，在所述第二语料包括第一部分时，所述第一部分由预设粒度的至少两个单词组成，所述输入法模型生成模块在所述个性化分词模型中，将所述第一部分作为一个复合词。
[0023]在本发明的一个实施例中，在输入为所述字符时所述第一部分的输出概率最大时，所述输入法模型生成模块将所述第一部分作为一个复合词整体展示给所述用户，其中，所述第一部分及所述第一部分对应的品词作为整体参与所述概率算法。
[0024]本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

【专利附图】

【附图说明】
[0025]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中:
[0026]图1为根据本发明一个实施例的对用户信息进行个性化处理的方法的流程图；
[0027]图2为根据本发明一个实施例的复合词的组成元素与该复合语的映射关系示意图；
[0028]图3为根据本发明另一个实施例的复合词的组成元素与该复合语的映射关系示意图；
[0029]图4为根据本发明实施例的品词之间的转移概率的计算流程示意图；
[0030]图5为根据本发明一个实施例的对新复合语添加到分词语料中的过程示意图；
[0031]图6为对不同输入习惯的用户输入假名进行预测的示意图；
[0032]图7为根据本发明一个实施例的移动终端中日文输入法示意图；
[0033]图8为根据本发明一个实施例的对用户信息进行个性化处理的系统的结构框图；以及
[0034]图9为根据本发明另一个实施例的对用户信息进行个性化处理的系统的结构框图。

【具体实施方式】
[0035]下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
[0036]在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底” “内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。
[0037]此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。
[0038]在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。
[0039]在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方，或仅仅表示第一特征水平高度小于第二特征。
[0040]图1为本发明实施例的对用户信息进行个性化处理的方法的流程图。如图1所示，根据本发明实施例的对用户信息进行个性化处理的方法，包括以下步骤:
[0041]步骤S101，获取用户的分词模型中没有的复合词。
[0042]步骤S102，根据已有的第一语料，对复合词进行分词并确定每个分词的品词，第一语料是分词模型中的训练语料，已有的第一语料是根据用户的历史信息确定的。
[0043]步骤S103，根据每个分词的品词以及预先建立的映射表，确定复合词的品词，映射表用于表明品词串与整体品词之间的对应关系。
[0044]具体地，收集复合词，并对收集的复合词标注整体品词，获取收集的复合词的分词以及分词品词，得到由分词品词组成的品词串。建立品词串与整体品词的对应关系，以得到映射表。
[0045]具体而言，对于用户输入的一个字符串而言，“求人情報検索，1288，1288，3273，名詞，固有名詞，一般，*，*，*，求人情報検索，今Λ々夕 > 夕3々*々 > > 寸夕，3C Λ ^
>夕3々*々^ ^ ”，其中，复合词“求人情報検索”是由三个元素组成如下表1所示:
[0046]

【权利要求】
1.一种对用户信息进行个性化处理的方法，其特征在于，包括以下步骤: 获取复合词，所述复合词是用户的分词模型中没有的复合词；根据已有的第一语料，对所述复合词进行分词并确定每个分词的品词，所述第一语料是所述分词模型中的训练语料，所述已有的第一语料是根据所述用户的历史信息确定的；根据所述每个分词的品词以及预先建立的映射表，确定所述复合词的品词，所述映射表用于表明品词串与整体品词之间的对应关系；将所述复合词与所述复合词的品词对应保存在所述分词模型中，得到所述用户的个性化分词模型。
2.根据权利要求1所述的方法，其特征在于，所述得到所述用户的个性化分词模型之后，所述方法还包括: 获取第二语料，所述第二语料是输入法模型中的训练语料；根据所述个性化分词模型，对所述第二语料重新进行分词，得到所述用户的个性化输入法模型。
3.根据权利要求2所述的方法，其特征在于，所述得到所述用户的个性化输入法模型之后，所述方法还包括: 接收用户输入的字符；根据所述输入的字符以及所述个性化输入法模型，向所述用户展示与所述字符对应的单词，所述单词包括至少一个字。
4.根据权利要求1所述的方法，其特征在于，还包括: 收集复合词，并对收集的复合词标注整体品词；获取收集的复合词的分词以及分词品词，得到由分词品词组成的品词串；建立所述品词串与所述整体品词的对应关系，以得到所述映射表。
5.根据权利要求2所述的方法，其特征在于，所述获取第二语料，包括: 从用户日志文件中获取使用频率大于预设阈值的复合语作为所述第二语料。
6.根据权利要求2所述的方法，其特征在于，所述根据所述个性化分词模型，对所述第二语料重新进行分词，包括: 如果所述第二语料包括第一部分，所述第一部分由预设粒度的至少两个单词组成，且所述第一部分在所述个性化分词模型中，则将所述第一部分作为一个复合词。
7.根据权利要求3所述的方法，其特征在于，所述根据所述输入的字符及所述个性化输入法模型，向所述用户展示与所述字符对应的单词，包括: 如果根据预设的概率算法，在输入为所述字符时所述第一部分的输出概率最大，则将所述第一部分作为一个复合词整体展示给所述用户，其中，所述第一部分及所述第一部分对应的品词作为整体参与所述概率算法。
8.一种对用户信息进行个性化处理的系统，其特征在于，包括: 第一获取模块，用于获取用户的分词模型中没有的复合词；品词确定模块，用于根据已有的第一语料，对所述复合词进行分词并确定每个分词的品词，所述第一语料是所述分词模型中的训练语料，所述已有的第一语料是根据所述用户的历史信息确定的；映射表建立模块，用于根据所述每个分词的品词以及预先建立的映射表，确定所述复合词的品词，所述映射表用于表明品词串与整体品词之间的对应关系；分词模型建立模块，用于将所述复合词与所述复合词的品词对应保存在所述分词模型中，得到所述用户的个性化分词模型。
9.根据权利要求8所述的系统，其特征在于，还包括: 第二获取模块，用于获取第二语料，所述第二语料是输入法模型中的训练语料；输入法模型生成模块，用于根据所述个性化分词模型，对所述第二语料重新进行分词，得到所述用户的个性化输入法模型。
10.根据权利要求9所述的系统，其特征在于，所述输入法模型生成模块还用于，根据用户输入的字符以及所述个性化输入法模型，向所述用户展示与所述字符对应的单词，所述单词包括至少一个字。
11.根据权利要求8所述的系统，其特征在于，所述映射表建立模块用于对收集的复合词标注整体品词，并获取收集的复合词的分词以及分词品词，得到由分词品词组成的品词串，以建立所述品词串与所述整体品词的对应关系，以得到所述映射表。
12.根据权利要求9所述的系统，其特征在于，所述第二获取模块从用户日志文件中获取使用频率大于预设阈值的复合语作为所述第二语料。
13.根据权利要求9所述的系统，其特征在于，在所述第二语料包括第一部分时，所述第一部分由预设粒度的至少两个单词组成，所述输入法模型生成模块在所述个性化分词模型中，将所述第一部分作为一个复合词。
14.根据权利要求10所述的系统，其特征在于，在输入为所述字符时所述第一部分的输出概率最大时，所述输入法模型生成模块将所述第一部分作为一个复合词整体展不给所述用户，其中，所述第一部分及所述第一部分对应的品词作为整体参与所述概率算法。
【文档编号】G06F17/27GK104182390SQ201410400307
【公开日】2014年12月3日申请日期:2014年8月14日优先权日:2014年8月14日
【发明者】吴先超申请人:百度在线网络技术（北京）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴先超
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。