获取新词的方法和装置的制作方法

文档序号:6484353阅读:175来源:国知局

专利名称::获取新词的方法和装置的制作方法
技术领域
:本发明涉及计算枳4支术领域,特别涉及一种获耳又新词的方法和装置。
背景技术
:随着信息化技术的迅猛发展,互联网上的信息量呈现指数爆炸型增长趋势,大量的网络新词随之产生。通常在某些热门事件产生后,往往有不少与之相关的新词产生,并在人们的日常生活中持续一定的热度,例如"打酱油"、"俯卧撑"、"躲猫猫"等词。互联网上的新词往往呈现产生速度快,覆盖领域广的特点,如何获取这些新词,并使之服务于信息处理领域,成为一个迫切的需求和热门的研究方向。为了能够获取新词,现有技术提供了如下两种方法第一种方法,利用搜索引擎统计侯选新词的频率信息,根据频率信息并结合基于分析侯选新词上下文的规则,从侯选新词中获取新词。第二种方法,利用搜索引擎对侯选新词进行精确搜索和模糊搜索,获取搜索的结果,根据结果从侯选新词中获取新词。在实现本发明的过程中,发明人发现现有技术至少存在以下问题第一种方法,不能够获取专业领域的新词,具有局限性;获取长度较长的新词的准确性较低。第二种方法,在搜索引擎中对每一个候选新词进行搜索,算法效率低,实用性差。
发明内容为了能够获取专业领域的新词,准确地获取长度较长的新词,提高算法算法效率以及增加实用性,本发明实施例提供了一种获取新词的方法和装置。所述技术方案如下一种获^F又新词的方法,所述方法包括根据输入法词典和专业领域词典获取专业领域的专业用户;根据所述输入法词典获取所述专业用户使用的词,将所述获取的词作为所述专业领域的侯选词,所述输入法词典用于存储用户使用的词,所述用户包括专业用户和普通用户;根据所述专业用户和所述普通用户使用所述候选词的频率情况从所述候选词中获取侯选新词;将所述侯选新词与所述专业领域词典中的词进行比4交,确定所述专业领域词典中不存在的侯选新词为新词。所述才艮据输入法词典和专业领域词典获取专业领域的专业用户之前,还包括乂人所述专业领i或词典去除噪音词的步骤,所述步骤包才舌根据所述输入法词典统计使用所述专业领域词典中的词的用户个数占所有用户的第一比例值;去除所述专业领域词典中所述第一比例值小于第一阈值的词和所述第一比例值大于第二阈值的词,其中,所述第一阈值小于所述第二阈值。根据输入法词典和专业领域词典获取专业领域的专业用户,包括根据输入法词典统计所述用户使用所述专业领域词典中的词的数量;根据所述词的数量确定所述用户使用所述专业领域词典的词的第一频率值;石角定所述第一频率值超过第三阈值的用户为>斤述专业用户。所述根据所述专业用户和所述普通用户使用所述候选词的频率情况从所述候选词中获取侯选新词,包括确定所述专业用户使用所述侯选词的第二频率值;确定所述普通用户使用所述候选词的第三频率值;根据所述第二频率值与所述第三频率值获取所述侯选词的第二比例值;根据所述第二比例值从所述候选词中获取所述侯选新词。所述根据所述第二比例值,人所述侯选词中获取侯选新词包括对所述侯选词按所述第二比例值进行排序;按照从大到小的顺序从所述排序后的候选词中获取前预设个数的候选词作为所述侯选新词,或确定所述第二比例值大于第四阈值的候选词作为所述侯选新词。一种获取新词的装置,所述装置包括第一获取模块,用于根据输入法词典和专业领域词典获取专业领域的专业用户;第二获取模块,用于根据所述输入法词典获取所述专业用户使用的词,将所述获取的词作为所述专业领域的侯选词,所述输入法词典用于存储用户使用的词,所述用户包括专业用户和普通用户;第一确定模块,用于根据所述专业用户和所述普通用户使用所述候选词的频率情况从所述候选词中获取侯选新词;第二确定模块,用于将所述侯选新词与所述专业领域词典中的词进行比较,确定所述专业领域词典中不存在的侯选新词为新词。所述装置还包括用户个数占所有用户的第一比例值;去除所述专业领域词典中所述第一比例值小于第一阈值的词和所述第一比例值大于第二阈值的词,其中,所述第一阈值小于所述第二阈值。所述第一获取模块包括统计单元,用于根据所述输入法词典统计所述用户使用所述专业领域词典中的词的数量;第一确定单元,用'于根据所述词的数量确定所述用户使用所述'专业领域词典的词的第一频率值;第二确定单元,用于确定所述第一频率值超过第三阈值的用户为所述专业用户。所述第一确定模块包括第三确定单元,用于确定所述专业用户使用所述侯选词的第二频率值;第四确定单元,用于确定所述普通用户^f吏用所述候选词的第三频率值;笫一获取单元,用于根据所述第二频率值与所述第三频率值获取所述侯选词的第二比例值;第二获取单元,用于根据所述第二比例值从所述候选词中获取所述侯选新词。所述第二获取单元,包括排序子单元,用于对所述侯选词:接所述第二比例值进行排序;获取子单元,用于按照从大到小的顺序从所述排序后的候选词中获取前预设个数的候选词作为所述侯选新词,或确定所述第二比例值大于第四阈值的候选词作为所迷侯选新词。本发明实施例,根据输入法词典和专业领域词典获取专业用户,才艮据输入法词典获取专业用户使用的词为侯选词,根据专业用户和普通用户使用侯选词的频率情况获取侯选新词,确定专业领域词典中不存在的侯选新词为新词,能够获取专业领域的新词,能够准确地获取长度较长的新词,提高了算法的效率,增加实用性。图l是本发明实施例提供的一种获取新词的方法流程图;图2是本发明实施例提供的一种获取新词的方法详细流程图;图3是本发明实施例提供的一种获取新词的装置示意图。具体实施例方式为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。实施例1'如图l所示,本发明实施例提供了一种获取新词的方法,包括步骤101:根据输入法词典和专业领域词典获取专业领域的专业用户;其中,根据输入法词典和专业领域词典获取专业领域的专业用户的详细过程参见实施例2的步骤202的相应部分,在此不再赘述。专业领域指特定专业的领域,如计算才几领域、通信领域等;专业用户是专业领域中的/人业人员,如计算机领域的软件设计师、网络工程师等;输入法词典用于存储用户使用的词的集合,用户包括专业用户和普通用户;专业领域词典用于存储专业领域的词的集合,如计算斗几领域词典用于存储显卡、声卡等计算才几领域的词。步骤102:根据输入法词典获取专业用户使用的词,将获取的词作为专业领域的侯选词;其中,根据专业用户获取专业领域的侯选词的详细过程参见实施例2的步骤203的相应部分,在此不再赘述。步骤103:根据专业用户和普通用户使用候选词的频率情况从候选词中获取候选新词;其中,根据专业用户和普通用户使用侯选词的频率情况获取侯选新词的详细过程参见实施例2的步骤204-步骤207的相应部分,在此不再赘述。步骤104:将侯选新词与专业领域词典中的词进行比较,确定专业领域词典中不存在的侯选新词为新词。在本发明实施例中,通过专业领域词典获取专业用户,根据专业用户从输入法词典中获取专业领域的侯选词,根据专业用户和普通用户使用侯选词的频率情况获取侯选新词,确定专业领域词典中不存在的侯选新词为新词,从而能够获取专业领域的新词,能够准确地获取长度较长的新词,算法执行效率高,实用性强。实施例2如图2所示,本发明实施例提供了一种获取新词的方法,包括步骤201:去除专业领域词典中的噪音词。其中,专业领域的词被整个用户使用的比例分布在第一阈值至第二阈值的范围之内,其中,第一阈值小于第二阈值,噪音词是非专业领域的词,如"学习"是与计算机^贞域不相关的噪音词,噪音词-波整个用户使i的比例分布在小于第一阈值或大于第二阈值的范围之内。本实施例基于上述规则去除专业领域词典中的噪音词。具体为,针对专业领域词典中的一个词,从输入法词典存储的每个用户使用的词中,统计出使用该词的所有用户,进一步地计算出统计的所有用户占整个用户的第一比例值,按上述方法得到专业领域词典中包括的每个词的第一比例值,从专业领域词典中去除第一比例值小于第一阈值的词和第一比例值超过第二阈值的词。例如,去除计算机领域词典中的噪音词,针对计算机领域词典中的词"学习"、"累加器",在输入法词典中,查找出使用"学习"和"累加器"的所有用户,如查找出3200个用户使用"学习",280个用户使用"累加器",4艮设输入法词典中存储有4000个用户使用的词,进一步地计算出"学习"、"累加器,,的第一比例值分别为0.8、0.07,按上述方法计算出计算机领域词典中包括的每个词的第一比例值,假设预先设置的第一阈值为0.05、第二阈值为O.l,从计算机领域词典中去除第一比例值小于0.05和第一比例值大于0.1的所有词,如>^人计算机领域词典中去除"学习"。其中,专业领域词典是现有的词典,当专业领域词典中不包含噪音词时,就不需要执行此步骤,步骤201是可选的步骤。另外,在本实施例中输入法词典是基于输入法得到的词的集合,输入法将用户使用的词存储在输入法词典中。例如,用户在搜狗输入法中注册用户名,搜狗输入法会将用户使用的词存储在输入法词典中,如表1所示为通过搜狗输入法存储每个用户使用的词得到的输入法词典示意表。表1<table>tableseeoriginaldocumentpage10</column></row><table>另外,在本实施例中输入法可以将用户的用户名进行加密,然后将加密的用户名映射成一个字符串,用该字,串替代该用户名,所以将输入法词典中的用户名替代为对应的字符串,从而保证了用户信息的安全性以及用户的隐私。例如,将表1中用户名一栏中的每个用户名进行加密后,再映射成对应的字符串,如用户l加密后映射的字符串为xyz、用户2加密后映射的字符串为abc、用户3加密后映射的字符串为abx、用户名4加密后映射的字符串为abz......,然后将表1中的每个用户名替换为对应的字符串得到的输入法词典如表2所示。表2<table>tableseeoriginaldocumentpage10</column></row><table>步骤202,根据输入法词典和专业领域词典获取专业用户。具体地,从输入法词典中存储的每个用户使用的词,统计出每个用户使用专业领域词典中包括的专业领域的词的数量,进一步地计算出每个用户使用专业领域的词的第一频率值,从所有用户中选择第一频率值超过第三阈值的用户作为专业用户,其^^的用户为普通用户。例如,步骤201中得到的计算机领域词典包含3000个计算机领域的词,从输入法词典中存储的每个用户使用的词,统计出某用户使用计算机领域词典中的2000个词,计算出该用户使用计算机领域的词的第一频率值为67%,按上述方法统计每个用户的第一频率值,假i殳设置的第三阔值为65%,选择第一频率超过65%的用户作为计算机领域的专业用户,其他的用户为普通用户。步骤203,根据输入法词典获取专业用户使用的所有词,将获取的所有词作为^f矣选词;具体地,从输入法词典中存储的每个专业用户使用过的词,获取所有专业用户使用的词,将获取的词作为侯选词。例如,从输入法词典中获取计算机领域的专业用户使用过的所有词,将获取的所有词作为计算机领域的侯选词,如从输入法词典中获取到词"搜索引擎"、"我们"、"晶体管",将"搜索引擎"、"我们"、"晶体管"作为计算机领域的侯选词。步骤204:根据输入法词典,统计每个侯选词被专业角户使用的第二频率值。具体地,针对一个侯选词,从输入法词典中统计出使用该侯选词的所有专业用户,进一步地计算出该侯选词被专业用户使用的第二频率值,按上述方法得到每个侯选词被专业用户使用的第二频率值。例如,针对步骤203中得到的计算机领域的侯选词"搜索引擎"、"我们"、"晶体管,,,假设计算机领域的专业用户的个数为1000个,从输入法词典中统计出有900个专业用户使用过"搜索引擎",950个专业用户使用"我们,,,860个专业用户使用"晶体管",进一步地,计算出"搜索引擎"、"我们"、"晶体管,,被专业用户使用的第二频率值分别为90%、95%、86%。步骤205:根据输入法词典,统计步骤203得到的每个侯选词净皮普通用户使用的第三频率值。具体地,针对步骤203得到的一个侯选词,从输入法词典中存储的每个普通用户使用过的词,统计出使用该侯选词的所有普通用户,进一步地计算出该侯选词被普通用户使用的第三频率值,按上述方法计算出每个侯选词被普通用户使用的第三频率值。例如,对于获取的计算机领域的侯选词"搜索引擎"、"我们"、"晶体管,,,假设普通用户有3000个,从输入法词典中统计出有90个普通用户使用"搜索引擎",2700个普通用户使用"我们",120个普通用户使用"晶体管,,,计算出"搜索引擎"、"我们"、"晶体管"被普通用户使用的第三频率值分别为3%、90%、4%。经过步骤204和步骤205之后,得到每个侯选词被专业用户使用的第二频率值和被普通用户使用的第三频率值。步骤206,根据每个侯选词#1专业用户使用的第二频率值和被普通用户使用的第三频率值,计算出每个侯新词的频率的第二比例值。例如,对于计算机领域的三个侯选词"搜索引擎"、"我们"、"晶体管,,被专业用户使用的第二频率值分别为90%、95%、86%,被普通用户使用的第三频率值分别为3%、90%、4%,计算出两频率的比例值,得到"搜索引擎"、"我们"、"晶体管"的第二比例值分别为30、1,05、21.5。步骤207,根据每个侯选词的第二比例值获取所有侯选新词。具体地,有如下两种获取侯选新词的方法,包括第一种方法,将所有的候'选词按各自的第二比例值进行按从大到小^序,选取前预设个数的候选词作为侯选新词。其中,预设个数由用户根据具体的实际情况进行设置,如在本实施例中设置预设个数为2。例如,对于计算机领域的三个侯选词"搜索引擎"、"我们"、"晶体管",对上述三个侯选词按各自的第二比例值从大到小进行排序,得到的结果如表3所示,从排序后的侯选词中选择前两个侯选词"4叟索引擎"和"晶体管,,作为计算机领域的侯选新词。表3侯选词第二比例值搜索引擎30晶体管21.5我们1.0512第二种方法,从所有的侯选词中选取第二比例值超过设置的第四阈值的所有候选词,将选取的侯选词作为侯选新词。例如,<艮设设置的第四阈值为20,根据步骤206中得到的"搜索引擎"、"我们"、"晶体管"的第二比例值分别为30、1.05、21.5,选取"搜索引擎"和"晶体管"作为计算才几领域的侯选新词。208:将获取的每个侯选新词与专业领域词典中的所有词进行——比较,确定专业领域词典中不存在的侯选新词为新词。例如,在步骤207得到计算机领域的侯选新词"搜索引擎"和"晶体管",假设计算机领域词典包含"晶体管"而不包含"搜索引擎",将"搜索引擎"、"晶体管"分别与计算机领域词典中的所有词进行——比较,得出计算机领域词典中不存在"搜索引擎"而存在"晶体管",则确定"搜索引擎"为新词。在本发明实施例中,根据输入法词典和专业领域词典获取专业用户,根据输入法词典获取专业用户使用的词为侯选词,根据专业用户和普通用户使用侯选词的频率情况从侯选词中获取侯选新词,确定专业领域词典中不存在的侯选新词为新词,可以获取专业领域的新词,能够准确地获取长度较长的新词,提高了算法的效率,增加实用性。实施例3i口图3所示,本发明实施例提供了一种获取4斤词的装置,包括第一获取模块301,用于根据输入法词典和专业领域词典获取专业领域的专业用户;第二获卑^莫块302,用于根据输入法词典获取专业用户使用的词,将获取的词作为专业领域的侯选词,其中,输入法词典用于存储用户使用的词,用户包括专业用户和普通用户;第一确定模块303,用于根据专业用户和普通用户使用候选词的频率情况从候选词中获取侯选新词;第二确定模块304,用于将侯选新词与专业领域词典中的词进行比较,确定专业领域词典中不存在的侯选新词为新词。其中,第一获取漠块301包括统计单元,用于根据输入法词典,统计用户使用专业领域词典中的词的数量;第一确定单元,用于根据统计单元得到的词的数量确定用户使用专业领域词典的词的第一频率值;第二确定单元,用于确定第一频率值超过第三阈值的用户为专业用户。第一确定模块303包括第三确定单元,用于确定专业用户使用侯选词的第二频率值;第四确定单元,用于确定普通用户使用候选词的第三频率值;第一获取单元,用于根据第二频率值与第三频率值获取侯选词的第二比例值;第二获取单元,用于根据第二比例值从候选词中获取侯选新词;其中,第二获取单元,包括排序子单元,用于对侯选词按第二比例值进行排序;获取子单元,用于按照从大到小的顺序从排序后的候选词中获取前预设个数的候选词作为侯选新词,或确定第二比例值大于第四阈值的候选词作为侯选新词。进一步地,还包括去除模块305,用于根据输入法词典统计使用专业领域词典中的词的用户个数占所有用户的第一比例值;去除专业领域词典中第一比例值小于第一阈值的词和第一比例值大于第二阈值的词,其中,第一阈值小于第二阈值。'在本发明实施例中,通过第一获取模块获取专业用户,第二获取模块从输入法词典中获取专业领域的侯选词,第一确定模块根据每个侯选词的第二比例值确定出侯选新词,第二确定^t块确定专业领域词典中不存在的侯选新词为新词,从而能够获取专业领域的新词,准确地获取长度较长的新词,算法执行效率高,实用性强。以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如计算机中的硬盘、光盘或豸大盘。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。权利要求1、一种获取新词的方法,其特征在于,所述方法包括根据输入法词典和专业领域词典获取专业领域的专业用户;根据所述输入法词典获取所述专业用户使用的词,将所述获取的词作为所述专业领域的侯选词,所述输入法词典用于存储用户使用的词,所述用户包括专业用户和普通用户;根据所述专业用户和所述普通用户使用所述候选词的频率情况从所述候选词中获取侯选新词;将所述侯选新词与所述专业领域词典中的词进行比对,确定所述专业领域词典中不存在的侯选新词为新词。2、如权利要求l所述的方法,其特征在于,所述根据输入法词典和专业领域词典获取专业领域的专业用户之前,还包括从所述专业领域词典去除噪音词的步骤,所述步骤包括根据所述输入法词典统计使用所述专业领域词典中的词的用户个数占所有用户的第一比例值;去除所述专业领域词典中所述第一比例值小于第一阈值的词和所述第一比例值大于第二阈值的词,其中,所述第一阈值小于所述第二阈值。3、如权利要求l所述的方法,其特征在于,根据输入法词典和专业领域词典获取专业领域的专业用户,包括根据输入法词典统计所述用户使用所述专业领域词典中的词的数量;根据所述词的数量确定所述用户使用所述专业领域词典的词的第一频率值;确定所述第一频率值超过第三阈值的用户为所述专业用户。4、如权利要求l所述的方法,其特征在于,所述根据所述专业用户和所述普通用户使用所述候选词的频率情况从所述候选词中获取侯选新词,包括确定所述专业用户<吏用所述侯选词的第二频率值;确定所述普通用户使用所述候选词的第三频率值;根据所述第二频率值与所述第三频率值获取所述侯选词的第二比例值;根据所述第二比例值从所述候选词中获取所述侯选新词。5、如权利要求4所述的方法,其特征在于,所述根据所述第二比例值从所述侯选词中获取侯选新词包括对所述侯选词按所述第二比例值进行排序;按照从大到小的顺序从所述排序后的候选词中获取前预设个数的候选词作为所述侯选新词,或确定所述第二比例值大于第四阈值的候选词作为所述侯选新词。6、一种获取新词的装置,其特征在于,所述装置包括第一获取模块,用于根据输入法词典和专业领域词典获取专业领域的专业用户;第二获取模块,用于根据所述输入法词典获取所述专业用户使用的词,将所述获取的词作为所述专业领域的侯选词,所述输入法词典用于存储用户使用的词,所述用户包括专业用户和普通用户;第一确定模块,用于根据所述专业用户和所述普通用户使用所迷候选词的频率情况从所述候选词中获取侯选如词;'第二确定模块,用于将所述侯选新词与所述专业领域词典中的词进行比较,确定所述专业领域词典中不存在的侯选新词为新词。7、如权利要求6所述的装置,其特征在于,所述装置还包括去除模块,用于根据所述输入法词典统计使用所述专业领域词典中的词的用户个数占所有用户的第一比例值;去除所述专业领域词典中所述第一比例值小于第一阈值的词和所迷第一比例值大于第二阈值的词,其中,所述第一阈值小于所述第二阈值。8、如权利要求6所述的装置,其特征在于,所述第一获取模块包括统计单元,用于根据所述输入法词典统计所述用户使用所述专业领域词典中的词的数量;第一确定单元,用于根据所述词的数量确定所述用户使用所述专业领域词典的词的第一频率值;第二确定单元,用于确定所述第一频率值超过第三阈值的用户为所述专业用户。9、如权利要求6所述的装置,其特征在于,所述第一确定才莫块包括第三确定单元,用于确定所述专业用户使用所述侯选词的第二频率值;第四确定单元,用于确定所述普通用户^吏用所述候选词的第三频率值;第一获取单元,用于根据所述第二频率值与所述第三频率值获取所述侯选词的第二比例值;第二获取单元,用于根据所述第二比例值从所述候选词中获取所述侯选新词。10、如权利要求9所述的装置,其特征在于,所述第二获取单元,包括排序子单元,用于对所述侯选词按所述第二比例值进行排序;获取子单元,用于按照从大到小的顺序从所述排序后的候选词中获取前预设个数的候选词作为所述侯选新词,或确定所述第二比例值大于笫四阈值的候选词作为珙述侯选新词。全文摘要本发明实施例公开了一种获取新词的方法和装置,属于计算机
技术领域
。所述方法包括根据输入法词典获取专业领域的专业用户;从所述输入法词典获取所述专业用户使用的词,将所述获取的词作为所述专业领域的侯选词,所述输入法词典用于存储用户使用的词,所述用户包括专业用户和普通用户;根据所述专业用户和所述普通用户使用所述候选词的频率情况从所述候选词中获取侯选新词;将所述侯选新词与所述专业领域词典中的词进行比较,确定所述专业领域词典中不存在的侯选新词为新词。所述装置包括第一获取模块、第二获取模块、第一确定模块和第二确定模块。本发明实施例获取专业领域的新词、提高算法效率,增加实用性。文档编号G06F17/30GK101539940SQ20091008314公开日2009年9月23日申请日期2009年5月4日优先权日2009年5月4日发明者刘知远,孙茂松,扬张,茹立云,郑亚斌申请人:清华大学;北京搜狗科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1