获取正极性汉字的方法和装置的制造方法

文档序号:9727307阅读:157来源:国知局
获取正极性汉字的方法和装置的制造方法
【技术领域】
[0001]本发明涉及软件领域,特别涉及一种从文字材料中获取正极性汉字的方法和装置。
【背景技术】
[0002]汉字的情感资源是自然语言处理的重要组成部分,由于汉字的数目(尤其常用汉字)不算太多,可以考虑采用人工标注的方法来进行汉字的情感标注。通常,人们认为形容词性汉字(美、善等)和一些动词性汉字(爱、恋等)携带正极性。然而,对于一些看起来偏中性色彩的汉字,也可以具有隐含的正极性,比如“海”,“天”,“飞”等汉字。常规的人工标注者很难通过单字体会出其中的细微情感,无法达到标注要求。
[0003]现有的技术主要采用人工标注来得到正极性汉字。然而,由于汉字经历了几千年的发展演化,一些概念差别非常细微,常规的人工标注效果无法达到要求。比如,“跃”和“跳”的语义相似,但是“跃”蕴含正极性而“跳”是中性概念。

【发明内容】

[0004]为此,需要提供一种可以快速找到正极性或者隐含正极性的汉字的技术方案,以提供可供使用的高质量的汉字情感资源。
[0005]为实现上述目的,发明人提供了一种获取正极性汉字的方法,包括步骤:
[0006]从给定的文字材料中获取所有人名类词汇;
[0007]从获取的人名类词汇中去除公共字词;
[0008]将剩余的汉字中出现频率高者收集入正极性汉字集合。
[0009]进一步地,所述的获取正极性汉字的方法中,步骤“从获取的人名类词汇中去除公共字词”具体包括:去除人名类词汇中的姓氏。
[0010]进一步地,所述的获取正极性汉字的方法中,步骤“从给定的文字材料中获取所有人名类词汇”具体包括:对给定的文字材料,用词性标注工具对其进行分词和词性标注,并根据词性标注结果获取其中的人名类词汇。
[0011]进一步地,所述的获取正极性汉字的方法中,在步骤“将剩余的汉字中出现频率高者收集入正极性汉字集合”具体包括:统计剩余的汉字中各汉字的出现频率并将其按从高到低排序,将出现频率位于前预设比例的汉字列入正极性汉字集合。
[0012]发明人同时还提供了一种获取正极性汉字的装置,包括人名获取单元、公共字词去除单元和统计单元;
[0013]所述人名获取单元用于从给定的文字材料中获取所有人名类词汇;
[0014]所述公共字词去除单元用于从获取的人名类词汇中去除公共字词;
[0015]所述统计单元用于统计剩余的汉字中出现频率高者并将其收集入正极性汉字集入口 ο
[0016]进一步地,所述的获取正极性汉字的装置中,公共字词去除单元从获取的人名类词汇中去除公共字词具体包括去除人名类词汇中的姓氏。
[0017]进一步地,所述的获取正极性汉字的装置中,人名获取单元从给定的文字材料中获取所有人名类词汇具体包括:对给定的文字材料,用词性标注工具对其进行分词和词性标注,并根据词性标注结果获取其中的人名类词汇。
[0018]进一步地,所述的获取正极性汉字的装置中,统计单元统计剩余的汉字中出现频率高者并将其收集入正极性汉字集合具体包括:统计剩余的汉字中各汉字的出现频率并将其按从高到低排序,将出现频率位于前预设比例的汉字列入正极性汉字集合。
[0019]区别于现有技术,上述技术方案能够从任意给定的文字材料片段中寻找出常规的人工标注者很难通过单字体会出其中的细微情感,无法达到标注要求的正极性情感汉字,以作为高质量的数据资源进行进一步的利用。
【附图说明】
[0020]图1为本发明一实施方式所述的获取正极性汉字的方法的流程图;
[0021]图2为本发明一实施方式所述的获取正极性汉字的装置的结构示意图。
[0022]附图标记说明:
[0023]1-人名获取单元
[0024]2-公共字词去除单元
[0025]3-统计单元
【具体实施方式】
[0026]为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
[0027]请参阅图1,为本发明一实施方式所述的获取正极性汉字的方法的流程图;所述方法包括如下步骤:
[0028]S1、从给定的文字材料中获取所有人名类词汇;
[0029]S2、从获取的人名类词汇中去除公共字词;
[0030]S3、将剩余的汉字中出现频率高者收集入正极性汉字集合。
[0031]步骤S2中所述的公共字词一般可以认为主要包括公共前缀或公共后缀。在人名类词汇中,最为常见的情形是公共前缀,即姓氏。例如,当获取的人名类词汇为“张XX”、“李XX”、“欧阳XX”等时,显然其姓氏“张”、“李”、“欧阳”等即为公共前缀,需要加以去除。具体为根据数据库中已有的姓氏列表将人名中的姓氏去除,这样剩下的就是单纯的名字,可以去除姓氏的影响。
[0032]在某些实施方式中,步骤“从给定的文字材料中获取所有人名类词汇”具体包括:对给定的文字材料,用词性标注工具对其进行分词和词性标注,并根据词性标注结果获取其中的人名类词汇。在另外的某些实施方式中,还可以采用其他常见的获取人名类词汇的方式从给定的文字材料中获取人名类词汇。无论是这些实施方式所述的通过分词和词性标注来获取人名类词汇的方法,还是借助其他手段获取人名类词汇的方法,都要求具有一定的准确性。例如,“张先生”一词就不是一个典型的可用于本发明所述采集正极性汉字的人名类词汇。当获取人名类词汇的手段所得到的结果如上所述不够精确时,步骤S2所述的去除公共字词的部分不仅需要去除公共前缀(姓氏)还需要去除公共后缀(称谓),在这种情况下,可以借助公共后缀列表来进行去除公共后缀的工作,所述公共后缀列表可以为包括“先生”、“小姐”、“老师”等常见跟于姓氏、名字或姓名后的词汇。
[0033]进一步地,在某些实施方式中,步骤S3所述的“将剩余的汉字中出现频率高者收集入正极性汉字集合”具体包括:统计剩余的汉字中各汉字的出现频率并将其按从高到低排序,将出现频率位于前预设比例的汉字列入正极性汉字集合。例如,预设10%为比例标准,将汉字出现频率从高到低排序后的前10%汉字列入正极性汉字集合。当然,在某些实施方式中,也可以预设一定的正极性汉字数量,例如将汉字出现频率从高到低排序后的前100个汉字列入正极性汉字集合。
[0034]请参阅图2,为本发明一实施方式所述的获取正极性汉字的装置的结构示意图,所述装置包括人名获取单元1、公共字词去除单元2和统计单元3;
[0035]所述人名获取单元1用于从给定的文字材料中获取所有人名类词汇;
[0036]所述公共字词去除单元2用于从获取的人名类词汇中去除公共字词;
[0037]所述统计单元3用于统计剩余的汉字中出现频率高者并将其收集入正极性汉字集入口 ο
[0038]所述公共字词去除单元2所需要去除的公共字词一般可以认为主要包括公共前缀或公共后缀。在人名类词汇中,最为常见的情形是公共前缀,即姓氏。例如,当获取的人名类词汇为“张XX”、“李XX”、“欧阳XX”等时,显然其姓氏“张”、“李”、“欧阳”等即为公共前缀,需要加以去除。具体为根据数据库中已有的姓氏列表将人名中的姓氏去除,这样剩下的就是单纯的名字,可以去除姓氏的影响。
[0039]在某些实施方式中,人名获取单元1从给定的文字材料中获取所有人
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1