互联网信息中重名人物的处理方法及系统的制作方法

文档序号:6581756阅读:197来源:国知局
专利名称:互联网信息中重名人物的处理方法及系统的制作方法
技术领域
本发明涉及一种网络数据处理技术领域,更具体地说,涉及一种互联网信息中重 名人物的处理方法及系统。
背景技术
关系搜索(Relationship karch)是指通过搜索引擎关键字组合搜索并返回页面 数结果,对页面结果进行比较分析而获得特定对象间关系的一种搜索方法。关系搜索的数 据来源包括各种互联网信息,例如新闻、博客或者论坛数据等,其中,基于新闻数据的关系 搜索比较精确。基于姓名及特定关键词的组合搜索可以挖掘人与人之间关系或人与事件的 关系。然而,互联网数据中存在大量的重名人物,例如,名叫“孙悦”的知名人物中有两个,一 个是体育篮球明星,男性;而另一个是娱乐歌手,女性。互联网信息中的重名人物会使得根 据互联网信息进行关系搜索得到的结果不准确,因此需要区分互联网信息中的重名人物。

发明内容
基于此,有必要提供一种互联网信息中重名人物的处理方法,能准确区分互联网 新闻数据中的重名人物。此外,还有必要提供一种互联网信息中重名人物的处理系统,能准确区分互联网 新闻数据中的重名人物。所述互联网信息中重名人物的处理方法包括获取互联网历史信息,提取互联网 历史信息中的类别信息;根据类别信息构造类别信息层次树;根据类别信息层次树对互联 网信息中的重名人物进行处理。构造类别信息层次树的步骤具体可以是对类别信息进行预处理,得到类别信息 串集合;根据类别信息串集合初始化类别信息层次树;计算类别信息层次树中的类别作为 各根类别的子类的概率。该计算类别信息层次树中的类别作为各根类别的子类的概率的步骤具体可以是: 计算类别信息层次树中的任意上下两层类别父子关系的概率;递归任一类别到根类别的路 径,得到该类别到根类别经过的路径中所有上下两层类别父子关系的概率乘值,计算该类 别为根类别的子类的概率为该类别到根类别经过的所有路径中概率乘值的总和。另外,该方法还科包括获取重名人物列表,重名人物列表中记录了重名人物的姓 名及区分层次、信息类别和区分信息。而根据类别信息层次树对重名人物进行处理的步骤具体可以是A.获取待处理 人物的姓名,查找所述重名人物列表中是否存在所述待处理人物的姓名,若是,则进入步骤 B,否则结束;B.获取所述待处理人物所在互联网信息的类别信息,判断所述类别信息是否 存在,若是,则进入步骤C,否则进入步骤D ;C.根据所述类别信息层次树获取所述类别信息 中各类别作为根类别的子类的概率,取所述概率最大的根类别对应的互联网信息作为输出 结果;D.检索待处理人物所在互联网信息中的区分信息,根据所述区分信息输出相应的互联网信息。步骤D中根据区分信息输出对应的新闻数据的步骤可包括当检索到互联网信息 中有区分信息时,根据重名人物列表,获取所述检索到的区分信息所在的类别,将该类别对 应的互联网信息作为输出结果。所述互联网信息中重名人物的处理系统包括数据库,用于存储互联网历史信息; 类别信息提取单元,获取数据库中存储的互联网历史信息,提取互联网历史信息中的类别 信息;类别信息层次树构造单元,根据类别信息构造类别信息层次树;重名人物处理单元, 根据类别信息层次树对互联网信息中的重名人物进行处理。该类别信息层次树构造单元可包括预处理模块,用于对类别信息进行预处理,得 到类别信息串集合;类别信息层次树初始化模块,根据类别信息串集合初始化类别信息层 次树;概率计算模块,计算类别信息层次树中的类别作为各根类别的子类的概率。该概率计算模块进一步计算类别信息层次树中的任意上下两层类别父子关系的 概率,并递归任一类别到根类别的路径,得到该类别到根类别经过的路径中所有上下两层 类别父子关系的概率乘值,计算该类别为根类别的子类的概率为该类别到根类别经过的所 有路径中概率乘值的总和。该系统还可包括重名人物列表获取单元,用于获取重名人物列表,重名人物列表 中记录了重名人物的姓名及对应的区分层次、信息类别和区分信息。该重名人物处理单元进一步获取待处理人物的姓名,从重名人物列表中查找到待 处理人物的姓名时,获取待处理人物所在互联网信息的类别信息,并根据类别信息层次树 获取类别信息中的每一个类别作为根类别的子类的概率,取概率最大的根类别对应的互联 网信息作为输出结果。该重名人物处理单元还可用于检索互联网信息中待处理人物的区分信息,根据重 名人物列表,获取检索到的区分信息所在的类别,将该类别对应的互联网信息作为输出结果。上述互联网新闻中重名人物的处理方法及系统,通过提取互联网历史信息中的类 别信息,根据该类别信息构造类别信息层次树,该类别信息层次树中描述了互联网历史信 息中的类别之间的父子关系以及类别之间是父子关系的概率,当待处理人物的姓名在重名 人物列表中存在时,根据该类别信息层次树输出概率最大的根类别对应的互联网信息,所 输出的互联网信息将会更准确。因此上述方法及系统,能准确区分出互联网数据中的重名 人物,使得基于该互联网数据进行关系搜索输出的搜索结果更准确。


图1是一个实施例中互联网信息中重名人物的处理方法的流程图;图2是一个实施例中构造类别信息层次树的方法流程图;图3是一个实施例中初始化得到的类别信息层次树的示意图;图4是一个实施例中类别信息层次树的示意图;图5是一个实施例中根据类别信息层次树处理重名人物的方法流程图;图6是一个实施例中互联网信息中重名人物的处理系统的结构示意图;图7是一个实施例中类别信息层次树构造单元的结构示意图。
具体实施例方式图1示出了一个实施例中互联网信息中重名人物的处理方法流程,具体过程如 下在步骤SlO中,获取互联网历史信息,提取所述互联网历史信息中的类别信息。互 联网历史信息即当前从互联网上获取的信息,包括各种新闻、博客或论坛数据等。类别信息 描述了互联网信息所属类别。在一个实施方式中,从互联网的数据库上获取历史新闻数据, 新闻的类别信息可通过搜索引擎在抓取新闻数据时,根据新闻的入口地址以及页面上的导 航信息进行分析得到的。在一个实施例中,类别信息可由类别标签和特殊分隔符号组成,例 如“财经股票市场大盘”、“娱乐音乐音乐新闻”等。在类别信息中,特殊分隔符号 之后的类别标签是分隔符前的类别标签的子类,如上例中,“股票市场”是“财经”的子类,而 “音乐新闻”是“音乐”的子类。应当说明的是,上述类别信息仅是一个实施例,其形式并不 受此限制。在步骤S20中,根据类别信息构造类别信息层次树。该类别信息层次树能形象的 表示出各类别之间的父子关系,并可对各类别之间是父子关系的概率进行统计。图2示出 了一个实施例中构造类别信息层次树的方法流程,具体过程如下在步骤S200中,对类别信息进行预处理,得到类别信息串集合。在一个实施方式 中,预处理的过程包括去掉不合格的字符串等。经过预处理后,则能得到规范的类别信息串 集合,该类别信息串集合中包括了从所有互联网信息中所得到的类别信息。该类别信息形 如“A:B”或“A:B:C”等,例如“体育国际篮球NBA”,其中,A、B、C等都为类别标签。在步骤S202中,根据所述类别信息串集合初始化类别信息层次树。类别信息层次 树是一个能描述类别之间的父子关系的树形结构。在一个实施方式中,根据类别信息串集 合中的所有类别信息串以及类别信息串中各类别之间的父子关系初始化得到的类别信息 层次树如图3所示,该类别信息层次树能形象表示出互联网信息的类别信息中各类别之间 的父子关系。在一个实施例中,从该类别信息层次树中选取出所有的根类别,得到根类别集 合,这里的根类别是指不存在其父类的类别,如图3中的类别A和类别G。在步骤S204中,计算所述类别信息层次树中的类别作为各根类别的子类的概率。 在一个实施方式中,步骤S204的过程具体为(1)计算类别信息层次树中的任意上下两层类别父子关系的概率,具体过程为 首先解析上述类别信息串集合中的类别信息串,对于任意两个类别A和B,统计出B为A的 子类的次数为T(A,B)。例如,T(体育,篮球)=4563,表示“篮球”作为“体育”的子类的 次数是4563次。然后进行概率归一化,计算得到任意两个类别A和B,类别B作为类别A的 子类的概率为[ ‘ ^ΣΗα,Β)
a其中,P(A,B)表示类别B作为类别A的子类的概率,T(A,B)为上述计算得到的类 别B作为类别A的子类的次数,,表示类别B作为其它类别的子类的次数之和。如
a
图4所示,上下两层类别父子关系的概率体现在两个类别之间的路径上,例如类别F作为类别A的子类的概率是0. 6,类别F作为类别C的子类的概率是0. 2等。(2)递归任意一类别到根类别的路径,得到该类别到根类别经过的路径中所有上 下两层类别父子关系的概率乘值,计算该类别为根类别的子类的概率为该类别到根类别经 过的所有路径中所述概率乘值的总和。如图4所示,在一个实施例中,该类别信息层次树中 的根类别集合包括类别A和类别G,对于其中的任意一类别,例如类别F,计算类别F为类 别A的子类的概率的过程为递归类别F到根类别A的路径,其中包括F-A和F-C-A两条路 径,得到这两条路径中上下两层类别父子关系的概率乘值,其中F-A路径中该概率乘值即 为0. 6,而F-C-A路径中该概率乘值为0. 2*0. 8 = 0. 16,则计算类别F作为根类别A的子类 的概率为上述得到的两个概率乘值的总和(即0. 6+0. 16 = 0. 76);递归类别F到根类别G 的路径,包括F-H-G路径,该路径中的概率乘值为0. 3*0. 2 = 0. 06,则类别F是根类别G的 子类的概率即为0. 06。计算得到的类别信息层次树中各类别作为根类别的子类的概率可用 于后续的判断待处理重名人物所属信息类别的过程中。在一个实施方式中,在获取互联网历史信息之前,还需获取重名人物列表。重名人 物列表中记录了重名人物的姓名及对应的区分层次、信息类别和区分信息。在一个实施例 中,重名人物列表中记录的重名人物格式形如“人物姓名#区分层次#信息类别#区分信 息1#区分信息2..... ”,其中,区分层次是指能对重名人物进行区分所涉及的信息类别的 层次。例如,对新闻数据,重名人物“孙悦”,一个是“体育,,类人物,一个是“娱乐,,类人物, 只需区分到具体类别即可,因此重名人物“孙悦”的区分层次是1 ;又例如,重名人物“李静” 有三人,有一人属于体育类,另外两人属于娱乐类,而在娱乐类中,一个是演员,另一个是主 持人,则进区分到类别不足以将这几个人物彻底区分,需具体到区分信息才能进行区分,因 此重名人物“李静”的区分层次为2。区分信息是指将重名人物进行区分的信息汇总,这些 信息可以是经常与人物共同出现在互联网信息中的字眼。例如,体育类新闻中经常出现的 “篮球”、“NBA”等词汇,娱乐类新闻中经常出现的“献唱”等词汇。在一个实施例中,上述两 个重名人物在重名人物列表中记录如下“孙悦#1#体育#”、“孙悦#1#娱乐”、“李静#2#体 育#”、“李静#2#娱乐#演员#”、“李静#2#娱乐#主持人#主持#,,。应当说明的是,上述 重名人物列表所记录的内容仅是一个实施例,但并不限于此。图5示出了一个实施例中根据类别信息层次树处理重名人物的方法流程,具体过 程如下在步骤S400中,获取待处理人物的姓名。该待处理人物的姓名可从要处理的互联 网信息中获取。例如,获取某一个新闻数据中的待处理人物的姓名等。在步骤S402中,查找重名人物列表,判断所述重名人物列表中是否存在该待处理 人物的姓名,若是,则进入步骤S404,否则结束。在步骤S404中,获取待处理人物所在互联网信息的类别信息。如上所示,在一个 实施例中,要获取某一新闻数据中的新闻类别信息,则可根据新闻的入口地址以及页面上 的导航信息进行分析得到的。在一个实施方式中,类别信息可由类别标签和特殊分隔符号 组成。在步骤S406中,判断所述类别信息是否存在,若是,则进入步骤S408,否则进入步 骤 S412。在步骤S408中,根据类别信息层次树获取类别信息中各类别为根类别的子类的概率。类别信息层次树可通过前述方法根据互联网历史信息构建得到,对于待处理人物所 在互联网信息的类别信息中的各类别,从前述构建的类别信息层次树即可得到各类别为各 根类别的子类的概率。在步骤S410中,取所述概率最大的根类别对应的互联网信息作为输出结果。在一 个实施例中,对于某一个新闻数据,待处理人物姓名为“李静”,其所在新闻数据的类别信 息为“娱乐影视电视剧”,根据类别信息层次树,得到“影视”类别为根类别“娱乐”的 子类的概率最大,则将根类别“娱乐”对应的新闻数据作为输出结果。在步骤S412中,检索待处理人物所在互联网信息中的区分信息。当互联网信息的 类别信息不存在时(可能由于某种原因缺失),则可检索该互联网信息中的区分信息,该区 分信息为经常与人物共同出现在信息中的字眼。例如,对于新闻数据,体育类新闻中经常出 现的“篮球”、“NBA”等词汇,娱乐类新闻中经常出现的“献唱”等词汇。在步骤S414中,判断重名人物列表中是否存在所述区分信息,若是,则进入步骤 S415,否则结束。在步骤S416中,将区分信息所在类别对应的互联网信息作为输出结果。在一个实 施例中,当重名人物列表中查找到与上述检索到的区分信息一致的区分信息时,表明该待 处理人物根据区分信息可区分,因此可获取重名人物列表中记录的该区分信息对应的信息 类别,并将该信息类别对应的互联网信息作为输出结果。例如,当检索到待处理人物“李静” 所在新闻数据中的区分信息为“演员”,而重名人物列表中查找如下记录“李静#2#娱乐# 演员”,则将区分信息“演员”的新闻类别“娱乐”对应的历史新闻数据作为输出结果。图6示出了一个实施例中互联网新闻中重名人物处理的系统,该系统包括数据库 10、类别信息提取单元20、类别信息层次树构造单元30和重名人物处理单元40,其中数据库10用于存储互联网历史信息。类别信息提取单元20与数据库10相连,用于获取数据库10中存储的互联网历史 信息,提取所述互联网历史信息中的类别信息。如上所述,在一个实施例中,对于历史新闻 数据,其类别信息可在搜索引擎抓取新闻数据时,根据新闻的入口地址以及页面上的导航 信息进行分析得到。在一个实施方式中,类别信息可由类别标签和特殊分隔符号组成。类别信息层次树构造单元30与类别信息提取单元20相连,用于根据类别信息构 造类别信息层次树。在一个实施方式中,如图7所示,类别信息层次树构造单元30包括预 处理模块300、类别信息层次树初始化模块302和概率计算模块304。其中预处理模块300用于对类别信息进行预处理,得到类别信息串集合。预处理模块 300对类别信息进行的预处理包括去掉不合格的字符串等。经过预处理后,能得到规范的信 息串集合。该信息串集合中包括了所有互联网历史信息的类别信息。类别信息层次树初始化模块302与预处理模块300相连,用于根据类别信息串集 合初始化类别信息层次树。在一个实施例中,根据类别信息串集合中的所有类别信息串以 及类别信息串中各类别之间的父子关系初始化得到的类别信息层次树如图3所示,该类别 信息层次树能形象表示互联网信息的类别信息中各类别之间的父子关系。类别信息层次树 初始化模块302初始化得到类别信息层次树后,进一步从该类别信息层次树中选取中所有 的根类别,得到根类别集合。概率计算模块304用于计算类别信息层次树中的类别作为各根类别的子类的概率。具体地,概率计算模块304首先计算类别信息层次树中的任意上下两层类别父子关系 的概率,具体的计算过程为首先解析上述类别信息串集合中的类别信息串,对于任意两个 类别A和B,统计出B为A的子类的次数为T(A,B)。例如,T(体育,篮球)=4563,表示“篮 球”作为“体育”的子类的次数是4563次。然后进行概率归一化,计算得到任意两个类别A 和B,类别B作为类别A的子类的概率为
权利要求
1.一种互联网信息中重名人物的处理方法,其特征在于,所述方法包括 获取互联网历史信息,提取所述互联网历史信息中的类别信息;根据所述类别信息构造类别信息层次树; 根据所述类别信息层次树对互联网信息中的重名人物进行处理。
2.根据权利要求1所述的互联网信息中重名人物的处理方法,其特征在于,所述构造 类别信息层次树的步骤具体是对所述类别信息进行预处理,得到类别信息串集合; 根据所述类别信息串集合初始化类别信息层次树; 计算所述类别信息层次树中的类别作为各根类别的子类的概率。
3.根据权利要求2所述的互联网信息中重名人物的处理方法,其特征在于,所述计算 类别信息层次树中的类别作为各根类别的子类的概率的步骤具体是计算所述类别信息层次树中的任意上下两层类别父子关系的概率; 递归任一类别到根类别的路径,得到该类别到根类别经过的路径中所有上下两层类别 父子关系的概率乘值,计算该类别为根类别的子类的概率为该类别到根类别经过的所有路 径中所述概率乘值的总和。
4.根据权利要求1至3中任意一项所述的互联网信息中重名人物的处理方法,其特征 在于,所述方法还包括获取重名人物列表,所述重名人物列表中记录了重名人物的姓名及 区分层次、信息类别和区分信息。
5.根据权利要求4所述的互联网信息中重名人物的处理方法,其特征在于,所述根据 类别信息层次树对重名人物进行处理的步骤具体是A.获取待处理人物的姓名,查找所述重名人物列表中是否存在所述待处理人物的姓 名,若是,则进入步骤B,否则结束;B.获取所述待处理人物所在互联网信息的类别信息,判断所述类别信息是否存在,若 是,则进入步骤C,否则进入步骤D ;C.根据所述类别信息层次树获取所述类别信息中各类别作为根类别的子类的概率,取 所述概率最大的根类别对应的互联网信息作为输出结果;D.检索待处理人物所在互联网信息中的区分信息,根据所述区分信息输出相应的互联 网信息。
6.根据权利要求5所述的互联网信息中重名人物的处理方法,其特征在于,所述步骤D 中根据所述区分信息输出对应的互联网信息的步骤包括当检索到所述互联网信息中有区分信息时,根据重名人物列表,获取所述检索到的区 分信息所在的类别,将该类别对应的互联网信息作为输出结果。
7.—种互联网信息中重名人物的处理系统,其特征在于,所述系统包括 数据库,用于存储互联网历史信息;类别信息提取单元,获取数据库中存储的互联网历史信息,提取所述互联网历史信息 中的类别信息;类别信息层次树构造单元,根据所述类别信息构造类别信息层次树; 重名人物处理单元,根据所述类别信息层次树对互联网信息中的重名人物进行处理。
8.根据权利要求7所述的互联网信息中重名人物的处理系统,其特征在于,所述类别信息层次树构造单元包括预处理模块,用于对所述类别信息进行预处理,得到类别信息串集合;类别信息层次树初始化模块,根据所述类别信息串集合初始化类别信息层次树;概率计算模块,计算类别信息层次树中的类别作为各根类别的子类的概率。
9.根据权利要求8所述的互联网信息中重名人物的处理系统,其特征在于,所述概率 计算模块进一步计算所述类别信息层次树中的任意上下两层类别父子关系的概率,并递归 任一类别到根类别的路径,得到该类别到根类别经过的路径中所有上下两层类别父子关系 的概率乘值,计算该类别为根类别的子类的概率为该类别到根类别经过的所有路径中所述 概率乘值的总和。
10.根据权利要求7至9中任意一项所述的互联网信息中重名人物的处理系统,其特征 在于,所述系统还包括重名人物列表获取单元,用于获取重名人物列表,所述重名人物列表中记录了重名人 物的姓名及对应的区分层次、信息类别和区分信息。
11.根据权利要求10所述的互联网信息中重名人物的处理系统,其特征在于,所述重 名人物处理单元进一步获取待处理人物的姓名,从所述重名人物列表中查找到所述待处理 人物的姓名时,获取所述待处理人物所在互联网信息的类别信息,并根据所述类别信息层 次树获取所述类别信息中的每一个类别作为根类别的子类的概率,取所述概率最大的根类 别对应的互联网信息作为输出结果。
12.根据权利要求10所述的互联网信息中重名人物的处理系统,其特征在于,所述重 名人物处理单元还用于检索互联网信息中待处理人物的区分信息,根据重名人物列表,获 取所述检索到的区分信息所在的类别,将该类别对应的互联网信息作为输出结果。
全文摘要
本发明提供了一种互联网信息中重名人物的处理方法及系统,所述方法包括获取互联网历史信息,提取所述互联网历史信息中的类别信息;根据所述类别信息构造类别信息层次树;根据所述类别信息层次树对互联网信息中的重名人物进行处理。采用本发明提供的互联网信息中重名人物的处理方法及系统,能准确区分出互联网信息中的重名人物,使得基于该互联网信息进行关系搜索输出的搜索结果更准确。
文档编号G06F17/30GK102063428SQ20091019398
公开日2011年5月18日 申请日期2009年11月17日 优先权日2009年11月17日
发明者李务斌, 贾自艳 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1