邮箱作者对应方法和装置及计算机可读存储介质与流程

文档序号:13446204阅读:120来源:国知局
邮箱作者对应方法和装置及计算机可读存储介质与流程

本发明涉及信息检索,尤其涉及作者信息的检索。



背景技术:

当检索出文章之后,可能需要和作者进行联系,这种联系可能需要邮箱、电话等方式。有的文章或许会列明一些电话和邮箱,但是通常并不指明是哪个作者的电话和邮箱,还是编辑部门的邮箱,如果检索出来的文章很多的情况,例如需要确定各个作者的邮箱供第三方使用时,更需要更准确的判断作者与邮箱的对应关系,提高对应的准确度。目前的现有技术还没有指示出这种需求,也没有提供相应的解决方案。



技术实现要素:

本发明鉴于以上情况,提出用于缓解或消除现有技术中存在的一项或更多的缺点,至少提供一种有益的选择。

为实现以上目的,根据本发明的一个方面,公开了一种邮箱作者对应方法,包括:邮箱查找步骤,在包含已知作者的作品的文件中查找邮箱;作者信息解析步骤,对已知作者进行姓名解析,获得该已知作者的姓名信息以及姓名信息的缩略表达;匹配字段获取步骤,将所述已该作者的姓名信息以及姓名信息的缩略表达与所述邮箱的地址进行比对,确定所述邮箱的地址中包含的该已知作者的姓名信息以及姓名信息的缩略表达,即匹配字段;置信度判断步骤,根据所述匹配字段获取步骤所获得匹配字段,判断邮箱是该已知作者的邮箱的置信度;关联步骤,当置信度判断步骤判断出该邮箱是该已知作者的邮箱的置信度高于阈值时,将该已知作者和所述邮箱相关联。

依据一种实施方式,所述方法还包括干扰判断步骤,所述干扰判断步骤判断所述匹配字段的匹配是否受干扰,所述置信度判断步骤根据所述匹配字段获取步骤所获得匹配字段以及干扰判断步骤的判断结果,判断所述邮箱是所述已知作者的邮箱的置信度。

根据本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时能够实现本发明的各种方法的步骤。

根据本发明的又一方面,提供了一种邮箱作者对应装置,包括:邮箱查找单元,在包含已知作者的作品的文件中查找邮箱;作者信息解析单元,对所述已知作者进行姓名解析,获得所述已知作者的姓名信息以及姓名信息的缩略表达;匹配字段获取单元,将所述已该作者的姓名信息以及姓名信息的缩略表达与所述邮箱的地址进行比对,确定所述邮箱的地址中包含的所述已知作者的姓名信息以及姓名信息的缩略表达,即匹配字段;置信度判断单元,根据所述匹配字段获取单元所获得匹配字段,判断所述邮箱是所述已知作者的邮箱的置信度;关联单元,当所述置信度判断单元判断出所述邮箱是所述已知作者的邮箱的置信度高于阈值时,将所述已知作者和所述邮箱相关联。

根据本发明,可以容易并准确地将作者和邮箱关联起来。

附图说明

结合附图,可以更好地理解本发明。但是附图仅仅是示例性的,不是对本发明的保护范围的限制。

图1示出了依据本发明一种实施方式的作者与邮箱对应方法的示意性流程图;

图2示出了依据本发明一种实施方式的作者与邮箱对应装置的示意性方框图。

具体实施方式

下面结合附图,对本发明的具体实施例作进一步详述,但不构成对本发明的任何限制。

图1示出了依据本发明一种实施方式的作者与邮箱对应方法的示意性流程图。如图1所示,依据本发明的一种实施方式,首先在步骤101在所查找出的包括已知作者的作品的文件中寻找邮箱。包括已知作者的作品的文件例如为word文件、网页、pdf文件等,这些文件中除了包括已知作者的作品的正文之外,还包括一些题注、脚注等信息,这些信息中通常包括作者的信息,例如姓名、工作单位、简要介绍等,当然也可能包括其联系方式,例如邮箱的信息。

已知作者可以是预先知道的要获得其邮箱的作者,也可以是在检索特定主题文件等所获得的检索结果中,获得的作者信息。

从文件中提取邮箱地址有各种方法,例如针对word文件,可以利用word本身提供的查找功能,针对txt文件可以使用easyemailextractor软件、针对pdf文件的fileemailextractor等等,也有人提供一些简单的java程序来实现这个功能。受益于本发明的本领域技术人员可以采用任何现在已知的或未来知道的方法来实现从文件中提取邮箱地址,本文不再赘述。在找到多个邮箱的情况下,可以逐一进行以后的步骤103等。也可在每找到一个邮箱就进行步骤103以及之后的步骤。

查找出邮箱地址的同时或之后,在步骤102进行该已知作者的姓名解析,获得该作者的姓名信息以及姓名信息的缩略表达。然后在步骤103,进行匹配字段获取,将该作者的姓名信息以及姓名信息的缩略表达与邮箱地址进行比对,判断邮箱的表达中是否包含该作者的姓名信息以及姓名信息的缩略表达,即是否包含匹配字段。

姓名信息包括姓名两者信息、姓的信息和名的信息,可以进行分别或逐一进行判断。例如对于georgewashington,可以首先判断邮箱信息中是否包括georgewashington的姓名信息,例如是否包含george和washington这俩个词连到一起形成的词,例如georgewashington、george-washington、george_washington、george.washington等,如果没有发现姓名两者信息,则在寻找姓的信息和名的信息,例如确定判断邮箱信息中是否包括george或washington。

对于中文的作者,依据一种实施方式,首先确定其拼音,例如对于作家余秋雨,可以用yuqiuyu,qiuyuyu,qiuyu_yu,yu_qiuyu,yu_qiu_yu,yu.qiu.yu,yu-qiu-yu等等来进行判断。这里的拼音应该做比较广义的理解,不但包括中国政府颁布的现代汉语拼音,还可以包括例如威妥玛拼音。例如李的拼音不止为li,还可能是lee。

对于姓名信息的缩略信息以及全拼和缩略信息的组合,例如可以缩略信息可以是姓名的首字母,例如对于余秋雨,这些信息例如可以是yqy,或者姓或名+名或姓的首字母,例如yuqy,yu-qy,qiuyu-yu等。

如果发现具有匹配,则在步骤104进行匹配字段受干扰判断,判断出现匹配的信息(匹配字段)是否受干扰,即是否也会指引到其他信息(干扰源)。例如如果该篇作品还具有共同作者于敏。而匹配的字段是yu,则受干扰程度比较大。并不能确定该邮箱属于于敏还是余秋雨。而如果共同作者是华秋雨,则对于匹配的信息是yu的情况,则没有干扰,而如果匹配的信息是qiuyu、qy,qiuy,qyu则有影响。应该注意,会对匹配字段产生干扰的信息不只是共同作者,也可以是其他因素。例如发表该文章的编辑部门或期刊名称。

完成受干扰判断之后,在步骤105进行置信度分析。根据一种实施方式,基于匹配的字段和受干扰判断的结果,确定置信度。例如对于中文作者,如果姓名的全拼得到匹配,则给予较高的置信度。对于缩略语匹配则给予相对低的置信度。例如对于authoryuqiuyu@126.com和authoryu@126.com、authoryqy@126.com,显然第一个邮箱与作家余秋雨的匹配度更高。如果匹配的字段是yu,没有受到干扰,则可以给予例如0.7的匹配度,如果受到干扰,则给予0.5的匹配度等等。对于匹配的字段为yqy,如果没有受到干扰,则可以给予例如0.8的置信度,而如果受到qy的干扰,则仅仅给予0.6的匹配度等等,这些数值均是示例性的,不是对本发明保护范围的限制。

如果达到了预定置信度,则在步骤106进行返回邮箱,将作者和邮箱关联起来。如果没有达到置信度,则在步骤107进行共同出现情况判断。在包含该作者的其他作品的文件中查找该邮箱,如果在包含该作者的其他作品的文件中也包含该邮箱,则判断为共同出现,然后,根据共同出现情况判断的结果,重新确定置信度。

判断共同出现情况时,可以采用共同干扰排除法,例如对于作家余秋雨,出现了邮箱authorqiuyu@126.com,判断出匹配字段为qiuyu,受到共同作者华秋雨的干扰,则在判断共同出现情况时,将余秋雨和华秋雨的共同作品排除在“包含该作者的其他作品的文件”之外,即仅针对余秋雨自己的作品或余秋雨的和华秋雨之外的其他作者的合作作品。

在经过共同出现判断,并且置信度重新计算后达到阈值时,可以返回该邮箱,将该邮箱和作者关联起来。如果没有达到置信度,则放弃该邮箱,在该作品中寻找其他的邮箱,判断找到的其他邮箱是否达到置信度,是否是该作者对应的邮箱,或者在包含该作者的作品的其他文件中,查找邮箱,并判断找到的邮箱是否达到置信度,是否是该作者对应的邮箱。

如果在步骤103没有发现匹配,则依据一种实施方式,可直接进入步骤107,判断该作者姓名和该邮箱共同出现的情况,并在步骤105中根据该共同出现的情况,判断置信度,如果置信度高,例如达到阈值,则在步骤106将该邮箱和该作者进行关联。

根据一种实施方式,再将邮箱和作者关联起来时,也同时给出置信度,或者告知匹配的字段,从而使使用者能够做到心中有数。

图2示出了依据本发明的一种实施方式的邮箱和作者对应装置的示意性框图。对于框图的说明可以用于解释本发明的方法,前文对方法的描述也可以用来理解本发明的邮箱和作者对应装置。

如图2所示,依据本发明的一种实施方式,首先邮箱查找单元201在包括已知作者的作品的文件中寻找邮箱。

在邮箱查找单元201工作的同时或前后,作者信息解析单元202进行该已知作者的姓名解析,获得该作者的姓名信息以及姓名信息的缩略表达。然后匹配字段获取单元203进行匹配字段获取,将该作者的姓名信息以及姓名信息的缩略表达与邮箱地址进行比对,判断邮箱的表达中是否包含该作者的姓名信息以及姓名信息的缩略表达,即是否包含匹配字段。在邮箱查找单元201找到多个邮箱的情况下,匹配字段获取单元203可以逐一进行比对。也可在邮箱查找单元201每找到一个邮箱时,匹配字段获取单元203就进行比对。

对于姓名信息以及姓名信息的缩略表达等可以参见上文的说明。

如果没有发现匹配,则由共同出现判断单元207判断该作者姓名和该邮箱共同出现的情况,并由置信度判断单元205根据该共同出现的情况,判断置信度,如果置信度高,例如达到阈值,则由邮箱关联单元206将该邮箱和该作者进行关联。在一些实施方式中,邮箱关联单元206将作者姓名、邮箱进行输出,在某些实施方式中,还输置信度。

如果发现具有匹配,则干扰判断单元204进行匹配字段受干扰判断,判断出现匹配的信息(匹配字段)是否受干扰。

之后,置信度判断单元205进行置信度分析。根据一种实施方式,基于匹配的字段和受干扰判断的结果,确定置信度。如果达到了预定置信度,则在邮箱关联单元206,将作者和邮箱关联起来,并进行输出。如果没有达到预定置信度,则共同出现判断单元207进行共同出现情况判断。在包含该作者的其他作品的文件中查找该邮箱,如果在包含该作者的其他作品的文件中也包含该邮箱,则判断为共同出现,然后,根据共同出现情况判断的结果,重新确定置信度。

判断共同出现情况时,可以采用共同干扰排除法,排除出现引起干扰的干扰源。例如对于作家余秋雨,出现了邮箱authorqiuyu@126.com,判断出匹配字段为qiuyu,受到共同作者华秋雨的干扰,则在判断共同出现情况时,将余秋雨和华秋雨的共同作品排除在“包含该作者的其他作品的文件”之外,即仅针对余秋雨自己的作品或余秋雨的和华秋雨之外的其他作者的合作作品。

在经过共同出现判断,并且置信度重新计算后达到阈值时,邮箱关联单元206可以返回该邮箱,将该邮箱和作者关联起来。如果没有达到置信度,则放弃该邮箱,在该作品中寻找其他的邮箱,判断找到的其他邮箱是否达到置信度,是否是该作者对应的邮箱,或者在包含该作者的作品的其他文件中,查找邮箱,并判断找到的邮箱是否达到置信度,是否是该作者对应的邮箱。

根据一种实施方式,再将邮箱和作者关联起来时,也同时给出置信度,或者告知匹配的字段,从而使使用者能够做到心中有数。

本发明可以以软件的形式实现,该软件在运行时或经过编译后运行时,能够使计算机、现场可编程门阵列、芯片等具有处理功能的处理器实现上述功能和方法的步骤。

本发明的上述详细的描述仅仅给本领域技术人员更进一步的相信内容,以用于实施本发明的优选方面,并且不会对本发明的范围进行限制。仅有权利要求用于确定本发明的保护范围。因此,在前述详细描述中的特征和步骤的结合不是必要的用于在最宽广的范围内实施本发明,并且可替换地仅对本发明的特别详细描述的代表性实施例给出教导。此外,为了获得本发明的附加有用实施例,在说明书中给出教导的各种不同的特征可通过多种方式结合,然而这些方式没有特别地被例举出来。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1