文本信息对比方法及系统的制作方法

文档序号:6357606阅读:176来源:国知局
专利名称:文本信息对比方法及系统的制作方法
技术领域
本发明涉及一种文本信息对比方法及系统。
背景技术
现有的文本信息对比方式,虽然可以对比出信息的不同,却无法直观的显示出来,特别是当信息量较大的时候,给用户带来了很大不便,而且还会耗费多余的时间去检查错误点。

发明内容
鉴于以上内容,有必要提供一种文本信息对比方法,可以对比文本信息并直观地标识出信息错误点。
鉴于以上内容,还有必要提供一种文本信息对比系统,可以对比文本信息并直观地标识出信息错误点。所述文本信息对比方法包括读取步骤读取要对比的两份文本文件中的文本信息;对比步骤使用最大匹配法对比两份文本文件中每一项需要对比的文本信息,若有不一致则标出不同点;显示步骤将对比结果在显示装置中显示出来。所述文本信息对比系统包括读取模块,用于读取要对比的两份文本文件中的文本信息;对比模块,用于使用最大匹配法对比两份文本文件中每一项需要对比的文本信息,若有不一致则标出不同点;显示模块,用于将对比结果在显示装置中显示出来。相较于现有技术,所述的文本信息对比方法及系统,能够使用最大匹配法对比文 本信息,并直观地标识出信息错误点,使用户第一时间发现错误的具体所在。


图I是本发明文本信息对比系统较佳实施例的架构图。图2是本发明文本信息对比系统较佳实施例的功能模块图。图3是本发明某实施例的对比结果网页示意图。图4是本发明文本信息对比方法较佳实施例的流程图。图5是图4中步骤S12的具体流程图。主要元件符号说明
服务器
FTP服务器_2
两¥卩服务器 —F
显示装置_4_
文本信息对比系统
WWm~20~
读取模块_100
对比模块_200
显示模块1300如下具体实施方式
将结合上述附图进一步说明本发明。
具体实施例方式如图I所示,是本发明文本信息对比系统较佳实施例的架构图。本实施例以官方专利文件和企业内部专利文件的专利信息对比为例进行说明。所述文本信息对比系统10运行于对比服务器I中,所述对比服务器I与FTP服务器2、内部服务器3进行数据通信,并连接于显示装置4。所述对比服务器I中还包括数据库20。所述对比服务器I用于对专利局官方来文中的专利文件(以下简称为官方专利文件)及企业内部存储的同一件专利文件(以下简称为内部专利文件)中需要进行对比的每一项专利信息依次进行对比,若有不一致则标出不同点,在所述显示装置4中以网页形式显示对比结果,以供用户查看。通过该对比结果,用户可以方便地找出官方专利文件中的专利信息出现的错误,及时进行处理。所述FTP服务器2用于下载所述官方专利文件。 所述内部服务器3用于提供所述内部专利文件。所述数据库20用于存储对比过程中所使用的字符串等相关数据。如图2所示,是本发明文本信息对比系统较佳实施例的功能模块图。所述文本信息对比系统10包括读取模块100、对比模块200及显示模块300。所述读取模块100用于读取所述官方专利文件与内部专利文件中的专利信息。所述专利文件包括但不限于Word、PDF, XML等格式。所述对比模块200用于使用最大匹配法对比两份专利文件中每一项需要对比的专利信息,若有不一致则标出不同点。所述最大匹配法的具体对比过程包括
设置步骤所述对比模块200提取所述官方专利文件中的某项专利信息(如发明人信息),设为字符串A ;提取所述内部专利文件中相应的专利信息,设为字符串B ;另外分别设字符串C及字符串D,均为空值。判断步骤所述对比模块200判断所述字符串A及字符串B长度是否均大于O。当两字符串长度均大于0时,执行第一匹配步骤;当至少有一个字符串长度为0时,执行标识步骤。第一匹配步骤所述对比模块200将字符串A中首字符与字符串B进行匹配,若该首字符在字符串B中出现,则继续将首字符和第二字符组成的串与字符串B进行匹配,依此类推,直到无法匹配为止,得到字符串A对字符串B的最大匹配长度和字符串B中的开始匹配位置。若该首字符在字符串B中未出现,开始匹配位置小于0,则匹配失败,执行第二匹配步骤。若该开始匹配位置不小于0,则将此开始匹配位置之前的字符串设置成不同点(用不同的字体或颜色标出),执行截取步骤。所述开始匹配位置为字符串B中第一次出现的与字符串A中首字母相同的字符所在位置。在本实施例中,将字符串中第一个字符所在位置设为0,第二个字符所在位置设为1,依此类推。第二匹配步骤所述对比模块200继续将字符串A中第二字符与字符串B进行匹配,若该第二字符在字符串B中出现,则继续将第二字符和第三字符组成的串与字符串B进行匹配;若该第二字符在字符串B中未出现,则继续将第三字符与字符串B进行匹配。依此类推,直到无法匹配为止,得到字符串A对字符串B的最大匹配长度及两个字符串中的开始匹配位置。若字符串A中所有字符在字符串B中均未出现,两个字符串中的开始匹配位置均小于O,则匹配失败,执行标识步骤。若有一个字符串中的开始匹配位置不小于O,则将两字符串的开始匹配位置之前的字符串设置成不同点,执行截取步骤。字符串A中的开始匹配位置为字符串A中可以与字符串B进行匹配的第一个字符所在位置。字符串B中的开始匹配位置为字符串B中可以与字符串A进行匹配的第一个字符所在位置。
截取步骤所述对比模块200根据最大匹配长度、开始匹配位置及已经设置的不同点,分别截取新的字符串A、B、C、D。其中,新的字符串A为原来的字符串A已经匹配的字符后面的剩余部分;新的字符串B为原来的字符串B已经匹配的字符后面的剩余部分;新的字符串C为原来的字符串C后面加上原来的字符串A中已经匹配的字符部分,已经设置的不同点用不同的字体或颜色标出;新的字符串D为原来的字符串D后面加上原来的字符串B中已经匹配的字符部分,已经设置的不同点用不同的字体或颜色标出。截取之后返回所述判断步骤。标识步骤若字符串A长度大于0,则将字符串A中的剩余字符设置成不同点,力口入字符串C的字符后面,并清空字符串A ;若字符串B长度大于0,则将字符串B中的剩余字符设置为不同点,加入字符串D的字符后面,并清空字符串B ;若字符串A与B长度均等于0,则结束对比。下面以字符串“Lung-sheng Tai”与“sLTJng-sheng Ta”的对比过程为例进行具体说明
(1)首先设置字符串ALung-sheng Tai 字符串 B sLTJng-sheng Ta
字符串C :空值 字符串D :空值
(2)判断得到字符串A及字符串B长度均大于0,执行第一匹配步骤。(3)字符串A中首字符“L”在字符串B中出现,继续将首字符和第二字符“Lu”与字符串B进行匹配,在字符串B中未出现,匹配结束。得到字符串A对字符串B的最大匹配长度为1,开始匹配位置为I。开始匹配位置为I大于0,将此位置之前的字符串“s”设置成不同点(此处用粗斜体、18号字体标出)。(4)截取新的字符串 A ung-sheng Tai 字符串 B TJng-sheng Ta
字符串C:L 字符串D sL
(5)再次判断得到字符串A及字符串B长度均大于0,执行第一匹配步骤。(6)字符串A中首字符“u”在字符串B未中出现,得到开始匹配位置小于0,匹配失败,执行第二匹配步骤。(7)字符串A中首字符“u”在字符串B中未出现,继续将第二字符“n”与字符串B进行匹配,在字符串B中出现,可以匹配,最终得到字符串A对字符串B的最大匹配长度为11,字符串A中的开始匹配位置为1,将此位置之前的字符串“u”设置成不同点;字符串B中的开始匹配位置为2,将此位置之前的字符串“TJ”设置成不同点。(8)截取新的字符串A i字符串B :空值
字符串 C Lung-sheng Ta
字符串 D sLTJng-sheng Ta
(9)再次判断得到字符串A长度大于O,字符串B长度等于O,执行标识步骤。(10)将字符串A中的剩余字符“i”设置成不同点,加入字符串C的字符后面,并清空字符串A。得到新的字符串A :空值 字符串B :空值
字符串 C Lung-sheng Tai 字符串 D sLTJng-sheng Ta
至此对字符串“Lung-sheng Tai”与“sLTJng-sheng Ta”的对比过程结束。所述对比模块200采用上述最大匹配法依次对所述官方专利文件及内部专利文件中每一项需要对比的专利信息进行对比,得到每一项专利信息的对比结果。所述对比结果为完成对比过程后得到的字符串C与字符串D。所述显示模块300用于以网页的形式将对比结果在所述显示装置4中显示出来,以供用户查看。(参阅图3所示)
如图3所示,是本发明某实施例的对比结果网页示意图。在对内部卷号为2004A-7012的专利文件进行官方专利文件和内部专利文件中申请号、申请日、第一发明人这三项专利信息的对比之后,得到标出不同点的对比结果,在网页中显示出来,供用户查看。如图4所示,是本发明文本信息对比方法较佳实施例的流程图。步骤S10,所述读取模块100读取所述官方专利文件与内部专利文件中的专利信肩、O步骤S12,所述对比模块200使用最大匹配法对比两份专利文件中每一项需要对比的专利信息,若有不一致则标出不同点。(参阅图5中的描述)
步骤S14,所述显示模块300以网页的形式将对比结果在所述显示装置4中显示出来,
以供用户查看。如图5所示,是图4中步骤S12的具体流程图。步骤S200,所述对比模块200提取所述官方专利文件中的某项专利信息,设为字符串A ;提取所述内部专利文件中相应的专利信息,设为字符串B ;另外分别设字符串C及字符串D,均为空值。步骤S202,所述对比模块200判断所述字符串A及字符串B长度是否均大于O。若两字符串长度均大于0,则执行步骤S204 ;若至少有一个字符串长度为0,则执行步骤S218。步骤S204,所述对比模块200将字符串A中首字符与字符串B进行匹配,若该首字符在字符串B中出现,则继续将首字符和第二字符组成的串与字符串B进行匹配,依此类推,直到无法匹配为止,得到字符串A对字符串B的最大匹配长度和字符串B中的开始匹配位置。步骤S206,所述对比模、块200判断所述开始匹配位置是否小于O。若该首字符在字符串B中未出现,开始匹配位置小于0,则匹配失败,执行步骤S210。若该开始匹配位置不小于0,则执行步骤S208。
步骤S208,所述对比模块200将此开始匹配位置之前的字符串设置成不同点,执行步骤S216。步骤S210,所述对比模块200继续将字符串A中第二字符与字符串B进行匹配,若该第二字符在字符串B中出现,则继续将第二字符和第三字符组成的串与字符串B进行匹配;若该第二字符在字符串B中未出现,则继续将第三字符与字符串B进行匹配。依此类推,直到无法匹配为止,得到字符串A对字符串B的最大匹配长度及两个字符串中的开始匹配位置。
步骤S212,所述对比模块200判断两个字符串中的开始匹配位置是否均小于O。若字符串A中所有字符在字符串B中均未出现,则两个字符串中的开始匹配位置均小于0,则匹配失败,执行步骤S218。若有一个字符串中的开始匹配位置不小于0,则执行步骤S214。步骤S214,所述对比模块200将两字符串的开始匹配位置之前的字符串设置成不同点。步骤S216,所述对比模块200根据最大匹配长度、开始匹配位置及已经设置的不同点,分别截取新的字符串A、B、C、D。其中,新的字符串A为原来的字符串A已经匹配的字符后面的剩余部分;新的字符串B为原来的字符串B已经匹配的字符后面的剩余部分;新的字符串C为原来的字符串C后面加上原来的字符串A中已经匹配的字符部分,已经设置的不同点用不同的字体或颜色标出;新的字符串D为原来的字符串D后面加上原来的字符串B中已经匹配的字符部分,已经设置的不同点用不同的字体或颜色标出。截取之后返回步骤S202。步骤S218,若字符串A长度大于0,则将字符串A中的剩余字符设置成不同点,力口入字符串C的字符后面,并清空字符串A ;若字符串B长度大于0,则将字符串B中的剩余字符设置为不同点,加入字符串D的字符后面,并清空字符串B ;若字符串A与B长度均等于0,则结束对比。所述对比结果为完成对比过程后得到的字符串C与字符串D。可以理解,本发明并不局限于对比官方专利文件和内部专利文件中的专利信息,本领域技术人员可以很容易利用本发明所述方法及系统对比其它文本信息。以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
权利要求
1.一种文本信息对比方法,其特征在于,该方法包括 读取步骤读取要对比的两份文本文件中的文本信息; 对比步骤使用最大匹配法对比两份文本文件中每一项需要对比的文本信息,若有不一致则标出不同点; 显示步骤将对比结果在显示装置中显示出来。
2.如权利要求I所述的文本信息对比方法,其特征在于,所述对比步骤具体包括 设置步骤提取第一份文本文件中的要对比的一项文本信息,设为字符串A,提取第二份文件中相应的文本信息,设为字符串B,另外分别设字符串C及字符串D,均为空值; 判断步骤判断所述字符串A及字符串B长度是否均大于O,若两字符串长度均大于O,则执行第一匹配步骤,若至少有一个字符串长度为O,则执行标识步骤; 第一匹配步骤将字符串A中首字符与字符串B进行匹配,若该首字符在字符串B中出现,则继续将首字符和第二字符组成的串与字符串B进行匹配,依此类推,直到无法匹配为止,得到字符串A对字符串B的最大匹配长度和字符串B中的开始匹配位置,若该首字符在字符串B中未出现,开始匹配位置小于O,则匹配失败,执行第二匹配步骤,若该开始匹配位置不小于O,则将此开始匹配位置之前的字符串设置成不同点,执行截取步骤; 第二匹配步骤继续将字符串A中第二字符与字符串B进行匹配,若该第二字符在字符串B中出现,则继续将第二字符和第三字符组成的串与字符串B进行匹配,若该第二字符在字符串B中未出现,则继续将第三字符与字符串B进行匹配,依此类推,直到无法匹配为止,得到字符串A对字符串B的最大匹配长度及两个字符串中的开始匹配位置,若字符串A中所有字符在字符串B中均未出现,两个字符串中的开始匹配位置均小于O,则匹配失败,执行标识步骤,若有一个字符串中的开始匹配位置不小于O,则将两字符串的开始匹配位置之前的字符串设置成不同点,执行截取步骤; 截取步骤根据最大匹配长度、开始匹配位置及已经设置的不同点,分别截取新的字符串A、B、C、D,截取之后返回所述判断步骤; 标识步骤若字符串A长度大于O,则将字符串A中的剩余字符设置成不同点,加入字符串C的字符后面,并清空字符串A,若字符串B长度大于O,则将字符串B中的剩余字符设置为不同点,加入字符串D的字符后面,并清空字符串B,若字符串A与B长度均等于O,则结束对比。
3.如权利要求2所述的文本信息对比方法,其特征在于,所述截取步骤具体包括 截取新的字符串A为原来的字符串A已经匹配的字符后面的剩余部分; 新的字符串B为原来的字符串B已经匹配的字符后面的剩余部分; 新的字符串C为原来的字符串C后面加上原来的字符串A中已经匹配的字符部分,已经设置的不同点用不同的字体或颜色标出; 新的字符串D为原来的字符串D后面加上原来的字符串B中已经匹配的字符部分,已经设置的不同点用不同的字体或颜色标出。
4.如权利要求2所述的文本信息对比方法,其特征在于,所述对比结果为完成对比步骤后得到的字符串C与字符串D。
5.如权利要求I所述的文本信息对比方法,其特征在于,所述显示步骤中以网页的形式在显示装置中显示对比结果。
6.一种文本信息对比系统,其特征在于,该系统包括 读取模块,用于读取要对比的两份文本文件中的文本信息; 对比模块,用于使用最大匹配法对比两份文本文件中每一项需要对比的文本信息,若有不一致则标出不同点; 显示模块,用于将对比结果在显示装置中显示出来。
7.如权利要求6所述的文本信息对比系统,其特征在于,所述对比模块的对比过程具体包括 设置步骤提取第一份文本文件中的要对比的一项文本信息,设为字符串A,提取第二份文件中相应的文本信息,设为字符串B,另外分别设字符串C及字符串D,均为空值; 判断步骤判断所述字符串A及字符串B长度是否均大于O,若两字符串长度均大于O,则执行第一匹配步骤,若至少有一个字符串长度为O,则执行标识步骤; 第一匹配步骤将字符串A中首字符与字符串B进行匹配,若该首字符在字符串B中出现,则继续将首字符和第二字符组成的串与字符串B进行匹配,依此类推,直到无法匹配为止,得到字符串A对字符串B的最大匹配长度和字符串B中的开始匹配位置,若该首字符在字符串B中未出现,开始匹配位置小于O,则匹配失败,执行第二匹配步骤,若该开始匹配位置不小于O,则将此开始匹配位置之前的字符串设置成不同点,执行截取步骤; 第二匹配步骤继续将字符串A中第二字符与字符串B进行匹配,若该第二字符在字符串B中出现,则继续将第二字符和第三字符组成的串与字符串B进行匹配,若该第二字符在字符串B中未出现,则继续将第三字符与字符串B进行匹配,依此类推,直到无法匹配为止,得到字符串A对字符串B的最大匹配长度及两个字符串中的开始匹配位置,若字符串A中所有字符在字符串B中均未出现,两个字符串中的开始匹配位置均小于O,则匹配失败,执行标识步骤,若有一个字符串中的开始匹配位置不小于O,则将两字符串的开始匹配位置之前的字符串设置成不同点,执行截取步骤; 截取步骤根据最大匹配长度、开始匹配位置及已经设置的不同点,分别截取新的字符串A、B、C、D,截取之后返回所述判断步骤; 标识步骤若字符串A长度大于O,则将字符串A中的剩余字符设置成不同点,加入字符串C的字符后面,并清空字符串A,若字符串B长度大于O,则将字符串B中的剩余字符设置为不同点,加入字符串D的字符后面,并清空字符串B,若字符串A与B长度均等于O,则结束对比。
8.如权利要求7所述的文本信息对比系统,其特征在于,所述截取步骤具体包括 截取新的字符串A为原来的字符串A已经匹配的字符后面的剩余部分; 新的字符串B为原来的字符串B已经匹配的字符后面的剩余部分; 新的字符串C为原来的字符串C后面加上原来的字符串A中已经匹配的字符部分,已经设置的不同点用不同的字体或颜色标出; 新的字符串D为原来的字符串D后面加上原来的字符串B中已经匹配的字符部分,已经设置的不同点用不同的字体或颜色标出。
9.如权利要求7所述的文本信息对比系统,其特征在于,所述对比结果为完成对比过程后得到的字符串C与字符串D。
10.如权利要求6所述的文本信息对比系统,其特征在于,所述显示模块以网页的形式在显示装置中显示对比结果 。
全文摘要
一种文本信息对比方法,该方法包括步骤读取要对比的两份文本文件中的文本信息;使用最大匹配法对比两份文本文件中每一项需要对比的文本信息,若有不一致则标出不同点;将对比结果在显示装置中显示出来。本发明还提供一种文本信息对比系统。本发明可以对比文本信息并直观地标识出信息错误点。
文档编号G06F17/22GK102737012SQ20111008482
公开日2012年10月17日 申请日期2011年4月6日 优先权日2011年4月6日
发明者易志强, 李忠一, 林海洪, 江威, 罗安胜, 谢德意, 陶帅军 申请人:鸿富锦精密工业(深圳)有限公司, 鸿海精密工业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1