表述不一致检测装置及表述不一致检测程序的制作方法

文档序号:6397063阅读:204来源:国知局
专利名称:表述不一致检测装置及表述不一致检测程序的制作方法
技术领域
本发明的实施方式涉及表述不一致检测装置及表述不一致检测程序。
背景技术
一般,将相对于相同概念而存在多个表述(单词)的情况称为表述不一致。当在文件中存在该表述不一致时,在用户检索文件时、从文件中提取特定用语时等,即便是相同概念的用语,有时也无法适当地提取。此处,关于表述不一致,到目前为止存在各种技术。例如,存在如下方法从作为对象的文件中预先挑选认为是表述不一致候补的文字列而制作词典,基于该词典对表述不一致的候补的文字列进行检测。但是,在该方法中,需要预先通过人工来挑选表述不一致的候补等而制作词典,因此存在效率差这样的缺点。现有技术文献专利文献专利文献1:日本特开2005-35288号公报专利文件2 日本特开2006-53866号公报

发明内容
发明要解决的课题本发明要解决的课题在于,提供一种高精度地检测表述不一致候补的表述不一致检测装置。用于解决课题的手段实施方式的表述不一致检测装置具备用语提取部,从文件数据中提取用语;类似度计算部,计算所提取的用语的任意的对的类似度;表述不一致候补判定部,基于类似度来判定用语的对是否是表述不一致候补;以及组分类部,基于作为表述不一致候补的用语的对所共通包含的文字列,对表述不一致候补进行分组。


图1是表示实施方式的表述不一致检测装置的整体结构的框图。图2是表示实施方式的表述不一致检测装置的表述不一致检测处理的一例的流程图。图3是表示实施方式的表述不一致检测装置的文件数据存储部所存储的文件数据的一例的模式图。图4是表示实施方式的表述不一致检测装置的用语提取部所提取的用语的一例的模式图。图5是表示实施方式的表述不一致检测装置的类似度计算部进行的类似度计算处理的一例的流程图。图6是表示由实施方式的表述不一致检测装置的类似度计算部计算出的类似度的一例的模式图。图7是表示由实施方式的表述不一致检测装置的类似度计算部计算出的类似度的一例的模式图。图8是实施方式的表述不一致检测装置的类似度加权部的加权信息的一例的模式图。图9是表示实施方式的表述不一致检测装置的表述不一致候补的一例的模式图。图10是表示实施方式的表述不一致检测装置的组解析部的组解析处理的一例的模式图。图11是表不实施方式的表述不一致检测装置的表述不一致候补的一例的模式图。图12是表示实施方式的表述不一致检测装置的输出部的一例的模式图。
具体实施例方式以下,参照附图对本发明的实施方式进行说明。图1是表示本实施方式的表述不一致检测装置100的整体结构的框图。如图1所示,表述不一致检测装置100具备文件输入部1、用语提取部2、类似度计算部3、加权部4、表述不一致候补判定部5、组解析部6、表述不一致种类判定部7、输出数据生成部8、文件数据存储部10以及加权信息存储部11。通过文件输入部I来输入作为检测表述不一致的对象的文件数据。文件输入部I例如是键盘、鼠标,从存储于文件数据存储部10的文件数据中选择检测对象的文件数据。存储于文件数据存储部10的文件数据与该文件数据的种类建立对应地存储。文件数据的种类例如是“合同书”、“规章”、“法令文书”、“新闻报道”等。S卩,从文件输入部I输入表述不一致检测对象的文件数据和该文件数据的种类。另外,也可以从文件输入部I直接地输入文件数据和该文件数据的种类。用语提取部2从所输入的文件数据中提取用语(此处意味着单词、复合词)。本实施方式的用语提取部2通过多种提取方法来提取用语。类似度计算部3计算所提取的用语组中的两个用语的类似度。另外,基于编辑距离来进行类似度的计算。编辑距离是表示两个文字列多大程度不同的数值。此外,关于编辑距离以及类似度的计算将在后面加以叙述。加权部4基于存储于加权信息存储部11的加权信息来进行加权处理,该加权处理为,对由类似度计算部3计算出的类似度进行按照每个文件数据的种类的加权。另外,关于加权处理的详细情况将在后面加以叙述。表述不一致候补判定部5基于加权后的类似度,来判定所提取的用语组中的两个用语是否是表述不一致候补。组解析部6基于所判定的表述不一致候补组的共通的文字列和类似度,对表述不一致候补的组进行解析并分类。表述不一致种类判定部7对各表述不一致的候补的表述不一致的种类进行判定,并进行表述不一致判定处理。表述不一致检测部检测出的表述不一致候补被从输出部8输出。该输出部8例如是液晶显示器等显示装置。此处,参照图2至图12对表述不一致检测装置100的表述不一致检测处理进行说明。图2是表示表述不一致检测装置100的表述不一致检测处理的一例的流程图。首先,用户使用表述不一致检测装置100的文件数据输入部1,从文件数据存储部10输入表述不一致检测对象的文件数据(步骤S10)。图3表示作为所输入的文件数据的一例的文件数据101。如图3所示,文件数据101包含文件种类102和文件数据主体103。文件数据101的文件种类102在此处的说明中作为一例而举出“规章”。当输入了文件数据101时,用语提取部2从文件数据101中进行用语的提取(步骤S20)。用语提取部2的用语提取例如通过语态素分析、字面分析等方法来进行。此处,用语提取部2通过两种提取方法“提取方法A”以及“提取方法B”来分别进行用语提取。图4表示用语提取部2的用语提取结果,如图4所示那样,用语提取部2通过规定的提取方法将用语和表示该用语的提取位置的文件数据的行编号建立对应地提取。图4(a)是表不通过提取方法(A)提取的用语的提取用语表201,图4(b)是表不通过提取方法(B)提取的用语的提取用语表202。提取用语表201以及202包含用语ID栏、用语栏204、行编号栏205以及提取方法栏206。在用语ID栏203中存储有提取用语的识别符。在用语栏204中存储有由用语提取部2提取的用语。在行编号栏205中存储有用语栏204的用语被提取的行编号。在提取方法栏206中存储有由用语提取部2提取用语时的提取方法。另外,在用语提取时,也可以对每个提取的用语赋予提取源的文件名、词类的信息等。接着,类似度计算部3从所提取的用语中选择任意两个用语,并计算所选择的两个用语的类似度(步骤S30)。此处,参照图5对类似度计算部3的类似度计算处理的一例进行说明。首先,在类似度计算部3中根据用语提取部2的提取结果来选择两个用语(步骤S31)。另外,在用语提取部2通过多种提取方法提取了用语的情况下,从通过相同的用语提取方法来提取的用语中选择两个用语。类似度计算部3计算所选择的两个用语的编辑距离(步骤S32)。编辑距离是表示两个文字列多大程度不同的数值,例如基于为了对两个用语中的一方进行编辑而使其与另一方的用语一致而进行的操作的次数来计算。作为操作例如能够举出删除、置换、插入等。将这些操作的每一次操作的成本预先设定为“1”,对一方的用语进行操作,将对到其与另一方的用语成为相同的用语为止的成本进行了合计的值设为编辑距离。另外,在本实施方式中,对每个操作的种类的成本进行设定而计算编辑距离。例如,将置换的操作中的、表述不一致的可能性较高的“全角/半角”、“平假名/片假名”、“大写字母/小写字母”等文字种类置换的成本设为“O.1”。这样,通过预先设定每个操作的成本,能够提高表述不一致检测的精度。类似度计算部3使用所计算出的编辑距离来计算两个用语的类似度(步骤S33)。例如,通过计算编辑距离相对于两个用语的文字列的长度之和的比例、并从I减去所计算出的比例,由此计算类似度。例如,计算图4(a)所示的表的用语ID栏203中3的用语(以下称作用语3)与用语ID栏203中5的用语(以下称作用语5)的类似度。在为了使用语3和用语5成为相同的用语而对用语3进行编辑的情况下,将用语3的“PL”的“ P (全角)”置换成“P (半角)”、并将“L (全角)”置换成“L(半角)”。即,“全角/半角”置换的操作次数为两次,当将置换的成本设为“0.1”时,编辑距离为“0.2”。由于用语3和用语5的文字列的长度的合计为“4”,所以用语3和用语5的类似度为 “0.95”。在用语提取部2所提取的用语中存在未计算类似度的用语的情况下(步骤S34为否),返回到步骤S31,反复进行类似度计算处理。在计算了全部用语的类似度的情况下(步骤S34为是),结束类似度计算处理。图6以及图7表示类似度计算部3计算出的类似度的一例。此处,基于图4所示的提取用语表201和提取用语表202的表来计算类似度。图6以及图7是表示对计算了类似度的每个用语对的类似度进行表示的类似度表的图。图6是基于图4(a)所示的提取用语表201来计算了类似度的类似度表301。图7是基于图4(b)所示的提取用语表202来计算了类似度的类似度表302。在类似度表301和302中包含用语对ID栏303、提取方法栏304、用语A栏305、用语B栏306、用语A行编号栏307、用语B行编号栏308以及类似度栏309。在用语对ID栏303中存储有类似度计算对象的用语对的识别符。在提取方法栏304中存储有提取方法栏206的内容。在用语A栏305中存储有类似度计算对象的用语对的一方的用语。在用语B栏306中存储有类似度计算对象的用语对的另一方的用语。在用语A行编号栏307中存储有用语A栏305所存储的用语的提取源的行编号栏205的内容。在用语B行编号栏308中存储有用语B栏306所存储的用语的提取源的行编号栏205的内容。在类似度栏309中存储有类似度计算部3所计算的类似度。此处,返回到图2的说明。当计算类似度时,类似度加权部4基于表述不一致检测对象的文件的种类以及计算了类似度的用语的提取方法对类似度进行加权(步骤S40)。参照图8来说明类似度加权部4进行的类似度加权处理。图8是类似度加权信息表111。类似度加权信息表111存储有文件的种类112以及计算了类似度的用语的每个提取方法113的加权信息。由系统设计者、用户预先设定该加权信息。在本实施例中,作为文件的种类112能够举出“法令文书”、“新闻报道”、“新闻”、“规章”以及“学术文章”。此外,作为用语的提取方法113能够举出“提取方法A”以及“提取方法B”。S卩,在图2的步骤S40中,类似度加权部4基于表述不一致检测对象的文件数据的文件种类102以及计算了类似度的用语的提取方法,参照类似度加权信息表111,对类似度进行加权。接着,表述不一致候补判定部5基于被加权后的每个用语对的类似度,对表述不一致候补进行判定(步骤S50)。例如,通过提取类似度为预先设定的阈值以上的用语对等方法,来进行表述不一致候补的判定。在本实施方式中,将类似度的阈值设为0.6。此处,在图9的表述不一致候补表401中表不表述不一致候补。图9的表述不一致候补表401是表示根据类似度表301和302而通过表述不一致候补判定部7判定了的表述不一致候补的表,且是在类似度表301和302所包含的项目中追加了作为表述不一致候补的识别符的表述不一致候补ID栏402的表。通过加权部4对类似度进行了加权,因此图6以及图7所示的类似度表所包含的用语对中、类似度超过0.6的用语对,为“提取方法A”的“用语对ID11”的用语对和“提取方法B”的“用语对ID2、4、6、9”的用语对这五个用语对。当判定了表述不一致候补时,组解析部6参照表述不一致候补的共通的文字列、类似度,进行表述不一致候补的分组(步骤S60)。通过对所选择的任意两个表述不一致候补X和Y所包含的用语分别进行比较,来进行组解析部6的表述不一致候补的分组处理。在表述不一致候补X所包含的用语中的至少一方的用语的文字列包含于表述不一致候补Y所包含的用语的文字列的情况下,组解析部6将表述不一致候补X和Y判别为相同的组,并赋予相同的组ID。图10是表示由组解析部6进行的组解析处理的一例的流程图。另外,将赋予表述不一致候补的组ID设为I以上的整数即n,在组解析处理开始时设为n=l。如图10所示,组解析部6首先从由表述不一致候补判定部5判定的表述不一致候补中选择任意的表述不一致候补(步骤S61)。将在此所选择的表述不一致候补设为基准候补X。此外,将基准候补X以外的表述不一致候补称作被解析候补。在所选择的表述不一致候补X被赋予有组ID的情况下(步骤S62为否),组解析部6返回到步骤S61而再次选择表述不一致候补。在所选择的表述不一致候补X未被赋予组ID的情况下(步骤S62为是),组解析部6从被解析候补中选择表述不一致候补(步骤S63)。将在此所选择的表述不一致候补称作被解析候补Y。在基准候补X所包含的用语A和用语B中的任一方包含于表述不一致候补Y的情况下(步骤S64为是),组解析部6判定非判别候补Y是否被赋予有组ID (步骤S65)。另夕卜,在基准候补X所包含的用语A和用语B均不包含于判别候补Y的情况下(步骤S64为否),组解析部6返回到步骤S63而再次从判别候补中选择候补。在非判别候补Y未被赋予组ID的情况下(步骤S65为是),判定为基准候补X和被解析候补Y为相同的组,将候补X和候补Y的组ID设为“η” (步骤S66)。当赋予组ID时,组解析部6使η=η+1 (步骤S67),并向步骤S68前进。在非判别候补Y被赋予有组ID的情况下(步骤S65为否),对基准候补X赋予与被解析候补Y相同的组ID(步骤S70)。之后,向步骤S68前进。在存在未进行组解析处理的被解析候补的情况下(步骤S68为否),返回到步骤S63,再次选择被解析候补。另外,例如通过对“候补总数-1”和组ID赋予完成的候补总数进行比较,来进行是否存在未进行组解析处理的被解析候补的判定。具体而言,在“候补总数-1”小于组ID赋予完成的候补总数的情况下,组解析部6判定为对全部被解析候补进行了组解析处理。相反,在“候补总数-1”为组ID赋予完成的候补总数以上的情况下,组解析部6判定为存在未进行组解析处理的被解析候补。在不存在未进行组解析处理的被解析候补的情况下(步骤S68为是),组解析部6判定是否对全部表述不一致候补进行了组判定处理(步骤S69)。在不存在未进行组解析处理的被解析候补的情况下(步骤S69为否),返回到步骤S61,从表述不一致候补中选择基准候补X并反复进行处理。在对全部表述不一致候补进行了组判定处理的情况下(步骤S69为是),即、在对全部表述不一致候补赋予了组ID的情况下,结束组解析处理。
如上所述,本实施方式的组解析部6将表述不一致候补进行分组。此外,组解析部6基于已经赋予了组ID的表述不一致候补来提取组关系,因此能够高效地提取相关联的表述不一致候补。接着,返回到图2的说明。表述不一致种类判定部7对表述不一致候补的种类进行判定(步骤S80)。由表述不一致种类判定部7判定的表述不一致种类例如是“间隔不同”、“半角全角不同”、“后方一致”、“前方一致”、“片假名平假名不同”、“一个文字不同”、“多个文字不同”。“间隔不同”为,在删除表述不一致候补所包含的用语各自的间隔的情况下,成为相同的用语。“半角全角不同”为,在将表述不一致候补所包含的用语分别统一成全角或者半角的情况下,成为相同的用语。“后方一致”是指表述不一致候补所包含的用语各自后方的文字一致的状态。“前方一致”是指表述不一致候补所包含的用语各自前方的文字一致的状态。“片假名平假名不同”为,在将表述不一致候补所包含的用语分别统一成平假名或者片假名的情况下,成为相同的用语。“一个文字不同”为,表述不一致候补所包含的用语的一个文字不同。“多个文字不同”为,表述不一致候补所包含的用语的多个文字不同。图11表示由组解析部6进行的组解析处理的结果、以及由表述不一致种类分类部7进行的表述不一致种类分类处理的结果的一例。图11是在表述不一致候补表401中追加了组栏502、表述不一致种类栏503的表述不一致候补表501。在组栏502中存储有由组解析部6进行的组解析处理的结果。在表述不一致种类栏503中存储有由表述不一致种类分类部7进行的表述不一致种类分类处理的结果。图12是表不本实施方式的表述不一致检测处理后的输出部8的一例的图。如图12所不,在输出部8显不表述不一致检测画面601。在表述不一致检测画面601中具有分类按钮602、分类设定按钮603以及表述不一致检测结果显示区域604。在表述不一致检测结果显示区域604中,作为检测结果而显示有用语A栏305、用语B栏306、用语A行编号栏307、用语B行编号栏308、类似度栏309、组栏502以及表述不一致种类栏503。分类按钮602基于分类设定按钮603的设定,进行在表述不一致检测结果显示区域604中显示的表述不一致检测结果的显示顺序的重新排列。此处,分类设定按钮603被设定为“组顺序”,因此按照存储于组栏502的组ID从小到大的顺序进行显示。如上所述,本实施方式的表述不一致检测装置不预先制作词典就能够对表述不一致候补进行检测。此外,通过在编辑距离的计算时进行文字种类置换操作,使文字种类置换操作比基于其他操作的编辑距离短,由此能够进行高精度的表述不一致候补检测。此外,通过对文件数据的每个种类进行加权,来提高表述不一致候补检测的精度。此外,本实施方式的表述不一致检测装置对检测出的表述不一致候补的组关系进行解析,按照每个组ID从输出部8进行输出,由此用户能够有效地确认表述不一致的候补。同样地,还能够按照表述不一致候补的种类的每个分类在显示部上进行显示。另外,本实施方式的表述不一致检测装置100也可以具备登记用语的词典存储部。在该情况下,将从规定的文件数据提取的表述不一致候补登记到词典存储部。类似度计算部5计算用语提取部2提取的用语与登记于词典存储部的用语的类似度。由此,能够从社内规章等认为使用相同语句的文件数据中有效地检测表述不一致。此外,也可以在词典存储部中登记排除条件,将满足排除条件的表述不一致候补从表述不一致候补中删除。上述排除条件例如是“在开头存在‘各’这样的文字,接在‘各’之后的文字列一致的用语对”、“在末尾存在‘等’这样的文字,‘等’之前的文字列一致的用语对”、“在末尾存在‘书’这样的文字,‘书’之前的文字列一致的用语对”等条件。此外,也可以在用语提取部2从文件数据中进行用语提取时,将提取用语的行编号和表示用语是第几个文字的位置信息赋予所提取的用语。由此,从相同位置提取的用语不会成为表述不一致候补,因此能够提高表述不一致候补的检测精度。以上对本发明的实施方式进行了说明,但该实施方式只不过作为例子而表示,并不意味着对发明的范围进行限定。该新实施方式能够以其他各种方式实施,在不脱离发明的主旨的范围内能够进行各种省略、置换、变更。该实施方式及其变形例包含于发明的范围、主旨,并且包含于专利请求的范围所记载的发明及其均等的范围。符号的说明:I…文件数据输入部;·2…用语提取部;3…类似度计算部;4…类似度加权部介..表述不一致候补判定部;6…组关系提取部;7…表述不一致种类判定部;10…文件数据存储部;11…加权信息存储部。
权利要求
1.一种表述不一致检测装置,具备: 用语提取部,从文件数据中提取用语; 类似度计算部,计算所述提取的用语的任意的对的类似度; 候补判定部,基于所述类似度来判定所述用语的对是否是表述不一致候补;以及组分类部,基于作为所述表述不一致候补的所述用语的对所共通包含的文字列,对所述表述不一致候补进行分组。
2.一种表述不一致检测装置,具备: 用语提取部,从文件数据中提取用语; 类似度计算部,对所述提取的用语的任意的对进行包含文字种类置换的操作,基于所述操作的次数来计算编辑距离,并基于所述编辑距离来计算类似度;以及 表述不一致候补判定部,基于所述类似度来判定所述用语的对是否是表述不一致候补。
3.如权利要求1所述的表述不一致检测装置,其中, 所述类似度计算部为,通过对所述提取的用语的对的一方的用语反复应用置换、删除、插入或者文字种类置换的操作,由此求出编辑距离,并计算类似度。
4.如权利要求2所述的表 述不一致检测装置,其中, 还具备组分类部,该组分类部基于作为所述表述不一致候补的所述用语的对所共通包含的文字列,对所述表述不一致候补进行分组。
5.一种表述不一致检测程序,用于表述不一致检测装置,该表述不一致检测装置具备:用语提取部,从文件数据中提取用语;类似度计算部,使用所述提取的用语的任意的对来计算类似度;表述不一致候补判定部,基于所述类似度来判定所述用语的对是否是表述不一致候补;以及组分类部,基于作为所述表述不一致候补的所述用语的对所共通包含的文字列,对所述表述不一致候补进行分组, 该表述不一致检测程序使所述表述不一致检测装置实现如下功能: 所述用语提取部从文件数据中提取用语的功能; 所述类似度计算部使用所述提取的用语的任意的对来计算类似度的功能; 所述表述不一致候补判定部基于所述类似度来判定所述用语的对是否是表述不一致候补的功能;以及 所述组分类部基于作为所述表述不一致候补的用语的对所包含的共通文字列来对所述表述不一致候补进行分组的功能。
6.一种表述不一致检测程序,用于表述不一致检测装置,该表述不一致检测装置具备:用语提取部,从文件数据中提取用语;类似度计算部,对所述提取的用语的任意的对进行包含文字种类置换的操作,基于所述操作的次数来计算编辑距离,并基于所述编辑距离来计算类似度;以及表述不一致候补判定部,基于所述类似度来判定所述用语的对是否是表述不一致候补, 该表述不一致检测程序使所述表述不一致检测装置实现如下功能: 所述用语提取部从文件数据中提取用语的功能; 所述类似度计算部对所述提取的用语的任意的对进行包含文字种类置换的操作,基于所述操作的次数来计算编辑距离,并基于所述编辑距离来计算类似度的功能;以及所述表述不一致候补判定部基于所述类似度来判定所述用语的对是否是表述不一致候补的 功能。
全文摘要
本发明提供表述不一致检测装置及表述不一致检测程序。实施方式的表述不一致检测装置具备用语提取部,从文件数据中提取用语;类似度计算部,计算所提取的用语的任意的对的类似度;表述不一致候补判定部,基于类似度来判定用语的对是否是表述不一致候补;以及组分类部,基于作为表述不一致候补的用语的对所共通包含的文字列,对表述不一致候补进行分组。
文档编号G06F17/21GK103080937SQ20128000256
公开日2013年5月1日 申请日期2012年5月23日 优先权日2011年6月8日
发明者小林干门, 篠崎政久, 加纳敏行, 斋藤佳美 申请人:株式会社东芝, 东芝解决方案株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1