文件比对系统的制作方法

文档序号:24352497发布日期:2021-03-19 12:38阅读:105来源:国知局
本发明涉及一种对多个文件进行比对的系统。
背景技术
::已提出了如下技术方法,即:在对象文件中提取出多个关键词的情况下,基于所述多个关键词中重要度最高的关键词的下位概念的关键词来保存对象文件,除了在利用与对象文件对应的关键词进行检索时命中(hit)以外,也可适当命中其上位概念的关键词(例如参照专利文献1)。[现有技术文献][专利文献][专利文献1]国际公开公报wo2007-057945号公报技术实现要素:[发明所要解决的问题]但是,在文件被盗用的情况下,会变更类似措辞的语序或单词的一部分等,而努力消除其盗用痕迹,因而难以评价某个文件从其他文件盗用制作的可能性为何种程度。因此,本发明的目的在于提供下述系统,即:在对成为对象的文件进行比对时,可容易地推算所述文件的类似率。[解决问题的技术手段]本发明的文件比对系统包括:序列化文件提取元件,从被检验文件dt及参照文件dr各自中,提取指定种类的单词的序列集合来分别作为序列化被检验文件nt及序列化参照文件nr;第一命题定义元件,将由所述序列化文件提取元件所提取的所述序列化被检验文件nt及所述序列化参照文件nr的共同单词集合c所含的单词作为命题而定义为真,将除此以外的单词作为命题而定义为假,并且,在作为命题而定义为假的单词中,包含所述单词的第一指定长度的单词序列中,作为命题而定义为真的单词的比率为第一指定值以上的情况下,将所述单词再定义为通配符(wildcard)且作为命题而再定义为真;比较用单词序列提取元件,从所述序列化被检验文件nt及所述序列化参照文件nr各自中,分别提取比较用被检验单词序列nt*及比较用参照单词序列nr*,所述比较用被检验单词序列nt*及比较用参照单词序列nr*包含由所述第一命题定义元件作为命题而定义为真的单词的序列集合;以及类似率推算元件,将由所述比较用单词序列提取元件所提取的比较用被检验单词序列nt*及比较用参照单词序列nr*进行比对,在视为被定义为所述通配符的单词与所有单词一致时的单词序列的连续一致部位的长度为基准值以上的情况下,基于所述连续一致部位所含的单词数及各单词的字符数中的至少一者,来推算所述被检验文件dt及所述参照文件dr的类似率。根据所述结构的文件比对系统,从被检验文件dt及参照文件dr各自中,分别提取指定种类的单词的序列集合作为序列化被检验文件nt及序列化参照文件nr。将序列化被检验文件nt及序列化参照文件nr的共同单词集合c所含的单词作为命题而定义为真(true),将除此以外的单词作为命题而定义为假(false)。进而,在作为命题而定义为假的单词中,包含所述单词的第一指定长度的单词序列中,作为命题而定义为真的单词的比率为第一指定值以上的情况下,将所述单词再定义为通配符,且作为命题而再定义为真。“通配符”是指与任意的单词进行比对的情况下视为一致的不特定的单词或字符串。由此,尽管被检验文件dt可能是盗用参照文件dr并局部地变更单词等而制作,也可避免因所述变更而一律评价为盗用的可能性或类似率低。另外,将包含被定义为真的单词的序列集合的比较用被检验单词序列nt*及比较用参照单词序列nr*各自进行比对。此时,在视为被定义为通配符的单词与所有单词一致时的单词序列的连续一致部位的长度为基准值以上的情况下,基于连续一致部位所含的单词数及各单词的字符数中的至少一者,来推算被检验文件dt及参照文件dr的类似率。本发明的文件比对系统优选还包括:第二命题定义元件,针对所述序列化被检验文件nt及所述序列化参照文件nr的所述共同单词集合c所含的各个单词,在包含于多个类似部位中的任一个类似部位的情况下,作为命题而定义为真,在并非如此情况的情况下,作为命题而定义为假,所述多个类似部位是在被定义为所述通配符的单词的前后将所述连续一致部位分割而定义,所述类似率推算元件以如下方式推算所述类似率,即:所述共同单词集合c所含的单词中,由所述第二命题定义元件作为命题而定义为假的单词的个数或所述单词的字符数中的至少一者越多,则所述类似率越高。本发明的文件比对系统中,优选所述类似率推算元件推算下述比率作为所述类似率,即:相对于所述共同单词集合c所含的单词的个数或所述单词的字符数中的至少一者,由所述第二命题定义元件作为命题而定义为假的单词的个数或所述单词的字符数中的至少一者之比率。本发明的文件比对系统中,优选所述命题定义元件将作为命题而定义为真的单词中,仅与作为命题而定义为假的单词邻接的一个单词作为命题而再定义为假。本发明的文件比对系统中,优选所述序列化文件提取元件将所述被检验文件dt及所述参照文件dr各自所含的与所述指定种类不同的规定种类的单词转换为所述指定种类的单词后,分别提取所述序列化被检验文件nt及所述序列化参照文件nr。附图说明图1为与作为本发明的一实施方式的文件比对系统的结构有关的说明图。图2为与作为本发明的一实施方式的文件比对系统的功能有关的说明图。图3a为与被检验文件及参照文件有关的说明图。图3b为与序列化被检验文件及序列化参照文件有关的说明图。图4为与共同单词集合有关的说明图。图5a为与参照旗标(flag)及被检验旗标有关的说明图。图5b为与参照旗标及被检验旗标的旗标替换(f→t)有关的说明图。图5c为与参照旗标及被检验旗标的旗标替换(t→f)有关的说明图。图6为与比较用被检验单词序列及比较用参照单词序列有关的说明图。图7a为与连续一致部位的提取方法有关的说明图。图7b为与连续一致部位的提取方法有关的说明图。图7c为与连续一致部位的提取方法有关的说明图。图8a为与连续一致部位的提取方法有关的说明图。图8b为与连续一致部位的提取方法有关的说明图。图9a为与类似部位有关的说明图。图9b为与类似部位有关的说明图。图10a为与原始部位旗标有关的说明图。图10b为与类似率的推算方法有关的说明图。[符号的说明]1:服务器2:客户端10:数据库11:序列化文件提取元件121:第一命题定义元件122:第二命题定义元件13:比较用单词序列提取元件14:类似率推算元件20:存储装置21:输入接口22:输出接口24:运算处理装置具体实施方式(结构)图1所示的作为本发明的一实施方式的文件比对系统包含经由网络而可与客户端(client)2相互通信的服务器(server)1。服务器1包括数据库(database)10、序列化文件提取元件11、第一命题定义元件121、第二命题定义元件122、比较用单词序列提取元件13及类似率推算元件14。服务器1也可包含智能手机(smartphone)或平板(tablet)等便携式的终端装置。数据库10除了存储保持参照文件dr或其原文以外,还存储保持从客户端2上传至服务器1的被检验文件dt或其原文、类似率rp的评价结果等。数据库10也可包含与服务器1分立的数据库服务器。序列化文件提取元件11、第一命题定义元件121、第二命题定义元件122、比较用单词序列提取元件13及类似率推算元件14包含运算处理装置。运算处理装置包含一个或多个中央处理器(centralprocessingunit,cpu)及视需要的通信机器、存储装置(所述存储器)等,所述cpu从存储器读取必要的软件及数据,将所述数据作为对象,按照所述软件来执行指定的运算处理。关于所述指定的运算处理的详情,将在下文中描述。客户端2例如包含智能手机或平板等便携式的终端装置。所谓“便携式”,例如是指其尺寸为人的标准的手掌程度,其重量为可单手或放入衣服口袋等而简单携带的程度。客户端2也可包含较便携式的机器更为大型且有重量的机器(例如组装至车辆4的机器)。客户端2包括存储装置20、输入接口21、输出接口22及运算处理元件24。存储装置20以存储保持由运算处理元件24所得的运算处理结果等的方式构成。存储装置20以保存地图信息的方式构成。“地图信息”中,包含:表示构成道路的各链路的位置、形状及姿势等的坐标列;以及用于辨识各链路的链路辨识信息。输入接口21包含操作按钮及麦克风(microphone)等,用户可进行接触式操作或通过说话而进行非接触式操作。输出接口22包含显示器装置及音响输出装置(扬声器),显示客户端地图信息等图像内容或输出音响内容。输入接口21及输出接口22也可包含触摸屏式显示器。运算处理元件24包含信息处理部(cpu)及视需要的通信机器、存储装置(所述存储器)等,所述信息处理部(cpu)视需要从构成存储装置20的存储器的指定区域读取软件及数据后,将所述数据作为对象,按照所述软件执行指定的运算处理。(功能)首先,准备成为比对对象的被检验文件dt及参照文件dr(图2/步骤(step)102)。例如,被检验文件dt及参照文件dr也可在客户端2中通过输入接口21指定,并从所述客户端2对服务器1进行上传。参照文件dr也可从各种客户端2或文件信息源预先上传至服务器1后,注册于数据库10。也可从不同的原文各自中分别提取被检验文件dt及参照文件dr。例如,设存在征询福泽谕吉的《劝学篇》的读书感想的课题。理所当然,预想引用作为本书的象征性语句的“天不造人上人,也不造人下人”这一文章。本文章为与盗用不同的引用,因而事先将其注册于白名单(whitelist)。接下来,规定为不将“天不造人上人,也不造人下人”这一表述视为盗用,因而为了将检测出所述文章作为盗用部位的情况防患于未然,而从被检验文件及参照文件中排除所述文章。由此,例如选定或提取图3a上段所示的被检验文件dt“ここで主張しておきたいことは、私が小学生だったとき..(这里想要主张的是,我还是小学生时……)”及图3a下段所示的参照文件dr“10年以上前の話になりますが、私は小学生だったとき..(这是10年以上之前的事情了,我还是小学生时……)”作为比对对象的文件。通过序列化文件提取元件11,分别从被检验文件dt及参照文件dr中提取单词序列集合(图2/step104)。例如,单词区分为动词、形容词、形容动词、名词(包含代名词)、副词、连体词、接续词、感动词、助动词及助词。由此,例如从图3a上段所示的被检验文件dt中,提取“ここ”“で”“主張”“して”“おきたい”“こと”“は”“私”“が”“小学生”“だった”“とき”……那样的被检验单词序列集合nt。同样地,从图3a下段所示的参照文件dr中,提取“10年”“以上”“前”“の”“話”“に”“なります”“が”“私”“は”“小学生”“だった”“とき”……那样的参照单词序列集合nr。也可将形容词、形容动词及动词中至少一个进行名词化后,作为名词而构成单词序列集合。例如,也可对文件所含的形容词“美しい(美丽的)”赋予接尾词“さ”而变更为名词“美しさ(美丽)”。也可将文件所含的形容词“beautiful(美丽的)”变更为名词“beauty(美丽)”。通过序列化文件提取元件11,从被检验单词序列集合nt中提取指定种类的单词的序列集合作为序列化被检验文件nt(图2/step106)。由此,例如从被检验单词序列集合nt中,如图3b上段所示那样提取“ここ”“主張”“こと”“私”“小学生”“とき”……那样的名词序列集合作为序列化被检验文件nt。同样地,通过序列化文件提取元件11从参照单词序列集合nr中提取指定种类的单词的序列集合作为序列化参照文件nr(图2/step108)。由此,例如从参照单词序列集合nr中,如图3b下段所示那样提取“10年”“以上”“前”“話”“私”“小学生”“とき”……那样的名词序列集合作为序列化参照文件nr。指定种类的单词除了名词以外,也可为形容词及形容动词等。通过第一命题定义元件121,提取序列化被检验文件nt及序列化参照文件nr各自的共同单词集合c(图2/step110)。由此,例如在图4上段所示的序列化被检验文件nt及图4下段所示的序列化参照文件nr中,提取{私、小学生、とき、自分、目標、達成、喜び、ゲーム、こと、悔しさ、経験}作为共同的单词(赋予有阴影)的集合c。对序列化被检验文件nt及序列化参照文件nr各自所含的、构成共同单词集合c的共同单词的个数(使用量)mt及mr进行计数(图2/step112)。图4所示的示例中,序列化被检验文件nt的共同单词数mt为“14”,序列化参照文件nr的共同单词数mr为“15”。判定mt是否为基准值m以上,且mr是否为基准值m以上(图2/step114)。在所述判定结果为否定的情况下(图2/step114中为否(no)),则将另一序列化参照文件nr作为对象,重复step108(或step104)以后的一系列处理。在所述判定结果为肯定的情况下(图2/step114中为是(yes)),通过第一命题定义元件121,在序列化被检验文件nt中提取可能与序列化参照文件nr类似的部位(图2/step116)。具体而言,通过第一命题定义元件121,在序列化被检验文件nt中,将共同单词集合c所包含的单词作为命题而定义为真,将除此以外的单词作为命题而定义为假。即,在序列化被检验文件nt中,对共同单词集合c所包含的单词赋予旗标t(true:作为命题的“真”)(参照图5a中赋予有阴影的部位),对除此以外的单词赋予旗标f(false:作为命题的“假”)。由此,例如与作为单词序列的序列化被检验文件nt对应地生成图5a上段所示那样的所述旗标的序列即被检验旗标序列ft{f、f、t、t、t、t、f、t、……}。同样地,通过第一命题定义元件121,在序列化参照文件nr中,将共同单词集合c所包含的单词作为命题而定义为真,将除此以外的单词作为命题而定义为假。即,在序列化参照文件nr中,生成对共同单词集合c所包含的单词赋予有旗标t(true)(参照图5a中赋予有阴影的部位参照),对除此以外的单词赋予有旗标f(false)的参照旗标序列fr。由此,例如与作为单词序列的序列化参照文件nr对应地生成图5a下段所示那样的参照旗标序列fr{f、f、f、f、f、t、t、t、f、t、t、……}。通过第一命题定义元件121来判定被检验旗标序列ft是否含有旗标t,且参照旗标序列fr是否含有旗标t(图2/step118)。在所述判定结果为否定的情况下(图2/step118中为否),将另一序列化参照文章nr作为对象,重复step108(或step104)以后的一系列处理。在所述判定结果为肯定的情况下(图2/step118中为是),通过比较用单词序列提取元件13来生成比较用被检验单词序列nt*及比较用参照单词序列nr*(图2/step120)。具体而言,在被检验旗标序列ft中,通过比较用单词序列提取元件13,在包含赋予有旗标f的单词的第一指定长度的单词序列中,赋予有旗标t的单词的比率为第一指定值的情况下,对赋予有所述旗标f的单词再定义旗标t,且在序列化被检验文件nt中,将赋予有所述替换旗标t的单词替换为通配符“#”。由此,例如像图5b上段所示那样,在被检验旗标序列ft中,将前后为旗标t的一个(第一指定数=1)旗标f替换为旗标t,且在序列化被检验文件nt中,将赋予有所述替换旗标t的单词“サッカー”及“非常”替换为通配符“#”(参照赋予有阴影的部位)。同样地,在参照旗标序列fr中,通过比较用单词序列提取元件13,在包含赋予有旗标f的单词的第一指定长度的单词序列中,赋予有旗标t的单词的比率为第一指定值的情况下,对赋予有所述旗标f的单词再定义旗标t,且在序列化参照文件nr中,将赋予有所述再定义旗标t的单词替换为通配符“#”。由此,例如像图5b下段所示那样,在参照旗标序列fr中,将在包含三单词的单词序列(第一指定长度=3)中前后为旗标t的一个旗标f再定义为旗标t(第一指定值=2/3),且在序列化参照文件nr中,将赋予有所述替换旗标t的单词“野球”“これら”及“その後”替换为通配符“#”(参照赋予有阴影的部位)。进而,在被检验旗标序列ft中,通过比较用单词序列提取元件13,在包含赋予有旗标t的单词的第二指定长度的单词序列中,赋予有旗标f的单词的比率为第二指定值的情况下,对赋予有所述旗标t的单词再定义旗标f。同样地,在参照旗标序列fr中,通过比较用单词序列提取元件13,在包含赋予有旗标t的单词的第二指定长度的单词序列中,赋予有旗标f的单词的比率为第二指定值的情况下,对赋予有所述旗标t的单词再定义旗标f。由此,例如像图5c下段所示那样,在参照旗标序列fr中,将包含三单词的单词序列(第二指定长度=3)中前后为旗标f的一个旗标t再定义为旗标f(第二指定值=2/3)(参照赋予有阴影的部位)。接下来,在被检验旗标序列ft中,通过比较用单词序列提取元件13,将旗标f以规定数以上连续的部分从序列化被检验文件nt中删除,生成比较用被检验单词序列nt*。由此,例如像图6上段所示那样,通过将旗标f以一以上(规定数=1)连续的部分删除,从而生成尺寸较原来的序列化被检验文件nt更小的比较用被检验单词序列nt*。同样地,在参照旗标序列fr中,通过比较用单词序列提取元件13,将旗标f以规定数以上连续的部分从序列化参照文件nr中删除,生成比较用参照单词序列nr*。由此,例如像图6下段所示那样,通过将旗标f以一以上(规定数=1)连续的部分删除,从而生成尺寸较原来的序列化参照文件nr更小的比较用参照单词序列nr*。接下来,按照基本的检测方法来提取且记录类似部位(图2/step122)。具体而言,通过第二命题定义元件122将比较用被检验单词序列nt*及比较用参照单词序列nr*进行比对,结果搜索单词以基准值m以上连续地一致的部位。例如像图7a所示那样,从比较用参照单词序列nr*的前端处于较比较用被检验单词序列nt*的后端更靠后方的状态起,使比较用参照单词序列nr*的各个单词以缓缓重叠于比较用被检验单词序列nt*的方式前进。在图7b所示的状态下,在比较用被检验单词序列nt*及比较用参照单词序列nr*各自中,连续一致部位的长度、即连续地一致的单词的个数为“2”。视为经替换为通配符“#”的单词与要比对的所有单词一致。在基准值m为“10”的情况下,连续一致部位的长度小于基准值m,因而不提取所述连续一致部位作为类似候补部位。在图7c所示的状态下,在比较用被检验单词序列nt*及比较用参照单词序列nr*各自中,两个连续一致部位的长度为“1”,小于基准值m,因而不提取所述连续一致部位作为类似候补部位。在图8a所示的状态下,在比较用被检验单词序列nt*及比较用参照单词序列nr*各自中,两个连续一致部位的长度为“1”及“3”,小于基准值m,因而不提取所述连续一致部位作为类似候补部位。另一方面,在图8b所示的状态下,在比较用被检验单词序列nt*及比较用参照单词序列nr*各自中,连续一致部位的长度为“15”,为基准值m以上,因而提取所述连续一致部位作为类似候补部位。接下来,在作为类似候补部位而提取的连续一致部位中包含通配符“#”的情况下,通过第二命题定义元件122,将所述连续一致部位在通配符“#”的部位分割,提取所述分割结果作为类似部位,且进行存储。由此,例如像图9a所示那样,提取且注册三个类似部位。在注册于数据库10或存储装置的多个类似部位中,一个类似部位内含于另一类似部位的情况下,通过第二命题定义元件122将所述一个类似部位从注册列表中删除。例如,在如图9b所示那样提取了五个类似部位的情况下,类似部位3包含于类似部位2,类似部位4分别包含于类似部位2及类似部位5,因而将类似部位3及类似部位4从类似部位的注册列表中删除。并且,输出类似部位集合sp。判定是否针对一个被检验文件dt实施了直到通过与所有参照文件dr各自进行参照而提取类似部位为止的一系列处理(图2/step124)。在所述判定结果为否定的情况下(图2/step124中为否),将另一序列化参照文章nr作为对象,重复step108(或step104)以后的一系列处理。在所述判定结果为肯定的情况下(图2/step124中为是),则通过类似率推算元件14来评价类似率rp(图2/step126)。首先,在序列化被检验文件nt中,通过第二命题定义元件122,对与多个类似部位各自的一致部位的单词赋予旗标t,对其他单词赋予旗标f。由此,例如像图10a上段所示那样,在与类似部位1、类似部位2及类似部位5(参照图9b)各自的一致部位,对序列化被检验文件nt赋予旗标t。对序列化被检验文件nt中与类似部位1一致的单词“私”“小学生”及“とき”赋予旗标t。对序列化被检验文件nt中与类似部位2一致的单词“私”“自分”“目標”“達成”“喜び”“ゲーム”“こと”及“悔しさ”赋予旗标t。对序列化被检验文件nt中与类似部位5一致的单词“ゲーム”“こと”“悔しさ”“経験”及“非常”赋予旗标t。而且,通过第二命题定义元件122,生成相当于所有类似部位的旗标的否定逻辑和的旗标序列“原始部位旗标”。由此,如图10a下段所示那样,针对序列化被检验文件nt{ここ、主張、こと、私、小学生、とき、サッカー、自分、目標、達成、喜び、ゲーム、こと、悔しさ、経験、非常、経験},以否定逻辑和的形式生成原始部位旗标{t,t,t,f,f,f,t,f,f,f,f,f,f,f,f,f,f,t}。这一情况与以逻辑和而非否定逻辑和的形式生成原始部位旗标等效。即,与下述情况等效:针对序列化被检验文件nt及序列化参照文件nr的共同单词集合c所含的各个单词,在包含于多个类似部位中的任一个的情况下,作为命题而定义为真(t),在并非如此的情况下,作为命题而定义为假(f),所述多个类似部位是在作为通配符(#)而定义的单词的前后将连续一致部位分割而定义。接下来,通过类似率推算元件14,基于原始部位旗标来推算类似率rp。例如,如图10b所示那样,推算下述值作为类似率rp,即,从1中减去相对于序列化被检验文件nt所含的单词的字符串的合计长度(=39),以原始部位旗标的旗标t(=1)及旗标f(=0)为权重的所述各单词的字符串的长度的加权和(=12)的比率(=12/39)所得的值(=1-12/39=25/39)。所述推算结果也可从服务器1发送至客户端2,通过客户端2的输出接口22而显示。在以逻辑和而非否定逻辑和的形式生成原始部位旗标的情况下,也可推算以旗标t(=0)及旗标f(=1)为权重的所述各单词的字符串的长度的加权和。也可推算相对于序列化被检验文件nt所含的单词数(=18),赋予有原始部位旗标的旗标f的单词数(=12)的比率(=12/18)作为类似率rp。而且,也可推算基于字符串的长度的第一类似率rp1(=25/39)及基于单词数的第二类似率rp2(=12/18)的平均值(rp1+rp2)/2作为类似率rp。判定是否针对所有被检验文件dt实施了直到通过与所有参照文件dr各自进行参照而推算类似率为止的一系列处理(图2/step128)。在所述判定结果为否定的情况下(图2/step128中为否),将另一被检验文件dt作为对象,重复step106(或step102)以后的一系列处理。另一方面,在所述判定结果为肯定的情况下(图2/step128中为是),一系列处理结束。(作用效果)从被检验文件dt及参照文件dr各自中,提取指定种类的单词(例如名词)的序列集合来分别作为序列化被检验文件nt及序列化参照文件nr(参照图2/step106、step108、图3a及图3b)。将序列化被检验文件nt及序列化参照文件nr的共同单词集合c所含的单词作为命题而定义为真(true),将除此以外的单词作为命题而定义为假(false)(参照图2/step116、图4及图5a)。进而,在作为命题而定义为假的单词中,包含所述单词的第一指定长度的单词序列中,作为命题而定义为真的单词的比率为第一指定值以上的情况下,将所述单词再定义为通配符(#),且作为命题而再定义为真(参照图2/step116及图5b)。由此,尽管被检验文件dt可能是盗用参照文件dr并局部地变更单词等而制作,也可避免因所述变更而一律评价为盗用的可能性或类似率低。另外,将包含被定义为真的单词的序列集合的比较用被检验单词序列nt*及比较用参照单词序列nr*各自进行比对(参照图2/step120、step122、图7a~图7c及图8a~图8b)。此时,在视为被定义为通配符的单词与所有单词一致时的单词序列的连续一致部位的长度为基准值以上的情况下,基于连续一致部位所含的单词数及各单词的字符数中的至少一者,来推算被检验文件dt及参照文件dr的类似率rp(参照图2/step126、图9a~图9b及图10)。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1