电子数据检索装置的制作方法

文档序号:6480877阅读:164来源:国知局
专利名称:电子数据检索装置的制作方法
技术领域
本发明 一般地涉及一种电子数据检索装置,该电子数据检索装置从所记 录的电子数据中检索包括特定词的电子数据,更具体地涉及用于检索所记录 的电子数据的检索词的设定。
背景技术
在一种电子数据检索装置中,设定检索词使得能够对电子数据进行检索, 该电子数据检索装置从所记录的电子数据中检索包括特定词的电子数据。
检索词设定方法可以是如日本特许专利公开第06-019970号中所公开的 基于针对每段(piece)所记录的数据所提取的词的出现次数(频率)而设定 才企索词的方法。
在此将参照图7描述日本特许专利公开第06-019970号的4企索词设定方法。
参考标号IOO表示文件夹(folder) X,在该文件夹X上记录有诸如文档 数据之类的各种电子数据;101表示通过用扫描仪等等读取文档所生成的电 子数据A;而102表示类似的电子数据B。
参考标号111表示检索词设定表格,在检索词设定表格上记录有与电子 数据A中的词相关联(correlate )的词的出现次数,而112表示用于电子数据 B的相似表格。对应于各电子数据而生成检索词设定表格(111, 112)。如在 此使用的,词表示组成在电子数据中包括的文档数据的文档中的日语词、英 语词等等。
虽然在这个例子中文档数据是作为英语句子而示范性地说明的,但在这 种情形下排除了系动词、助动词、小品词(particle )、以及冠词,这是因为这 些词类别很少被指定作为目标。
具有等于预定次数(例如,三次)或更多次数的出现次数的词("MFP,,) 被设定为表格中的检索词 (见图7的"*")。
如果用户随后向电子数据检索装置给出指令来检索电子数据,则被给予 指令的电子数据检索装置基于所设定的检索词执行电子数据检索处理。典型地,使用同一文件夹来记录属于同一风格(genre)的电子数据。在 以上的例子中,与MFP相关的文档数据(电子数据)被记录在文件夹XIOO 中,并且为该文件夹设定与"MFP"相关的4企索词。
例如,假设在以这种方式设定检索词之后,在文件夹X 100中新记录电 子数据C103,在所述文件夹X IOO上已记录有与MFP相关的文档数据,该 电子数据C 103对应于与MFP和LCD相关的检索词设定表格113。
虽然电子数据C 103是与MFP和LCD相关的文档数据,但在以上检索 词设定方法的情形下,基于电子数据C 103的检索词设定表格113,具有四次 出现次数的"LCD"被设定为检索词,而具有一次出现次数的"MFP"没有 被设定为4企索词。
如果用户指定"MFP"作为检索词以向电子数据检索装置给出指令用于 检索包括"MFP"的电子数据,则检索到将"MFP"设定为检索词的电子数 据A101和B102,而没有检索到电子数据C 103,这是由于"MFP"没有被 设定为检索词。
如果如以上仅仅基于在电子数据中词的出现次数来设定检索词,则当在 同一文件夹中记录属于同一风格的电子数据时,由于电子数据的风格而引起 的词出现次数之间的差异可能没有被反映在检索词的设定中。相关的(类似) 电子数据可能没有被聚集(aggregate)以及被检索,导致检索准确性的劣化。
另一方面,如果减少预定次数(例如,三次)以增加为电子数据设定的 检索词的数目,则生成多种多样的检索词,这造成检索效率的降低以及易于 生成检索噪声(noise),导致检索准确性的劣化。

发明内容
本发明的目的是提供一种电子数据检索装置,其通过在检索词的设定中 反映由于电子数据的风格而引起的词出现次数之间的差异来增加检索准确性 而不使检索效率劣化。
本发明的另一目的是提供电子数据检索装置,其包含用于从包括词数据 的电子数据中提取词的词提取部件,并且具有基于通过词提取部件所提取的 词的出现次数来设定电子数据的检索词的检索词设定功能,该装置包括
检索词设定表格,在其上记录对于要被检索的各段所记录的电子数据而 从电子数据中提取的词及其出现次数,并将所提取的词及其出现次数相关联,以及
检索词设定参考表格,在其上记录从要被检索的所有所记录的电子数据 中提取的词及其出现次数,并将所提取的词及其出现次数相关联,
该装置将电子数据的检索词设定为以预定次数或更多次数出现在所记录 的电子数据的检索词设定表格中的词、以及出现在检索词设定表格中并且以 预定次数或更多次数出现在检索词设定参考表格中的词。
本发明的另一目的是提供电子数据检索装置,其中如果所记录的电子数
据被删除,则通过从检索词设定参考表格中各(respective)词的出现次数中 减去在被删除的电子数据中各相同词的出现次数而更新检索词设定参考表格 中的词的出现次数。
本发明的另一目的是提供电子数据检索装置,其中,连同电子数据一起 记录时间戳(timestamp )信息以指示电子数据被记录时的日期和时间和/或电 子数据被观看时的最新日期和时间,并且取决于从电子数据被记录时的日期 和时间或者电子数据被观看时的最新日期和时间起所经过的时间来修改/更 新检索词设定参考表格中的词的出现次数的记录值。
本发明的另一目的是提供电子数据检索装置,其中,通过加入除了具有 超过预定时间的所经过时间的电子数据之外的电子数据的检索词设定表格中 每个词的词出现次数来修改/更新检索词设定参考表格中的词的出现次数的 记录值,所经过时间是从电子数据被记录时的日期和时间或者电子数据被观 看对的最新日期和时间起测量的。
本发明的另一目的是提供电子数据检索装置,其中,对于具有超过预定 时间的所经过时间的电子数据,所经过时间是从电子数据被记录时的日期和 时间或者电子数据被观看时的最新日期和时间起测量的,通过将检索词设定 表格中的词的出现次数与1/n (n>l)相乘来获得经校正的出现次数,并且将 经校正的出现次数加到修改后/更新后的检索词设定参考表格中各词的出现 次数的记录值上。
本发明的另一目的是提供电子数据检索装置,其中,连同电子数据一起 记录观看电子数据的次数,并且取决于所记录的观看次数来修改/更新检索词 设定参考表格中词的出现次数的记录值。
本发明的另一目的是提供电子数据检索装置,其中,通过加入仅仅用于 具有大于预定次数的观看电子数据的次数的电子数据的检索词设定表格中每
6个词的词出现次数来修改/更新检索词设定参考表格中词的出现次数的记录 值。
本发明的另一目的是提供电子数据检索装置,其中,对于具有不大于预 定次数的的观看电子数据的次数的电子数据,通过将检索词设定表格中的词
的出现次数与1/n (n>l )相乘来获得经校正的出现次数,并且将经校正的出 现次数加到修改后/更新后的检索词设定参考表格中各词的出现次数的记录值上。
本发明的另一目的是提供一种检索词设定方法,其从包括词数据的电子 数据中提取词以便基于所提取的词的出现次数来设定电子数据的;f全索词,该 方法包括以下步骤
从所记录的电子数据中提取词以将所提取的词及其出现次数进行累积 (accumulate )和相关联;并且
对从已经记录的所有电子数据中提取的词及其出现次数进行累积和相关 联,其中
电子数据的检索词被设定为以预定次数或者更多次数出现在所记录的电 子数据中的词、以及出现在电子数据中并且以预定次数或者更多次数出现在 所有电子数据中的词。


图l是用于解释本发明的方案(schematic)的示意图2是用于解释本发明的方案的另一示意图3是用于解释根据本发明的电子数据检索装置的框图4是用于解释^:索词设定处理的流程图5是用于解释^f全索词设定参考表格的更新处理的图6是用于解释根据本发明的另一电子数据检索装置的框图;以及
图7是用于解释传统的检索词设定方法的框图。
具体实施方式
(第一实施例)
图l是用于解释本发明的方案的示意图。
参考标号50表示在其上记录有各种电子数据的文件夹X; 51表示包括词数据的电子数据A;而52表示类似的电子数据B。如以上描述的,电子数 据是关于MFP的文档(数据)。
参考标号61表示用于电子数据A的检索词设定表格,而62表示用于电 子数据B的检索词设定表格。对应于各电子数据而生成检索词设定表格(61、 62)。
对于每段要被检索的所记录的电子数据,检索词设定表格在其上记录从 电子数据提取的词及其出现次数,并将所提取的词及其出现次数相关联。
参考标号71是检索词设定参考表格,在其上记录从要被检索的所有所记 录的电子数据中提取的词及其出现次数,并将所提取的词及其出现次数相关 联。
根据本发明的电子数据检索装置将电子数据A 51的检索词不仅设定为 以预定次数(例如,三次)或更多次数出现在所记录的电子数据A51的检索 词设定表格61中的词,而且设定为出现在检索词设定表格61并且以预定次 数(例如,三次)或者更多次数出现在检索词设定参考表格71中的词("MFP,,) (见"*")。
同样适用于电子数据B52。
通过将电子数据A的检索词设定表格61和电子数据B的检索词设定表 格62进行结合,即,通过如随后所描述的将这两个检索词设定表格上的每个 词的词出现次数进行相加,来创建检索词设定参考表格71。
如果只有一种电子数据存在,则用于该电子数据的检索词设定表格作为 检索词设定参考表格。
图2是用于解释当电子数据被新加入到如以上所述的文件夹X 50中时、 由根据本发明的电子数据检索装置执行的检索词设定处理的框图。为了解释 的便利没有示出检索词设定表格(61、 62)。
参考标号53表示要被记录到文件夹X 50中的包括词数据的新的电子数 据C,而参考标号63表示电子数据C的检索词设定表格。电子数据C是关 于MFP和LCD的电子数据。
参考标号72表示通过将图1的检索词设定参考表格71和电子数据C 53 的检索词设定表格63进行结合,即,通过将每个词的词出现次数进行相加, 而新创建的检索词设定参考表格。通过用电子数据C 53的加入而更新检索词设定参考表格71来获得检索 词设定参考表格72。
在这种情形下,如上所述,电子数据的检索词不仅被设定为以预定次数 (例如,三次)或更多次数出现在要被记录的电子数据C 53的检索词设定表 格63中的词("LCD"),而且被设定为出现在检索词设定表格63中并且以预 定次数(例如,三次)或者更多次数出现在检索词设定参考表格72中的词 ("MFP")(见"*,,)。
电子数据C 53的检索词被设定为"MFP"和"LCD"。
以这种方式改善检索的准确性。具体地,如果对于"MFP"和"LCD" 执行"与"检索,虽然在传统的例子中描述的电子数据检索装置可能不检索 电子数据C 53,但根据本发明的电子数据检索装置可以检索电子数据C 53。
图3是用于解释根据本发明的电子数据检索装置IO的框图,并且电子数 据检索装置IO不仅能够检索电子数据而且能够观看电子数据(打开文件)。
参考标号11表示OCR部件,OCR部件光学地读取所印制的字符等等以 生成包括词数据的电子数据,并且识别所生成的电子数据中的字符。所生成 的电子数据被记录在HDD 23的文件夹中。
电子数据可以是文本数据(文本文件、HTML文件),以PDF格式记录 的文档数据(PDF文件),包括通过使用电子照相机拍摄文本文档而获取的字 符信息的JPEG文件,等等。电子数据可以是从另一信息处理装置输入到电 子数据检索装置IO的数据,等等。
参考标号12表示词提取部件,其从由OCR部件11识别的字符(字符串)
曰本特许专利公开第06-019970号中公开的方法。
参考标号13表示检索词设定表格生成部件,其基于例如由OCR部件11 所生成的电子数据而生成检索词设定表格(见图1和2的检索词设定表格(61 到63)),在检索词设定表格上记录由词提取部件12所提取的词以及这些词 的出现次数,并将所提取的词以及这些词的出现次数相关联。所生成的检索 词设定表格如需要地被记录在其上记录电子数据的HDD 23的文件夹中。
表格(见图1和2的检索词设定参考表格71和72 ),在检索词设定参考表格上记录从要被检索的所有所记录的电子数据中所提取的词以及这些词的出现 次数,并将所提取的词以及这些词的出现次数相关联。所生成的检索词设定
参考表格如需要地被记录在记录了电子数据的HDD 23的文件夹中。
在示例性生成方法中,如图l所示,通过加入4全索词设定表格生成部件 13所创建的检索词设定表格中的每个词的词出现次数,而新创建检索词设定 参考表格。
如图2所描述的,当在HDD 23的文件夹中记录新的电子数据时,检索 词设定表格生成部件13生成该新的电子数据的检索词设定表格。检索词设定
和新创建的检索词设定表格进行结合,即,通过将检索词设定参考表格上和 新创建的检索词设定表格上的每个词的词出现次数进行相加,而创建新的检 索词设定参考表格(更新检索词设定参考表格)。
参考标号15表示检索词设定部件,其识别以预定次数(例如,三次)或 更多次数出现在电子数据的检索词设定表格上的词、以及电子数据的检索词 设定表格上记录的词中的在由检索词设定参考表格生成部件14所创建的检 索词设定参考表格上具有等于预定次数(例如,三次)或更多次数的出现次 数的词,以将所识别的词设定为用于电子数据的被检索的词(见图1的"*,,)。
参考标号16表示电子数据检索部件,其对包括由用户通过键盘/鼠标(未 示出)等等所指定的检索词的电子数据执行检索。
参考标号21表示RAM,参考标号22表示ROM。 HDD 23是大容量存 储设备,在其上存储有各种应用程序等等,并且其具有被划分的记录区域, 即,文件夹A (23a)到Z (23z)。在这些文件夹中记录有以上的电子数据。 电子数据的检索词设定表格和检索词设定参考表格也如所需要地被存储在这 些文件夹中。
参考标号24表示CPU,其控制多个功能块。
图4是用于解释^f企索词设定处理的流程假设在文件夹中已经记录了电子数据。
当词提取部件12从记录在文件夹中的电子数据中提取词时(步骤Sl ), 检索词设定表格生成部件13累积所提取的词,并且将所提取的词及其出现次 数相关联,即,基于所提取的词生成电子数据的检索词设定表格(步骤S2)。
检索词设定参考表格生成部件14随后更新检索词设定参考表格(步骤S3)。在此假设已经生成了检索词设定参考表格。
检索词设定部件15识别检索词设定表格上具有等于预定次数(例如,三 次)或更多次数的出现次数的词,并且将所识别的词设定为检索词(步骤S4)。
检索词设定部件15还识别出现在检索词设定表格上并且以预定次数或 更多次数出现在检索词设定参考表格上的词,并且将所识别的词设定为检索 词(步骤S5)。
电子数据检索装置10随后基于所设定的检索词执行电子数据检索处理。 可以通过程序来执行以上步骤。
(第二实施例)
虽然已在第 一 实施例中描述了当在记录有电子数据的文件夹中记录新的 电子数据时执行的检索词设定参考表格的更新处理,将在第二实施例中参照 图5来描述当从记录有电子数据的文件夹X向另一文件夹Y移动(或拷贝) 电子数据时执行的检索词设定参考表格的更新处理。
假设与OCR相关的电子数据被记录在文件夹Y中。
将描述当文件夹X 50中的电子数据A 51;故移动到例如文件夹Y 60时
数据A51时)的检索词设定参考表格的更新处理。电子数据A51不仅表示与 MFP相关的文档,而且还表示如上所述的与OCR相关的文档。
如果根据来自用户的指令将文件夹X 50中记录的电子数据A 51移动到 文件夹Y60中,则从电子数据A51的源文件夹X50中记录的检索词设定参
的出现次数,并且检索词设定参考表格生成部件14重新生成检索词设定参考 表格73 (由于电子数据的移动而更新检索词设定参考表格)。
动到文件夹Y60时,不执行更新处理。
如第一实施例中所描述的,将电子数据A 51的检索词设定表格61与检 索词设定参考表格74相结合以重新生成检索词设定参考表格75,检索词设 定参考表格74是通过将在电子数据A51的目的地文件夹Y60中记录的电子 数据D 54和电子数据E 55的检索词设定表格(未示出)相结合而生成的。
最后,如上所述,检索词设定部件15将电子数据A的检索词设定为以预定次数或更多次数出现在电子数据A 51的检索词设定表格61上的词 ("MFP")、以及出现在检索词设定表格61上并且以预定次数或更多次数出 现在检索词设定参考表格75上的词("OCR")。电子数据D54和电子数据E55 的检索词被设定为"OCR"。
当另外增加新的电子数据并更新检索词设定参考表格时,如果在检索词 设定参考表格中改变词的出现次数并且词的出现次数变得等于预定次数或者 更多次数,则可以将在已经记录的电子数据中包括的词重新设定为检索词。
(第三实施例)
在第三实施例中,将描述通过修改/更新检索词设定参考表格中的词的出 现次数的记录值以基于修改后和更新后的检索词设定参考表格来设定要被记 录的新的电子数据的检索词、从而能够减少检索噪声的电子数据检索装置。
图6是用于解释根据本发明的另一电子数据检索装置IO,的框图。
参考标号17表示出现计数记录值修改/更新部件,其将指示电子数据被 记录时的日期和时间和/或电子数据被观看时(电子数据被打开)的最新日期 和时间的时间戳信息与电子数据一起记录,以便取决于从电子数据被记录时 的曰期和时间或者电子数据被观看时的最新日期和时间起所经过的时间来修 改/更新检索词设定参考表格中的词的出现次数的记录值。
如果新的电子数据被记录,则检索词设定部件15基于由出现计数记录值 修改/更新部件17所修改/更新的检索词设定参考表格而设定电子数据的检索 词。
通过加入除了在被记录或被观看之后具有较长的所经过时间并且用户不
的电子数据的检索词设定表格中每个词的词出现次数,可以以许多修改/更新 的方法来修改/更新已经记录的检索词设定参考表格中的词的出现次数的记录值。
对于具有超过预定时间的所经过时间的电子数据, 一金索词设定表格中的 词的出现次数可以乘以1/n(其中,n是随着所经过时间变长而增加的值n>l ) 以获得经校正的出现次数,其可以被加到上面的修改后/更新后的检索词设定 参考表格中各词的出现次数的记录值上。
所记录的电子数据被用户观看的次数可以与电子数据一同被记录,并且取决于所记录的观看次数可以修改/更新检索词设定参考表格中词的出现次 数的记录值。
在这种情形中,通过加入仅仅用于具有以上描述的、大于预定次数的所 记录的电子数据的观看次数(电子数据经常被观看并且吸引用户的注意)的 电子数据的检索词设定表格中每个词的词出现次数,而修改/更新已经记录的 检索词设定参考表格中词的出现次数的记录值。
对于具有不大于预定次数的所记录的电子数据的观看次数的电子数据,
检索词设定表格中的词的出现次数可以乘以1/n (其中,n是随着观看的次数 变小而增加的值n> 1 )以获得经校正的出现次数,可以将经校正的出现次 数加到以上修改后/更新后的检索词设定参考表格中各词的出现次数的记录 值上。
以任意的定时(timing)(例如,与在文件夹中记录新的电子数据的处理 相关)来执行修改/更新处理。
结果,如果主要为具有超过预定时间的所经过时间的电子数据设定的检 索词被包括在要被记录的新的电子数据中(如果词的出现次数小于预定次 数),则不参考检索词设定参考表格来设定电子数据的检索词。
在第一和第二实施例中,即使要被记录的新的电子数据包括与主要为具
出现小于预定次数,也参考检索词设定参考表格来将该词设定为检索词。然 而,在这个实施例中,对检索词设定参考表格中的词的出现次数的记录值进 行修改/更新,并且如果该值小于预定次数,则不将该词设定为检索词。
的检索词来执行检索,则不检索新记录的电子数据并且减少了检索噪声。 根据本发明,可以获取以下效果。
由于电子数据的风格而引起的词出现次数之间的差异可以被反映在根据 本发明的检索词设定中,因此,当基于所指定的检索词执行检索以检索包括 该检索词的电子数据时,增加了检索的准确性而没有劣化检索效率。结果, 增强了用户的便利性。
1权利要求
1. 一种电子数据检索装置,其包含用于从包括词数据的电子数据中提取词的词提取部件,并且具有基于通过词提取部件所提取的词的出现次数来设定电子数据的检索词的检索词设定功能,该装置包括检索词设定表格,在其上记录对于要被检索的各段所记录的电子数据而从电子数据中提取的词及其出现次数,并将所提取的词及其出现次数相关联,以及检索词设定参考表格,在其上记录从要被检索的所有所记录的电子数据中提取的词及其出现次数,并将所提取的词及其出现次数相关联,该装置将电子数据的检索词设定为以预定次数或更多次数出现在所记录的电子数据的检索词设定表格中的词、以及出现在检索词设定表格中并且以预定次数或更多次数出现在检索词设定参考表格中的词。
2. 如权利要求1所述的电子数据检索装置,其中,如果所记录的电子数 据被删除,则通过从检索词设定参考表格中各词的出现次数中减去在被删除 的电子数据中各相同词的出现次数而更新检索词设定参考表格中的词的出现 次数。
3. 如权利要求1或2所述的电子数据检索装置,其中,连同电子数据一 起记录时间戳信息,以指示电子数据被记录时的日期和时间和/或电子数据被 观看时的最新日期和时间,并且取决于从电子数据被记录时的日期和时间或 者电子数据被观看时的最新日期和时间起所经过的时间来修改/更新检索词 设定参考表格中的词的出现次数的记录值。
4. 如权利要求3所述的电子数据检索装置,其中,通过加入除了具有超 过预定时间的所经过时间的电子数据之外的电子数据的检索词设定表格中每 个词的词出现次数来修改/更新检索词设定参考表格中的词的出现次数的记 录值,所经过时间是从电子数据被记录时的日期和时间或者电子数据被观看 时的最新日期和时间起测量的。
5. 如权利要求3所述的电子数据检索装置,其中,对于具有超过预定时 间的所经过时间的电子数据,所经过时间是从电子数据被记录时的日期和时 间或者电子数据被观看时的最新日期和时间起测量的,通过将检索词设定表 格中的词的出现次数与1/n (n〉l )相乘来获得经校正的出现次数,并且将经校正的出现次数加到修改后/更新后的检索词设定参考表格中各词的出现次 数的记录值上。
6. 如权利要求1或2所述的电子数据检索装置,其中,连同电子数据一 起记录观看电子数据的次数,并且取决于所记录的观看次数来修改/更新检索 词设定参考表格中词的出现次数的记录值。
7. 如权利要求6所述的电子数据检索装置,其中,通过加入仅仅用于具 有大于预定次数的观看电子数据的次数的电子数据的检索词设定表格中每个 词的词出现次数来修改/更新检索词设定参考表格中词的出现次数的记录值。
8. 如权利要求6所述的电子数据检索装置,其中,对于具有不大于预定 次数的观看电子数据的次数的电子数据,通过将检索词设定表格中的词的出 现次数与1/n (n>l )相乘来获得经校正的出现次数,并且将经校正的出现次
9. 一种检索词设定方法,其从包括词数据的电子数据中提取词以基于所 提取的词的出现次数来设定电子数据的检索词,该方法包括以下步骤从所记录的电子数据中提取词以将所提取的词及其出现次数进行累积和 相关联;并且对从已经记录的所有电子数据中提取的词及其出现次数进行累积和相关 联,其中电子数据的检索词被设定为以预定次数或者更多次数出现在所记录的电 子数据中的词、以及出现在电子数据中并且以预定次数或者更多次数出现在 所有电子数据中的词。
全文摘要
提供了一种电子数据检索装置,其通过在检索词的设定中反映由于电子数据的风格引起的词出现次数之间的差异而增加了检索的准确性却没有劣化检索的效率。根据本发明的电子数据检索装置将电子数据的检索词不仅设定为以预定次数(例如,三次)或者更多次数出现在所记录的电子数据的检索词设定表格中的词、而且还设定为出现在检索词设定表格中并且以预定次数(例如,三次)或者更多次数出现在检索词设定参考表格中的词。
文档编号G06F17/30GK101520795SQ200910008379
公开日2009年9月2日 申请日期2009年2月26日 优先权日2008年2月26日
发明者村上宽, 西本吉男 申请人:夏普株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1