设置元数据的方法、设置元数据的系统以及程序的制作方法

文档序号:6350511阅读:274来源:国知局
专利名称:设置元数据的方法、设置元数据的系统以及程序的制作方法
技术领域
本发明涉及用于设置元数据的方法、用于设置元数据的系统、以及程序。例如,本发明涉及用于在搜索电子数据的过程期间提供元数据的方法。
背景技术
在许多组织例如企业中,大量的数据,例如用办公软件创建的文件或通过扫描书面文件创建的文件,被每天创建并且存储在文件服务器或类似物中。当期望的文件将要位于这样大量的数据中时,普遍使用了在文件服务器中搜索文件夹的方法。然而,当文件夹结构复杂或当文件放在具有不是搜索期望的文件的人所意想的结构的文件夹中时,定位这样的文件将耗费相当长的时间。作为另一种搜索文件的方法,已知全文搜索方法。然而,这种方法至少存在两个问题。第一个问题是,某些文件不能够仅通过关键词搜索被定位(见

图1)。例如,当想要定位在给定的时间段创建的所有文档时,检索这样的文档将是不可能的,因为全文搜索不能够将表示文档内的日期的字符串作为“与日期相关联的数据”对待。此外,作为其他的示例性的问题,可能有以下的情况,如果某些文档包含具有与搜索期望的文档的人使用的搜索关键词相同的含义的词语,那么所期望的文档不能够被定位,或如果客户名称在多行中描述,那么将不能找出包含客户名称的文件,即使通过客户名称(作为位于多行中的字符串)执行搜索。作为另一个问题,可能有大量无关的文件被找出的情况(见图幻。例如,如果执行搜索以定位其中将银行名称作为客户名称描述的文档,在另一个文件中,银行名称也可能作为过户账户名称描述,或如果通过ID例如报价数字执行搜索,那么与ID相同的数字可能被作为金额描述。这样的可归因于全文搜索的问题可能发生,因为在文档内的关键词不被作为具有含义的字符处理。在本文中,已知使用与文档相关联的元数据(属性信息)来管理文档的方法。例如,专利文献1提出了虚拟文件夹系统。虚拟文件夹系统通过设置每个文件上的元数据并且定义搜索条件以定位在每个虚拟文件夹中的每个元数据来实现。当查阅虚拟文件夹时, 相应于相关联的搜索条件的文件搜索结果被呈现,由此实现了基于搜索条件的文件分类。 例如,当管理商业文档时,“文档类型名称”(例如合同、订单或报价单)和“开具日期”被设置作为所有文件的元数据,并且虚拟文件夹被指定搜索条件“文档类型名称‘合同’”。然后,当查阅虚拟文件夹时,可以获取合同的列表。相似地,如果另一个虚拟文件夹被指定搜索条件“开具日期‘2009年1月至3月’”,那么可以收集在指定的时期发布的文档。如上文描述的,虚拟文件夹系统通过含义来分类文件。因此,文档的有效使用是可能的。当设置文档上的元数据时,用户参照原始文档进行设置。许多文档管理产品提供元数据注册屏幕,使得用户参照文件手工键入元数据。作为用于减少这样的手工录入操作的负担的方法,例如,已知在专利文献2中提出的方法,其中当新的文件存储在其中已经存储有另一个文件的文件夹中时,与已经存储的文件的元数据相同的元数据被自动设置在新注册的文件上。此外,专利文献3提出了当意图在(表示其元数据已经被注册的文件的) 小图像中注册的文件被拖放至小图像时,用于自动在新注册的文件上设置已经注册的元数据的方法。此外,专利文献4提出了用于通过参照文档内的句子的内容和布局之间的关系自动地从文档抽取元数据的技术。引用列表
专利文献
特许文献1日本专利公布(特开昭)Νο·2003--323326Α
特许文献2日本专利公布(特开昭)Νο·2009--75667Α
特许文献3日本专利公布(特开昭)Νο·2006--209516Α
特许文献4日本专利公布(特开昭)Νο·2005--235099Α发明概述技术问题根据专利文献2至4,虽然元数据录入操作的负担减少了,但是不能消除在注册之前通过视觉检查待注册的目标文档的需要。例如,根据专利文献2和3,必需在选择合适的现有文件或用于文档的注册的小图像之前检查待注册的目标文档的内容。此外,根据专利文献4,不一定的是,正确的元数据可以始终被抽取。因此,在实践中,必需视觉地检查元数据是否是正确的,并且,如果发现元数据是不正确的,修改这样的元数据。即,在注册元数据时,人应当始终参照最初的文件并且检查与其相关联的元数据。然而,这样的检查操作对于用户来说是复杂的和繁琐的。由于该原因,某些用户可能会倾向于在文件服务器中注册文件而不设置其上的元数据,使得基于元数据的文件的有效使用将是不可能的。本发明鉴于以上问题而作出。本发明提供用于在搜索文件的日常过程中自然和高效率地设置元数据的技术。问题的解决方案为了解决上述的问题,根据本发明,基于搜索关键词执行搜索,并且从文件数据库获取匹配搜索关键词的文件,包括其元数据被注册的文件(下文还称为元数据已注册文件)以及其元数据未被注册的文件(下文还称为元数据未注册文件)。候选元数据确定处理单元将通过执行搜索获取的元数据已注册文件中的一个的元数据设置作为元数据未注册文件中的一个的候选元数据。然后,元数据设置处理单元根据来自用户的指令将候选元数据在元数据设置屏幕上授权并且注册作为待设置在元数据未注册文件上的元数据。更具体地,候选元数据确定处理单元从通过执行搜索获取的元数据已注册文件抽取匹配键入的筛选条件的元数据已注册文件,并且将所抽取的元数据已注册文件的元数据设置作为元数据未注册文件的候选元数据。如果候选元数据的数量是一个,那么元数据设置处理单元授权候选元数据作为不可改变的元数据,并且如果候选元数据的数量多于一个,那么元数据设置处理单元允许候选元数据中的一个被选择。当搜索关键词被设置用于确定候选元数据时,如果搜索关键词以预注册的表达形式描述的话,候选元数据确定处理单元将搜索关键词设置作为候选元数据。当其中存储有能够视为元数据的候选字符串的词典数据库被设置用于确定候选元数据时,如果词典数据库中的候选字符串包含在元数据未注册文件的文件路径中或元数据未注册文件中的字符串中的话,候选元数据确定处理单元将候选字符串设置作为候选元数据。
本发明的进一步的特征将从以下用于实施本发明的实施方案以及附图变得明显。本发明的有利的效果根据本发明,可以在搜索文件的日常过程中自然和高效率地设置元数据。附图简述图1示出了不能够通过全文搜索(关键词搜索)定位文件的实施例。图2示出了通过全文搜索(关键词搜索)找到无关的文件的实施例。图3是示出了根据本发明的实施方案的用于设置元数据的系统的示意性配置的图。图4是示出了示例性的元数据的图。图5是示出了示例性的词典数据的图。图6是示出了示例性的元数据项目设置文件的图。图7是示出了示例性的筛选条件设置文件的图。图8是图示搜索和元数据设置过程的总览的流程图。图9是图示确定候选元数据的过程(细节)的流程图。图10是图示键入元数据的过程(细节)的流程图。图11是示出了示例性的搜索屏幕的图。图12是示出了示例性的(另一个实施方案)搜索屏幕的图。图13是示出了示例性的元数据设置屏幕的图。图14是示出了候选元数据的列表的示例性的显示屏幕的图。实施方案的描述本发明涉及用于高效率地和精确地设置其元数据尚未被设置的文件上的元数据的技术。如果元数据可以被高效率地和精确地设置,那么也成为可能的是使用元数据高效率地和精确地搜索文件。在下文,根据本发明的实施方案的用于设置元数据的方法将参照附图描述。应当注意,这些实施方案仅是例证性说明实施本发明的目的,并且因此不意图限制本发明的技术范围。对于每个附图中的共同结构指定相同的参考数字。<用于设置元数据的系统的配置>图3是示出了根据本发明的实施方案的用于设置元数据的系统(文档处理系统) 的示意性的配置的图。本系统包括其中储存有文件的文件数据库301、用于搜索文件数据库 301中的文件的索引302、其中存储有已注册的元数据的元数据数据库303、具有可以表现为元数据(例如,客户名称列表和产品名称列表)以确定候选元数据的候选者的集合的词典数据库304、描述由本系统设置的元数据项目的元数据项目设置文件305、用于缩小候选元数据的范围的筛选条件设置文件306、显示搜索结果和元数据设置屏幕的显示设备307、 用于键入或编辑数据并且选择菜单的键盘308和定位设备309例如鼠标、以及执行必需的算术过程、控制过程或类似过程的中央处理单元310。在本文的文件数据库301中,其元数据已被注册的文件(还被称为元数据已注册文件)以及其元数据未被注册的文件(还被称为元数据未注册文件)二者都被存储。在搜索索引302中,与包含在每个文件的文件路径中或每个文件中的字符串相关联的索引被存储。对于文件数据库301、搜索索引302、元数据数据库303和词典数据库304中的每个,物理数据库实体的数量可以多于一个。
中央处理单元310包括使用搜索索引302执行对文件数据库301的关键词搜索的搜索执行单元(搜索执行功能)311、执行将搜索执行单元311获得的输出结果显示在显示设备307上的过程的搜索结果显示处理单元(显示功能)312、使用元数据已注册文件确定元数据未注册文件的候选元数据的候选元数据确定处理单元(元数据确定处理功能)313、 以及执行设置文件上的元数据的过程的元数据设置处理单元(元数据设置处理功能)314。 上述的处理单元以及用于这样的处理单元的数据或程序也可以以存储在记录介质例如 CD-ROM、DVD-ROM、M0、软盘或USB存储器中的形式提供。<元数据>图4是示出了在元数据数据库303中的示例性的元数据的图。在元数据数据库 303中,仅元数据被注册,而文件实体存储在文件数据库301中。因此,当元数据被在文件上设置时,这样的元数据被在元数据数据库303中注册。当元数据被在文件上设置时,元数据被依次地加入元数据数据库303中。如图4中所示的,元数据被以表格形式管理,并且单个文件对应于单个行。表格由唯一地识别文件的ID 401、文件的文件路径402以及该文件已注册的元数据403组成。元数据403包括对应于使用本发明的系统管理的元数据项目的列。在图4的实施例中,元数据项目包括文档类型名称404、客户名称405、开具日期 406、项目ID 407、以及管理部门408。虽然在图4中某些方格是空的,但是这样的方格指示缺少对应的元数据。此外,可以加入元数据的组成要素,并且在这样的情况下,列被相应地加入域403中。<词典数据>图5是示出了在词典数据库304中的示例性的词典数据的图。词典数据库304由字符串的列表组成,所述字符串可以视为每个元数据项目的元数据。这样的列表被作为文本文件注册。例如,如图5中所示的,元数据项目的元数据关键词的集合“文档类型名称”被作为“Type, txt”注册,并且元数据项目的关键词的集合“管理部门,,被作为“Management, txt”注册。每个关键词使用换行被键入词典数据库中。〈元数据项目设置文件〉图6是示出了元数据项目设置文件305的内容的实施例的图。元数据项目设置文件305用于设置使用本系统注册的元数据项目的类型。在本文中设置的元数据项目对应于图4中的元数据403的列。元数据项目设置文件305被以XML格式描述,并且每个元数据项目被作为根目录标签hetaList〉的子要素<item>描述。当元数据项目是指词典文件时,“refDic”被指定作为<item>的属性,并且相应的词典文件的文件名被在其中描述。同时,当元数据项目被以固定格式(例如日期或ID)写入时,“regExp”被指定作为<item>的属性并且元数据在其中以正则表达式的形式描述。当词典数据被加入时,“refDic”的项目被加入元数据项目设置文件305中。<筛选条件设置文件>图7是示出了筛选条件设置文件306的内容的实施例的图。当本系统确定元数据未注册文件的候选元数据时,其使用元数据已注册文件作为一条信息,如下文描述的。然后,为了更精确地提取候选元数据,执行用于缩小元数据已注册文件的范围以确定候选元数据的操作。这是因为,如果缩小范围中的文件具有与元数据未注册文件的性质相似的性质,那么非常可能的是元数据未注册文件具有与该元数据已注册文件的元数据相同的元数据。例如,在同一个文件夹中的文件以较高的概率具有相同的元数据,因为这样的文件应该为了某种目的已经被存储在同一个文件夹中。此外,以相似的日期和时间创建的图像文件以较高的概率具有相同的元数据,因为这样的文件可能已经被使用多功能打印机或扫描仪同时创建。在本系统中,为了将文件特征缩小范围至相似的一个特征,使用了文件系统最初保留的文件属性。筛选条件设置文件确定在何条件下文件应当被视为“相似的文件”。筛选条件设置文件以XML进行描述,并且每个条件在根节点 <similarFileFilterSetting> 的子要素 <fileFilter> 中描述。子要素 <fiIefiIter〉 将指示条件的名称的<name>、指示由条件涉及的文件系统上的属性名称的 〈dataOfFileSystem〉、指示属性值的数据类型的〈dataType〉、以及指示在何条件下文件应当被视为相似的文件的〈filterCondition〉作为其子要素。用于分析<f ilterCondition〉 的值的方式因〈dataType〉而不同。例如,在图7中,与“Same_F0lder”相关的筛选条件被设置作为第一〈fileFilter〉。这样的筛选条件描述关于在何条件下文件应当被视为“在同一个文件夹中的文件”的定义。在本文中,数据类型“Filel^th”的数据从文件系统获取。 类型名称是2的〈filterCondition〉指示,本系统被配置为将驻留在相关文件的两个层级内的文件夹中的文件视为“驻留在同一个文件夹中的文件”。相似地,下一个<fileFilter>描述关于文件名是否相似的设置。在本文中,数据类型“string”的数据从文件系统获取。这种数据类型是70的〈filterCondition〉指示,其中70%或更多的构成字符匹配的文件名应当被视为相似的文件名。对于下一个 <fileFilter>,数据类型“date”的数据从文件系统获取。在本文中,〈filterCondition〉是 7指示,在相关文件的创建日期之前和之后7天内创建的文件应当被视为相似的文件。最后的<fiIeFiIter〉确定文件类型是否相同。即,本系统基于扩展名的类型确定文件类型是否相同。即,系统检查文件扩展名属于〈filterCondition〉中的哪个〈group〉, 并且确定在相同的组中描述的其他的扩展名是相同的文件类型。因此,其扩展名是“doc”、 “doCX”、“rtf”、“tXt”和“pdf”的文件可以被确定为具有相同的文件类型。<搜索和元数据设置处理>图8是用于图示搜索和在搜索期间设置元数据未注册文件上的元数据的过程的总览的流程图。首先,候选元数据确定处理单元313读取元数据项目设置文件305和筛选条件设置文件306 (步骤801)。在本文中,可以从元数据项目设置文件305知道使用本系统设置的元数据项目以及与元数据项目相关的词典的存在与否。还可以从筛选条件设置文件306知道可以使用本发明的系统设置的筛选条件。在这样的信息被读取之后,搜索结果显示处理单元312显示候选元数据输出设置屏幕,并且接受来自用户的录入。候选元数据输出设置屏幕是可以在其上设置是否使用搜索关键词、是否使用词典数据以及将使用哪个筛选条件的屏幕。然后,搜索执行单元311从用户接收搜索关键词,并且使用搜索索引302执行基于关键词的搜索(步骤802)。然后,候选元数据确定处理单元313从步骤802中执行的搜索结果确定每个元数据未注册文件的候选元数据(步骤803)。文件的元数据是否已经被注册可以通过检查元数据数据库303是否具有作为元数据已注册文件的文件而确定。确定候选元数据的详细过程 (步骤80 将在下文描述(见图9)。然后,搜索结果显示处理单元312将在步骤802中执行的搜索结果显示在显示设备307上,如图11或图12中所示的,使得元数据已注册文件被与元数据未注册文件分开显示(步骤804)。与文件相关的显示内容的实例包括文件名、文件摘要信息(关于文件内的搜索关键词的字符串的信息)以及文件路径。对于元数据已注册文件,相关联的元数据从元数据数据库303获取并且被显示。对于元数据未注册文件,在步骤803中确定的候选元数据被显示。搜索结果显示处理单元312接受关于是否键入每个元数据未注册文件的元数据的录入(步骤80幻。具有两个用于初始化录入的方法。第一方法是使用在步骤803中获得的候选元数据作为元数据来初始化元数据的录入的方法。第二方法是在其中没有一个元数据项目被设置的状态(即不使用候选元数据)初始化元数据的录入的方法。例如,如果用户可以从文件摘要信息或在步骤804中显示的文件路径确定候选元数据是正确的,那么元数据的录入可以使用第一方法初始化。可选择地,如果候选元数据被确定为是不正确的或候选元数据是否是正确的不能够从摘要信息或文件路径知道,那么元数据的录入可以使用第二方法初始化。在任何情况下,元数据的录入可以使用单个操作初始化。如果在步骤805 中元数据被确定为键入,那么流程进行至步骤806,并且如果不是的话,那么流程进行至步骤 808。如果为每个元数据未注册文件键入元数据(如果步骤805的回答是“是”),那么元数据设置处理单元314对于在步骤805中选择的文件执行键入元数据的过程(步骤806)。 详细的处理将在下文描述(见图10)。在步骤806中确定元数据时,搜索结果显示处理单元312识别其元数据刚刚被设置而作为元数据已注册文件的文件,并且再次显示搜索结果(步骤807)。在步骤807之后, 流程返回至步骤805以继续该过程。最终,搜索结果显示处理单元312检查在步骤801中显示的候选元数据输出设置屏幕上的设置是否已经改变(步骤808),并且如果发现设置改变(例如如果筛选条件和类似物在图11中改变),那么流程返回至步骤803以继续该过程。如果没有发现改变,那么过程终结。<确定候选元数据的处理(步骤803的细节)>图9是用于图示确定每个元数据未注册文件的候选元数据的过程的细节的流程图。候选元数据可以使用以下三种方法中的任何一种确定。第一方法是指定搜索关键词作为候选元数据的方法。第二方法是检查词典中的关键词是否包含在元数据未注册文件的文档内的字符串中或在元数据未注册文件的文件路径中,并且如果发现关键词包含在其中, 那么指定这样的关键词作为候选元数据的方法。第三方法是搜索在元数据已注册文件中频繁地出现的元数据并且指定这样的元数据作为候选元数据的方法。在下文,这样的过程的细节将被描述。应当注意,进行每个步骤的主体是候选元数据确定处理单元313,除非另有说明。首先,在搜索结果中,元数据未注册文件的数量用N表示(步骤901)。在下文,执行该过程,假定N表示其候选元数据尚未被确定的元数据未注册文件的数量。然后,确定N是否为零(步骤902)。如果N是零,那么这意味着搜索结果最初不包含元数据未注册文件或(如将从以下的过程理解的)对于所有元数据未注册文件已经确定了候选元数据。如果N是零,那么过程终结,并且如果N不是零,那么流程进行至下一个步骤 903。然后,选择其候选元数据尚未被确定的文件中的一个。这样的文件用F表示(步骤 903)。从候选元数据输出设置窗格读取是否使用在当前的搜索中使用的搜索关键词作为候选元数据(例如,检查“搜索关键词”是否在图11中的候选元数据输出设置窗格中被设置为“使用”)(步骤904)。如果确定使用搜索关键词,那么流程进行至下一个步骤905, 并且如果不是的话,那么流程进行至步骤906。此外,确定搜索关键词是否是候选元数据的可能性(步骤90幻。具体地,读取在元数据项目设置文件305中的<item>标签的属性“regExp”中描述的正则表达式的值,并且如果该值匹配搜索关键词,那么这样的搜索关键词被指定作为相应的元数据项目<item> 的“候选”元数据。例如,如果搜索关键词是“设计部门(designing cbpartment) ”,那么其对应于“regExp = *D印artment”。因此,搜索关键词“设计部门”被指定作为候选元数据。 应当注意,如果搜索关键词匹配两个或更多个元数据项目的正则表达式,或如果搜索关键词不匹配任何一个正则表达式中,那么这样的搜索关键词不被指定作为候选元数据。相似地,从候选元数据输出设置窗格读取是否使用词典确定候选元数据(步骤 906)。如果使用词典确定候选元数据,那么流程进行至下一个步骤907,并且如果不使用的话,那么流程进行至步骤908。然后,执行使用词典确定候选元数据的过程(步骤907)。具体地,参照由元数据项目设置文件305中的<item>标签的属性“refDic”给予的词典。如果发现词典中的关键词出现在文件F的文件路径中或在文件F内的字符串中,那么这样的关键词被指定作为相应的元数据项目<item>的候选元数据。当词典中的多个关键词出现在文件F的文件路径中或在文件F内时或当词典中的关键词中没有一个出现时,词典中没有关键词被指定作为候选元数据。上述的步骤905和907是使用元数据已注册文件确定候选元数据的过程。同时, 在步骤908中,从候选元数据输出设置窗格读取哪个筛选条件被指定。然后,在元数据已注册文件中,选择匹配文件F的指定的筛选条件的文件(如果没有指定的筛选条件,那么选择所有的元数据已注册文件)。基于筛选条件设置文件306的内容确定元数据已注册文件中的任何一个是否匹配筛选条件。在本文中所选择的文件称为文件组re。然后,从文件组re收集对应于每个元数据项目(包括在域403中的项目)的元数据(步骤909)。如果re中的最频繁的元数据出现的百分比大于或等于阈值τ%,那么这样的元数据被指定作为“候选”元数据。例如,假设文件组re包括100个文件,并且从其收集元数据项目“文档类型名称”,如果80个文件的元数据表示“报价单”并且如果阈值T是 80%或更小,那么“报价单”可以被指定作为候选者。以相似的方式汇总对应于其他的元数据项目的元数据,并且将最频繁的元数据出现的百分比与阈值比较。如果百分比大于或等于阈值,那么这样的元数据被指定作为候选者。
此外,由于已经确定单个元数据未注册文件的候选元数据,N被N-I覆写,并且流程返回至步骤902以继续执行该过程(步骤910)。在图9中,为了确定候选元数据,使用搜索关键词(步骤904和90 ,并且之后使用词典(步骤906和907),并且最终,使用在元数据已注册文件中频繁地出现的关键词(步骤908和909)。然而,上述的顺序可以改变。同时,当元数据项目具有多个候选者时(例如当首先使用搜索关键词确定一个候选者,并且然后使用词典确定另一个候选者时),之前确定的候选者可以被新确定的候选者覆写。可选择地,可以始终使用之前确定的候选者。<元数据录入过程的细节(步骤806) >图10是用于图示键入元数据未注册文件的元数据的过程的细节的流程图。首先,搜索结果显示处理单元312显示元数据未注册文件的内容,如图13中所示的(步骤1001)。然后,元数据设置处理单元314显示用于键入对应于每个元数据项目的元数据的文本框,并且接受元数据的录入(步骤1002)。在此时间,如果元数据的录入已经使用在步骤805中作为元数据采用的候选元数据来初始化,那么这样的候选元数据的值被输入文本框中并且以不可编辑状态显示。元数据设置处理单元314接受是否列出对应于每个元数据项目的候选元数据的录入(检测候选元数据按钮是否被按下),并且显示对应于元数据项目的候选元数据的列表(步骤1003)。在本文中的候选元数据的列表通过汇总来自文件组的匹配元数据已注册文件的给定的筛选条件的元数据而确定。候选元数据以频率递减的顺序显示。此外,元数据设置处理单元314接受用户从步骤1003中显示的列表中选择的元数据(步骤1004)。最终,元数据设置处理单元314确定所键入的元数据是否已经被用户授权(步骤 1005)。如果所键入的元数据被确定为已经被用户授权,那么其作为元数据数据库303中的元数据被注册。然后,过程终结。〈搜索屏幕的实施例〉图11是示出了本发明的系统的示例性的搜索屏幕的图。当用户将搜索关键词键入文本框1101中并且按下搜索执行按钮1102时,执行搜索。搜索结果可以被显示为使得元数据已注册文件和元数据未注册文件二者以混合的方式显示。可选择地,这样的文件可以分开显示。可以使用复选框1103切换显示。图11的配置示出了其中两种文件以混合的方式显示的实施例。通过搜索找出的文件在搜索结果显示窗格1104中显示。所找出的文件中的每个被显示为具有文件名1105、文件摘要信息1106和文件路径1107。对于元数据已注册文件,也显示其元数据1108。同时,元数据未注册文件被显示为具有指示元数据不存在的符号1109。此外,确定和显示文件的候选元数据1110。当元数据的录入通过采用候选元数据 1110初始化时,按钮1111被按下,但是当元数据的录入在不采用候选元数据时进行初始化时,按钮1112被按下。例如,如果用户通过察看在屏幕上显示的摘要性显示或文件路径,确定元数据是明显地正确的,那么他/她按下按钮1111以初始化元数据的录入。可以在候选元数据输出设置窗格1113上设置和调整候选元数据,使得合适的候选元数据被呈现。例如,当使用搜索关键词确定候选元数据时,使用单选按钮1114选择候选者,而当使用词典数据时,使用单选按钮1115选择候选者。此外,当候选元数据选自元数据已注册文件的元数据时,可以使用文件系统的属性对元数据已注册文件执行缩小范围 (筛选过程),使得更精确的候选元数据可以被呈现。例如,当文件被缩小范围至在同一个文件夹中的文件时,勾选复选框1116。相似地,当文件被缩小范围至其文件名是相似的的文件时,勾选复选框1117 ;当被缩小范围至其创建日期和时间接近的文件时,勾选复选框 1118 ;当被缩小范围至其最后访问日期和时间接近的文件时,勾选复选框1119 ;并且当被缩小范围至相同的文件类型的文件时,勾选复选框1120。当候选元数据输出设置窗格1113 的设置改变时,重新确定并且再次显示在搜索结果显示窗格1104上的每个文件的候选元数据1110。图12是示出了本系统的另一个示例性的搜索屏幕的图。图12与图11不同的是复选框1201(图11中的1103)被勾选。然后,显示搜索结果,使得元数据未注册文件和元数据已注册文件分开地分别显示在未注册文件显示窗格1202和已注册文件显示窗格1203 上。使用这样的显示配置,用户可以专注于输入元数据的操作。此外,可以容易地找到元数据未注册文件。同时,图11的显示配置是搜索结果的常规显示,其是在用户主要想执行搜索时不会感到繁琐的界面。使用诸如图12中示出的显示配置的显示配置,当使用键入文本框1204中的“报价单”执行搜索时,将找出多个与报价单相关的文件。因此,在为报价单文件集中设置元数据时,这样的配置是方便且高效率的。此外,当没有关键词键入用于键入搜索关键词的文本框 1204中时执行搜索,可以显示包括在文件服务器中的所有文件。因此,所有的元数据未注册文件可以显示,并且元数据可以在其上设置而没有遗漏。<元数据设置屏幕>图13是示出了本系统的示例性的元数据设置屏幕的图。被选择的文件显示在元数据设置屏幕上的文件显示区域1301中。用户在察看所显示的文件时设置元数据。元数据被显示在用于每个元数据项目的文本框中。在图13中,文档类型名称显示在文本框1302中,客户名称显示在文本框1303中, 开具日期显示在文本框1304中,项目ID显示在文本框1305中,并且管理部门显示在文本框1306中。在搜索屏幕上,当元数据的录入通过采用候选元数据来初始化时(当元数据的录入通过按下图11中的按钮1111初始化时),已经设置的元数据项目被配置为是不可编辑的(图13中的文本框1302和1303)。使用这样的显示配置,用户可以缩小待设置的元数据项目的范围。因此,元数据可以以更高效率进行注册。这样的配置在具有很多元数据项目时是特别高效的。当用于每个元数据项目的候选者列表按钮1307被按下时,对应的元数据项目的候选元数据的列表以精确度递减的顺序显示。候选者列表和列表的显示顺序可以在候选元数据输出设置窗格1308上调整。用户可以从候选者列表选择合适的元数据或直接地将元数据键入文本框中。当所有的元数据已经键入并且“键入”键1309被按下时,所键入的元数据被在系统中注册。图14示出了示例性的显示候选者列表的屏幕。具体地,图14示出了在图13中的候选者列表按钮1307被按下时显示的屏幕。候选者列表以下拉列表1401的形式显示,并且候选元数据以精确度递减的顺序显示。当用户从列表选择候选元数据中的一个并且按下 “确定”按钮1402时,所选择的元数据被输入图13中的文本框中。当用户按下“取消”按钮 1403时,元数据不被输入并且屏幕被关闭。〈结论〉根据本发明,基于搜索关键词执行搜索,并且从文件数据库获取匹配搜索关键词的文件,包括元数据已注册文件和元数据未注册文件二者。然后,已经通过执行搜索获取的元数据已注册文件通过筛选条件缩小范围(例如见图7),并且缩小范围的元数据已注册文件的元数据被设置作为元数据未注册文件的候选元数据。然后,元数据设置处理单元根据来自用户的指令将候选元数据在元数据设置屏幕上授权(使其不可编辑)并且注册作为待设置在元数据未注册文件上的元数据。因此,可以高效率地设置文件的元数据。即,虽然始终视觉地检查注册元数据的操作,但是不必检查或编辑所有的元数据项目。因此,可以简化元数据的注册。此外,因为在搜索文件服务器的日常过程中自然地进行元数据的注册,所以可以实现用户的无压力的元数据设置。当具有单条候选元数据时,候选元数据被授权作为不可变的数据。然而,当具有多条候选元数据时,其中的一条被配置为是可选择的。以这种方式,不是所有的元数据都被配置为是不可编辑的,但是元数据被配置为可以灵活地设置,由此可以改进元数据设置的精确度。当搜索关键词被设置用于确定候选元数据时,如果搜索关键词被以预注册的表达形式描述的话,候选元数据确定处理单元将搜索关键词设置作为候选元数据。此外,当其中存储有能够视为元数据的候选字符串的词典数据库被设置用于确定候选元数据时,如果词典数据库中的候选字符串包含在元数据未注册文件的文件路径中或元数据未注册文件中的字符串中的话,候选元数据确定处理单元将候选字符串设置作为候选元数据。因此,元数据可以与搜索关键词相关联地或与文件路径相关联地设置。应当注意,本发明也可以通过实施实施方案的功能的软件的程序代码实现。在这样的情况下,其上记录有程序代码的存储介质被提供给系统或装置,并且系统或装置中的计算机(或CPU或MPU)读取存储在存储介质中的程序代码。在这种情况下,从存储介质读取的程序代码自身实施上述的实施方案的功能,并且程序代码自身以及其上记录有程序代码的存储介质构成本发明。对于用于供应这样的程序代码的存储介质,例如,使用软盘、 CD-ROM、DVD-ROM、硬盘、光盘、磁光盘、CD-R、磁带、非易失存储卡、ROM或类似物。此外,基于程序代码的指令,在计算机或类似设备上运行的OS (操作系统)可以执行实际过程中的某些或全部,并且上述的实施方案的功能可以通过这些过程实施。此外,在从存储介质读取的程序代码被写入计算机中的存储器之后,计算机的CPU或类似物可以基于程序代码的指令执行实际的过程中的某些或全部,并且上述的实施方案的功能可以通过这些过程实现。此外,实施实施方案的功能的软件的程序代码可以通过网络分发,并且由此存储在系统或装置中的存储工具例如硬盘或存储器中,或诸如CD-RW或CD-R的存储介质中,并且在使用时,系统或装置中的计算机(或CPU或MPU)可以读取存储在存储工具或存储介质中的程序代码并且执行程序代码。参考标号列表
13
301文件数据库302搜索索引303元数据数据库304词典数据库305元数据项目设置文件306筛选条件设置文件307显示设备308 键盘309 鼠标310中央处理单元311搜索执行单元313候选元数据确定处理单元314元数据设置处理单元401 文件 ID402文件路径403整个元数据404文档类型名称405客户名称406开具日期407 项目 ID408管理部门1101用于键入搜索关键词的文本框1102搜索执行按钮1103用于确定是否分开显示元数据已注册文件和元数据未注册文件的复选框1104搜索结果显示窗格1105通过搜索找出的文件的文件名1106通过搜索找出的文件的摘要信息1107通过搜索找出的文件的文件路径1108通过搜索找出的文件的元数据1109指示元数据尚未被注册的符号1110通过搜索找出的文件的候选元数据1111用于通过使用候选元数据初始化元数据录入的按钮1112用于在不使用候选元数据时初始化元数据录入的按钮1113候选元数据输出设置窗格1114用于确定是否使用搜索关键词的单选按钮1115用于确定是否使用词典的单选按钮1116用于确定是否根据筛选条件选择在同一个文件夹中的文件的复选框1117用于确定是否根据筛选条件选择具有相似的文件名的文件的复选框1118用于确定是否根据筛选条件选择其创建日期和时间接近的文件的复选框
1119用于确定是否根据筛选条件选择其最后访问日期和时间接近的文件的复选框1120用于确定是否根据筛选条件选择相同的文件类型的文件的复选框1201用于确定是否分开显示元数据已注册文件和元数据未注册文件的复选框1202用于元数据未注册文件的显示窗格1203用于元数据已注册文件的显示窗格1204用于键入搜索关键词的文本框1301文件显示区域1302指示与文档类型名称相关联的元数据的文本框1303指示与客户名称相关联的元数据的文本框1304指示与开具日期相关联的元数据的文本框1305指示与项目ID相关联的元数据的文本框1306指示与管理部门相关联的元数据的文本框1307显示候选元数据的列表的候选者列表按钮1308候选元数据输出设置窗格1309键入按钮1401示出了候选元数据的列表的下拉列表1402确定按钮1403取消按钮
权利要求
1.一种用于设置电子文件上的元数据的元数据设置方法,包括搜索执行步骤,其中搜索执行单元基于搜索关键词执行搜索,并且从文件数据库获取匹配所述搜索关键词的文件,所述文件包括元数据已注册文件和元数据未注册文件;搜索结果显示步骤,其中搜索结果显示处理单元将在所述搜索执行步骤中获取的所述元数据已注册文件和所述元数据未注册文件作为搜索结果显示;候选元数据确定处理步骤,其中候选元数据确定处理单元将在所述搜索执行步骤中获取的所述元数据已注册文件中的一个的元数据设置作为所述元数据未注册文件中的一个的候选元数据;元数据设置屏幕显示步骤,其中所述搜索结果显示处理单元将由用户选择的元数据未注册文件的元数据设置屏幕显示在显示单元上;以及元数据注册步骤,其中元数据设置处理单元根据来自用户的指令将所述候选元数据在所述元数据设置屏幕上授权并且注册作为待设置在所述元数据未注册文件上的元数据。
2.根据权利要求1所述的元数据设置方法,其中在所述候选元数据确定处理步骤中, 所述候选元数据确定处理单元从在所述搜索执行步骤中获取的所述元数据已注册文件抽取匹配键入的筛选条件的元数据已注册文件,并且将所抽取的元数据已注册文件的元数据设置作为所述元数据未注册文件的候选元数据。
3.根据权利要求1所述的元数据设置方法,其中在所述候选元数据确定处理步骤中, 当所述搜索关键词被设置用于确定所述候选元数据时,如果所述搜索关键词以预注册的表达形式描述的话,所述候选元数据确定处理单元将所述搜索关键词设置作为所述候选元数据。
4.根据权利要求1所述的元数据设置方法,其中在所述候选元数据确定处理步骤中, 当其中存储有能够视为元数据的候选字符串的词典数据库被设置用于确定所述候选元数据时,如果所述词典数据库中的所述候选字符串包含在所述元数据未注册文件的文件路径中或所述元数据未注册文件中的字符串中的话,所述候选元数据确定处理单元将所述候选字符串设置作为所述候选元数据。
5.根据权利要求1所述的元数据设置方法,其中在所述元数据注册步骤中,如果所述候选元数据的数量是一个,那么所述元数据设置处理单元授权所述候选元数据作为不可改变的元数据,并且如果所述候选元数据的数量多于一个,那么所述元数据设置处理单元允许所述候选元数据中的一个被选择。
6.一种用于设置电子文件上的元数据的元数据设置系统,包括 文件数据库,其中存储有元数据已注册文件和元数据未注册文件;搜索执行单元,其被配置为基于搜索关键词执行搜索并且从所述文件数据库获取匹配所述搜索关键词的文件,所述文件包括元数据已注册文件和元数据未注册文件;搜索结果显示处理单元,其被配置为将通过所述搜索执行单元获取的所述元数据已注册文件和所述元数据未注册文件作为搜索结果显示在显示单元上;候选元数据确定处理单元,其被配置为将通过所述搜索执行单元获取的所述元数据已注册文件中的一个的元数据设置作为所述元数据未注册文件中的一个的候选元数据;以及元数据设置处理单元,其被配置为执行设置元数据的处理,其中当所述搜索结果显示处理单元将由用户选择的元数据未注册文件的元数据设置屏幕显示在所述显示单元上时,所述元数据设置处理单元根据来自用户的指令将所述候选元数据在所述元数据设置屏幕上授权并且注册作为待设置在所述元数据未注册文件上的元数据。
7.根据权利要求6所述的元数据设置系统,其中所述候选元数据确定处理单元从通过所述搜索执行单元获取的所述元数据已注册文件抽取匹配键入的筛选条件的元数据已注册文件,并且将所抽取的元数据已注册文件的元数据设置作为所述元数据未注册文件的候选元数据。
8.根据权利要求6所述的元数据设置系统,其中当所述搜索关键词被设置用于确定所述候选元数据时,如果所述搜索关键词以预注册的表达形式描述的话,所述候选元数据确定处理单元将所述搜索关键词设置作为所述候选元数据。
9.根据权利要求6所述的元数据设置系统,还包括其中存储有可能会作为元数据出现的候选字符串的词典数据库,其中如果所述词典数据库被设置用于确定所述候选元数据, 如果所述词典数据库中的所述候选字符串包含在所述元数据未注册文件的文件路径中或所述元数据未注册文件中的字符串中的话,那么所述候选元数据确定处理单元将所述候选字符串设置作为所述候选元数据。
10.根据权利要求6所述的元数据设置系统,其中如果所述候选元数据的数量是一个, 那么所述元数据设置处理单元授权所述候选元数据作为不可改变的元数据,并且如果所述候选元数据的数量多于一个,那么所述元数据设置处理单元允许所述候选元数据中的一个被选择。
11.一种程序,用于使计算机执行根据权利要求1所述的元数据设置方法。
全文摘要
提出了用于在搜索文件的日常过程中自然和高效率地设置元数据的方法。在文件搜索屏幕上,提供了确定元数据未注册文件的候选元数据以及使用已经设置的候选元数据初始化元数据的录入的功能。候选元数据的确定使用以下三种方法中的任何一种来执行指定以正则表达式描述的匹配搜索关键词的字符串作为候选者的方法,指定匹配关键词词典的文件路径或文件中的字符串作为候选者的方法,以及指定在元数据已注册文件中频繁出现的元数据作为候选者的方法。
文档编号G06F17/30GK102576362SQ20108004308
公开日2012年7月11日 申请日期2010年9月30日 优先权日2009年9月30日
发明者大峡光晴, 松本俊子, 野崎康行 申请人:株式会社日立解决方案
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1