一种文件标签的智能提示方法

文档序号:6463488阅读:133来源:国知局
专利名称:一种文件标签的智能提示方法
技术领域
本发明涉及计算机桌面系统或者网站中,文件标签添加时的提示方法,特别是照片标 签添加时的提示方法,属于计算机网络领域。
背景技术
近年来,数字化进程(Cyberization) [l]突飞猛进,具体体现在处理器、存储器、 音/视频编码、摄像和显示设备等方面技术的持续高速发展。这些领域的技术进步使得计 算机用户可以创造、获得和管理具有越来越大数据量的信息。以数码照片为例,随着数码 相机和具有拍照功能的手机的日益普及,家庭数码照片的数量增长迅速。
我们注意到,为照片添加标签是多数软件工具和照片共享网站都提供的功能。现有的 软件工具如ACDSee [2] ,Microsoft Windows Photo Gallery [3] , Adobe Photoshop Album[4], Google Picasa[5],有代表性的照片共享网站Flickr. com[6]都提供为照片添加标签和根 据标签检索照片的功能。与此同时,随着照片共享网站的兴起和标注标签用户界面的改进, 越来越多的照片都有标签。在照片共享网站兴起之前,虽然很多软件工具也提供为照片添 加标签的功能,但用户的积极性并不高[7], Ames等[8]的调査表明,与他人共享照片,成 为用户愿意为照片添加标签的重要原因。标签作为Web2.0的主要特点之一,将会越来越 为用户所接受。
近年来,有大量的研究工作集中在为用户添加标签提供帮助。这些研究工作主要可以 分为两类,分别是照片分类[9-11],以及标签的自动添加或者提示[12-14]。其中,许多 照片分类的工作都试图将照片按照事件分类,这是因为"事件"被认为是用户记忆家庭照 片的重要线索。为了达到这一目的,除了采用图像分析的方法提取底层特征,还考虑照片 的时间[9]、地点[10]以及拍摄参数[11]等元数据。与照片分类不同,标签的自动添加或 提示是在用户的添加动作发生时,给用户提供若干的标签备选项,让用户从中选择以完成 添加。本发明中的方法也属于这一类。这方面的前人工作主要集中在提示照片的人物标签, 通常要利用人脸、衣服纹理等模式识别的算法[12][13]。但是模式识别算法具有局限性, 比如当人脸不是正面,或者衣服纹理不明显时,这些算法可能失效。为了克服这个不足, 在[14]中,作者提出可以利用照片内容的上下文来加强标签预测的精度,并给出了完全基 于该上下文的照片人物标签的提示算法。其中,照片内容的上下文包括照片的拍摄时间、 地点,以及照片已有的人物标签等。我们注意到,除了文件内容的上下文之外,用户与系统交互历史也包含了用户对文件 丰富的记忆线索[15]。 Karl等人[16]通过记录用户操作文件时的上下文,构建一个基于任 务(task-based)的文件分类,来帮助用户检索文件。操作文件时的上下文包括用户的操 作历史、之前一段时间内打开的文件、之后一段时间内打开的文件等等。无疑,这些交互 历史数据对用户添加标签也是有提示功能的,但是前人工作中很少涉及。
另外,本发明主要讨论的是对一般文件添加标签的提示方法,其与对照片添加标签的 提示方法存在以下联系和区别 一、照片是一般文件的一种具体形式, 一般文件也具有与 内容相关的上下文,因此利用上下文进行预测的方法,对一般文件也适用。二、对照片的 图像内容进行分析的方法,对一般文件不适用。因为一般文件可能不具有图像内容。
综上,前人工作的局限性主要体现在以下三个方面 一、讨论的范围仅仅局限于照片, 没有提出对一般文件的标签提示算法;二、仅仅局限于对人物标签的提示,没有将该方法 推广至对一般标签的提示;三、没有对用户交互的历史数据进行充分挖掘,为用户提供更 丰富的添加线索。

发明内容
本发明的目的是针对上面提到的三个局限性,提出一种文件标签的智能提示方法。该 方法不仅利用文件内容的上下文,而且利用用户交互的历史数据,对用户进行标签提示(不 局限于人物标签)。
本发明通过提取文件内容的上下文,分析用户和操作系统的交互历史,智能的产生一 系列的标签备选项,作为对用户添加标签的提示。
文件内容的上下文,主要是与文件内容相关的属性。对照片而言,主要包括照片拍摄 的时间、地点等。
用户交互的历史数据,主要包括当前文件的创建时间、最近修改时间等。 本发明中方法的基本思想是
对从未添加过标签的文件找出与其具有相同或相近内容上下文的文件,统计这些文 件中标签出现的频率,频率越高的标签,在当前文件中出现的可能性也越大。找出交互历 史中操作时间与当前文件相同或相近的其他文件,统计这些文件中标签出现的频率,频率 越高的标签,在当前文件中出现的可能性也越大。
对己经有若干标签的文件找出与其具有相同或相近内容上下文的文件,统计这些文 件中的标签与当前文件中的标签同时出现的频率,频率越高的标签,在当前文件中出现的 可能性也越大。找出交互历史中操作时间与当前文件相同或相近的其他文件,统计这些文件中标签与当前文件中标签同时出现的频率,频率越高的标签,在当前文件中出现的可能 性也越大。
本发明的技术方案为
一种文件标签的智能提示方法,针对未添加过标签的文件,其步骤为
1) 从文件上下文中提取一参考元素值;
2) 根据参考元素值设定一取值范围;
3) 提取参考元素值在该取值范围内的文件,得到文件集^.及其对应的标签集 ;.;
4) 统计标签集7;.中各元素在文件集尸,中出现的次数Nn
5) 从用户交互历史数据中提取一参考数据值;
6) 根据该参考数据值设定一取值范围;
7) 提取参考数据值在该取值范围内的文件,得到文件集Q及其对应的标签集r';
8) 统计标签集r'中各元素在文件集^中出现的次数N2;
9) 根据各个标签元素出现的次数Ni和N2对标签进行排序,提示用户选择标签。 所述参考元素包括但不仅限于下列元素的一种或几种时间、地点。 所述参考数据包括但不仅限于下列数据的一种或几种创建时间、最近修改时间。 所述对标签进行排序的方法为
1) 将所述标签集7;.和r'合并,记为标签集7;;
2) 从7;中的任一标签元素。其在所述文件集^.中出现的次数记为",,在所述文件集 0中出现的次数记为"2;
3) 根据公式/ -"",+V^计算该标签元素在当前文件中出现的可能性值,其中y5为对 所述7;.中标签的权值,V为对所述0中标签的权值;
4) 将可能性值排名靠前的m个标签,作为结果返回给用户。 所述权值;5、 v和所述取值范围由系统设定或由用户设定。
一种文件标签的智能提示方法,针对已添加过标签的文件,其步骤为-
1) 从文件上下文中提取一参考元素值;
2) 根据参考元素值设定一取值范围;
3) 提取参考元素值在该取值范围内的文件,得到文件集^.及其对应的标签集z;.;4) 统计7;. -7^。,中各元素与7^,中各元素在文件集^.的文件中同时出现的次数1^, 其中为所有S添加过标签文件的标签集;
5) 从用户交互历史数据中提取一参考数据值;
6) 根据该参考数据值设定一取值范围;
7) 提取参考数据值在该取值范围内的文件,得到文件集Q及其对应的标签集r';
8) 统计7;.-7^,中各元素与7^。目中各元素在文件集i;.的文件中同时出现的次数N2;
9) 根据各个标签元素出现的次数Ni和N2对标签进行排序,提示用户选择标签。
所述参考元素包括但不仅限于下列元素的一种或几种时间、地点。 所述参考数据包括但不仅限于下列数据的一种或几种创建时间、最近修改时间。 所述对标签进行排序的方法为
1) 将所述标签集7;.-7^,和标签集r'-7^,合并,记为标签集r,;
2) 从7;中的任一标签元素"其在所述文件集^.中出现的次数记为",,在所述文件集
2中出现的次数记为 ;
3) 根据公式/ = /9"1+^2计算该标签元素在当前文件中出现的可能性值,其中-为对
所述;中标签的权值,V为对所述^中标签的权值;
4) 将可能性值排名靠前的w个标签,作为结果返回给用户。 所述权值"、v和所述取值范围由系统设定或由用户设定。
本发明的积极效果为
本发明能够对用户进行有效的标签提示,帮助用户为文件添加标签。与现有技术相比, 本发明的主要不同之处在于同时考虑了用户的交互历史和文件内容的上下文,从而为用户 提供了更加准确而丰富的标签提示。


图l本发明的主体流程图2示出了对还没有标上任何标签的文件,进行标签添加提示的算法流程; 图3示出了对己经标有若干标签的文件,进行标签添加提示的算法流程。
具体实施方式
-
下面将详细介绍本发明所采用的标签添加提示方法。对于已经有若干标签的文件和从
未添加过标签的文件,我们将分开讨论。方法主要可以分成以下三个步骤 一、分析处理
文件内容的上下文;二、分析处理用户交互的历史数据;三、综合前两步的结果,给出提
示标签。其中第一、二两个步骤可以并行进行,如图1所示。 下面给出详细的介绍。
已知文件集合记为p,其对应的标签集记为r,其中的文件数目为"。,其中文件集合
P中的文件A(l < / < A:,A: < ")为已经添加好标签,还有"-A个文件没有标上任何标签。标签
集r为p中所有文件所含有的标签所组成的集合。下面仅以照片的内容上下文为例来说明
本发明所采用的方法。对于数码相机拍摄的照片,其拍摄时间可以从照片文件中直接提取 (有的数码相机还提供拍摄地点信息)。由此,得到文件集尸对应的拍摄时间集合,即以尸 中所有照片的拍摄时间为元素的集合,记为t/。如果相机能够提供拍摄地点的信息,那么 可以将下文中的拍摄时间参数替换为地点参数,进行完全类似的处理。
对一张还没有标上任何标签的照片巧0<"),其标签提示算法流程如图2所示。分析 处理文件内容的上下文的步骤如下首先,得到其拍摄时间//,之后遍历时间集合t/,找 到拍摄时间//',使//-//< ,其中W为时间阈值;然后,找到所有于时间/Z'拍摄的照片,
记为照片集p.,其对应的标签集记为r.;最后,统计r.中各元素在尸,所有照片中出现
P P 〃
的次数。
分析处理用户交互历史数据的步骤如下首先,得到用户最近/次的打开该文件的时
间,这些时间点组成的集合记为及;然后,对及中的每个元素a,找出(a-c7,a + c7)时间
段内用户打开的所有其他文件,这些文件所组成的集合记为^,其对应的标签集记为r'; 最后,统计r'中各元素在g中所有文件中出现的次数。
在分析处理完上下文和交互历史数据之后,得到标签集7;.和r',并且知道其中各元素 在各自对应的文件集合中出现的次数。接下来需要从这两个标签集合中选出一些标签,作 为提示选项,返回给用户。下面介绍一种筛选方法。首先对标签集r,和r'求并集,记为r,。 对7;中的任一元素/,假设其在^.中出现的次数为",,在0中出现的次数为"2,则其在当 前文件中出现的可能性值/7二々",+v^,其中々为对7;.中标签的权值,v为对g中标签的 权值。最后,将可能性值排名靠前的m个标签,作为结果返回给用户。
在上述处理过程中,时间阈值W、文件最近打开次数/、时间跨度O"、权值/ 、权值v
以及返回给用户的标签个数附,这些参数既可以由系统预设,也可以在后端实时的对用户 的偏好进行学习,根据用户的反馈不断的进行调整。对己经标有若干标签的照片A(z、"),设己有的标签集合为7L^,其标签提示算法流
程如图3所示。分析处理文件内容的上下文的步骤如下首先,得到其拍摄时间//,之后 遍历时间集合f/,找到拍摄时间//',使/^//< ,其中W为时间阈值;然后,找到所有于
时间//拍摄的照片,记为照片集/;.,其对应的标签集记为7;.;最后,统计^,-7^_中各
元素与7^,中的元素在^.的照片中同时出现的次数,统计方法如下对于7>-7^_中每 个元素"遍历集合尸,,统计r与7^,中元素在,的所有照片中同时出现的次数",。
分析处理用户交互历史数据的步骤如下首先,得到用户最近/次的打开该文件的时
间,这些时间点组成的集合记为及;然后,对及中的每个元素a,找出(a-cj,a + oO时间
段内用户打开的所有其他文件,这些文件所组成的集合记为0,其对应的标签集记为r'; 最后,统计r'-7^_中各元素与7^_中的元素在0的文件中同时出现的次数,统计方法 如下对于r'-7^。^中每个元素/,遍历集合g,统计f与 ^,中元素在2的所有文件中
同时出现的次数"2。
在分析处理完上下文和交互历史数据之后,得到标签集r,-7^。自和r'-rto。w ,并且
知道其中各元素与7^_中元素在对应的文件集合中出现的次数。接下来需要从这两个标签
集合中选出一些标签,作为提示选项,返回给用户。下面介绍一种筛选方法。首先对标签
集^.-7^。则和r'-7^鹏求并集,记为7;。对7;中的任一元素"已知其对应的",与"2, 则其在当前文件中出现的可能性值= pa + w2 ,其中p为对7;. 中标签的权值,v为
对T'-7l目中标签的权值。最后,将可能性值排名靠前的附个标签,作为结果返回给用户。
在上述处理过程中,时间阈值W、文件最近打开次数/、时间跨度O"、权值/ 、权值v
以及返回给用户的标签个数m,这些参数既可以由系统预设,也可以在后端实时的对用户 的偏好进行学习,根据用户的反馈不断的进行调整。
上面给出了对于已经有若干标签的文件和从未添加过标签的文件,进行标签添加提示 的算法。可以看到该方法通过提取文件内容的上下文,分析用户和操作系统的交互历史, 计算标签在当前文件中出现的可能性值,将可能性值排名靠前的标签作为提示选项,返回 给用户。并且可以通过后端的机器学习算法对方法中各参数进行动态调整。
在上文中我们给出了文件标签智能提示算法的流程,给出了详尽的具体实施方案,且 均可通过软件编程的方式实现,软件编程对于本领域普通技术人员而言无需创造性劳动便 可实现。
参考文献[I] G. Bell, The Cyber All Project: A Personal Store for Everything, JZ/crosoft jfesearc力7^c力/ i^7腺-July 2000. ACDSee. http://www.acdsee.com [3] Microsoft Windows Photo Gallery.
http:〃www. microsoft, com/windows/products/windowsvistayseeit/shaxephotos/defa ult. mspx Adobe Photoshop Album, http://www.adobe.com/products/photoshopalbum [5] Google Picasa. http://picasa.google.com [6] Flickr. com. http:/7www, flickr. com K. Rodden and K. R. Wood, How Do People Manage Their Digital Photographs, M. Ames and M. Naaman, Why We Tag: Motivations for Annotation in Mobile and Online Media, ffiT ,7, M. Cooper, J. Foote, A. Girgensohn and L Wilcox, Temporal Event Clustering for Digital Photo Collections, 爿6¥ 71ra"sac"o/76"f〃7"历Ws 6b顺""'啦M. Naaman, Y. J. Song, A. Paepcke and H. G-Molina, Automatic Organization for Digital Photographs with Geographic Coordinates, ,Z Z/似 T. Mei, B. Wang, X_S. Hua, H-Q Zhou and S, Li, Probabilistic Multimodality Fusion for Event Based Home Photo Clustering, /C J. Cui, F. Wen, R. Xiao, Y. Tian and X. Tang, EasyAlb直An Interactive Photo Annotation System Based on Face Clustering and Re-ranking, C〃尸iVW. [13]S. Yang and Y. M. Ro, Photo Indexing Using Person-based Multi-feature Fusion with Temporal Context, tarns"'o"a7 tb"/are/ ce o/7 i/由7e 〃Z^.卿'tw51M. Naaman, R. B. Yeh, H. G-Molina and A. Paepcke, Leveraging Context to Resolve Identity in Photo Albums, ft .T. Blanc-Brude and D. L Scapin. What Do People Recall about Their Documents" Implications for Desktop Search Tools, /〃尸07, ps《es -Afew ro/vt 〃", ,Z[16] K. Gy 11 strom and C. Soules. Seeing Is Retrieving: Building Information Context from What The User Sees, /〃/ '。《p浙es 7砂-7然ife5/ 3io鹏51, fr朋Ck^aria, i^a/", i"舰
权利要求
1. 一种文件标签的智能提示方法,针对未添加过标签的文件,其步骤为1)从文件上下文中提取一参考元素值;2)根据参考元素值设定一取值范围;3)提取参考元素值在该取值范围内的文件,得到文件集Pμ′及其对应的标签集Tμ′;4)统计标签集Tμ′中各元素在文件集Pμ′中出现的次数N1;5)从用户交互历史数据中提取一参考数据值;6)根据该参考数据值设定一取值范围;7)提取参考数据值在该取值范围内的文件,得到文件集Q及其对应的标签集T′;8)统计标签集T′中各元素在文件集Q中出现的次数N2;9)根据各个标签元素出现的次数N1和N2对标签进行排序,提示用户选择标签。
2. 如权利要求1所述的方法,其特征在于所述参考元素包括但不仅限于下列元素的一种 或几种时间、地点。
3. 如权利要求1所述的方法,其特征在于所述参考数据包括但不仅限于下列数据的一种 或几种创建时间、最近修改时间。
4. 如权利要求l所述的方法,其特征在于所述对标签进行排序的方法为1) 将所述标签集7;.和r'合并,记为标签集r,;2) 从7;中的任一标签元素"其在所述文件集^.中出现的次数记为""在所述文件集 2中出现的次数记为"2;3) 根据公式p-ZH+v^计算该标签元素在当前文件中出现的可能性值,其中"为对 所述7;.中标签的权值,v为对所述0中标签的权值;4) 将可能性值排名靠前的;n个标签,作为结果返回给用户。
5. 如权利要求4所述的方法,其特征在于所述权值々、v和所述取值范围由系统设定或由用户设定。
6. —种文件标签的智能提示方法,针对已添加过标签的文件,其步骤为1) 从文件上下文中提取一参考元素值;2) 根据参考元素值设定一取值范围;3) 提取参考元素值在该取值范围内的文件,得到文件集^.及其对应的标签集r,;4) 统计7;. -:^foJ。w"中各元素与^to。w 中各元素在文件集^.的文件中同时出现的次数N1,其中为所有已添加过标签文件的标签集;5) 从用户交互历史数据中提取一参考数据值;6) 根据该参考数据值设定一取值范围;7) 提取参考数据值在该取值范围内的文件,得到文件集Q及其对应的标签集r';8) 统计rw 中各元素与rw 中各元素在文件集的文件中同时出现的次数n2;9) 根据各个标签元素出现的次数n,和N2对标签进行排序,提示用户选择标签。
7. 如权利要求6所述的方法,其特征在于所述参考元素包括但不仅限于下列元素的一种 或几种时间、地点。
8. 如权利要求6所述的方法,其特征在于所述参考数据包括但不仅限于下列数据的一种或几种创建时间、最近修改时间。
9. 如权利要求6所述的方法,其特征在于所述对标签进行排序的方法为1) 将所述标签集7;.-:^。柳和标签集r'-7^^合并,记为标签集7;;2) 从r,中的任一标签元素f,其在所述文件集^.中出现的次数记为",,在所述文件集2中出现的次数记为"2;3) 根据公式/^y^+V^计算该标签元素在当前文件中出现的可能性值,其中"为对所述7;.中标签的权值,V为对所述^中标签的权值;4) 将可能性值排名靠前的m个标签,作为结果返回给用户。
10. 如权利要求9所述的方法,其特征在于所述权值/ 、 v和所述取值范围由系统设定 或由用户设定。
全文摘要
本发明公开了一种文件标签的智能提示方法,属于计算机网络领域。本发明的方法通过利用文件内容的上下文和用户交互的历史数据,对用户进行标签添加时提供智能的提示。与现有技术相比,本发明能够为用户提供更加准确而丰富的标签提示。
文档编号G06F17/30GK101286174SQ20081010615
公开日2008年10月15日 申请日期2008年5月9日 优先权日2008年5月9日
发明者朱广飞, 汪国平, 衡 王 申请人:北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1