智能移动终端的桌面搜索方法

文档序号:6556647阅读:196来源:国知局
专利名称:智能移动终端的桌面搜索方法
技术领域
本发明涉及基于智能移动终端的信息检索领域,特别是涉及一种智能移动终端的桌面搜索方法。
背景技术
伴随着通信产业的不断发展,智能移动终端如个人数字助手(PDA)、智能手机等以其强大的功能和便捷的操作等特点得到人们的青睐。随着价格的不断下降,智能移动终端正逐步进入千家万户,成为人们必备的工具。
智能移动终端处理能力稳步提升,主流产品的中央处理器的主频已经达到了百兆级别,内存也达到了十兆级别,同时还支持千兆级别的大容量存储卡。这使得用户可以将更多的文本、多媒体数据保存在智能移动终端上,同时也不再需要为短信、彩信、联系人等的容量而担心,用户可以将上千上万条的短信保存在智能移动终端上而不需要删除。
智能移动终端数据存储量提升的同时也使得用户要查找相关的信息变得相对困难。因此,在智能移动终端进行桌面搜索将极大地提高信息查找的速度,方便人们的生活。
目前,基于互联网的搜索引擎技术得到了迅猛发展,可以帮助用户在几乎无限的互联网资源中找到所需的信息。特别是基于个人电脑PC机的桌面搜索工具除了能找到用户所需要的网络信息之外,还可以帮助用户从个人电脑海量无序的资料中轻松快速地查找到想要看到的信息,已经成为主要搜索服务提供商的新发展方向。
智能移动终端的处理能力虽然不断提升,但是它固有的一些特点使得现有的搜索引擎技术很难直接得到应用。如智能移动终端通常使用电池供电,这就要求其运行的应用程序需要节能方面的考虑;智能移动终端的中央处理器能力及存储器的容量比起个人电脑来要落后很多,很难运行如中文分词等对系统资源需求较高的程序。因此,需要综合考虑智能移动终端的计算能力弱、电池寿命短等特点,设计一种能耗低,适于在智能移动终端运行的桌面搜索方法。

发明内容
本发明的主要目的在于提供一种智能移动终端的桌面搜索方法,根据用户的查询请求,快速准确地定位到用户需要的信息。
本发明解决其技术问题采用的技术方案如下一种智能移动终端的桌面搜索方法,主要包括以下步骤1)智能移动终端的桌面搜索引擎分析智能移动终端存储介质上的文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,并对其建立全文索引;2)智能移动终端的桌面搜索引擎的用户交互界面接受用户的查询请求,读取查询请求对应的全文索引,并进行相似度计算,将查询结果按照相似度由高到低返回给用户。
1.步骤(1)在分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件之前,首先建立每个文件的元信息,文件的元信息至少包含文件名与文件标识符的对应关系,每个文件被分析时的时间戳、文件的类型等信息。
2.步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件前,首先读取该文件元信息中保存的时间戳,并与该文件的修改时间比较,仅对于修改时间新于该文件元信息中的时间戳的文件进行分析。
3.步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,不仅分析文件名,且分析文件中的文本部分,特别是对于图片、音视频等二进制文件,读取这些文件中的文本注释部分进行分析。
4.步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件的文本部分,对文本以字为单元进行切分处理,将切分出的字保存到字库表中,每个字相应地至少保存该字所在文件的文件标识符,该字在每个文件中出现的次数、出现位置等信息,即获得每个字对应的全文索引信息;字库表中同时保存出现该字的文件个数。
5.步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件获得全文索引后,将全文索引压缩后再保存到智能移动终端的存储介质中。
6.步骤(2)中接受用户的查询请求,允许用户附加指定要查找的文件类型。
7.步骤(2)中获得用户的查询请求后,将查询请求进行以字为单位的切分处理,读取该字对应的全文索引信息,利用索引计算查询与文件的相似度,相似度计算需要考虑文件中查询字的频率、出现该字的文件个数以及查询字的位置等信息。
本发明与背景技术相比,具有的有益的效果是本发明是一种针对智能移动终端的特性提出的桌面搜索方法,该方法充分考虑了智能移动终端处理能力较弱,存储能力相对有限以及能耗方面的特点,对智能移动终端中的文本、短信、邮件、图片、音视频等其它各种含文本信息的文件建立全文索引,方便用户查找智能移动终端上的各种信息,同时采用了以字为单位的分词方法及压缩技术等,不仅节约空间,而且具有更好的性能。


图1为根据本发明优选实施例的智能移动终端的桌面搜索系统的示意图。
图2为根据本发明优选实施例的全文索引生成过程图。
具体实施例方式
如附图中的图1所示,其中示出了根据本发明优选实施例的智能移动终端的桌面搜索方法。所述智能移动终端的桌面搜索方法包括以下步骤(1)智能移动终端的桌面搜索引擎分析智能移动终端存储介质上的文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,并对其建立全文索引;(2)智能移动终端的桌面搜索引擎接受用户的查询请求,读取查询请求对应的全文索引,并进行相似度计算,将查询结果按照相似度由高到低返回给用户。
上述步骤(1)在分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件之前,首先建立每个文件的元信息。文件的元信息至少包含文件名与文件标识符的对应关系,每个文件被分析时的时间戳、文件的类型等信息。优选地,为了压缩方面的考虑,文件标识符采用整型表示,并且文件标识符从小到大顺序分配给每个文件。初始时每个文件元信息中的时间戳赋为空值,当该文件被分析时被赋为当时的时间。另外,元信息中保存文件的类型信息,以支持用户查询特定的文件,如用户可以指定查找短信或音频文件等等。为提升元信息的查询、更新效率,可使用嵌入式数据库维护元信息,也可以专门定制一个元信息管理模块。
为了防止重复分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,在分析之前,首先读取该文件元信息中保存的时间戳,并与该文件的修改时间比较,仅对于修改时间新于该文件元信息中的时间戳的文件进行分析。
上述步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,不仅分析文件名,还分析文件内的文本内容。特别地,对于图片、音视频等二进制文件,分析文件中的文本注释。
上述步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件生成全文索引,全文索引生成的过程图见图2。首先,读取相应文件的文本部分,对文本采取以字为单元的切分处理,并将切分出的字保存到字库表中。优选地,采用B+树等结构保存字库表。特别的,中文的常用字不超过5000个,采用B+树保存,每个节点保存100个值,这样仅需2层就可以保存10100个字,即只需2层B+树可以保存所有的常用字。智能移动终端桌面搜索引擎运行时,以每个节点保存100个值计,将B+树的根节点保存在内存中,所需内存不超过1KB,要访问叶子节点中的字时,只需读一次I/O速度较慢的外存储设备即可,可以保证较好的性能。
对文本切分出的每个字,相应地至少保存该字所在文件的文件标识符,该字在每个文件中出现的次数(即字频)、出现位置等信息,即获得每个字对应的全文索引信息。优选地,采用倒排索引保存每个字的全文索引。字库表中的每个字对应一个倒排索引链表,该链表包含了该字所在文件的文件标识符,字频、出现位置等信息。字库表中同时保存出现该字的文件个数。
对于倒排索引链表采用压缩方法保存。倒排索引链表首先根据文件标识符排序,然后将文件标识符转换为相邻文件标识符的差值,即采用小整数保存文件标识符,然后对倒排索引进行压缩。优选地,可以采用Elias-γ编码、Elias-δ编码、或Golomb等编码对文件标识符差值及字频进行压缩,采用字节对齐的变长编码对字出现的位置进行压缩。倒排索引的生成过程中,采用增量的索引生成策略,即有新文件出现时,仅需要分析新出现的文件并建立倒排索引,将新生成的索引以归并等方式合并到已经生成的老索引中,即避免重建索引。
上述步骤(2)在接受用户的查询请求,优选地,将所述查询具体实现为通过在智能移动终端处设置的控制面板输入的搜索请求形式。搜索请求允许用户输入关键词序列、问句等请求形式,还允许用户指定要搜索的文件类型。如用户仅需搜索短信,用户指定要搜索的文件类型是短信即可。
步骤(2)中获得用户的查询请求后,将查询请求进行以字为单位切分处理,读取该字对应的索引信息,获得查询请求包含字的索引信息后,计算查询请求与文件之间的相似度,计算公式如下Sq,d=Σtwd,t·wq,tWd·Wq...(1)]]>其中Sq,d表示用户查询请求与文件的相似度,下标q代表查询,下标d代表文件。其中,分子
wq,t=ln(1+Nft)...(2)]]>wd,t=1+lnfd,t(3)公式中的下标t代表查询请求中的单个字,N代表存储介质中包含的文件的总数,ft代表出现该字的文件的个数,fd,t表示字t在文件d中出现的次数,这些信息都可以在全文索引中获得。即分子表示对每个字t的wd,t、wq,t相乘,并将相乘的结果加权。分母Wd=ΣtWd,t2...(4)]]>Wq=Σtwq,t2...(5)]]>公式4表示对文件中的每个字wd,t值平方加权后再开根号,公式5同理。每个文件的Wd值在步骤(1)时即计算好,即每个文件对应一个Wd值。
由于某些常用字的全文索引很大,这里采用一定的限制措施,当读取的索引大于一定值后,仅取部分索引进行计算,以获得较快的响应时间。根据公式(1)获得相似度最高的若干个文件,在返回这些文件的信息之前,对这些文件重新计算查询字在文件中的位置关系,对位置相邻文件提高其相似度,再将结果重新排序,并将重新排序后的文件的信息以列表的方式返回给用户。
上述具体实施方式
用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
权利要求
1.一种智能移动终端的桌面搜索方法,其特征在于1)智能移动终端的桌面搜索引擎分析智能移动终端存储介质上的文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,并对其建立全文索引;2)智能移动终端的桌面搜索引擎的用户交互界面接受用户的查询请求,读取查询请求对应的全文索引,并进行相似度计算,将查询结果按照相似度由高到低返回给用户。
2.根据权利要求1所述的一种智能移动终端的桌面搜索方法,其特征在于步骤(1)在分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件之前,首先建立每个文件的元信息,文件的元信息至少包含文件名与文件标识符的对应关系,每个文件被分析时的时间戳、文件的类型等信息。
3.根据权利要求1所述的一种智能移动终端的桌面搜索方法,其特征在于步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件之前,首先读取该文件元信息中保存的时间戳,并与该文件的修改时间比较,仅对于修改时间新于该文件元信息中的时间戳的文件进行分析。
4.根据权利要求1所述的一种智能移动终端的桌面搜索方法,其特征在于步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,不仅分析文件名,且分析文件中的文本部分,特别是对于图片、音视频等二进制文件,读取这些文件中的文本注释部分进行分析。
5.根据权利要求1所述的一种智能移动终端的桌面搜索方法,其特征在于步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件的文本部分,对文本以字为单元进行切分处理,将切分出的字保存到字库表中,每个字相应地至少保存该字所在文件的文件标识符,该字在文件中出现的次数、出现位置等信息,即获得每个字对应的全文索引信息;字库表中同时保存出现该字的文件个数。
6.根据权利要求1所述的一种智能移动终端的桌面搜索方法,其特征在于步骤(1)分析文本、短信、邮件、图片、音视频等其它各种含文本信息的文件获得全文索引后,将全文索引压缩后再保存到智能移动终端的存储介质中。
7.根据权利要求1所述的一种智能移动终端的桌面搜索方法,其特征在于步骤(2)中接受用户的查询请求,允许用户附加指定要查找的文件类型。
8.根据权利要求1所述的一种智能移动终端的桌面搜索方法,其特征在于步骤(2)中获得用户的查询请求后,将查询请求进行以字为单位的切分处理,读取该字对应的全文索引信息,利用索引计算查询与文件的相似度,相似度计算需要考虑文件中查询字的频率、出现该字的文件个数以及查询字的位置等信息。
全文摘要
本发明公开了一种智能移动终端的桌面搜索方法。本发明的方法是通过分析智能移动终端存储介质上的文本、短信、邮件、图片、音视频等其它各种含文本信息的文件,并对其建立全文索引。智能移动终端的桌面搜索引擎的用户交互界面接受用户的查询请求,读取查询请求对应的全文索引,并进行相似度计算,将查询结果按照相似度由高到低返回给用户,帮助用户快速而准确地定位需要的信息。
文档编号G06F17/30GK1924854SQ200610053448
公开日2007年3月7日 申请日期2006年9月18日 优先权日2006年9月18日
发明者陈纯, 卜佳俊, 陈伟, 刘康苗, 仇光 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1