1.一种聚集文档的方法,所述方法包括:
访问包括多个存储的文档的数据库;
基于内容相似性和发表日期将所述存储的文档中的一些文档聚集成一个或多个群集;以及
将标识符分配给所述存储的文档的群集中的每一个群集,其中,所述群集中的每一个群集的标识符贯穿经聚集的存储的文档中的每一个文档的寿命保持持久性。
2.根据权利要求1所述的方法,其中,所述一个或多个群集中的一些包括检索到的为新鲜文档的文档。
3.根据权利要求1所述的方法,其中,所述一个或多个群集中的一些包括检索到的不为新鲜文档的文档。
4.根据权利要求1所述的方法,其中,所述一个或多个群集包括一个或多个被分组的统一资源定位符(URL)。
5.根据权利要求1所述的方法,进一步包括:为所述一个或多个群集中的每一个提供简略提要。
6.根据权利要求5所述的方法,其中,所述简略提要包括以下项中的一个或多个:文档的数目、主机域或针对所述一个或多个群集中的每一个群集的一个或多个显著特征。
7.一种聚集文档的系统,包括:
一个或多个存储器存储设备,被配置为存储包括多个存储的文档的数据库;
一个或多个计算设备,被配置为:
(A)访问包括所述多个存储的文档的所述数据库;
(B)基于内容相似性和发表日期将所述存储的文档中的一些文档聚集成一个或多个群集;以及
(C)将标识符分配给所述存储的文档的群集中的每一个群集,其中,所述群集中的每一个群集的标识符贯穿经聚集的存储的文档中的每一个文档的寿命保持持久性。
8.根据权利要求7所述的系统,其中,所述一个或多个群集中的一些包括检索到的为新鲜文档的文档。
9.根据权利要求7所述的系统,其中,所述一个或多个群集中的一些包括检索到的不为新鲜文档的文档。
10.根据权利要求7所述的系统,其中,所述一个或多个群集包括一个或多个被分组的统一资源定位符(URL)。
11.根据权利要求7所述的系统,进一步包括:所述一个或多个计算设备被配置为:为所述一个或多个群集中的每一个提供简略提要。
12.根据权利要求11所述的系统,其中,所述简略提要包括以下项中的一个或多个:文档的数目、主机域或针对所述一个或多个群集中的每一个群集的一个或多个显著特征。
13.一种使用计算设备来聚集文档的计算机实施的方法,所述计算设备具有处理器、存储器和数据存储子系统,所述计算机实施的方法包括:
基于页面内容的相似性将数据库中存储的多个文档分组以形成一个或多个群集;
向所述一个或多个群集中的每一个群集分配标识符和一个或多个相应的相关属性;
维持所述一个或多个群集中的每一个群集的所分配的标识符和所述相应的相关属性,其中,所述群集中的每一个群集的标识符贯穿经聚集的存储的文档中的每一个文档的寿命保持持久性;以及
根据发表日期将所述一个或多个群集中的每一个群集细分成一个或多个细分的群集。
14.根据权利要求13所述的计算机实施的方法,其中,将多个文档分组包括将多个新鲜文档分组。
15.根据权利要求13所述的计算机实施的方法,其中,将多个文档分组包括将多个非新近的事件文档分组。
16.根据权利要求13所述的计算机实施的方法,其中,所分配的标识符贯穿每个相应文档的生命的生命期保持持久性。
17.根据权利要求13所述的计算机实施的方法,其中,所述多个文档中的每个文档被认为是近似一个月寿命的新鲜文档。
18.根据权利要求13所述的计算机实施的方法,进一步包括:响应于用户搜索查询,向所述计算设备的用户接口显示所述一个或多个群集中的一个群集的、按发表时间的所述一个或多个细分的群集。
19.根据权利要求18所述的计算机实施的方法,其中,显示所述一个或多个细分的群集中的每个细分的群集包括显示以下项中的相应一个或多个:显著标题、显著图像、或显著新闻概要。
20.根据权利要求13所述的计算机实施的方法,其中,所述一个或多个细分的群集包括根据所述一个或多个细分的群集的相应ID号被分组的统一资源定位符(URL)。