数据采集、数据搜索方法及系统、电子设备、存储介质与流程

文档序号:28810383发布日期:2022-02-09 03:51阅读:54来源:国知局
数据采集、数据搜索方法及系统、电子设备、存储介质与流程

1.本技术涉及搜索技术领域,尤其涉及一种数据采集、数据搜索方法及系统、电子设备、存储介质。


背景技术:

2.目前,很多应用为用户提供了搜索服务。用户在搜索框中输入搜索信息后,应用内的搜索系统可以为用户返回对应的搜索结果。然而,该方法得到的搜索结果的数据量较少,导致给用户返回的搜索结果为空或者数据量不足,用户体验较差。


技术实现要素:

3.为了解决上述技术问题或者至少部分地解决上述技术问题,本技术提供了一种数据采集、数据搜索方法及系统、电子设备、存储介质。
4.根据本技术的第一方面,提供了一种数据采集方法,包括:
5.针对单个应用,获取预先设置的多个维度信息;
6.从所述应用中采集与所述多个维度信息分别对应的应用数据;
7.根据单个维度信息对应的应用数据,建立与单个所述维度信息对应的数据模型;
8.根据所述多个维度信息分别对应的数据模型生成所述应用对应的目标数据模型。
9.可选的,所述从所述应用中采集与所述多个维度信息分别对应的应用数据,包括:
10.基于与单个所述维度信息对应的数据采集方式,从所述应用中采集与所述维度信息对应的应用数据;
11.其中,所述数据采集方式包括:上下文采集和列表采集。
12.可选的,所述根据单个维度信息对应的应用数据,建立与单个所述维度信息对应的数据模型,包括:
13.根据单个所述维度信息对应的过滤条件,对单个所述维度信息对应的应用数据进行过滤处理,得到过滤数据;
14.根据所述过滤数据,建立与单个所述维度信息对应的数据模型。
15.根据本技术的第二方面,提供了一种数据搜索方法,包括:
16.接收用户输入的搜索信息;
17.从一个或多个应用分别对应的目标数据模型中获取与所述搜索信息匹配的搜索结果,其中,单个所述应用对应的目标数据模型基于第一方面所述的方法生成。
18.可选的,所述从一个或多个应用分别对应的目标数据模型中获取与所述搜索信息匹配的搜索结果,包括:
19.将所述搜索信息以及与所述搜索信息相关联的其他信息确定为目标信息;
20.从一个或多个应用分别对应的目标数据模型中获取与所述目标信息匹配的搜索结果。
21.可选的,所述方法还包括:
22.获取所述用户的终端设备信息,和/或所述用户的用户画像信息;
23.所述从一个或多个目标数据模型中获取与所述搜索信息匹配的搜索结果,包括:
24.从一个或多个目标数据模型中获取与所述终端设备信息和/或所述用户画像信息,以及所述搜索信息匹配的搜索结果。
25.根据本技术的第三方面,提供了一种数据采集系统,包括:
26.维度信息获取模块,用于针对单个应用,获取预先设置的多个维度信息;
27.数据采集模块,用于从所述应用中采集与所述多个维度信息分别对应的应用数据;
28.单个维度数据模型建立模块,用于根据单个维度信息对应的应用数据,建立与单个所述维度信息对应的数据模型;
29.目标数据模型建立模块,用于根据所述多个维度信息分别对应的数据模型生成所述应用对应的目标数据模型。
30.可选的,所述数据采集模块,具体用于基于与单个所述维度信息对应的数据采集方式,从所述应用中采集与所述维度信息对应的应用数据;
31.其中,所述数据采集方式包括:上下文采集和列表采集。
32.可选的,所述单个维度数据模型建立模块,具体用于根据单个所述维度信息对应的过滤条件,对单个所述维度信息对应的应用数据进行过滤处理,得到过滤数据;根据所述过滤数据,建立与单个所述维度信息对应的数据模型。
33.根据本技术的第四方面,提供了一种数据搜索系统,包括:
34.搜索信息接收模块,用于接收用户输入的搜索信息;
35.搜索结果获取模块,用于从一个或多个应用分别对应的目标数据模型中获取与所述搜索信息匹配的搜索结果,其中,单个所述应用对应的目标数据模型基于第一方面所述的方法生成。
36.可选的,所述搜索结果获取模块,具体用于将所述搜索信息以及与所述搜索信息相关联的其他信息确定为目标信息;从一个或多个应用分别对应的目标数据模型中获取与所述目标信息匹配的搜索结果。
37.可选的,所述数据搜索系统还包括:
38.信息获取模块,用于获取所述用户的终端设备信息,和/或所述用户的用户画像信息;
39.所述搜索结果获取模块,具体用于从一个或多个目标数据模型中获取与所述终端设备信息和/或所述用户画像信息,以及所述搜索信息匹配的搜索结果。
40.根据本技术的第五方面,提供了一种电子设备,包括:处理器,所述处理器用于执行存储于存储器的计算机程序,所述计算机程序被处理器执行时实现第一方面或第二方面所述的方法。
41.根据本技术的第六方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面或第二方面所述的方法。
42.根据本技术的第五方面,提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面所述的方法。
43.本技术实施例提供的技术方案与现有技术相比具有如下优点:
44.通过从多个维度对应用内的数据进行采集,构建应用内多个维度的数据模型。根据多个维度的数据模型构建目标数据模型,达到数据多样化的目的,解决了数据采集维度单一,无法满足用户多元化需求的问题。进而,在接收到用户输入的搜索信息后,可以从目标数据模型中获取与搜索信息匹配的多个维度的搜索结果,满足用户的复杂需求,提高搜索结果的多样性。
附图说明
45.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
46.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
47.图1示出了可以应用于本技术实施例的数据采集方法的示例性应用环境的系统架构的示意图;
48.图2为本技术实施例中数据采集方法的一种流程图;
49.图3为本技术实施例中建立目标数据模型的一种示意图;
50.图4为本技术实施例中数据搜索方法的一种流程图;
51.图5为本技术实施例中数据搜索方法的又一种流程图;
52.图6a为本技术实施例中数据采集系统的一种结构示意图;
53.图6b为本技术实施例中数据搜索系统的一种结构示意图;
54.图7为本技术实施例中电子设备的一种结构示意图。
具体实施方式
55.为了能够更清楚地理解本技术的上述目的、特征和优点,下面将对本技术的方案进行进一步描述。需要说明的是,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。
56.在下面的描述中阐述了很多具体细节以便于充分理解本技术,但本技术还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本技术的一部分实施例,而不是全部的实施例。
57.图1示出了可以应用于本技术实施例的数据采集方法的示例性应用环境的系统架构的示意图。
58.如图1所示,系统架构100可以包括第一应用对应的服务器101、第二应用对应的服务器102、第三应用对应的服务器103中的一个或多个,网络104和目标应用对应的服务器105。网络104用以在服务器101、服务器102、服务器103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
59.应该理解,图1中网络和服务器的数量仅仅是示意性的。根据实现需要,可以具有任意数量的网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
60.本技术实施例所提供的数据采集方法一般由单个应用对应的服务器执行,相应地,数据采集系统可以设置于单个应用对应的服务器中。举例而言,目标应用对应的服务器
105可以获取预先设置的多个维度信息;从目标应用中采集与多个维度信息分别对应的应用数据;根据单个维度信息对应的应用数据,建立与单个维度信息对应的数据模型;根据多个维度信息分别对应的数据模型生成应用对应的目标数据模型。同样地,第一应用、第二应用和第三应用分别对应的服务器,也可以生成对应的目标数据模型。通过建立目标数据模型,可以达到数据多样化的目的,满足用户多元化的需求。
61.以下首先对本技术实施例的数据采集方法进行详细介绍。
62.参见图2,图2为本技术实施例中数据采集方法的一种流程图,可以包括以下步骤:
63.步骤s210,针对单个应用,获取预先设置的多个维度信息。
64.本技术实施例中,每个应用的功能不同,对应的维度信息可能相同,也可能不同。维度信息可以是应用的维护人员对使用该应用的用户的搜索需求进行整体分析之后得到的信息,可以人工预先设置。例如,多个维度信息可以包括:热门信息、个性化信息、关键词信息等。
65.步骤s220,从应用中采集与多个维度信息分别对应的应用数据。
66.应用内的数据采集是指利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取,并按照一定规则和筛选标准进行数据归类,形成数据库文件的一个过程。抓取到的数据可以作为搜索系统的输入,可以为搜索系统提供底层数据,供搜索系统正常工作。
67.本技术实施例中,可以根据维度信息进行数据采集。例如,从热门信息的维度,可以采集热门数据,从个性化信息的维度可以采集个性化数据,从关键词信息的维度,可以采集精准搜索内容。
68.可选的,可以基于与单个维度信息对应的数据采集方式,从应用中采集与该维度信息对应的应用数据。也就是,可以通过不同的数据采集方式对应用内多个维度的数据进行采集。其中,数据采集方式包括:上下文采集和列表采集等。
69.例如,应用内会存在热门数据,不同应用内的热门数据有所不同,例如,新闻类应用的首页数据、视频类应用首页的热门视频等均为应用内的热门数据。可以采用列表采集的方式对热门数据进行采集。热门数据结构大多相同,列表采集的方式是针对结构化数据的一种采集方式,采集热门内容的结构化数据,并且能够智能地在采集过程中判断出采集数据的上下文数据,以便于对应数据模型的构建。
70.应用内的个性化数据主要是针对不同用户的各种行为信息进行个性化数据,用户的行为信息包含但不限于用户的浏览数据、点击数据等。个性化数据数据结构比较统一,也可以采用列表采集的方式进行数据采集。个性化数据的采集,可以为用户精准推荐提供数据支持,从而提升用户体验,也可以为对应数据模型的构建提供数据支撑。
71.可以理解的是,不同用户的喜好可能不同,针对不同的用户,应用内个性化推荐内容也可能会不同。例如,购物类应用针对用户a的近期浏览的足迹推荐手机数码类数据,针对用户b推荐应季服装类数据等。
72.精准搜索内容是指在应用内部通过搜索入口,使用某种条件进行筛选,或者针对上下文、关键词在应用内部的呈现结果。可以预先确定具体的上下文或者关键词,根据上下文或者关键词进行数据采集,关键词可以为应用的头部关键词等。每个应用内的精准搜索内容可以为该应用内跟关键词相关的数据,跟关键词的相关度越高,在构建对应数据模型时,精确度也越高。
73.步骤s230,根据单个维度信息对应的应用数据,建立与单个维度信息对应的数据模型。
74.在应用内进行多维度数据采集之后,可以在各个维度对采集到的数据构建数据模型,数据模型可以为采集到的数据的集合,也可以为对采集到的数据进行处理之后的数据的集合。可选的,可以根据单个维度信息对应的过滤条件,对单个维度信息对应的应用数据进行过滤处理,得到过滤数据,根据过滤数据,建立与单个维度信息对应的数据模型。也就是,先对采集到的数据进行过滤处理(例如去重、筛选、清洗等),在过滤之后再建立数据模型。通过去除重复的数据、质量较差的数据,可以减少数据量,提高采集数据的质量,进而提高数据模型的质量。
75.本技术实施例中,从不同维度采集的数据可以对应不同的过滤方式。例如,针对精准搜索内容可以进行去重处理,针对热门内容可以进行筛选处理等。其中,在对精准搜索内容进行去重处理时,可以对采集的数据进行相关性判断,如果采集到的数据的标题中不包含搜索的关键词,则认为数据质量较差,可以剔除。
76.步骤s240,根据多个维度信息分别对应的数据模型生成应用对应的目标数据模型。
77.在建立各个维度的数据模型之后,可以将各个维度的数据模型进行综合,以构建应用内完备的数据模型,即目标数据模型,达到对应用内数据有效使用的目的。
78.参见图3,图3为本技术实施例中建立目标数据模型的一种示意图,可以看出,分别从三个维度(热门数据、个性化数据和搜索数据)对应用内的数据进行采集,得到热门数据模型、个性化数据模型和搜索数据模型,并根据该三个数据模型,生成目标数据模型。目标数据模型中包含了多个维度的应用数据,可以满足用户的复杂需求。
79.本技术通过不同的采集方式对应用内多个维度的数据进行采集,构建应用内多个维度的数据模型,达到数据多样化的目的,解决了数据采集维度单一,无法满足用户多元化需求的问题。进而,在接收到用户输入的搜索信息后,可以从目标数据模型中获取与搜索信息匹配的多个维度的搜索结果,提高搜索结果的多样性。
80.参见图4,图4为本技术实施例中数据搜索方法的一种流程图,可以包括以下步骤:
81.步骤s410,接收用户输入的搜索信息。
82.支持搜索服务的应用可以为用户提供搜索框,用户可以在搜索框中输入搜索信息,以获取用户想要搜索的内容。搜索信息可以为一个或多个关键词,也可以为一个短句等等。
83.步骤s420,从一个或多个应用分别对应的目标数据模型中获取与搜索信息匹配的搜索结果,其中,单个应用对应的目标数据模型基于上述数据采集方法生成。
84.应用内的数据资源复杂、多元化,具有不同维度、不同用途的数据,以满足应用的功能正常使用。例如,应用内存在热门数据、个性化数据等,热门数据和个性化数据即为两个不同维度、不同用途的数据。因此,针对每个应用,可以根据应用内的数据资源,构建该应用对应的目标数据模型,目标数据模型中包括应用内多个不同维度的数据。
85.这样,在每个应用对应的目标数据模型中,均可以从多个维度获取与搜索信息匹配的搜索结果,从而可以应对用户多变的数据需求,提升用户体验。从多个应用分别对应的目标数据模型中获取与搜索信息匹配的搜索结果,即跨应用获取搜索结果,可以进一步提
高搜索结果的多样性。
86.可选的,将搜索信息以及与搜索信息相关联的其他信息确定为目标信息,从一个或多个应用分别对应的目标数据模型中获取与目标信息匹配的搜索结果。
87.本技术实施例的数据搜索方法,在接收到用户输入的搜索信息后,可以从一个或多个应用分别对应的目标数据模型中获取与搜索信息匹配的搜索结果。每个应用均对应有目标数据模型,本技术可以跨应用获取搜索结果,从而为用户提供更多的搜索结果。并且,由于每个应用对应的数据模型是应用内的多个维度的数据,因此可以从多个维度为用户匹配更多的搜索结果,可以提高搜索结果的多样性。
88.参见图5,图5为本技术实施例中数据搜索方法的又一种流程图,可以包括以下步骤:
89.步骤s510,接收用户输入的搜索信息。
90.步骤s520,获取用户的终端设备信息,和/或用户的用户画像信息。
91.随着设备的多元化发展,应用也逐渐能够在多种设备上使用,同一应用的数据信息在不同设备、不同场景的呈现形式可以不同。如果数据与设备不匹配,则数据的使用可能存在问题。例如,将应用在智能手机上呈现的数据采集之后,显示在智能眼镜上,可能无法给用户很好的使用体验,也会影响用户的正常生活。因此,可以获取用户的终端设备信息,以满足用户不同设备的多元化需求。
92.可选的,还可以从应用中获取用户的用户行为数据,根据用户行为数据,确定用户的用户画像信息。用户画像信息是每一个用户的在应用内的个性化信息,通过获取用户的个性化信息,可以对后续用户的个性化优化处理提供帮助。具体的,应用可以根据用户的注册信息、浏览足迹、感兴趣的内容等用户行为信息,对每一个用户进行画像,确定用户的性别、年龄段、个人喜好等用户画像信息,以达到能够对用户进行个性化处理的目的。
93.步骤s530,从一个或多个目标数据模型中获取与终端设备信息和/或用户画像信息,以及搜索信息匹配的搜索结果。其中,单个应用对应的目标数据模型包括从单个应用中采集到的、包含多个维度的应用数据。
94.在从一个或多个目标数据模型中获取与搜索信息匹配的搜索结果时,可以进一步参考终端设备信息和/或用户画像信息,使最终得到的搜索结果也与终端设备信息和/或用户画像信息匹配。
95.本技术实施例的搜索方法,通过对应用内不同维度的数据进行采集,可以解决数据维度单一,数据量不足的问题,满足搜索结果多样性。通过获取终端设备信息和/或用户画像信息,可以使最终的搜索结果更符合用户的需求,提高搜索结果的准确性。
96.相应于上述方法实施例,本技术实施例还提供了一种数据采集系统,参见图6a,该数据采集系统包括:
97.维度信息获取模块602,用于针对单个应用,获取预先设置的多个维度信息;
98.数据采集模块604,用于从应用中采集与多个维度信息分别对应的应用数据;
99.单个维度数据模型建立模块606,用于根据单个维度信息对应的应用数据,建立与单个维度信息对应的数据模型;
100.目标数据模型建立模块608,用于根据多个维度信息分别对应的数据模型生成应用对应的目标数据模型。
101.可选的,数据采集模块604,具体用于基于与单个维度信息对应的数据采集方式,从应用中采集与维度信息对应的应用数据;
102.其中,数据采集方式包括:上下文采集和列表采集。
103.可选的,单个维度数据模型建立模块606,具体用于根据单个维度信息对应的过滤条件,对单个维度信息对应的应用数据进行过滤处理,得到过滤数据;根据过滤数据,建立与单个维度信息对应的数据模型。
104.本技术实施例还提供了一种数据搜索系统,参见图6b,该数据搜索系统包括:
105.搜索信息接收模块610,用于接收用户输入的搜索信息;
106.搜索结果获取模块620,用于从一个或多个应用分别对应的目标数据模型中获取与搜索信息匹配的搜索结果,其中,单个应用对应的目标数据模型基于上述数据采集方法生成。
107.可选的,搜索结果获取模块620,具体用于将搜索信息以及与搜索信息相关联的其他信息确定为目标信息;从一个或多个应用分别对应的目标数据模型中获取与目标信息匹配的搜索结果。
108.可选的,数据搜索系统还包括:
109.信息获取模块,用于获取用户的终端设备信息,和/或用户的用户画像信息;
110.搜索结果获取模块620,具体用于从一个或多个目标数据模型中获取与终端设备信息和/或用户画像信息,以及搜索信息匹配的搜索结果。
111.上述系统中各模块或单元的具体细节已经在对应的方法中进行了详细的描述,因此此处不再赘述。
112.应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本技术的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
113.在本技术的示例性实施例中,还提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行本示例实施方式中上述数据采集方法或数据搜索方法。
114.图7为本技术实施例中电子设备的一种结构示意图。需要说明的是,图7示出的电子设备700仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
115.如图7所示,电子设备700包括中央处理单元(cpu)701,其可以根据存储在只读存储器(rom)702中的程序或者从存储部分708加载到随机访问存储器(ram)703中的程序而执行各种适当的动作和处理。在ram 703中,还存储有系统操作所需的各种程序和数据。中央处理单元701、rom 702以及ram 703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
116.以下部件连接至i/o接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如局域网(lan)卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至i/o接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从
其上读出的计算机程序根据需要被安装入存储部分708。
117.特别地,根据本技术的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本技术的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元701执行时,执行本技术的系统中限定的各种功能。
118.本技术实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述数据采集方法或数据搜索方法。
119.需要说明的是,本技术所示的计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器、只读存储器、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频等等,或者上述的任意合适的组合。
120.本技术实施例中,还提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述数据采集方法或数据搜索方法。
121.需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
122.以上所述仅是本技术的具体实施方式,使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1