数据处理方法及装置与流程

文档序号：32259757发布日期：2022-11-19 11:30阅读：60来源：国知局

1.本公开涉及数据处理中的智能搜索领域，尤其涉及一种数据处理方法及装置。

背景技术：

2.搜题应用程序可以根据用户输入的试题，检索试题对应的答案提供给用户。随着信息技术的不断发展，目前的答案可以是解题视频的形式，那么确定试题对应的解题视频就是非常重要的。
3.为了快速有效的获取试题对应的解题视频，需要提供一种有效的数据处理方法及装置。

技术实现要素：

4.本公开提供了一种数据处理方法及装置。
5.根据本公开的第一方面，提供了一种数据处理方法，包括：
6.根据试题搜索日志和试题获取日志，确定待处理试题的试题信息；
7.根据所述试题信息访问第一客户端的查询接口，得到所述试题信息对应的第一返回结果，其中，所述第一返回结果是经过加密处理的；
8.获取所述第一客户端的解密函数，并根据所述解密函数对所述第一返回结果进行解密处理，得到解密后的第二返回结果；
9.根据所述第二返回结果，得到所述待处理试题对应的解题视频。
10.根据本公开的第二方面，提供了一种数据处理装置，包括：
11.确定模块，用于根据试题搜索日志和试题获取日志，确定待处理试题的试题信息；
12.访问模块，用于根据所述试题信息访问第一客户端的查询接口，得到所述试题信息对应的第一返回结果，其中，所述第一返回结果是经过加密处理的；
13.获取模块，用于获取所述第一客户端的解密函数，并根据所述解密函数对所述第一返回结果进行解密处理，得到解密后的第二返回结果；
14.处理模块，用于根据所述第二返回结果，得到所述待处理试题对应的解题视频。根据本公开的第三方面，提供了一种电子设备，包括：
15.至少一个处理器；以及
16.与所述至少一个处理器通信连接的存储器；其中，
17.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的方法。
18.根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面所述的方法。
19.根据本公开的第五方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电
子设备执行第一方面所述的方法。
20.根据本公开的技术提升了获取解题视频的速度和效率。
21.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
22.附图用于更好地理解本方案，不构成对本公开的限定。其中：
23.图1为本公开实施例提供的数据处理方法的场景示意图；
24.图2为本公开实施例提供的数据处理方法的流程图；
25.图3为本公开实施例提供的数据处理方法的流程图二；
26.图4为本公开实施例提供的试题搜索日志的实现示意图；
27.图5为本公开实施例提供的试题获取日志的实现示意图；
28.图6为本公开实施例提供的确定第二返回结果的实现示意图；
29.图7为本公开实施例提供的确定匹配时段的实现示意图；
30.图8为本公开实施例提供的裁剪视频的实现示意图；
31.图9为本公开实施例提供的数据处理方法的流程示意图；
32.图10为本公开实施例的数据处理装置的结构示意图；
33.图11是用来实现本公开实施例的数据处理方法的电子设备的框图。
具体实施方式
34.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
35.为了更好的理解本公开的技术方案，下面对本公开所涉及的相关技术进行介绍。
36.随着信息技术的不断发展，在移动互联网时代，人们获取信息的方式包括图文形式、视频形式，尤其是短视频形式的信息获取方式所占的比重越来越大。
37.伴随着短视频形式的信息获取方式的不断发展，传统的线上教育也逐渐从文档课件的学习方式，转变为更高效的解题视频的方式。比如说当前市面上存在一些搜题应用程序，用户可以在搜题应用程序中输入试题信息，之后搜题应用程序响应于用户的输入，检索试题对应的答案返回给用户。
38.其中返回给用户的答案可以是图文形式的，还可以是视频形式的，比如说可以参照如下图1进行理解，图1为本公开实施例提供的数据处理方法的场景示意图。
39.在图1中示出了搜题英语程序的操作界面，如图1所示，用户可以在搜题应用程序的图形用户界面上输入需要搜索的试题信息，在输入试题信息的时候，比如说可以参照图1中的101所示，采用文字输入的方式。或者，还可以参照图1中的102所示，采用图像输入的方式，本实施例对搜题时输入试题信息的实现方式不做限制。
40.以及，搜题应用程序在获取到用户输入的试题信息之后，可以检索该试题所对应的解题信息，其中解题信息可以是图文形式的，或者解题信息还可以是图1中的103所示的
视频形式的。
41.针对视频形式的解题信息，可以理解的是，要实现根据用户输入的试题信息搜索到相应的解题视频，那么就需要预先构建解题视频资源库，在解题视频资源库中检索试题对应的解题视频，从而返回给用户。
42.现有技术中在构建解题视频资源库的实现过程中，通常都是依靠人工手动的录制、编辑以及上传视频，然而人工处理的实现方式会导致解题视频资源库的构建效率低下，无法快速扩充解题视频资源库的量级。
43.针对现有技术中的问题，本公开提出了一种快速构建以及扩充解题视频资源库的数据处理方法，下面对其技术构思进行介绍：目前的互联网上存在众多的解题视频，那么从互联网上进行资源抓取，就可以快速有效的扩充解题视频资源库。但是互联网上的很多资源都无法直接抓取，从而会导致从互联网上抓取解题视频存在一定的障碍，本公开中可以调用资源方的接口进行试题查询，并且获取资源方的加解密函数，从而就可以有效的从互联网上抓取到解题视频，以有效的进行解题视频资源库的扩充。
44.在上述介绍内容的基础上，下面结合具体的实施例对本公开提供的数据处理方法进行接收。以及还需要说明的是，本公开中各实施例的执行主体比如说可以是服务器、处理器、芯片等，或者还可以是可以运行搜题应用程序的终端设备，本实施例对具体的执行主体不做限制，其可以根据实际需求进行选择和设置，凡是可以进行数据处理的设备，均可以作为本公开中各实施例的执行主体。
45.下面首先结合图2对本公开提供的数据处理方法进行介绍，图2为本公开实施例提供的数据处理方法的流程图。
46.如图2所示，该方法包括：
47.s201、根据试题搜索日志和试题获取日志，确定待处理试题的试题信息。
48.在本实施例中，用户可以通过搜题应用程序搜索试题对应的解题视频，基于上述介绍可以确定的是，用户可以采用文本的方式进行搜索，或者还可以通过图片的形式进行搜索。
49.那么搜题应用程序就可以产生试题搜索日志，在试题搜索日志中可以记录有每个用户的搜索信息和搜索结果，其中搜索信息比如说可以是用户搜索的试题关键字，或者用户搜索的试题图片等等，以及搜索结果比如说可以是根据搜索信息所检索到的试题内容、试题标识等等，本实施例对试题搜索日志的具体实现方式不做限制，只要在试题搜索日志中可以包括用户搜索试题的情况即可。
50.以及，用户在试题的详情页想要查看试题对应的答案的时候，比如说需要在详情页进一步的获取操作。此处的进一步获取操作比如说是用户需要在详情页点击获取按钮，或者说用户需要在详情页进行缴费操作，或者说用户需要在详情页进行账号登录操作。本实施例对获取操作的具体实现方式不做限制，凡是为了获取题目答案的详细信息所进行的操作，均可以作为本实施例中的获取操作。
51.那么可以理解的是，搜题应用程序就还可以产生试题获取日志，在试题获取日志中可以记录有每个用户的获取信息和获取结果，其中获取信息比如说可以是用户的获取操作的详情，以及获取结果比如说可以是获取操作所对应的试题内容、试题标识等等，本实施例对试题获取日志的具体实现方式不做限制，只要在试题获取日志中可以包括用户获取试
题答案的情况即可。
52.基于上述介绍可以确定的是，搜题应用程序可以产生试题搜索日志和试题获取日志，其中试题搜索日志可以记录用户搜索试题的情况，以及试题获取日志可以记录用户获取试题答案的情况。那么本实施例中就可以获取该试题搜索日志和试题获取日志，并且根据试题搜索日志和试题获取日志来确定待处理试题，并且获取待处理试题的试题信息。
53.其中，待处理试题可以理解为需要获取相应的解题视频的试题。在实际实现过程中，待处理试题可以为一个或多个，本实施例对待处理试题的数量不做限制。
54.是以及试题信息比如说可以是待处理试题的试题文本，或者试题信息还可以是待处理试题的试题图片，或者试题信息还可以是待处理试题在当前系统中的试题标识，等等。本实施例对试题信息的具体实现方式不做限制，凡是可以指示待处理试题的信息，均可以作为本实施例中的试题信息。
55.在根据试题搜索日志和试题获取日志确定待处理试题的试题信息的时候，比如说可以根据试题搜索日志和试题获取日志，将查询的比较多的试题和/或获取答案比较多的试题确定为待处理试题，然后获取待处理试题的试题信息。
56.或者，还可以根据试题搜索日志和试题获取日志，确定各个试题的权重，之后将权重排序靠前的多个试题，确定为待处理试题，之后获取待处理试题的试题信息。
57.本实施例中根据试题搜索日志和试题获取日志来确定待处理试题的试题信息，就可以有效的保证针对用户存在需求的试题，优先的确定解题视频，进而可以有效的提升构建解题数据资料库的应用效果。
58.s202、根据试题信息访问第一客户端的查询接口，得到试题信息对应的第一返回结果，其中，第一返回结果是经过加密处理的。
59.在获取到待处理试题的试题信息之后，因为本实施例中是需要从互联网中获取解题视频，则例如可以根据试题信息访问第一客户端的查询接口。
60.本实施例中的第一客户端为可以提供解题视频的客户端，比如说第一客户端可以理解为第三方的资源方，或者第一客户端还可以理解为其余的搜题应用程序，本实施例对第一客户端的具体实现不做限制，只要第一客户端可以提供解题视频即可。
61.在根据试题信息访问第一客户端的查询接口之后，第一客户端的查询接口比如说可以返回试题信息所对应的第一返回结果。但是目前的第一客户端所返回的第一返回结果都是经过加密处理的，其可以理解为一种数据处理策略。
62.s203、获取第一客户端的解密函数，并根据解密函数对第一返回结果进行解密处理，得到解密后的第二返回结果。
63.因为获取到的第一返回结果是经过加密处理的，不能直接使用，因此本实施例中还需要获取第一客户端的解密函数，之后根据解密函数对第一返回结果进行解密处理，就可以得到解密后的第二返回结果。
64.可以理解的是，第二返回结果实际上就是待处理试题所对应的返回结果，并且第二返回结果是没有经过加密处理，可以直接使用的。
65.s204、根据第二返回结果，得到试题信息对应的解题视频。
66.其中，第二返回结果是经过了解密处理可以直接使用的，但是第二返回结果并不一定直接是解题视频文件，因此本实施例中在获取到第二返回结果之后，可以进一步的对
第二返回结果进行处理，从而根据第二返回结果，得到试题信息所对应的解题视频。
67.在得到试题信息所对应的解题视频之后，例如可以将解体视频存储至数据库中。
68.本公开实施例提供的数据处理方法，包括：根据试题搜索日志和试题获取日志，确定待处理试题的试题信息。根据试题信息访问第一客户端的查询接口，得到试题信息对应的第一返回结果，其中，第一返回结果是经过加密处理的。获取第一客户端的解密函数，并根据解密函数对第一返回结果进行解密处理，得到解密后的第二返回结果。根据第二返回结果，得到待处理试题对应的解题视频。本实施例中根据试题搜索日志和试题获取日志确定需要获取解题视频的待处理试题，从而可以保证针对存在需求的试题优先确定解题视频。具体的，会根据待处理试题的试题信息访问第一客户端的查询结果，在得到经过加密处理的第一返回结果之后，再根据第一客户端的解密函数对第一返回结果进行解密处理，并根据得到第二返回结果得到待处理试题所对应的解题视频，从而可以快速有效的获取到试题所对应的解题视频，进而可以提升构建解题视频资料库的速度和效率。
69.为使读者更深刻地理解本公开的实现原理，现结合以下图3-图8对图2所示的实施例进行进一步细化。图3为本公开实施例提供的数据处理方法的流程图二，图4为本公开实施例提供的试题搜索日志的实现示意图，图5为本公开实施例提供的试题获取日志的实现示意图，图6为本公开实施例提供的确定第二返回结果的实现示意图，图7为本公开实施例提供的确定匹配时段的实现示意图，图8为本公开实施例提供的裁剪视频的实现示意图。
70.如图3所示，该方法包括：
71.s301、根据试题搜索日志中的文本搜索日志，确定文本搜索日志中所包括的至少一个第一试题的第一访问量。
72.基于上述介绍可以确定的是，用户在搜题应用程序中进行试题搜索的时候，可以通过文本进行搜索，或者还可以通过图片进行搜索，则在本实施例中，试题搜索日志中例如可以包括文本搜索日志和图片搜索日志。在确定待处理试题的时候，比如说可以针对这两部分日志分别进行处理。
73.在一种可能的实现方式中，比如说可以结合图4理解文本搜索日志，如图4所示，在试题搜索日志中可以包括用户标识、用户输入的搜索信息以及根据搜索信息所命中试题的试题标识。其中文本搜索日志中的搜索信息为文本类型的信息。
74.其中，在文本搜索日志中可以包括至少一个试题，本实施例中将文本搜索日志中所包括的试题称为第一试题。比如说在图4的示例中，在文本搜索日志中就包括试题1、试题2、试题3。
75.可以理解的是，用户每搜索一次试题，则相应试题的访问量就会加1，试题的访问量越高，就表示该试题被访问的次数也就越多，相应的也就表示该试题是用户需求量较大的试题。
76.则本实施例中可以根据文本搜索日志，确定文本搜索日志中所包括的的至少一个第一试题的第一访问量。
77.比如说在图4的示例中，文本搜索日志中所包括的第一试题包括试题1、试题2、试题3，在图4示意的情况中，试题1的第一访问量就是3，试题2的第一访问量就是2，试题3的第一访问量就是1。
78.s302、根据试题搜索日志中的图片搜索日志，确定图片搜索日志中所包括的至少
一个第二试题的第二访问量。
79.以及，试题搜索日志中还包括图片搜索日志，与上述介绍的类似，在图片搜索日志中比如说可以包括用户标识、用户输入的搜索信息以及根据搜索信息所命中的试题的试题标识。其中图片搜索日志中的搜索信息为图片类型的信息。
80.与上述介绍的类似，在图片搜索日志中可以包括至少一个第二试题，用户每搜索一次试题，相应试题的访问量就会加1，则试题的访问量越高。则本实施例中就可以根据图片搜索日志，确定图片搜索日志中所包括的至少一个第二试题的第二访问量。
81.在一种可能的实现方式中，文本搜索日志和图片搜索日志所对应的试题的访问量是分别计算的，也就是说针对文本搜索结果单独计算试题的访问量，以及针对图片搜索结果也单独计算试题的访问量。或者，文本搜索日志和图片搜索日志所对应的试题的访问量还可以是一起计算的，也就是说将文本搜索结果和图片搜索结果对应的访问量进行加和，从而确定每个试题的访问量。访问量的具体实现方式可以根据实际需求进行选择和设置，本实施例对此不做限制。
82.s303、根据试题获取日志，确定试题获取日志中所包括的至少一个第三试题。
83.以及本实施例中还存在试题获取日志，比如说可以结合图5理解试题获取日志，如图5所示，在试题获取日志中可以包括用户标识、用户进行的获取操作以及根据获取操作所获取的试题的试题标识。
84.其中，在试题获取日志中可以包括至少一个试题，本实施例中将试题获取日志中所包括的试题称为第三试题。比如说在图5的示例中，在文本搜索日志中就包括试题1、试题2。
85.可以理解的是，用户可以在搜题应用程序中进行试题的查询，也可以进行试题的获取，在用户进行试题获取的时候，用户才会真正的获取到试题的答案信息。那么在用户针对某些题目进行获取操作的时候，可以认为这些题目都是重要性比较高的题目，因此可以直接确定试题获取日志中所包括的至少一个第三试题。
86.s304、在至少一个第一试题中，获取第一访问量高于第一阈值的第一目标试题。
87.在确定了文本搜索日志中的至少一个试题的第一访问量之后，若针对访问量较高的试题优先确定解题视频，则可以有效的保证构建的解题视频资源库的即时应用性和有效性，方便解题视频资源库尽可能的满足用户需求。
88.则本实施例中可以获取第一访问量高于第一阈值的第一目标试题，比如说在图4所示的情况中，假设第一阈值是2，那么第一访问量高于第一阈值的第一目标试题就是试题1。
89.在实际实现过程中，针对第一访问量所设置的第一阈值，可以根据实际需求进行选择和设置，本实施例对此不做限制。
90.s305、在至少一个第二试题中，获取第二访问量高于第二阈值的第二目标试题。
91.在确定了图片搜索日志中的至少一个试题的第二访问量之后，与上述介绍的类似，可以获取第二访问量高于第二阈值的第二目标试题。
92.s306、将第一目标试题的试题内容、第二目标试题的试题内容以及第三试题的试题内容，确定为待处理试题的试题信息。
93.在本实施例中，第一目标试题和第二目标试题都是访问量比较高的试题，也就是
说用户访问比较多的试题，则可以将第一目标试题和第二目标试题确定为待处理试题。
94.以及第三试题是用户进行了获取操作的试题，其可以认为是用户的需求程度比较大的试题，则可以直接将第三试题确定为待处理试题。
95.在确定待处理试题之后，需要进一步的确定待处理试题的试题信息，在一种可能的实现方式中，在搜索应用程序对应的存储空间中，通常存的都是试题的试题内容，也就是说具体的题目内容，其比如说可以是文本形式的，或者还可以为图片形式的。比如说题目1的题目内容是“1+1＝？”，每个题目的题目内容可以根据实际需求进行选择和设置。
96.则例如可以将第一目标试题的试题内容、第二目标试题的试题内容以及第三试题的试题内容，确定为待处理试题的试题信息。
97.s307、根据试题信息，生成试题信息对应的查询图像。
98.在本实施例中，在确定试题信息之后，就可以根据试题信息访问第一客户端的查询接口了。
99.本实施例中的试题信息可以是文本形式的，也可以是图片形式的。可以理解的是，文本形式的试题信息在传输过程中，可能难以保证试题内容的完整性，比如说在试题内容中包括公式、特定格式的字符的时候，若直接根据文本形式的试题信息访问查询接口，则可能会出现格式错乱的情况。
100.因此本实施例中会根据试题信息，生成试题信息对应的查询图像，之后根据图像去访问查询结果，从而可以保证试题信息的完整性。
101.在一种可能的实现方式中，在试题信息是文本形式的时候，比如说可以生成文本形式的试题信息所对应的查询图像。比如说可以通过转换工具生成查询图像，其中转换工具比如说可以是wkhtmltoimage客户端，或者还可以为其余任意的可以将文本转换为图像的工具。或者，还可以通过转换程序生成查询图像，本实施例对将文本形式的试题信息处理为图片格式的查询图像的具体实现方式不做限制。
102.在另一种可能的实现方式中，在试题信息是图片形式的时候，可以直接将试题信息确定为查询图像。
103.s308、根据查询图像访问第一客户端的查询接口，得到查询接口返回的试题信息对应的第一返回结果。
104.比如说可以参照图6进行理解，在确定查询图像之后，就可以根据查询图像访问第一客户端的查询接口，在一种可能的实现方式中，第一客户端的查询接口比如说可以是图搜接口。
105.在根据查询图像访问第一客户端的查询结果之后，如图6所示，就可以得到查询接口所返回的试题信息对应的第一返回结果，其中第一返回结果是经过加密处理的。
106.s309、获取第一客户端的安装程序。
107.为了对第一返回结果进行解密处理，本实施例中需要获取第一客户端的解密函数。
108.在一种可能的实现方式中，比如说可以首先获取第一客户端的安装程序。
109.s310、对安装程序进行反编译处理，得到第一客户端的反编译文件。
110.s311、在反编译文件中获取解密函数。
111.在获取到第一客户端的安装程序之后，可以对安装程序进行反编译处理，从而得
到第一客户端的反编译文件，之后在反编译文件中获取第一应用程序的解密函数。
112.其中，对第一应用程序的安装程序进行反编译处理的时候，可以是基于相应的工具完成的。比如说可以通过monkeydev平台来进行反编译处理。
113.在一种可能的实现方式中，比如说可以将第一客户端的安装程序上传至该平台，之后在访问第一客户端的查询结果的过程中，同步的在该平台中进行反编译处理，也就是说第一客户端的数据处理和该平台上的反编译处理是一起进行的，则在该平台中就可以快速高效的定位到数据请求和返回数据加解密的程序部分，之后根据该程序部分就可以快速的获取到第一应用程序的解密函数。
114.或者，第一客户端的数据处理和该平台上的反编译处理还可以是独立进行的，比如说可以在第一客户端的数据处理完成之前、之后、过程中，都可以进行该反编译处理。其中反编译处理的执行时刻是灵活的，其可以根据实际需求进行选择和设置。
115.s312、根据解密函数对第一返回结果进行解密处理，得到解密后的第二返回结果。
116.其中，s312的实现方式与上述介绍的s203的实现方式类似，此处不再赘述。
117.比如说还可以参照图6进行理解，在确定解密函数之后，可以对加密过的第一返回结果进行解密处理，从而得到解密后的第二返回结果。
118.s313、对至少一个第一格式的视频文件分别进行文件解析，得到至少一个视频片段。
119.在一种可能的实现方式中，本实施例中的第二返回结果可以直接是完整的解题视频，则可以直接将第二返回结果确定为待处理试题对应的解题视频。
120.或者，本实施例中的第二返回结果还可能不是直接的视频，而是在第二返回结果中包括至少一个第一格式的视频文件。
121.第一格式比如说可以m3u8格式，其中m3u8格式编码是utf-8格式的m3u文件，m3u文件是记录了一个按索引排序的多个.ts视频片段的文件。也就是将一个完整视频，先拆分成多个.ts视频片段，然后把这些.ts视频片段以地址形式存放进.m3u8的文件里。
122.可以理解的是，本实施例中的待处理试题可以为一个或多个，在处理过程中，实际上是针对每一个待处理试题分别进行处理，从而针对每一个待处理试题分别确定了对应的第二返回结果。
123.在一种可能的实现方式中，比如说可以将各个待处理试题各自对应的第二返回结果写入到消息队列中，之后依次从消息队列中获取第二返回结果，然后依次进行处理。其中，针对各个待处理试题以及各个第二返回结果的处理是类似的，因此本实施例只针对某个第二返回结果的处理进行介绍。
124.基于上述介绍可以确定的是，在第一格式的视频文件中实际上包括了很多的视频片段，在可以对第一格式的视频文件首先进行文件解析，从而得到至少一个视频片段。
125.其中在针对视频文件进行文件解析的时候，比如说可以采用解析工具来实现，解析工具比如说可以是ffmpeg，或者还可以为其余任意可能的实现，本实施例对解析工具的具体实现不做限制。
126.s314、对至少一个的视频片段进行合并，得到初始视频。
127.在确定至少一个视频片段之后，对至少一个视频片段依次进行合并，就得到了解题视频，但是此时的解题视频只能称为初始视频，因为目前的视频还存在诸多质量不合格
的地方。
128.s315、对初始视频进行视频处理，得到试题信息对应的解题视频，视频处理包括如下中的至少一种：去水印处理、裁剪处理、视频质量调整处理、码率调整处理。
129.在确定初始视频之后，为了提升和保证资源库中解题视频的质量，本实施例中还可以对初始视频进行视频处理，从而得到试题信息对应的解题视频。
130.其中，视频处理包括如下中的至少一种：去水印处理、裁剪处理、视频质量调整处理、码率调整处理。在实际实现过程中，视频处理还可以根据实际需求进行扩展，凡是为了提升视频质量而对视频进行的处理，都可以理解为本实施例中的视频处理。
131.下面对上述介绍的各项视频处理的实现分别进行介绍。
132.其中去水印处理包括：
133.获取初始视频的第一帧图像，并在第一帧图像中识别图像水印，并确定图像水印在第一帧图像中的水印位置；
134.根据水印位置，对初始视频中的各个图像帧依次进行去水印处理。
135.具体的，视频中的水印位置通常是固定的，因此可以获取初始视频的第一帧图像，并且在第一帧图像中识别图像水印，其中识别图像水印，比如说可以通过ocr(optical character recognition,光学字符识别)水印识别服务完成，或者还可以通过相应的图像处理方式完成，本实施例对此不做限制。
136.在确定第一帧图像中的图像水印之后，可以进一步的确定图像水印在第一帧图像中的水印位置。
137.实际上根据第一帧图像确定的水印位置，就是整个视频的水印位置，因此可以根据水印位置，对初始视频中的各个图像帧依次进行去水印处理。比如说可以通过ffmpeg中的delogo(去水印)命令来实现水印去除，或者还可以通过任意的图像处理方式。
138.其中裁剪处理包括：
139.获取初始视频中第一时段对应的第一音频，其中，第一时段为初始视频的开始时刻之后的第一预设时长内的时段，和/或，第一时段为视频的结束时刻之前的第二预设时长内的时段；
140.对第一音频进行语音识别，得到第一音频对应的第一文本；
141.将第一文本和预设文本进行匹配处理，确定第一文本中和预设文本相匹配的文本片段；
142.确定文本片段在初始视频中所对应的匹配时段；
143.在初始视频中，将匹配时段对应的视频片段删除。其中，
144.在本实施例中，裁剪处理主要是为了对视频中的口播内容进行删除，以及解题视频的口播内容通常都存在于视频的开始时段或者结束时段。
145.则本实施例中可以获取初始视频中的第一时段对应的第一音频。其中，第一时段为初始视频的开始时刻之后的第一预设时长内的时段，和/或，第一时段为视频的结束时刻之前的第二预设时长内的时段。
146.比如说可以结合图7对第一时段进行理解，图7中的t1指示的就是初始视频的开始时刻，以及t4指示的就是初始视频的结束时刻。以及，第一预设时长比如说可以是图7中的s1所示的时长，那么第一时段比如说可以是图7中的t1～t2所示的时段。以及，第二预设时
长比如说可以是图7中的s2所示的时长，那么第一时段比如说可以是图7中的t3～t4所示的时段。
147.其中第一预设时长和第二预设时长的具体设置，可以根据实际需求进行选择，本实施例对此不做限制。
148.以及可以理解的是，因为当前是为了针对口播内容进行裁剪，那么只要对视频的音频进行识别，就可以确定该片段是否为口播内容了，因此本实施例中可以获取第一时段对应的第一音频。
149.在获取第一音频之后，可以对第一音频进行语音识别，以得到第一音频对应的第一文本。
150.本实施例中比如说可以针对口播内容设置有预设文本，则可以将第一音频对应的第一文本和预设文本进行匹配，之后确定第一文本中和预设文本相匹配的文本片段。
151.比如说可以结合图8进行理解，如图8所示，假设当前初始视频的时长为60秒，其中第一时段为初始视频的前15秒和后15秒，针对第一时段的第一音频进行语音识别，得到第一文本，之后将第一文本和预设文本进行匹配处理，比如说确定了匹配的文本片段是图8中所示的“您好，我是xxx，请访问
…”
。
152.在确定匹配的文本片段之后，实际上就是确定了口播内容，因为本实施例中需要将口播内容裁剪掉，因此本实施例中需要进一步的确定文本片段在初始视频中所对应的匹配时段。
153.比如说参照图8进行理解，假设图8中所示的匹配的文本片段您好，我是xxx，请访问
…”
在初始视频中对应的时段为1～5秒，则可以将初始视频中的1～5秒确定为匹配时段。
154.此处的匹配时段实际上就是口播内容所在的时段，则之后可以在初始视频中将匹配时段所对应的视频片段删除，从而得到裁剪后的初始视频。
155.比如说参照图8，图8中所示的匹配时段是1～5秒，则之后可以将初始视频中1～5秒的内容删除，从而得到裁剪后的初始视频。
156.以及，视频质量调整处理包括：
157.获取所述第一客户端对应的预设视频参数；
158.将所述初始视频的视频参数调整为所述预设视频参数。
159.其中，视频参数比如说可以包括视频的曝光度、色调、饱和度、亮度，等等，视频参数的具体实现还可以根据实际需求进行选择和设置。
160.在一种可能的实现方式中，对初始视频的曝光度进行调整，是为了对视频进行暗影水印的去除。在实际实现过程中，为了实现对暗影水印的去除，针对每一个客户端可以设置有不同的预设视频参数，以保证将视频的视频参数调整之后，恰好可以实现暗影水印的去除。
161.因此本实施例中可以获取第一客户端对应的预设视频参数，之后将初始视频的视频参数调整为预设视频参数。
162.以及，编码信息调整处理包括：
163.将初始视频的视频编码调整为预设编码，以及将初始视频的码率调整为预设码率。
164.比如说可以将初始视频调整为264编码，以及将初始视频的码率调整为20。在实际
实现过程中，预设编码和预设码率的具体实现可以根据实际需求进行选择和设置，本实施例对此不做限制。
165.其中，对视频编码和码率的调整，可以在保证视频清晰度的前提下，降低视频大小，以便于后续在数据库中存储更多的解题视频。
166.基于上述介绍可以理解的是，本实施例中针对初始视频进行的一系列视频处理，可以有效的提升视频质量，以及便于解题视频的处理。
167.在实际实现过程中，视频处理的实现不限于上述介绍的内容，其还可以根据实际需求进行选择和设置，比如说可以将视频头信息调整到文件头部，从而提高浏览器的视频播放速度。视频处理的具体实现可以根据实际需求进行选择和扩展。
168.s316、根据描述信息，在数据库中确定和描述信息相匹配的目标试题。
169.s317、将解题视频存储至数据库中，并建立解题视频和目标试题的关联关系。
170.在本实施例中，在第二返回结果中还包括视频文件对应的描述信息，其中，描述信息比如说可以是与视频文件关联的试题信息，或者还比如说可以是用于描述视频文件中的视频内容的信息，本实施例对描述信息的具体实现不做限制。
171.在根据视频文件得到解题视频之后，本实施例中需要将解题视频存储在数据库中，以便于后续供搜索引擎进行查找。并且，在存储解题视频的时候，需要将解题视频和数据库中的试题关联起来，以保证是针对数据库中的试题确定的解题视频。
172.可以理解的是，上述在确定解题视频的时候，是根据试题搜索日志和试题获取日志确定了待处理试题的试题信息，之后根据试题信息，确定了待处理试题对应的解题视频。
173.在一种可能的实现方式中，可以直接将解题视频确定为待处理试题对应的视频，并存储在数据库中。
174.在另一种可能的实现方式中，为了保证解题视频对应的试题一定是在数据库中存在的，还可以进一步的根据描述信息，在数据库中确定和描述信息相匹配的目标试题，之后将解题视频存储至数据库中，并建立解题视频和目标试题的关联关系。从而可以实现将数据库中匹配度较高的试题都挂载上解题视频，之后可以将关联的题目和解题视频推送到搜索引擎进行分发。
175.本公开实施例提供的数据处理方法：通过文本搜索日志和图片搜索日志中各个试题的访问量，之后将访问量大于预设阈值的试题确定为待处理试题，以及将试题获取日志中所包括的日志确定为待处理试题，之后针对待处理试题确定对应的解题视频，从而可以保证针对用户需求比较大或者比较重要的试题，优先的确定解题视频，进而可以保证解题视频资源库的扩充及时性和有效性，以保证在资源有限的情况下，搜题应用程序可以尽可能的满足用户需求。以及，在获取到待处理试题的试题信息之后，可以采用试题信息访问第一客户端的查询接口，并且根据第一客户端对应的解题密码对第一返回结果进行解题处理，从而可以在第一客户端存在阻碍的情况下，也有效的实现从第一客户端中获取到解题视频的视频文件。以及在获取到视频文件之后，会首先进行视频片段的拼接，以得到完整的初级视频。之后再针对初级视频进行一系列的视频处理，从而可以有效的保证视频质量和视频可存储的数量。然后将得到的解题视频存储在数据库中，并且和数据库中的目标试题相关联，其中目标试题就是和视频文件的描述信息相匹配的信息，因此可以有效的实现针对数据库中的试题搭载相应的解题文件，从而快速有效的完成解题视频资源库的搭建。
176.在上述介绍内容的基础上，下面结合图9对本公开提供的数据处理方法进行一个完整的介绍。图9为本公开实施例提供的数据处理方法的流程示意图。
177.如图9所示，可以根据文本搜索日志、图片搜索日志和试题获取日志，确定线索池，在线索池中就包括待处理试题的试题信息，之后根据试题信息生成对应的查询图像，访问第一客户端的查询接口。
178.之后，根据第一客户端的查询接口可以获取第一返回数据，第一返回数据是经过加密处理的，然后采用解密函数进行解密处理，得到第二返回数据。
179.在一种可能的实现方式中，在访问第一客户端的查询接口的时候，是根据用户账号进行访问的，然后第一客户端对每个用户账号可能都设置有访问次数的限制。因此本实施例中比如说还可以维护一个用户池，在用户池中可以包括多个用户账号。每当一个用户账号的请求次数达到上限的时候，可以在用户池中重新获取一个用户账号进行访问，从而保证针对查询接口的访问可以顺利进行。
180.继续参照图9进行理解，在解密处理之后可以得到第二返回数据，在第二返回数据中可以包括至少一个视频文件，本实施例中可以根据视频文件首先得到初始视频，然后对初始视频进行一系列视频处理，以得到解题视频。
181.以及在第二返回数据中还包括视频文件对应的描述信息，如图9所示，本实施例中可以根据描述信息在数据库中确定匹配的目标试题，之后对解题视频进行存储，并且建立目标试题和解题视频之间的关联关系。
182.在一种可能的实现方式中，上述介绍的解题视频生产服务比如说可以部署在服务器集群中，例如可以配合定时任务交办以完成解题视频的自动化抓取，同时又可以基于集群自动扩容、缩容的能力，灵活的调控视频抓起的速度。
183.本公开实施例工的数据处理方法，可以有效的提升构建解题视频资源库的速度和效率。同时可以保证解题视频资源库中所存储的解题视频的质量。
184.图10为本公开实施例的数据处理装置的结构示意图。如图8所示，本实施例的数据处理装置1000可以包括：确定模块1001、访问模块1002、获取模块1003、处理模块1004。
185.确定模块1001，用于根据试题搜索日志和试题获取日志，确定待处理试题的试题信息；
186.访问模块1002，用于根据所述试题信息访问第一客户端的查询接口，得到所述试题信息对应的第一返回结果，其中，所述第一返回结果是经过加密处理的；
187.获取模块1003，用于获取所述第一客户端的解密函数，并根据所述解密函数对所述第一返回结果进行解密处理，得到解密后的第二返回结果；
188.处理模块1004，用于根据所述第二返回结果，得到所述待处理试题对应的解题视频。
189.在一种可能的实现方式中，所述确定模块1001具体用于：
190.根据所述试题搜索日志中的文本搜索日志，确定所述文本搜索日志中所包括的至少一个第一试题的第一访问量；
191.根据所述试题搜索日志中的图片搜索日志，确定所述图片搜索日志中所包括的至少一个第二试题的第二访问量；
192.根据所述试题获取日志，确定所述试题获取日志中所包括的至少一个第三试题；
193.根据所述第一访问量、所述第二访问量、所述第三试题，确定至少一个待处理试题的试题信息。
194.在一种可能的实现方式中，所述确定模块1001具体用于：
195.在所述至少一个第一试题中，获取所述第一访问量高于第一阈值的第一目标试题；
196.在所述至少一个第二试题中，获取所述第二访问量高于第二阈值的第二目标试题；
197.将所述第一目标试题的试题内容、所述第二目标试题的试题内容以及所述第三试题的试题内容，确定为所述待处理试题的试题信息。
198.在一种可能的实现方式中，所述访问模块1002具体用于：
199.根据所述试题信息，生成所述试题信息对应的查询图像；
200.根据所述查询图像访问所述第一客户端的查询接口，得到所述查询接口返回的所述试题信息对应的第一返回结果。
201.在一种可能的实现方式中，所述获取模块1003具体用于：
202.获取所述第一客户端的安装程序；
203.对所述安装程序进行反编译处理，得到所述第一客户端的反编译文件；
204.在所述反编译文件中获取所述解密函数。
205.在一种可能的实现方式中，所述第二返回结果中包括第一格式的视频文件；
206.所述处理模块1004具体用于：
207.对所述第一格式的视频文件进行文件解析，得到至少一个视频片段；
208.对所述至少一个视频片段进行合并，得到初始视频；
209.对所述初始视频进行视频处理，得到所述待处理试题对应的解题视频，所述视频处理包括如下中的至少一种：去水印处理、裁剪处理、视频质量调整处理、编码信息调整处理。
210.在一种可能的实现方式中，所述处理模块1004具体用于：
211.获取所述初始视频的第一帧图像，并在所述第一帧图像中识别图像水印，并确定所述图像水印在所述第一帧图像中的水印位置；
212.根据所述水印位置，对所述初始视频中的各个图像帧依次进行去水印处理。
213.在一种可能的实现方式中，所述处理模块1004具体用于：
214.获取所述初始视频中第一时段对应的第一音频，其中，所述第一时段为所述初始视频的开始时刻之后的第一预设时长内的时段，和/或，所述第一时段为所述视频的结束时刻之前的第二预设时长内的时段；
215.对所述第一音频进行语音识别，得到所述第一音频对应的第一文本；
216.将所述第一文本和预设文本进行匹配处理，确定所述第一文本中和所述预设文本相匹配的文本片段；
217.确定所述文本片段在所述初始视频中所对应的匹配时段；
218.在所述初始视频中，将所述匹配时段对应的视频片段删除。
219.在一种可能的实现方式中，所述处理模块1004具体用于：
220.获取所述第一客户端对应的预设视频参数；
221.将所述初始视频的视频参数调整为所述预设视频参数。
222.在一种可能的实现方式中，所述第二返回结果中还包括所述视频文件对应的描述信息；
223.所述处理模块1004还用于：
224.在所述根据所述第二返回结果，得到所述待处理试题对应的解题视频之后，根据所述描述信息，在数据库中确定和所述描述信息相匹配的目标试题；
225.将所述解题视频存储至所述数据库中，并建立所述解题视频和所述目标试题的关联关系。
226.本公开提供一种数据处理方法及装置，应用于数据处理领域中的智能搜索领域，以达到提升获取解题视频的速度和效率的目的。
227.需要说明的是，本实施例中的人头模型并不是针对某一特定用户的人头模型，并不能反映出某一特定用户的个人信息。需要说明的是，本实施例中的二维人脸图像来自于公开数据集。
228.本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。
229.根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
230.根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
231.图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
232.如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(rom)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(ram)1103中的计算机程序，来执行各种适当的动作和处理。在ram 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、rom 1102以及ram 1103通过总线1104彼此相连。输入/输出(i/o)接口1105也连接至总线1104。
233.设备1100中的多个部件连接至i/o接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
234.计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、
以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如数据处理方法。例如，在一些实施例中，数据处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由rom 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到ram 1103并由计算单元1101执行时，可以执行上文描述的数据处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据处理方法。
235.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
236.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
237.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
238.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
239.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数
字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
240.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务("virtual private server"，或简称"vps")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。
241.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
242.上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：段高华
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。