互联网信息链式存储方法、装置、计算机设备及存储介质与流程

文档序号：17477769发布日期：2019-04-20 06:14阅读：133来源：国知局

本发明涉及计算机技术领域，尤其涉及一种互联网信息链式存储方法、装置、计算机设备及存储介质。

背景技术：

互联网中各网页上保存有海量的数据信息，且新增数据信息会逐渐更替网页中已保存的数据信息，造成网页中的数据信息发生更迭变化的情况，因而现有对互联网中的数据信息进行存储方法无法对互联网上已删除或已修改的数据信息进行获取，在司法实践中对互联网上所发布的相关数据信息进行取证存在极大的困难。因此，现有的数据信息存储方法无法获取已删除数据信息。

技术实现要素：

本发明实施例提供了一种互联网信息链式存储方法、装置、计算机设备及存储介质，旨在解决现有技术中数据信息存储方法无法获取已删除数据信息的问题。

第一方面，本发明实施例提供了一种互联网信息链式存储方法，其包括：

获取待监控网页的网址信息，根据待监控网页的网址信息对待监控网页中所发布的数据信息进行实时监控以获取新增数据信息；

对新增数据信息中的文件是否为文字文件进行判断；

若新增数据信息中的文件为非文字文件，通过预设信息识别模型将非文字文件转换为文字文件；

将新增数据信息中的文字文件和/或转换得到的文字文件保存至预设数据链表中。

第二方面，本发明实施例提供了一种互联网信息链式存储装置，其包括：

网页监控单元，用于获取待监控网页的网址信息，根据待监控网页的网址信息对待监控网页中所发布的数据信息进行实时监控以获取新增数据信息；

判断单元，用于对新增数据信息中的文件是否为文字文件进行判断；

信息转换单元，用于若新增数据信息中的文件为非文字文件，通过预设信息识别模型将非文字文件转换为文字文件；

信息存储单元，用于将新增数据信息中的文字文件和/或转换得到的文字文件保存至预设数据链表中。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的互联网信息链式存储方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的互联网信息链式存储方法。

本发明实施例提供了一种互联网信息链式存储方法、装置、计算机设备及存储介质。通过对网页中所发布的数据信息进行监控并判断其中的文件是否为文字文件，将非文字文件的文件转换为文字文件，并对所有文字文件存储至数据链表中以实现对互联网信息进行链式存储，能够确保所存储的文字文件无法删除和修改，能够方便用户获取互联网上已删除的数据信息以协助用户对相关数据信息进行取证，具有极大的实用价值。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的互联网信息链式存储方法的流程示意图；

图2为本发明实施例提供的互联网信息链式存储方法的子流程示意图；

图3为本发明实施例提供的互联网信息链式存储方法的另一子流程示意图；

图4为本发明实施例提供的互联网信息链式存储方法的另一子流程示意图；

图5为本发明实施例提供的互联网信息链式存储方法的另一子流程示意图；

图6为本发明实施例提供的互联网信息链式存储装置的示意性框图；

图7为本发明实施例提供的互联网信息链式存储装置的子单元示意性框图；

图8为本发明实施例提供的互联网信息链式存储装置的另一子单元示意性框图；

图9为本发明实施例提供的互联网信息链式存储装置的另一子单元示意性框图；

图10为本发明实施例提供的互联网信息链式存储装置的另一子单元示意性框图；

图11为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1是本发明实施例提供的互联网信息链式存储方法的流程示意图。该互联网信息链式存储方法应用于具有信息存储功能的终端设备中，例如台式电脑、笔记本电脑、平板电脑或手机等。

如图1所示，该方法包括步骤s110～s140。

s110、获取待监控网页的网址信息，根据待监控网页的网址信息对待监控网页中所发布的数据信息进行实时监控以获取新增数据信息。

获取待监控网页的网址信息，根据待监控网页的网址信息对待监控网页中所发布的数据信息进行实时监控以获取新增数据信息。其中，待监控网页信息为用户所输入的待监控网页的网址信息，待监控网页可以是微博、微信、企业网址、政府网站等所有在互联网上所发布的数据信息，发布人可以是个人、企业、组织或政府部门，例如对某一名人在其微博中所发布的信息进行监控，则待监控网页信息即是该名人微博网页的网址信息。

待监控网页中所发布的数据信息中可包含多种格式的文件，例如文字格式的信息、视频格式的信息、音频格式、图片格式的信息等。由于待监控网页中所发布的数据信息为实时发布，因此需对待监控网页进行监控以实时获取该网页中所发布的最新的数据信息。在一实施例中，如图2所示，步骤s110包括子步骤s111、s112和s113。

s111、若监控到待监控网页中发布数据信息，根据待监控网页的网址信息及所述数据信息的发布人生成发布源信息。

若监控到待监控网页中发布数据信息，根据待监控网页的网址信息及所述数据信息的发布人生成发布源信息。为获取新增数据信息的发布人，需根据待监控网页的网址信息及所述数据信息的发布人生成相应的发布源信息。发布源信息中包括待监控网页的网址信息以及该数据信息的发布人，待监控网页的网址信息也即是用户所输入的待监控网页信息；发布人也即是发布该新增数据信息的发布主体，发布人可以是个人、企业、组织或政府部门。

s112、根据所述数据信息的发布时间生成发布时间戳。

根据所述数据信息的发布时间生成新增数据信息的发布时间戳，为对新增数据信息的发布时间进行记录，需根据数据信息的发布时间生成相应的发布时间戳，发布时间戳生成后无法被更改，也即是确保新增数据信息的发布时间被及时记录且无法更改。

例如，待监控网页为某一名人的微博网页，每一条微博信息的发布均包含一个发布时间，获取该微博信息的发布时间即为相应新增数据信息的发布时间戳。

s113、获取所述发布数据信息中的所有文件及发布源信息、发布时间戳以得到新增数据信息。

获取所述发布数据信息中的所有文件及发布源信息、发布时间戳以得到新增数据信息。获取所发布数据信息中的所有文件作为新增数据信息，并获取所得到的发布源信息及发布时间戳即可得到新增数据信息，新增数据信息中可包含一个或多个文件。

例如，待监控网页为某一名人的微博网页，该名人微博网页中发布了一段文字信息及一个视频信息，则获取所发布的文字信息及视频信息、发布源信息、发布时间戳得到包含一个文字文件及一个视频文件的新增数据信息。

s120、对新增数据信息中的文件是否为文字文件进行判断。

对新增数据信息中的文件是否为文字文件进行判断，为对新增数据信息中各种格式的文件进行保存，需先对新增数据信息中的文件是否为文字文件进行判断。具体的，通过获取新增数据信息中各文件的格式信息以判断该文件是否为文字文件。

获取新增数据信息中各文件的格式信息。每一个文件都拥有各自的格式信息，不同文件的格式信息与相应的类型相匹配，通过格式信息即可对文件的具体类型进行判断。根据各文件的格式信息对各文件是否为文字文件进行判断，通过各文件的格式信息即可对文件的具体类型进行判断。

例如，若某一文件的格式信息为txt、string，则该文件为文字文件；若某一文件的格式信息为wav、mp3、wma，则该文件为音频文件；若某一文件的格式信息为avi、flv、rmvb，则该文件为视频文件。

s130、若新增数据信息中的文件为非文字文件，通过信息识别模型将非文字文件转换为文字文件。

若新增数据信息中的文件为非文字文件，通过预设信息识别模型将非文字文件转换为文字文件。具体的，非文字文件也是文件中的一种，非文字文件包括音频文件、视频文件、图片。信息识别模型即是用于对非文字文件进行识别及转换的模型，其中，信息识别模型中包括音频识别模型及图片识别模型。

在一实施例中，如图3所示，步骤s130包括子步骤s131、s132和s133。

s131、获取所述非文字文件的格式信息并判断该文件是否为音频文件，若该文件为音频文件则通过信息识别模型中的音频识别模型对该文件进行识别以得到相应的文字文件。

获取文件的格式信息并判断该文件是否为音频文件，若该文件为音频文件则通过信息识别模型中的音频识别模型对该文件进行识别以得到相应的文字文件。通过音频识别模型即可对音频文件中的语音信息进行识别并转换，以得到相应的包含文字信息的文字文件，进行转换后每一个音频文件均对应得到一个文字文件。其中，音频识别模型包括声学模型、语音特征词典及语义解析模型。

在一实施例中，如图4所示，步骤s131包括子步骤s1311和s1312。

s1311、根据音频识别模型中的声学模型对音频文件中的语音信息进行切分以得到语音信息中所包含的多个音素。

根据音频识别模型中的声学模型对音频文件中的语音信息进行切分以得到语音信息中所包含的多个音素。具体的，语音信息由多个字符发音的音素而组成，一个字符的音素包括该字符发音的频率和音色。声学模型中包含所有字符发音的音素，通过将语音信息与声学模型中所有的音素进行匹配，即可对语音信息中单个字符的音素进行切分，通过切分最终得到该语音信息中所包含的多个音素。

s1312、根据音频识别模型中的语音特征词典对所得到的音素进行匹配以将所有音素转换为拼音信息。

根据音频识别模型中的语音特征词典对所得到的音素进行匹配，即可将所有音素转换为拼音信息。语音特征词典中包含所有字符拼音对应的音素信息，通过将所得到的音素与字符拼音对应的音素信息进行匹配，即可将单个字符的音素转换为语音特征词典中与该音素相匹配的字符拼音，以实现将语音信息中所包含的所有音素转换为拼音信息。

s1313、根据音频识别模型中的语义解析模型对所得到的拼音信息进行语义解析以得到包含文字信息的文字文件。

根据音频识别模型中的语义解析模型对所得到的拼音信息进行语义解析，以实现将拼音信息转换为对应的文字文件。语义解析模型中包含拼音信息与文字信息之间所对应的映射关系，通过语义解析模型中所包含的映射关系即可对所得到的拼音信息进行语义解析以将拼音信息转换为包含文字信息的文字文件。

s132、获取所述非文字文件的格式信息并判断该文件是否为图片，若该文件为图片则通过信息识别模型中图片识别模型的对该文件进行识别以得到相应的文字文件。

获取所述非文字文件的格式信息并判断该文件是否为图片，若该文件为图片则通过信息识别模型中图片识别模型的对该文件中所包含的文字进行识别以得到相应的文字文件。具体的，文字模板即是用于对图片中文字进行识别的模板信息，一个文字模板与图片中的一个文字相对应，一个文字模板包含相应文字所对应的多种字体，图片中的文字均能与对应文字模板中的某一种字体相匹配，通过图片识别模型中的文字模板与图片进行匹配，即可对该图片中所包含的文字进行识别以得到相应的文字文件。

s133、获取所述非文字文件的格式信息并判断该文件是否为视频文件，若该文件为视频文件则通过信息识别模型中的音频识别模型及图片识别模型对该文件进行识别以得到相应的文字文件。

获取所述非文字文件的格式信息并判断该文件是否为视频文件，若该文件为视频文件则通过信息识别模型中的音频识别模型及图片识别模型对该文件进行识别以得到相应的文字文件。若该文件为视频文件，则先获取该视频文件中的语音信息，并通过音频识别模型即可对该视频文件中的语音信息进行识别并转换以得到该语音信息对应的文字信息，具体的识别及转换方法与所述步骤s131相同；获取该视频文件中所包含的每一帧图片，并通过图片识别模型对该视频文件中所包含的每一帧图片进行识别，以得到每一帧图片中所包含的文字信息，具体的识别方法与所述步骤s132相同。获取视频文件的语音信息所对应的文字信息，及该视频文件中每一帧图片所包含的文字信息，即可最终得到该视频文件所对应的文字文件，也即是进行转换后每一个视频文件均对应得到一个文字文件。

此外，若非文字文件不是视频文件、音频文件及图片中的任一一种，信息识别模型无法对该文件进行处理，则生成报警提示信息以提示用户无法对该文件进行处理。

s140、将新增数据信息中的文字文件和/或转换得到的文字文件保存至预设数据链表中。

将新增数据信息中的文字文件和/或转换得到的文字文件保存至预设数据链表中以对新增数据信息进行保存。数据链表为终端设备中所预设的用于存储信息的数据库，具体的，数据链表为根据时间轴对新增数据信息中所包含的文字文件进行存储的数据库，数据链表中所存储的数据信息的逻辑顺序是通过数据链表中的指针链接次序实现的，在本实施例中以新增数据信息的发布时间戳作为数据链表的逻辑顺序，也即是通过时间信息为指针链接次序将新增数据信息中的文字文件存储至数据链表中。通过以时间顺序作为链表的逻辑顺序对新增数据信息进行存储，用户可通过数据链表获取到以时间信息为顺序的文字文件列表，数据链表所存储的信息具有无法删除的特性。

此外，由于将其他非文字文件转换为包含文字信息的文字文件进行存储，因此可极大地压缩对相应数据信息进行存储所需的存储空间，便于用户进行使用。

在一实施例中，如图5所示，步骤s140包括子步骤s141、s142和s143。

s141、获取待监控网页中新增数据信息的发布源信息及发布时间戳。

获取待监控网页中新增数据信息的发布源信息及发布时间戳。为方便对新增数据信息进行存储以后期对所存储的信息数据信息进行检索，需获取新增数据信息的发布源信息及发布时间戳，具体的，发布源信息中包括待监控网页的网址信息以及该数据信息的发布人。

s142、根据发布源信息将新增数据信息中所包含的文字文件和/或转换得到的文字文件进行分类。

根据发布源信息将新增数据信息中所包含的文字文件和/或转换得到的文字文件进行分类。具体的，为实现对新增数据信息进行分类存储，需根据发布源信息中的发布人对新增数据信息进行分类，其中，一个发布人对应一个类别，每一个类别与数据链表中的一个子链表相对应，相同发布人所发布的新增数据信息则分至该发布源信息对应的子链表中进行保存，通过发布源信息中的发布人，即可将新增数据信息中所包含的文字文件和/或转换得到的文字文件进行分类以对新增数据信息进行分类保存。

s143、根据发布时间戳将新增数据信息中所包含的文字文件和/或转换得到的文字文件保存至预设数据链表中与发布源信息对应的子链表。

根据发布时间戳将新增数据信息中所包含的文字文件和/或转换得到的文字文件保存至预设数据链表中相应的子链表中进行保存。一个发布人对应一个类别，每一个类别与数据链表中的一个子链表相对应，且由于数据链表中的数据信息均即是根据时间轴进行存储，因此需根据新增数据信息的发布时间戳将新增数据信息中所对应的文字文件存储至数据链表中与发布人类别相对应的子链表中，即可实现对新增数据信息进行保存。

由于数据链表所存储的文字文件无法删除和修改，因此可实现对待监控网页中所发布的历史数据信息进行保存，以方便后期进行对相应发布人所发布的历史数据信息进行取证。

通过对网页中所发布的数据信息进行监控并判断其中的文件是否为文字文件，将非文字文件的文件转换为文字文件，并对所有文字文件存储至数据链表中以实现对互联网信息进行链式存储，能够确保所存储的文字文件无法删除和修改，能够方便用户获取互联网上已删除的数据信息以协助用户对相关数据信息进行取证，具有极大的实用价值。

本发明实施例还提供一种互联网信息链式存储装置，该互联网信息链式存储装置用于执行前述互联网信息链式存储方法的任一实施例。具体地，请参阅图6，图6是本发明实施例提供的互联网信息链式存储装置的示意性框图。该互联网信息链式存储装置可以配置于台式电脑、笔记本电脑、平板电脑或手机等终端设备中。

如图6所示，互联网信息链式存储装置100包括网页监控单元110、判断单元120、信息转换单元130、信息存储单元140。

网页监控单元110，用于获取待监控网页的网址信息，根据待监控网页的网址信息对待监控网页中所发布的数据信息进行实时监控以获取新增数据信息。

待监控网页中所发布的数据信息中可包含多种格式的文件，例如文字格式的信息、视频格式的信息、音频格式、图片格式的信息等。由于待监控网页中所发布的数据信息为实时发布，因此需对待监控网页进行监控以实时获取该网页中所发布的最新的数据信息。

其他发明实施例中，如图7所示，所述网页监控单元110包括子单元：发布源信息生成单元111、发布时间戳生成单元112和新增数据信息获取单元113。

发布源信息生成单元111，用于若监控到待监控网页中发布数据信息，根据待监控网页的网址信息及所述数据信息的发布人生成发布源信息。

发布时间戳生成单元112，用于根据所述数据信息的发布时间生成发布时间戳。

新增数据信息获取单元113，用于获取所述发布数据信息中的所有文件及发布源信息、发布时间戳以得到新增数据信息。

判断单元120，用于对新增数据信息中的文件是否为文字文件进行判断。

信息转换单元130，用于若新增数据信息中的文件为非文字文件，通过预设信息识别模型将非文字文件转换为文字文件。

其他发明实施例中，如图8所示，所述信息转换单元130包括子单元：第一文字文件获取单元131、第二文字文件获取单元132和第三文字文件获取单元133。

第一文字文件获取单元131，用于获取所述非文字文件的格式信息并判断该文件是否为音频文件，若该文件为音频文件则通过信息识别模型中的音频识别模型对该文件进行识别以得到相应的文字文件。

其他发明实施例中，如图9所示，所述第一文字文件获取单元131包括子单元：音素切分单元1311、音素转换单元1312和语音解析单元1313。

音素切分单元1311，用于根据音频识别模型中的声学模型对音频文件中的语音信息进行切分以得到语音信息中所包含的多个音素。

音素转换单元1312，用于根据音频识别模型中的语音特征词典对所得到的音素进行匹配以将所有音素转换为拼音信息。

语音解析单元1313，用于根据音频识别模型中的语义解析模型对所得到的拼音信息进行语义解析以得到包含文字信息的文字文件。

第二文字文件获取单元132，用于获取所述非文字文件的格式信息并判断该文件是否为图片，若该文件为图片则通过信息识别模型中图片识别模型的对该文件进行识别以得到相应的文字文件。

第三文字文件获取单元133，用于获取所述非文字文件的格式信息并判断该文件是否为视频文件，若该文件为视频文件则通过信息识别模型中的音频识别模型及图片识别模型对该文件进行识别以得到相应的文字文件。

获取所述非文字文件的格式信息并判断该文件是否为视频文件，若该文件为视频文件则通过信息识别模型中的音频识别模型及图片识别模型对该文件进行识别以得到相应的文字文件。若该文件为视频文件，则先获取该视频文件中的语音信息，并通过音频识别模型即可对该视频文件中的语音信息进行识别并转换以得到该语音信息对应的文字信息，具体的识别及转换方法与所述第一文字文件获取单元131中所执行的方法相同；获取该视频文件中所包含的每一帧图片，并通过图片识别模型对该视频文件中所包含的每一帧图片进行识别，以得到每一帧图片中所包含的文字信息，具体的识别方法与所述第二文字文件获取单元132中所执行的方法相同。获取视频文件的语音信息所对应的文字信息，及该视频文件中每一帧图片所包含的文字信息，即可最终得到该视频文件所对应的文字文件，也即是进行转换后每一个视频文件均对应得到一个文字文件。

信息存储单元140，用于将新增数据信息中的文字文件和/或转换得到的文字文件保存至预设数据链表中。

其他发明实施例中，如图10所示，所述信息存储单元140包括子单元：信息获取单元141、文件分类单元142和文件存储单元143。

信息获取单元141，用于获取待监控网页中新增数据信息的发布源信息及发布时间戳。

文件分类单元142，用于根据发布源信息将新增数据信息中所包含的文字文件和/或转换得到的文字文件进行分类。

文件存储单元143，用于根据发布时间戳将新增数据信息中所包含的文字文件和/或转换得到的文字文件保存至预设数据链表中与发布源信息对应的子链表。

上述互联网信息链式存储装置可以实现为计算机程序的形式，该计算机程序可以在如图11所示的计算机设备上运行。

请参阅图11，图11是本发明实施例提供的计算机设备的示意性框图。

参阅图11，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行互联网信息链式存储方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行互联网信息链式存储方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图11中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下功能：获取待监控网页的网址信息，根据待监控网页的网址信息对待监控网页中所发布的数据信息进行实时监控以获取新增数据信息；对新增数据信息中的文件是否为文字文件进行判断；若新增数据信息中的文件为非文字文件，通过预设信息识别模型将非文字文件转换为文字文件；将新增数据信息中的文字文件和/或转换得到的文字文件保存至预设数据链表中。

在一实施例中，处理器502在执行获取待监控网页的网址信息，根据待监控网页的网址信息对待监控网页中所发布的数据信息进行实时监控以获取新增数据信息的步骤时，执行如下操作：若监控到待监控网页中发布数据信息，根据待监控网页的网址信息及所述数据信息的发布人生成发布源信息；根据所述数据信息的发布时间生成发布时间戳；获取所述发布数据信息中的所有文件及发布源信息、发布时间戳以得到新增数据信息。

在一实施例中，处理器502在执行若新增数据信息中的文件为非文字文件，通过预设信息识别模型将非文字文件转换为文字文件的步骤时，执行如下操作：获取所述非文字文件的格式信息并判断该文件是否为音频文件，若该文件为音频文件则通过信息识别模型中的音频识别模型对该文件进行识别以得到相应的文字文件；获取所述非文字文件的格式信息并判断该文件是否为图片，若该文件为图片则通过信息识别模型中图片识别模型的对该文件进行识别以得到相应的文字文件；获取所述非文字文件的格式信息并判断该文件是否为视频文件，若该文件为视频文件则通过信息识别模型中的音频识别模型及图片识别模型对该文件进行识别以得到相应的文字文件。

在一实施例中，处理器502在执行获取所述非文字文件的格式信息并判断该文件是否为音频文件，若该文件为音频文件则通过信息识别模型中的音频识别模型对该文件进行识别以得到相应的文字文件的步骤时，执行如下操作：根据音频识别模型中的声学模型对音频文件中的语音信息进行切分以得到语音信息中所包含的多个音素；根据音频识别模型中的语音特征词典对所得到的音素进行匹配以将所有音素转换为拼音信息；根据音频识别模型中的语义解析模型对所得到的拼音信息进行语义解析以得到包含文字信息的文字文件。

在一实施例中，处理器502在执行将新增数据信息中的文字文件和/或转换得到的文字文件保存至预设数据链表中的步骤时，执行如下操作：获取待监控网页中新增数据信息的发布源信息及发布时间戳；根据发布源信息将新增数据信息中所包含的文字文件和/或转换得到的文字文件进行分类；根据发布时间戳将新增数据信息中所包含的文字文件和/或转换得到的文字文件保存至预设数据链表中与发布源信息对应的子链表。

本领域技术人员可以理解，图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图11所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(centralprocessingunit，cpu)，该处理器502还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现以下步骤：获取待监控网页的网址信息，根据待监控网页的网址信息对待监控网页中所发布的数据信息进行实时监控以获取新增数据信息；对新增数据信息中的文件是否为文字文件进行判断；若新增数据信息中的文件为非文字文件，通过预设信息识别模型将非文字文件转换为文字文件；将新增数据信息中的文字文件和/或转换得到的文字文件保存至预设数据链表中。

在一实施例中，所述获取待监控网页的网址信息，根据待监控网页的网址信息对待监控网页中所发布的数据信息进行实时监控以获取新增数据信息的步骤，包括：若监控到待监控网页中发布数据信息，根据待监控网页的网址信息及所述数据信息的发布人生成发布源信息；根据所述数据信息的发布时间生成发布时间戳；获取所述发布数据信息中的所有文件及发布源信息、发布时间戳以得到新增数据信息。

在一实施例中，所述若新增数据信息中的文件为非文字文件，通过预设信息识别模型将非文字文件转换为文字文件的步骤，包括：获取所述非文字文件的格式信息并判断该文件是否为音频文件，若该文件为音频文件则通过信息识别模型中的音频识别模型对该文件进行识别以得到相应的文字文件；获取所述非文字文件的格式信息并判断该文件是否为图片，若该文件为图片则通过信息识别模型中图片识别模型的对该文件进行识别以得到相应的文字文件；获取所述非文字文件的格式信息并判断该文件是否为视频文件，若该文件为视频文件则通过信息识别模型中的音频识别模型及图片识别模型对该文件进行识别以得到相应的文字文件。

在一实施例中，所述获取所述非文字文件的格式信息并判断该文件是否为音频文件，若该文件为音频文件则通过信息识别模型中的音频识别模型对该文件进行识别以得到相应的文字文件的步骤，包括：根据音频识别模型中的声学模型对音频文件中的语音信息进行切分以得到语音信息中所包含的多个音素；根据音频识别模型中的语音特征词典对所得到的音素进行匹配以将所有音素转换为拼音信息；根据音频识别模型中的语义解析模型对所得到的拼音信息进行语义解析以得到包含文字信息的文字文件。

在一实施例中，所述将新增数据信息中的文字文件和/或转换得到的文字文件保存至预设数据链表中的步骤，包括：获取待监控网页中新增数据信息的发布源信息及发布时间戳；根据发布源信息将新增数据信息中所包含的文字文件和/或转换得到的文字文件进行分类；根据发布时间戳将新增数据信息中所包含的文字文件和/或转换得到的文字文件保存至预设数据链表中与发布源信息对应的子链表。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴壮伟
技术所有人：平安科技（深圳）有限公司
我是此专利的发明人

上一篇：一种平轨双头车床的制作方法
上一篇：重刹车工况下无极变速器的速比控制方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。