媒体信息的识别方法、装置和存储介质及电子设备与流程

文档序号：25586765发布日期：2021-06-22 17:02阅读：69来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及计算机领域，具体而言，涉及一种媒体信息的识别方法、装置和存储介质及电子设备。

背景技术：

在自媒体时代，每个人都可以成为内容的创作者，同时，应用平台也为每个创作者提供了媒体信息的发布平台。但媒体信息是否为应用平台所允许发布的信息类型，还需应用平台进行审核。

在相关技术中，针对已发布在应用平台上的媒体信息，应用平台往往是利用由用户提供的举报信息，对被举报的媒体信息进行详细的信息识别，以判断该媒体信息是否符合应用平台的发布要求。

但由于举报操作较为繁琐，影响了用户提供举报信息的积极性，并且还需应用平台额外审核举报信息的准确性，进而拉低了媒体信息的整体识别效率。因此，相关技术中存在媒体信息的识别效率较低的问题。

针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

本发明实施例提供了一种媒体信息的识别方法、装置和存储介质及电子设备，以至少解决媒体信息的识别效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种媒体信息的识别方法，包括：获取目标信息识别请求，其中，上述目标信息识别请求用于请求识别在目标应用平台中发布的待识别的目标媒体信息是否属于目标类型，上述目标类型为上述目标应用平台中被限制发布的媒体信息的类型；响应上述信息识别请求，获取对上述目标媒体信息进行评价的评论文本对应的评论特征；根据上述评论特征确定上述评论文本是否为目标评论文本，其中，上述目标评论文本中包括用于表示上述目标媒体信息属于上述目标类型的评论内容；根据上述目标评论文本识别上述目标媒体信息是否属于上述目标类型；在识别出上述目标媒体信息属于上述目标类型的情况下，提示限制在上述目标应用平台中展示上述目标媒体信息。

根据本发明实施例的另一方面，还提供了一种媒体信息的识别装置，包括：第一获取单元，用于获取目标信息识别请求，其中，上述目标信息识别请求用于请求识别在目标应用平台中发布的待识别的目标媒体信息是否属于目标类型，上述目标类型为上述目标应用平台中被限制发布的媒体信息的类型；响应单元，用于响应上述信息识别请求，获取对上述目标媒体信息进行评价的评论文本对应的评论特征；确定单元，用于根据上述评论特征确定上述评论文本是否为目标评论文本，其中，上述目标评论文本中包括用于表示上述目标媒体信息属于上述目标类型的评论内容；识别单元，用于根据上述目标评论文本识别上述目标媒体信息是否属于上述目标类型；提示单元，用于在识别出上述目标媒体信息属于上述目标类型的情况下，提示限制在上述目标应用平台中展示上述目标媒体信息。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述媒体信息的识别方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的媒体信息的识别方法。

在本发明实施例中，获取目标信息识别请求，其中，上述目标信息识别请求用于请求识别在目标应用平台中发布的待识别的目标媒体信息是否属于目标类型，上述目标类型为上述目标应用平台中被限制发布的媒体信息的类型；响应上述信息识别请求，获取对上述目标媒体信息进行评价的评论文本对应的评论特征；根据上述评论特征确定上述评论文本是否为目标评论文本，其中，上述目标评论文本中包括用于表示上述目标媒体信息属于上述目标类型的评论内容；根据上述目标评论文本识别上述目标媒体信息是否属于上述目标类型；在识别出上述目标媒体信息属于上述目标类型的情况下，提示限制在上述目标应用平台中展示上述目标媒体信息，利用待识别的目标媒体信息关联的目标评论文本所反馈出的参考信息，确定出该目标媒体信息是否为目标应用平台中被限制发布的媒体信息，进而达到了快速识别媒体信息的目的，从而实现了提高媒体信息的识别效率的技术效果，进而解决了媒体信息的识别效率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的媒体信息的识别方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的媒体信息的识别方法的流程的示意图；

图3是根据本发明实施例的一种可选的媒体信息的识别方法的示意图；

图4是根据本发明实施例的另一种可选的媒体信息的识别方法的示意图；

图5是根据本发明实施例的另一种可选的媒体信息的识别方法的示意图；

图6是根据本发明实施例的另一种可选的媒体信息的识别方法的示意图；

图7是根据本发明实施例的另一种可选的媒体信息的识别方法的示意图；

图8是根据本发明实施例的另一种可选的媒体信息的识别方法的示意图；

图9是根据本发明实施例的另一种可选的媒体信息的识别方法的示意图；

图10是根据本发明实施例的另一种可选的媒体信息的识别方法的示意图；

图11是根据本发明实施例的另一种可选的媒体信息的识别方法的示意图；

图12是根据本发明实施例的另一种可选的媒体信息的识别方法的示意图；

图13是根据本发明实施例的一种可选的媒体信息的识别装置的示意图；

图14是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，为方便理解本发明实施例，下面对本发明中所涉及的部分术语或名词进行解释说明：

洗稿：抄袭的一种类型，通过对原文进行一定的二次创作，包括修改、拼凑和删减等，并提取其核心观点形成一篇新文章。

ocr：ocr(opticalcharacterrecognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

tf-idf：tf-idf是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

语言模型：语言模型是一个单纯的、统一的、抽象的形式系统，语言客观事实经过语言模型的描述，比较适合于电子计算机进行自动处理，因而语言模型对于自然语言的信息处理具有重大的意义。

预训练模型：在特定文本数据和特定网络结构上训练的深度神经网络语言模型。

bert：bertbidirectionalencoderrepresentationsfromtransformers)是基于transformer的深度双向语言表征模型，是一种基于机器学习的自然语言处理中的预训练模型。

人工智能(artificialintelligence，简称ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(computervision，简称cv)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理(naturelanguageprocessing，简称nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(machinelearning，简称ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的机器学习、自然语言处理、计算机视觉等技术，具体通过如下实施例进行说明:

根据本发明实施例的一个方面，提供了一种媒体信息的识别方法，可选地，作为一种可选的实施方式，上述媒体信息的识别方法可以但不限于应用于如图1所示的环境中。其中，可以但不限于包括用户设备102、网络110及服务器112，其中，该用户设备102上可以但不限于包括显示器108、处理器106及存储器104。

具体过程可如下步骤：

步骤s102，用户设备102获取发布在目标应用平台1022上的目标媒体信息1024，以及目标媒体信息1024关联的目标评论文本1026，其中，目标评论文本1026可以但不限于为发表在目标媒体信息1024关联的评论区中的评论内容，且该评论内容包括目标关键字，例如关键字“抄袭”等；

步骤s104-s106，用户设备102通过网络110将目标媒体信息1024以及目标评论文本1026发送给服务器112；

步骤s108，服务器112通过处理引擎116根据目标评论文本1026对目标媒体信息1024进行处理，从而生成识别结果，其中，该识别结果可以但不限于指示目标媒体信息1024是否如目标评论文本1026指示的媒体信息，例如为目标评论文本1026指示的抄袭“小c”的媒体信息；

步骤s110-s112，服务器112通过网络110将识别结果发送给用户设备102，用户设备102中的处理器106将识别结果显示在显示器108中，并将识别结果存储在存储器104中。

除图1示出的示例之外，上述步骤可以由用户设备102独立完成，即由用户设备102执行识别结果的生成等步骤，从而减轻服务器的处理压力。该用户设备102包括但不限于手持设备(如手机)、笔记本电脑、台式电脑、车载设备等，本发明并不限制用户设备102的具体实现方式。

此外，上述步骤中的部分步骤也可以由服务器112独立完成，即由用户设备102执行目标评论文本1026的获取等步骤，利用服务器112高性能的处理方式，以提高媒体信息识别过程中的处理效率。

可选地，作为一种可选的实施方式，如图2所示，媒体信息的识别方法包括：

s202，获取目标信息识别请求，其中，目标信息识别请求用于请求识别在目标应用平台中发布的待识别的目标媒体信息是否属于目标类型，目标类型为目标应用平台中被限制发布的媒体信息的类型；

s204，响应信息识别请求，获取对目标媒体信息进行评价的评论文本对应的评论特征；

s206，根据评论特征确定评论文本是否为目标评论文本，其中，目标评论文本中包括用于表示目标媒体信息属于目标类型的评论内容；

s208，根据目标评论文本识别目标媒体信息是否属于目标类型；

s210，在识别出目标媒体信息属于目标类型的情况下，提示限制在目标应用平台中展示目标媒体信息。

可选地，在本实施例中，即使目标应用平台对目标类型的媒体信息的审核力度越来越大，但由于目标类型的媒体信息的发布者素质缺乏、目标类型的媒体信息的流量利益驱使等原因，使得该发布者的应对手段也是层出不穷；

进一步以目标类型为抄袭类型为例说明，洗稿作为发布抄袭类型的媒体信息的发布者(简称抄袭者)完成抄袭的一种侵权手段，通过对原文进行一定的二次创作，包括修改、拼凑和删减等，并提取其核心观点形成一份新的媒体信息，从而规避应用平台的抄袭审核。这种侵权行为的存在不仅会侵害稿件原作者的利益,还会进一步侵害平台利益和公众利益，但由于洗稿的特殊性，使得应用平台需要付出极大的人力、物力以及时间成本，才能保证对该侵权行为的审核准确性，但是这种方式费时费力，技术手段准确率较低，人工方式审核成本高。一方面是难以打击的抄袭内容，一方面是居高不下的抄袭投诉率，使得应用平台需要更有效的方式发现和打击上述抄袭现象。

可选地，在本实施例中，媒体信息的识别方法可以但不限于应用在上述媒体信息的抄袭场景中，具体的，例如获取用于请求识别已发布在目标应用平台上的目标媒体信息是否为抄袭媒体信息的信息识别请求，进而在目标媒体信息关联的全部评论文本中，获取到评论有目标媒体信息为抄袭信息的评论内容的情况下，将上述评论有目标媒体信息为抄袭信息的评论内容对应的评论文本确定为目标评论文本，并根据该目标评论文本进一步识别目标媒体信息是否为抄袭媒体信息，以保证目标应用平台的原创环境。

可选地，在本实施例中，信息识别请求的触发可以但不限于由目标应用平台的工作人员主动触发，也可以条件触发。进一步以条件触发为例说明，可选的例如在目标条件达成的情况下，触发信息识别请求，其中，目标条件包括以下至少之一：获取到包含目标类型对应的关键字的评论文本的文本数量达到目标阈值、获取到用于举报目标媒体信息属于目标类型的举报信息的信息数量达到举报阈值、目标媒体信息在目标应用平台的发布时长达到时长阈值、目标媒体信息在目标应用平台的发布热度达到热度阈值、目标媒体信息在目标应用平台的发布争议度达到争议阈值等，其中，发布争议度可以但不限用于表示目标媒体信息的评价两级分化，例如可以但不限用于表示用户对目标媒体信息的正面评价量与负面评价量之间的比值达到预设比值。

可选地，在本实施例中，目标媒体信息可以但不限于为以媒体方式进行传播的多类别信息，例如文字信息、图片信息、音频信息、视频信息等。

可选地，在本实施例中，目标类型为目标应用平台中被限制发布的媒体信息的类型，其中，目标类型可以但不限于包括以下至少之一：谣言类型、抄袭类型、违法类型、违禁类型、政治类型等。其中，目标类型还可以但不限于为与媒体信息发布标签不符的类型，例如在目标媒体信息发布时已标签为原创类型，那么该目标媒体信息的目标类型即为非原创类型(或抄袭类型)；再例如在目标媒体信息发布时已标签为正能量类型，那么该目标媒体信息的目标类型即为负能量类型；再例如在目标媒体信息发布时已标签为运动类型，那么该目标媒体信息的目标类型即为非运动类型等。

进一步以目标类型为非原创类型为例说明，可选地假设目标媒体信息为在目标应用平台中发布的媒体信息，但目标媒体信息不仅为在目标应用平台中发布的媒体信息，还为在其他应用平台发布的媒体信息，但发布的账号同属一个身份标识，那么可以但不限于视为该目标媒体信息不属于非原创类型，例如目标媒体信息在应用平台a中发布，同时目标媒体信息在应用平台b中发布，但发布者为同一身份标识的不同平台账号，进而识别该目标媒体信息不属于目标类型；

再例如，可选地假设目标媒体信息为在目标应用平台中发布的媒体信息，但目标媒体信息不仅为在目标应用平台中发布的媒体信息，还为在其他应用平台发布的媒体信息，且发布的账号不属一个身份标识，但目标媒体信息在目标应用平台中发布时分配的标签为非原创标签(或转载标签)，那么可以但不限于视为该目标媒体信息不属于非原创类型。

可选地，在本实施例中，评论文本可以但不限于单指一个文本信息，例如每获得一个文本信息，则执行一次上述媒体信息的识别方法，并在当前识别的文本信息为目标评论文本的情况下，进一步深度识别该目标媒体信息是否为目标类型；可选地，评论文本也可以但不限于泛指多个文本信息，假设评论文本用于平台用户对目标媒体信息进行评价的m个评论文本，则该评论文本可以但不限于由目标应用平台的平台账号发起，例如在平台账号浏览完目标媒体信息后，利用评论文本的方式，反馈对该目标媒体信息的观感体验，但由于评论文本的内容五花八门，进而需在全部关联的评论文本中确定出用于识别目标媒体信息是否属于目标类型的目标评论文本，以提高媒体信息的识别过程中的处理效率。

可选地，在本实施例中，目标评论文本可以但不限于为包含有目标类型关联的关键字的评论内容对应的评论文本，例如假设目标类型为违法类型，则在评论文本“这个文章违法了”中，包含有违法类型关联的关键字“违法”，进而可以但不限于将上述评论文本“这个文章违法了”确定为目标评论文本；再例如，假设目标类型为抄袭类型，则在评论文本“抄袭可耻”中，包含有抄袭类型关联的关键字“抄袭”，进而可以但不限于将上述评论文本“抄袭可耻”确定为目标评论文本。

可选地，在本实施例中，提示限制在目标应用平台中展示目标媒体信息可以但不限于包括以下至少之一：提示在目标应用平台中禁止展示目标媒体信息、提示并禁止目标应用平台中展示目标媒体信息、禁止目标应用平台中展示目标媒体信息，其中，禁止可以但不限于灵活设置，例如设置禁止在有限范围/时间/特定用户群体等条件下展示，且该禁止可以但不限于针对目标媒体信息，也可以但不限于针对发布该目标媒体信息的目标账号，在此不做限定。

可选地，在本实施例中，识别目标媒体信息是否属于目标类型的识别方式可以但不限于包括以下至少之一：人工审核、自动审核，其中，人工审核可以但不限于由目标应用平台的平台工作人员自行寻找用于判断目标媒体信息是否属于目标类型的判断依据，或根据目标评论问题指引或提供的判断依据，进一步结合自身的工作经验以确定该目标媒体信息是否属于目标类型；自动审核可以但不限于在目标应用平台的本地数据库或在线数据库中查找用于判断目标媒体信息是否属于目标类型的判断依据，或根据目标评论问题指引或提供的判断依据，进一步根据该判断依据确定该目标媒体信息是否属于目标类型。

需要说明的是，利用由用户提供的用于反馈目标媒体信息属于目标类型的目标评论文本，及提高了媒体信息的识别及时性，也节省了目标应用平台的平台工作人员大量的审核工作，此外，后续的信息识别过程中还可以直接利用目标评论文本提供的参考信息更快地识别出目标媒体信息是否属于目标类型。

进一步举例说明，可选的假设目标类型为抄袭类型，具体如图3所示，目标媒体信息304为已发布并展示在目标应用平台302上的媒体信息，且目标媒体信息304还关联有显示在评论区内的多条评论文本；进一步，在获取到用于请求识别目标媒体信息304是否为抄袭类型的信息识别请求的情况下，响应该信息识别请求，获取目标媒体信息304关联的全部评论文本，并在该全部评论文本中确定出包含有抄袭关键字的目标评论文本306；进一步，根据目标评论文本306对目标媒体信息304进行更深度的抄袭识别，例如获取目标评论文本306指引的发布者“小c”名下的全部媒体信息，并依次与目标媒体信息304进行信息比对，若比对结果指示发布者“小c”名下的全部媒体信息皆与目标媒体信息304差别较大，则确定目标媒体信息304不属于抄袭类型，并对发起目标评论文本306的“用户b”发送提示信息，以提示“用户b”的言论有误；反之，若比对结果指示发布者“小c”名下的某一或某多媒体信息与目标媒体信息304差别较小，则确定目标媒体信息304属于抄袭类型，并对发起目标评论文本306的“用户b”发送提示信息，以提示“用户b”的言论正确，以及从目标应用平台302中删除目标媒体信息304。

通过本申请提供的实施例，获取目标信息识别请求，其中，目标信息识别请求用于请求识别在目标应用平台中发布的待识别的目标媒体信息是否属于目标类型，目标类型为目标应用平台中被限制发布的媒体信息的类型；响应信息识别请求，获取对目标媒体信息进行评价的评论文本对应的评论特征；根据评论特征确定评论文本是否为目标评论文本，其中，目标评论文本中包括用于表示目标媒体信息属于目标类型的评论内容；根据目标评论文本识别目标媒体信息是否属于目标类型；在识别出目标媒体信息属于目标类型的情况下，提示限制在目标应用平台中展示目标媒体信息，利用待识别的目标媒体信息关联的目标评论文本所反馈出的参考信息，确定出该目标媒体信息是否为目标应用平台中被限制发布的媒体信息，进而达到了快速识别媒体信息的目的，从而实现了提高媒体信息的识别效率的技术效果。

作为一种可选的方案，根据目标评论文本识别目标媒体信息是否属于目标类型，包括：

s1，在从目标评论文本中提取出目标媒体信息的发布参考依据的情况下，获取发布参考依据对应的目标参考媒体信息，其中，发布参考依据用于描述目标媒体信息的候选发布信息；

s2，获取目标媒体信息与目标参考媒体信息之间的第一相似度；

s3，在第一相似度达到第一阈值的情况下，确定目标媒体信息属于目标类型。

可选地，在本实施例中，目标评论文本可以但不限于为包含有目标类型关联的关键字的评论文本。此外，目标评论文本可以但不限于为既包含有目标类型关联的关键字，还包含有目标媒体信息的发布参考依据的评论文本，其中，发布参考依据可以但不限于为用于表示目标媒体信息的候选发布信息的关键字，例如用于表示目标媒体信息的发布源的关键字。

可选地，在本实施例中，可以但不限于将目标评论文本分为两类，其一为包含有目标媒体信息的发布参考依据的第一目标评论文本，其二为未包含目标媒体信息的发布参考依据的第二目标评论文本，相比于第一目标评论文本，第二目标评论文本能为信息识别过程提供目标媒体信息的发布参考依据，可提高信息识别的整体效率。

需要说明的是，从目标评论文本中提取出目标媒体信息的发布参考依据，并获取发布参考依据对应的目标参考媒体信息；由于目标参考媒体信息与目标媒体信息为相同维度的信息，进而可通过比对目标参考媒体信息与目标媒体信息之间的信息相似度的方式，以确定目标媒体信息是否属于目标类型。

进一步举例说明，可选的基于图3所示场景，继续例如图4所示，在目标媒体信息304关联的评论区中显示有多条评论文本，进一步在上述多条评论文本中确定出目标评论文本402，其中，在目标评论文本402中可提取到用于描述目标媒体信息的发布信息“小c”，并将该发布信息“小c”作为发布参考依据404。具体的，可以但不限于将发布信息“小c”理解为“用户c”发起的评论文本用于描述目标媒体信息对应的媒体信息是由账号“小c”原创发布。由于“用户c”发起的评论文本所表示的发布信息是否正确，进而将发布信息“小c”作为目标媒体信息的候选发布信息之一，并将账号“小c”名下的媒体信息作为目标参考媒体信息，与目标媒体信息304进行信息比对，以确定“用户c”所描述的发布信息是否准确，若准确，可以但不限于表示目标媒体信息304属于目标类型。

通过本申请提供的实施例，在从目标评论文本中提取出目标媒体信息的发布参考依据的情况下，获取发布参考依据对应的目标参考媒体信息，其中，发布参考依据用于描述目标媒体信息的候选发布信息；获取目标媒体信息与目标参考媒体信息之间的第一相似度；在第一相似度达到第一阈值的情况下，确定目标媒体信息属于目标类型，达到了利用目标评论文本提供的发布参考依据，以快速确定目标媒体信息是否属于目标类型的目的，实现了提高媒体信息的识别效率的效果。

作为一种可选的方案，获取发布参考依据对应的目标参考媒体信息，包括以下至少之一：

s1，在发布参考依据包括候选发布账号的账号信息的情况下，根据账号信息获取由候选发布账号发布的目标参考媒体信息；

s2，在发布参考依据包括候选发布平台的平台信息的情况下，根据平台信息获取在候选发布平台上发布的目标参考媒体信息；

s3，在发布参考依据包括目标参考媒体信息的指引信息的情况下，根据指引信息获取目标参考媒体信息。

可选地，在本实施例中，候选发布账号可以但不限于表示目标参考媒体信息的发布账号；候选发布平台可以但不限于表示目标参考媒体信息的发布平台；指引信息可以但不限用于指引查询到目标参考媒体信息，例如指引信息可以但不限于为指引链接、目标参考媒体信息的部分信息(如信息名、信息类型)等。

需要说明的是，在发布参考依据包括候选发布账号的账号信息的情况下，根据账号信息获取由候选发布账号发布的目标参考媒体信息；在发布参考依据包括候选发布平台的平台信息的情况下，根据平台信息获取在候选发布平台上发布的目标参考媒体信息；在发布参考依据包括目标参考媒体信息的指引信息的情况下，根据指引信息获取目标参考媒体信息。

进一步举例说明，可选的例如图5所示，可以但不限于由以下至少之一的方式获取目标参考媒体信息：由“用户a”发起的评论文本“这明显抄袭大d”中的发布参考依据“大d”确定目标参考媒体信息502的候选发布账号；由“用户b”发起的评论文本“石锤抄袭，看这个链接“www.xxyy.con”中的发布参考依据“www.xxyy.con”确定目标参考媒体信息502的指引链接；由“用户c”发起的评论文本“这是抄袭吧，通关的aabb攻略和这个太像了也”中的发布参考依据“通关的aabb攻略”确定目标参考媒体信息502的指引信息名；由“用户d”发起的评论文本“好像在cc平台上看过类似的，抄袭吗？”中的发布参考依据“cc平台”确定目标参考媒体信息502的候选发布平台。

通过本申请提供的实施例，在发布参考依据包括候选发布账号的账号信息的情况下，根据账号信息获取由候选发布账号发布的目标参考媒体信息；在发布参考依据包括候选发布平台的平台信息的情况下，根据平台信息获取在候选发布平台上发布的目标参考媒体信息；在发布参考依据包括目标参考媒体信息的指引信息的情况下，根据指引信息获取目标参考媒体信息，达到了提高目标参考媒体信息的获取全面性的目的，实现了提高获取目标参考媒体信息的成功率的效果。

作为一种可选的方案，根据评论特征确定出目标评论文本，包括：

s1，将评论文本输入目标网络结构，其中，目标网络结构为利用多个样本评论数据进行训练后得到的用于识别文本的神经网络结构；

s2，获取目标网络结构输出的识别结果，其中，识别结果用于表示评论文本中的文本内容与目标类型关联的关键词之间的第二相似度；

s3，根据识别结果，当基于评论文本确定出的第二相似度达到第二阈值，则确定评论文本为目标评论文本。

需要说明的是，利用目标网络结构的高效性，将评论文本输入目标网络结构，从而获取目标网络结构输出的识别结果。进一步根据识别结果，确定该评论文本是否为目标评论文本。可选地，目标网络结构可以但不限于为bp(多层前馈)网络结果、bert网络结构、rbf(径向基函数)网络结构等，或目标网络结构还可以但不限于使用textcnn、lstm、tiny-bert、fast-bert等各种bert网络结构的变种。

进一步举例说明，将评论文本602输入目标网络结构604的输入层，并利用目标网络结构604的自注意力层来做特征映射，以获得对应的评论特征；最终目标网络结构604的输出层经过特征转换后输出识别结果606，进而获取目标评论文本(图中未示出)。

通过本申请提供的实施例，将评论文本输入目标网络结构，其中，目标网络结构为利用多个样本评论数据进行训练后得到的用于识别文本的神经网络结构；获取目标网络结构输出的识别结果，其中，识别结果用于表示评论文本中的文本内容与目标类型关联的关键词之间的第二相似度；根据识别结果，当基于评论文本确定出的第二相似度达到第二阈值，则确定评论文本为目标评论文本，达到了快速且准确地获取目标评论文本的目的，实现了提高目标评论文本的获取效率的效果。

作为一种可选的方案，在获取目标信息识别请求之前，包括：

s1，获取多个样本评论文本；

s2，对每个样本评论文本中与目标类型关联的关键词进行标记，得到标记后的多个样本评论文本；

s3，将标记后的多个样本评论文本输入初始目标网络结构，以训练得到目标网络结构。

可选地，在本实施例中，对每个样本评论文本中与目标类型关联的关键词进行标记，可以但不限于利用预先定义好的初始网络结构，使用特定(评论)任务的无标记的语料对模型进行训练，为了提升该初始网络结构在评论任务中的效果，使用评论语料对初始网络结构进行预训练，并建立评论文本的特殊词典；

可选地，可以但不限于利用特殊词典标注多个样本评论文本；还可以但不限于对评论文本进行分词后使用全词mask方式，增量初始网络结构，从而生成适用于评论任务的初始目标网络结构；在预训练的bert的基础上，还可以但不限于使用fine-tune(微调)的方法，完成特定的分类任务。

进一步以初始网络结构为bert模型的为例说明，如图7所示，和词向量(wordembedding)类似，预先定义好初始bert模型704的网络结构，使用特定任务的无标记的评论样本702对初始bert模型704进行训练，为了提升初始bert模型704在评论任务中的效果，使用海量的评论语料对初始bert模型704进行预训练，并建立评论的特殊词典，对评论进行分词后使用全词mask方式，增量训练初始bert模型704，生成适用于评论任务的bert预训练模型706。

需要说明的是，在得到标记后的多个样本评论文本之后，可以但不限于采用有监督的模型训练方式，对初始目标网络结构进行训练，从而获得训练好的目标网络结构。

进一步举例说明，可选的例如图8所示，利用获取到标记好的多个样本评论文本802，采用有监督的模型训练，建立具有二分类功能的初始目标网络结构804，用于判断输入的媒体信息是否属于目标类型。

通过本申请提供的实施例，获取多个样本评论文本；对每个样本评论文本中与目标类型关联的关键词进行标记，得到标记后的多个样本评论文本；将标记后的多个样本评论文本输入初始目标网络结构，以训练得到目标网络结构，达到了利用完整的网络结果以识别媒体信息的目的，实现了提高信息识别方案的完整度的效果。

作为一种可选的方案，还包括以下至少之一：

s1，获取第一信息识别请求，其中，第一信息识别请求用于请求根据评论文本识别目标媒体信息是否属于目标类型；

s2，获取第二信息识别请求，其中，第二信息识别请求用于请求根据在目标媒体信息中识别到的第一身份信息识别目标媒体信息是否属于目标类型。

可选地，在本实施例中，目标信息识别请求可以但不限于包括第一信息识别请求，第二信息识别请求可以但不限于在第一信息识别请求的触发前、响应过程中、响应后等阶段被触发，在此不做限定。

需要说明的是，第一信息识别请求与第二信息识别请求可以理解为两种信息识别方式，第一信息识别请求对应的信息识别方式为根据媒体信息关联的评论文本进行信息识别，第二信息识别请求对应的信息识别方式为根据媒体信息关联的身份信息进行信息识别，上述两种信息识别方式可以单独使用，也可以同时使用。

进一步举例说明，假设第一信息识别请求的触发条件为获取到目标媒体信息关联的评论文本，则先响应第一信息识别请求，以是否该评论文本是否为目标评论文本，若是，则进一步触发第二信息识别请求，并通过响应第二信息识别请求，以根据目标媒体信息的身份信息以识别该目标媒体信息是否属于目标类型。

通过本申请提供的实施例，获取第一信息识别请求，其中，第一信息识别请求用于请求根据评论文本识别目标媒体信息是否属于目标类型；获取第二信息识别请求，其中，第二信息识别请求用于请求根据在目标媒体信息中识别到的第一身份信息识别目标媒体信息是否属于目标类型，进而达到了全面识别媒体信息是否属于目标类型的技术目的，从而实现了提高媒体信息的识别全面性的技术效果。

作为一种可选的方案，获取第二信息识别请求，包括：

s1，获取信息发布请求，其中，信息发布请求用于请求在目标应用平台中发布目标媒体信息；

s2，响应信息发布请求，触发第二信息识别请求。

需要说明的是，将第二信息识别请求的触发条件设置为响应信息发布请求，如此可在目标媒体信息发布前对该目标媒体信息进行初步的信息识别，以保证发布在目标媒体平台的媒体信息的基本质量。

作为一种可选的方案，在获取第二信息识别请求之后，包括：

s1，获取第一身份信息，以及目标账号的第二身份信息，其中，目标账号为请求在目标应用平台中发布目标媒体信息的账号；

s2，获取第一身份信息与第二身份信息之间的第三相似度；

s3，在第三相似度小于第三阈值的情况下，提示限制在目标应用平台中展示目标媒体信息。

可选地，在本实施例中，目标媒体信息在目标应用平台中可以但不限于分为发布阶段和展示阶段，其中，发布阶段可以但不限用于表示目标账号请求将目标媒体信息发布在目标应用平台的阶段，展示阶段可以但不限用于表示目标媒体信息已发布在目标应用平台，并在目标应用平台中公开展示的阶段；

进一步以发布阶段为例说明，在获取到信息发布请求的情况下，可以但不限于视为目标媒体信息处于发布阶段，进而响应信息发布请求，对目标媒体信息进行第一信息识别；再以展示阶段为例说明，在获取到信息识别请求的情况下，可以但不限于视为目标媒体信息处于展示阶段，需响应信息识别请求，对目标媒体信息进行第二信息识别。

可选地，在本实施例中，第一身份信息可以但不限于为可表示媒体信息的发布身份的信息，例如发布来源(作者、平台等)、发布关联(感谢对象、指向对象等)。

通过本申请提供的实施例，获取第一身份信息，以及目标账号的第二身份信息，其中，目标账号为请求在目标应用平台中发布目标媒体信息的账号；获取第一身份信息与第二身份信息之间的第三相似度；在第三相似度小于第三阈值的情况下，提示限制在目标应用平台中展示目标媒体信息，达到了多次对媒体信息进行信息识别的目的，实现了提高媒体信息识别的准确性的效果。

作为一种可选的方案，获取第一身份信息，包括：

s1，获取目标媒体信息中的目标文本信息；

s2，在目标文本信息位于目标媒体信息中的目标区域内的情况下，将目标文本信息确定为第一身份信息，其中，目标区域用于显示目标媒体信息的来源身份标识。

可选地，在本实施例中，来源身份标识可以但不限用于表示目标媒体信息的来源身份，例如作者名、平台号等，进一步举例说明，如图9所示，第一身份信息902为目标媒体信息904右下角显示的水印“@橘子推书”，该水印“@橘子推书”即表示目标媒体信息904的候选发布信息包括发布身份“@橘子推书”，也表示第一身份信息902为“@橘子推书”；在此基础上，获取发布目标媒体信息904的目标账号的账号信息(第二身份信息)，如该账号信息与“@橘子推书”的差别较大，则可以但不限于表示目标媒体信息904的发布身份并非目标账号，进而确定目标媒体信息904属于抄袭类型。

可选地，在本实施例中，获取在目标媒体信息中识别到的第一身份信息可以但不限于通过图像识别技术，即在目标媒体信息中包含的图像信息中识别到第一身份信息，例如识别图像中的光学字符识别(opticalcharacterrecognition，简称ocr)信息，如创作者的账号名称、发布平台的平台名称等；

进一步以识别目标媒体信息中的ocr信息为例说明，通过分析，发现目标媒体信息中的ocr信息往往可以表示目标媒体信息的发布身份，且该ocr往往出现在目标媒体信息中特定的位置，如图10所示，使用ocr方法提取目标媒体信息对应的目标图像1002中所包含的文字信息1004，其中，ocr包含文字信息和文字所处的位置信息。根据目标图像1002的长宽尺寸，计算ocr中文字所处的位置是否为目标图像1002的阴影区域，若ocr位置满足条件，则使用该位置的文字信息1004进行判断。进而使用字符串匹配算法，若目标账号(图中未示出)的账号信息包含在文字信息1004中，则目标媒体信息为原创内容，即不属于抄袭类型，否则，该目标媒体信息为抄袭内容，即属于抄袭类型。

需要说明的是，获取目标媒体信息中的目标文本信息；在目标文本信息位于目标媒体信息中的目标区域内的情况下，将目标文本信息确定为第一身份信息，其中，目标区域用于显示目标媒体信息的来源身份标识。

进一步举例说明，可选的以识别文章是否为抄袭类型为例说明，如图11所示，具体步骤如下：

s1102，文章在内容生产端1102发表后，首先进入技术识别模块1104，使用图片ocr和创作者账号名对比的方式，判断该文章是否为抄袭类型，识别为抄袭类型的文章不会进行内容消费端1106进行展示；

s1104，识别非抄袭类型的文章进入内容消费端1106后，随着文章在信息流上的曝光和推荐，用户对文章进行点击和阅读，并对文章进行评论。通过对用户在该文章下的评论区的评论内容进行处理，判断评论是否在描述文章为抄袭类型，若判断为评论为反馈文章为抄袭类型的评论的情况下，则对评论中反馈原创作者的名称或链接进行提取，并提交给深度识别模块1108进行深度判断；

s1106，由深度识别模块1108进行深度判断，以识别该文章是否如评论描述为抄袭类型。

通过本申请提供的实施例，获取目标媒体信息中的目标文本信息；在目标文本信息位于目标媒体信息中的目标区域内的情况下，将目标文本信息确定为第一身份信息，其中，目标区域用于显示目标媒体信息的来源身份标识，通过在目标区域内识别出的来源身份标识，实现了提高媒体信息识别的准确性的效果。

作为一种可选的方案，提示限制在目标应用平台中展示目标媒体信息，包括以下至少之一：

s1，从目标应用平台中删除目标媒体信息；

s2，对发布目标媒体信息的目标账号发送第一提示信息，其中，第一提示信息用于警示目标账号发布的目标媒体信息为目标应用平台中被限制发布的媒体信息；

s3，对发起目标评论文本的账号发送第二提示信息，其中，第二提示信息用于提示已识别出目标媒体信息属于目标类型。

需要说明的是，从目标应用平台中删除目标媒体信息；对发布目标媒体信息的目标账号发送第一提示信息，其中，第一提示信息用于警示目标账号发布的目标媒体信息为目标应用平台中被限制发布的媒体信息；对发起目标评论文本的账号发送第二提示信息，其中，第二提示信息用于提示已识别出目标媒体信息属于目标类型。

进一步举例说明，可选的以从目标应用平台中二次识别目标媒体信息是否为抄袭内容为例说明上述媒体信息的识别方法的执行流程，如图12所示，具体步骤如下：

s1202，获取待发布的目标媒体信息；

s1204，对目标媒体信息执行文字识别操作；

s1206，判断目标媒体信息是否为抄袭内容，若是，则执行步骤s1208，若否，则执行步骤s1210；

s1208，禁止目标媒体信息的发布；

s1210，发布目标媒体信息；

s1212，获取目标媒体信息关联的评论文本；

s1214，将评论文本输入抄袭评论模型；

s1216，判断评论文本是否为目标评论文本，若是，则执行步骤s1218，若否，则继续执行s1212；

s1218，审核目标媒体信息；

s1220，判断目标媒体信息是否为抄袭内容，若是，则执行步骤s1208，若否，则继续执行s1212；

此外，上述步骤中的抄袭评论模型可以但不限于为提前训练好的神经网络模型，也可以但不限于在上述步骤的执行过程中，基于获取到的相关信息进行实时更新。

通过本申请提供的实施例，从目标应用平台中删除目标媒体信息；对发布目标媒体信息的目标账号发送第一提示信息，其中，第一提示信息用于警示目标账号发布的目标媒体信息为目标应用平台中被限制发布的媒体信息；对发起目标评论文本的账号发送第二提示信息，其中，第二提示信息用于提示已识别出目标媒体信息属于目标类型，达到了快速并准确地识别出属于目标类型的目标媒体信息并进行相应处理的目的，实现了提高对目标类型的媒体信息的处理及时性的效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述媒体信息的识别方法的媒体信息的识别装置。如图13所示，该装置包括：

第一获取单元1302，用于获取目标信息识别请求，其中，目标信息识别请求用于请求识别在目标应用平台中发布的待识别的目标媒体信息是否属于目标类型，目标类型为目标应用平台中被限制发布的媒体信息的类型；

响应单元1304，用于响应信息识别请求，获取对目标媒体信息进行评价的评论文本对应的评论特征；

确定单元1306，用于根据评论特征确定评论文本是否为目标评论文本，其中，目标评论文本中包括用于表示目标媒体信息属于目标类型的评论内容；

识别单元1308，用于根据目标评论文本识别目标媒体信息是否属于目标类型；

提示单元1310，用于在识别出目标媒体信息属于目标类型的情况下，提示限制在目标应用平台中展示目标媒体信息。

可选地，在本实施例中，媒体信息的识别装置可以但不限于应用在上述媒体信息的抄袭场景中，具体的，例如获取用于请求识别已发布在目标应用平台上的目标媒体信息是否为抄袭媒体信息的信息识别请求，进而在目标媒体信息关联的全部评论文本中，获取到评论有目标媒体信息为抄袭信息的评论内容的情况下，将上述评论有目标媒体信息为抄袭信息的评论内容对应的评论文本确定为目标评论文本，并根据该目标评论文本进一步识别目标媒体信息是否为抄袭媒体信息，以保证目标应用平台的原创环境。

可选地，在本实施例中，目标媒体信息可以但不限于为以媒体方式进行传播的多类别信息，例如文字信息、图片信息、音频信息、视频信息等。