隐私政策中隐私信息提取方法、系统、终端及介质

文档序号：26348148发布日期：2021-08-20 20:20阅读：379来源：国知局

本发明涉及自然语言处理技术领域，具体地，涉及一种基于自然语言处理的隐私政策中隐私信息提取方法、系统、终端及介质。

背景技术：

随着时代的发展，移动互联网应用已经渗透到人们日常生活中的方方面面。然而，移动互联网应用在给人们提供方便的同时，也收集了大量用户的隐私信息。为了规范应用的隐私信息收集，国内外都纷纷出台了相关的法规及政策，要求应用必须提供明晰的隐私政策，在用户使用应用之前告知用户哪些隐私信息将被收集。因此，一份隐私政策往往具有与法律条文类似的专业性、准确性等特性。伴随着这些特性而来的，还有冗长复杂且晦涩难懂等特点。不管是用户、应用市场平台或是相关监管机构，人工从隐私政策中找出其收集的隐私信息，都需要耗费大量的人力。一个高效的自动化隐私信息提取工具，不仅能够帮助用户了解一个应用收集了哪些隐私信息，而且能够帮助应用市场平台或相关监管机构提高调查工作的效率。

隐私政策的文本往往十分复杂。一方面，隐私政策的撰写要符合相关的法规，因此其具有很强的规范性与专业性，且通常以长句为主；而另一方面，由于相关法规对于隐私信息的描述并没有一个确定的要求，不同应用的隐私政策往往用词差距很大。传统上，要了解一份隐私政策里包含了哪些隐私信息，需要依靠专业的审计人员人工审核。这种方式不仅需要耗费大量的人力，而且还十分耗时。

近年来，自然语言处理技术发展迅速，尤其是在大规模的文本分析、句法分析与命名实体识别方面。对于隐私政策文本数据，提取出其中声明收集的隐私信息的关键在于定位与收集相关的句子。一般而言，隐私政策在声明信息收集的时候，会有(收集类或分享类行为动词,数据对象)这样的二元组出现。因此利用自然语言处理的命名实体识别及词性标注等技术有很大的潜力。但是，将自然语言处理技术直接应用于隐私政策的隐私信息收集中，仍然存在如下技术问题亟待解决：

一、哪些文字在阐述隐私信息的收集？

二、哪些属于隐私信息？

三、对隐私信息的描述是否统一？若不统一，该如何进行归一化？

目前没有发现同本发明类似技术的说明或报道，也尚未收集到国内外类似的资料。

技术实现要素：

本发明针对现有技术中存在的上述不足，提供了一种将自然语言处理技术应用于隐私政策自动化分析中的一种基于自然语言处理的隐私政策中隐私信息提取方法、装置及终端。

根据本发明的一个方面，提供了一种隐私政策中隐私信息提取方法，包括：

获取应用的隐私政策原始数据，并对不同格式的隐私政策原始数据进行数据处理，得到通用文本格式的隐私政策数据，并对得到的所述通用文本格式的隐私政策数据进行分句，拆解成多个单独的句子；

利用预先摘取的用于描述隐私信息的句子对既有的自然语言处理模型进行扩展训练，得到隐私政策领域的语言处理模型，并利用得到的所述隐私政策领域的语言处理模型对每个句子进行词性标注与命名实体识别，进而将包含有行为动词与数据对象的句子筛选出来，得到(行为动词，数据对象)二元组的集合；

对得到的所述二元组的集合中的所有数据对象进行归一化，并建立隐私数据的通用分类，将归一化得到的数据对象映射到相应的分类当中去，得到被分析隐私政策声明收集的隐私信息的类别，最终实现对隐私政策中隐私信息的提取。

优选地，所述获取应用的隐私政策原始数据，采用爬虫的方式，从应用市场上爬取隐私政策链接，得到各个应用的隐私政策原始网页数据。

优选地，所述隐私政策网页原始数据的格式为html格式或pdf格式。

优选地，所述对得到的所述通用文本格式的隐私政策数据进行分句，拆解成多个单独的句子，包括：采用基于自然语言处理技术的通用分句方法，将通用文本格式的隐私政策数据按照句末标点分割拆解成多个单独的句子。

优选地，所述将包含有行为动词与数据对象的句子筛选出来，得到(行为动词，数据对象)二元组的集合，包括：

首先对每个筛选出来的句子都进行句法分析与命名实体识别；如果句法分析的词性标注结果中没有收集类或分享类行为动词出现，那么就略去该句子；否则继续检查命名实体识别的结果中是否包含数据对象，若不包含数据对象，则略去该句子；最后留下的句子都具有一个相应的(行为动词，数据对象)二元组，进而得到(行为动词，数据对象)二元组的集合。

优选地，所述对得到的所述二元组的集合中的所有数据对象进行归一化，包括：

根据所述数据对象的集合，利用同义词词典与模糊匹配的方法，将数据对象归一化，得到归一化的数据对象结果。

优选地，所述建立隐私数据的通用分类，包括：

根据隐私相关规定，得到隐私数据的通用分类；

其中：

所述隐私相关规定包括：根据《加利福尼亚州消费者隐私保护法案》和《隐私保护法》得到的相关规定。

优选地，所述方法还包括：

提交得到所述隐私政策声明收集的隐私信息的类别。

根据本发明的另一个方面，提供了一种隐私政策中隐私信息提取系统，包括：

数据获取与预处理模块，该模块用于获取应用的隐私政策原始数据，并对不同格式的隐私政策原始数据进行数据处理，得到通用文本格式的隐私政策数据，并对得到的所述通用文本格式的隐私政策数据进行分句，拆解成多个单独的句子；

词性标注与命名实体识别模块，该模块利用预先摘取的用于描述隐私信息的句子对既有的自然语言处理模型进行扩展训练，得到隐私政策领域的语言处理模型，并利用得到的所述隐私政策领域的语言处理模型对每个句子进行词性标注与命名实体识别，进而将包含有行为动词与数据对象的句子筛选出来，得到(行为动词，数据对象)二元组的集合；

隐私信息分类模块，该模块对得到的所述二元组的集合中的所有数据对象进行归一化，并建立隐私数据的通用分类，将归一化得到的数据对象映射到相应的分类当中去，得到被分析隐私政策声明收集的隐私信息的类别，最终实现对隐私政策中隐私信息的提取。

优选地，所述系统还包括：

隐私信息提取结果提交模块，该模块用于提交隐私信息分类模块得到的隐私信息的类别。

根据本发明的第三个方面，提供了一种终端，包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序，所述处理器执行所述计算机程序时能够用于执行上述中任一项所述的方法。

根据本发明的第四个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行上述中任一项所述的方法。

由于采用了上述技术方案，本发明与现有技术相比，具有如下至少一项的有益效果：

本发明提供的隐私政策中隐私信息提取方法、系统、终端及介质，基于自然语言处理，能够对隐私政策进行大规模的自动化分析，通过自然语言处理领域的词性标注、命名实体识别等技术与方法，得到(收集或分享类行为动词，数据对象)二元组，然后借助同义词词典与模糊匹配得到归一化的数据对象，最后根据从相关法律或法规得到的隐私信息分类与数据对象的映射关系，将归一化的数据对象映射到不同的隐私信息类别当中，最后得到隐私政策所声明的隐私信息的类别，从而实现高效、快速且灵活的隐私政策分析，满足用户、应用市场平台及相关监管部门对隐私政策的调查需求。

本发明提供的隐私政策中隐私信息提取方法、系统、终端及介质，相对已知技术，能在更短的时间内，不需要人工标注数据，自动高效准确地提取出隐私政策中所声明收集的隐私信息。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中隐私政策中隐私信息提取方法的流程图。

图2为本发明一优选实施例中隐私政策中隐私信息提取方法的流程图。

图3为本发明一实施例中隐私政策中隐私信息提取系统的组成模块示意图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

图1为本发明一实施例提供的隐私政策中隐私信息提取方法的流程图。

如图1所示，该实施例提供的隐私政策中隐私信息提取方法，可以包括如下步骤：

s100，获取应用的隐私政策原始数据，并对不同格式的隐私政策原始数据进行数据处理，得到通用文本格式的隐私政策数据，并对得到的通用文本格式的隐私政策数据进行分句，拆解成多个单独的句子；

s200，利用预先摘取的用于描述隐私信息的句子对既有的自然语言处理模型进行扩展训练，得到隐私政策领域的语言处理模型，并利用得到的隐私政策领域的语言处理模型对每个句子进行词性标注与命名实体识别，进而将包含有行为动词与数据对象的句子筛选出来，得到(行为动词，数据对象)二元组的集合；

s300，对得到的(行为动词，数据对象)二元组的集合中的所有数据对象进行归一化，并建立隐私数据的通用分类，将归一化得到的数据对象映射到相应的分类当中去，得到被分析隐私政策声明收集的(即app将用户的信息或用户产生的数据传到服务器端的行为。这一行为的目的或是服务提供商提供给用户某些服务，或是服务提供商进行统计研究等)隐私信息的类别，最终实现对隐私政策中隐私信息的提取。

在该实施例中，作为一优选实施例，该方法还可以包括如下步骤：

s400，提交得到的隐私信息的类别。

在该实施例的s100中，作为一优选实施例，获取隐私政策原始数据，可以采用爬虫的方式，从应用市场上爬取隐私政策链接，得到各个应用的隐私政策原始网页数据。然而，隐私政策原始网页数据格式为html或pdf格式，不利于进一步的研究，因此在该实施例的s100中，对原始网页数据进行预处理得到文本格式的隐私政策原始数据。

在该实施例的s200中，作为一优选实施例，每个筛选出来的句子都得到一个相应的(收集类或分享类行为动词，数据对象)二元组的方法，可以包括如下步骤：

首先对每个筛选出来的句子都进行句法分析，如果句法分析的词性标注结果中没有收集类或分享类行为动词出现，那么就略去该句子；否则继续检查命名实体识别分析结果中是否包含数据对象，若不包含数据对象，则同样略去该句子；最后得到包含(收集类或分享类行为动词，数据对象)二元组的集合。

在该实施例的s200中，作为一具体应用实例，收集类行为动词包括：ask、collect、check、know、use、obtain、access、receive、gather、store、save、require、process、compile、request、retain等。

在该实施例的s200中，作为一具体应用实例，分享类行为动词包括：share、sell、provide、trade、transfer、give、distribute、disclose、send、rent、exchange、report、transmit、post等。

在该实施例的s300中，作为一优选实施例，根据(收集类或分享类行为动词，数据对象)二元组，借助同义词词典与模糊匹配，以及基于法律或法规得到的隐私信息分类，将(收集类或分享类行为动词，数据对象)转化为相应的隐私信息类别。

该实施例提供的隐私政策中隐私信息提取方法，针对隐私政策分析的缺口，将自然语言处理技术应用于隐私政策的文本分析中，对隐私政策文本进行拆解，通过对句子进行命名实体识别与词性标注得到(收集类或分享类行为动词，数据对象)二元组，并通过映射将该二元组转化为相应的隐私信息类别，能够帮助用户、应用市场平台及相关监管机构快速了解隐私政策收集了哪些类别的信息，从而帮助其进行下一步的决策。

在本发明部分实施例中：

在s100中，隐私政策原始数据来自应用市场(比如华为应用市场、谷歌应用市场等)的应用介绍中提供的隐私政策链接。

其中：

先从应用市场中的热门应用里发掘种子应用，然后对每个种子应用进行广度遍历的爬取策略：将它的相似应用或相关推荐应用加入到爬取队列的尾端。最后不断更新这个爬取队列，直到应用数目不再增加或是应用数量达到了给定的目标值为止。

在该实施例的s100中，作为一优选实施例，采用html2text及pdf2text两个工具对html格式及pdf格式的原始隐私政策进行预处理。预处理得到文本格式的隐私政策。在预处理这一步需要对文本进行分句，由于文本中的格式化列表会导致nlp解析器错误地检测句子中断或错误地标记词性部分。这些错误会对最终的结果造成负面影响，因此，s100中会将格式化列表中的每一项都与格式化列表之前的引导子句合并起来组合形成新的句子。比如：

wewillcollectyour：

1.phonenumber

2.emailaddress

3.name

会被重新组合成三个句子：“wewillcollectyourphonenumber”、“wewillcollectyouremailaddress”与“wewillcollectyourname”。

在s200中，使用的是spacy的既有模型。spacy的既有模型中的命名实体识别部分是使用深度学习的方法实现的，而词性标注部分则是使用统计方法实现的。然而，由于spacy的既有模型并非针对隐私政策领域的，因此s200需要选择一些隐私政策领域的语料对spacy的既有模型进行扩展训练。为了使既有模型适应隐私政策领域，在s200中选择了500个句子作为训练数据，并且在训练句子上运行既有的模型以防止该模型遗忘了原先的标注信息。得到隐私政策领域的模型后，使用该模型对s100中得到的句子进行句法分析，如果句法分析的词性标注结果中没有收集类或分享类行为动词出现，那么就略去该句子；否则继续检查命名实体识别分析结果中是否包含数据对象，若不包含数据对象，则同样略去该句子；最后得到包含(收集类或分享类行为动词，数据对象)二元组的集合。

需要说明的是，上述500个从隐私政策数据集中随机挑选的与隐私信息收集相关的句子。

在s300中，会使用s200中得到(收集类或分享类行为动词，数据对象)二元组集合。需要说明的是，隐私政策有时候会使用否定含义的句子来表明其不会收集或分享某特定的数据。因此这一步骤中还包括了否定含义的检测。若是检测到了如not、no等否定含义的词，则认为这一二元组中的数据对象是不会被收集的。但是从实际情况出发，分享行为显然必须基于收集行为。只有在收集了某数据的情况下，才能对是否分享该数据进行讨论。因此只否定分享行为，将仍然认为数据对象会被收集。之后需要经过同义词词典与模糊匹配，对该隐私信息文本进行归一化操作。这部分的同义词词典使用的是既有的同义词词典，同时在既有的同义词词典的基础上，可以针对隐私政策文本中出现的新词，进行人工添加。最后根据从相关法律或法规得到的隐私分类，将数据对象映射到相应的隐私分类中，得到隐私政策所收集的隐私信息的类别。

图2为本发明一优选实施例提供的隐私政策中隐私信息提取方法的流程图。

如图2所示，该优选实施例提供的隐私政策中隐私信息提取方法，基于自然语言处理的隐私政策隐私信息提取方法，将自然语言处理技术应用于隐私政策分析中，可以包括如下步骤：

步骤1，获取隐私政策原始数据，并对隐私政策html或pdf格式的原始数据进行预处理，得到文本格式的隐私政策数据，然后将文本格式的隐私政策数据按照句末标点分隔拆解成多个单独的句子；

步骤2，预训练得到隐私政策领域的自然语言处理的模型，利用该模型对拆解得到的单独的句子进行词性标注与命名实体识别，进而将有收集或分享类行为动词的句子筛选出来，并且每个筛选出来的句子都得到一个相应的(收集类或分享类行为动词，数据对象)二元组；

步骤3，根据(收集类或分享类行为动词，数据对象)二元组，首先借助同义词词典与模糊匹配，得到归一化的数据对象，最后根据从相关法律或法规得到的隐私信息分类与数据对象的映射关系，将归一化的数据对象转化为隐私信息的类别。

作为一优选实施例，该方法还可以包括如下步骤：

步骤4，提交步骤3中提取得到的隐私信息类别。下面结合附图对该优选实施例提供的技术方案进一步详细描述。

如图2所示，该优选实施例提供的方法，主要包括如下三个步骤，分别为数据获取与预处理、自然语言处理(包括词性标注与命名实体识别)和隐私信息分类，还可以包括：隐私信息结果提交。

具体地：

步骤1，数据获取与预处理，获取隐私政策原始数据，并对html或pdf格式的原始隐私政策数据进行预处理，得到通用的文本格式的隐私政策数据，并将文本格式的隐私政策数据拆解成一个一个单独的句子；

步骤2，自然语言处理，利用预先手动摘取的描述隐私信息的句子对既有的自然语言处理模型进行扩展训练，得到一个关于隐私政策领域的自然语言处理模型，利用该模型对步骤1中得到的句子进行词性标注与命名实体识别，进而将有收集行为动词的句子筛选出来，并且每个筛选出来的句子都得到一个相应的(收集类或分享类行为动词，数据对象)二元组；

步骤3，隐私信息分类，根据步骤2中得到的二元组中的数据对象，经过同义词词典与模糊匹配，对该隐私信息文本进行归一化操作；这部分的同义词词典使用的是既有的同义词词典，同时在既有的同义词词典的基础上，可以针对隐私政策文本中出现的新词，进行人工添加。最后根据从相关法律或法规得到的隐私分类，将数据对象映射到相应的隐私分类中，得到隐私政策所收集的隐私信息的类别。

其作用分别如下：

数据获取与预处理：通过爬取应用市场上提供的隐私政策链接，爬取各个应用的隐私政策原始网页数据，并对数据进行预处理，为接下来的分析模型做好准备。

自然语言处理：为使spacy的既有模型适应隐私政策领域的文本，需要使用隐私政策相关的语料库对既有的模型进行扩展训练，从而提升其在词性标注与命名实体识别上的准确率。之后利用预训练得到的自然语言处理模型，对步骤1中得到的隐私政策文本数据进行文本分析，并从中提取出(收集类或分享类行为动词，数据对象)二元组。

隐私信息分类：对上一步骤所提取出来的二元组中的数据对象进行映射操作。首先通过同义词词典与模糊匹配，对该隐私信息文本进行归一化操作。这最后根据从相关法律或法规得到的隐私分类，将归一化后的数据对象映射到相应的隐私分类中，得到隐私政策所收集的隐私信息的类别。

隐私信息结果提交：隐私信息提取完毕后，系统将隐私信息提取的结果，即隐私政策收集的隐私信息的类别返回出来。

为了保证可读性，本发明实施例将仔细阐述提取方案。

1.数据获取与预处理：中美欧等不同地区的相关法规都有规定，应用需要提供明晰的隐私政策。因此，各个地区主流的应用市场中，都要求应用提供隐私政策链接。于是可以借由应用市场中应用提供的隐私政策链接来获取应用的隐私政策网页原始数据。但网页原始数据中包含许多的无关元素，比如html中的css元素、script元素等等。若不去除这些元素，既影响了隐私政策文本分析的效率，又影响了分析的准确性。为此，在数据获取与预处理的部分，先通过html2txt工具，将html格式的隐私政策数据转换为了文本格式。在获取隐私政策的时候发现，并非所有的隐私政策都是通过html的形式呈现的，有一些隐私政策是通过pdf文件的形式展现给用户的。因此，为了同样能够处理这部分隐私政策，我们通过pdf2txt工具，将pdf格式的隐私政策也转换为了文本格式。而后对格式化的列表进行了拆解与合并，使得其形式更有利于接下来的隐私政策分析。

2.词性标注与命名实体识别：现目前尚没有现成的隐私政策领域的模型，而选择既有的通用领域的模型，必然会在隐私政策领域上表现欠佳。若要完全重新训练一个隐私政策领域的模型，需要大量的语料库与训练时间。因此，选择在既有模型的基础上，使用小量的隐私政策语料库对既有模型进行扩展训练，既能保留原有模型的优势，又能增加其在隐私政策领域的适用性，是性价比最高的方案。得到隐私政策领域的自然语言处理模型后，遍历隐私政策分句后的每个句子，并进行词性标注与命名实体识别，进而将有收集行为动词的句子筛选出来，并且每个筛选出来的句子都得到一个相应的(收集类或分享类行为动词，数据对象)二元组。

3.隐私信息分类：由于不同的隐私政策很可能对相同的隐私信息采用不同的描述，比如说email与emailaddress，实际上指代的都是同一事物。因此，提取出数据对象文本以后，在对上一步骤中得到的数据对象进行分类以前，还需要借助同义词词典对数据对象进行归一化。最后，根据从相关法律或法规的方法得到隐私信息的类别及数据对象与隐私信息类别之间的归属关系，将数据对象映射到隐私信息类别上，最终得到该隐私政策所收集的隐私信息的类别。

4.隐私信息结果提交：隐私信息提取系统在接收到隐私信息的类别后，会向使用者展示被检测的应用在隐私政策中所声明会收集的隐私信息类别，若是被检测的应用是一个大规模的应用集，则还会输出该应用集隐私信息收集情况的统计分析结果，以便使用者对其作进一步的分析与确认。

该优选实施例提供的隐私政策中隐私信息提取方法，基于自然语言处理技术，首先将原始的html格式或pdf格式的隐私政策处理成通用的文本格式，继而对隐私文本进行分句，并且使用预训练得到的自然语言处理模型对句子进行词性标注与命名实体识别，最后利用词性标注与命名实体识别的结果，提取出句子中所提及的数据对象，再经过归一化与分类操作得到隐私政策收集的隐私信息类别，以便于用户、应用市场平台或监管机构了解应用的隐私政策的隐私信息收集情况，帮助他们进行下一步的决策。该优选实施例利用自然语言处理技术对隐私政策中的隐私信息进行提取，不需人工进行标注，能够实现更加高效、快速、灵活的隐私分析，满足相关行业的需求。

图3为本发明一实施例提供的隐私政策隐私信息提取系统的组成模块示意图。

如图3所示，该实施例提供的隐私政策隐私信息提取系统，可以包括：

根据本发明的另一个方面，提供了一种隐私政策中隐私信息提取系统，包括：数据获取与预处理模块、词性标注与命名实体识别模块以及分类模块；其中：

作为一优选实施例，该系统还可以包括：

隐私信息提取结果提交模块，该模块用于提交隐私信息分类模块得到的隐私信息的类别。

在本发明的部分实施例中：

数据获取与预处理模块，用于获取隐私政策原始数据，并将其处理成纯文本格式，同时将格式化的列表进行合并，最后将隐私政策拆解成单独的句子；

词性标注与命名实体识别模块，首先对既有的自然语言处理模型的扩展训练，可以在基于既有模型的基础上，增加既有模型对隐私政策领域的适用性。而后使用预训练得到的扩展后的自然语言处理模型，对句子进行词性标注与命名实体识别。如果句法分析的词性标注结果中没有收集类或分享类行为动词出现，那么就略去该句子；否则继续检查分析结果中是否包含数据对象，若不包含数据对象，则同样可以略去该句子。最终得到相应的(收集类或分享类行为动词，数据对象)二元组集合；

隐私信息分类模块，根据上一模块得到的二元组，首先借助同义词词典与模糊匹配将数据对象进行归一化，然后依据从相关法律或法规得到的隐私分类及隐私类别与数据对象的映射关系，将归一化的数据对象映射到隐私类别上，得到隐私政策收集的隐私信息类别。

隐私信息提取结果提交模块，用于提交隐私信息提取的结果，即隐私政策收集的隐私信息类别。

本发明一实施例提供了一种终端，包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序，处理器执行计算机程序时能够用于执行本发明上述实施例中任一项的方法。

可选地，存储器，用于存储程序；存储器，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-accessmemory，缩写：ram)，静态随机存取存储器(英文：staticrandom-accessmemory，缩写：sram)，双倍数据率同步动态随机存取存储器(英文：doubledataratesynchronousdynamicrandomaccessmemory，缩写：ddrsdram)等；存储器也可以包括非易失性存储器(英文：non-volatilememory)，例如快闪存储器(英文：flashmemory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器，用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

处理器和存储器可以是独立结构，也可以是集成在一起的集成结构。当处理器和存储器是独立结构时，存储器、处理器可以通过总线耦合连接。

本发明一实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行本发明上述实施例中任一项的方法。

本发明上述实施例提供的隐私政策中隐私信息提取方法、系统、终端及介质，主要分为三个部分，分别是数据获取与预处理部分，词性标注与命名实体识别部分与分类部分。其中词性标注与命名实体识别部分解决了背景技术中所提及的问题一，即将收集类或分享类动词和数据对象作为标志，同时拥有这两个内容的句子就是在阐述隐私信息的收集。而分类模块，解决的则是背景技术中所提及的问题二和三：首先从相关法律或法规总结出隐私信息的类别，并且通过众包的方式得到用户方面对隐私信息的认知，两者结合得到隐私信息的类别；而后构建一个数据对象的同义词词库，将“location”、“gps”这样的同义词放在一起，从而实现数据对象的归一化。

本发明上述实施例提供的隐私政策中隐私信息提取方法、系统、终端及介质，基于自然语言处理，将自然语言处理技术应用于隐私政策的文本分析中，对隐私政策文本进行拆解，通过对句子进行命名实体识别与词性标注得到(收集类或分享类行为动词，数据对象)二元组，并根据同义词词典及模糊匹配对所提取到的数据对象进行归一化，最后将其映射到对应的隐私信息类别。能够帮助用户、应用市场平台及相关监管机构快速了解隐私政策收集了哪些类别的信息，从而帮助其进行下一步的决策。本发明上述实施例提供的隐私政策中隐私信息提取方法、系统、终端及介质，利用自然语言处理技术分析隐私政策文本，不需要人工标注数据，能够自动高效准确地提取出隐私政策中所声明收集的隐私信息，满足相关行业的需求。

需要说明的是，本发明提供的方法中的步骤，可以利用系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照方法的技术方案实现系统的组成，即，方法中的实施例可理解为构建系统的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱浩瑾;魏程涌潇;陈哲轩;周路
技术所有人：上海交通大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。