语言无关的概率内容匹配的制作方法

文档序号:10655086阅读:193来源:国知局
语言无关的概率内容匹配的制作方法
【专利摘要】内容被接收,并针对用于标识一类型的内容的规则来进行比较。每一规则具有分割和非分割的模式。内容针对模式进行匹配,并被分配置信分数,如果内容匹配分割模式则置信分数较高,如果内容匹配非分割模式则置信分数较低。
【专利说明】语言无关的概率内容匹配
[0001 ] 本申请是申请日为2013年02月Ol日并且申请号为201380008426.5的中国专利申 请的分案申请,运里W引用的方式结合该申请的全部内容作为参考。
【背景技术】
[0002] 诸如英语等许多语言使得词语由文本中的空格间隔。在运些类型的语言中,需要 词语在文本中得到标识的任何技术是相当直接的。运些空格被称为相邻词语之间的分隔 符。运些类型的语言被称为空格分隔语言或分割语言。
[0003] 然而,诸如汉语、日语、韩语和越南语等其它语言仅被写为均匀隔开的文字的序 列。运些语言在词语之间没有清楚的间隔,因为它们在词语之间没有空格。运些类型的语言 被称为非分割语言。在非分割语言中缺乏已知的分隔符导致对例如关键词的精确检测相当 困难。
[0004] 类似地,在非分割语言中,完全相同的文字基于周围的上下文可意味着不同的东 西。作为示例,W下文本:
[0005] 输入信用卡号码。
[0006] 具有词语分割,运在W下表1中翻译:
[0007] 表 1 「nmRl
[0009] 然而,W下文本
[0010] 周信用卡车运货。
[0011] 具有在W下表2中所示的翻译:
[0012] 表2
[0013]
[0014]
[001引可见,表帥的文本包含与第一示例中被翻译成"信用卡"的相同的文字序列(突出 显示),但该文字序列具有完全不同的意思并且与信用卡无关。
[0016] 此外,在非分割语言中,换行符可出现在各种地方,使得更难W标识文字序列中的 关键词。
[0017] 运在各种不同领域中可能是成问题的。例如,当前存在管控个人信息的传播的各 种不同来源的政策和规定。需要处理某些类型的信息的组织需要遵循全部运些规定。规定 可W是例如来自政府的外部规定,或者是管控某种类型的信息能如何在公司内传播的内部 规定。
[0018] 通常受到运些规定和政策的约束的内容由信息工作者操作,信息工作者具有包含 大量规定或政策(内部和外部两者)的手册,且该工作者预期了解并遵循全部规定或政策。 在实施运些政策时,某些系统试图标识正由信息工作者工作的文档中的敏感信息。为此,运 些系统通常试图检查文档中的词语W确定给定文档是否是敏感的。例如,诸如"信用卡"的 关键词被认为是敏感内容的指示。然而,如上所述,运在非分割语言中非常难W标识。
[0019] 提供W上讨论仅用作一般的背景信息,并不旨在帮助确定所要求保护的主题的范 围。

【发明内容】

[0020] 内容被接收,并针对用于标识一类型的内容的规则来进行比较。每一规则具有分 割和非分割的模式两者。内容针对模式进行匹配,并被分配置信分数,如果内容匹配分割模 式则置信分数较高,如果内容匹配非分割模式则置信分数较低。
[0021] 提供本概述是为了 W简化的形式介绍将在W下【具体实施方式】中进一步描述的概 念选择。本
【发明内容】
不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用 于帮助确定所要求保护的主题的范围。所要求保护的主题不限于解决在背景中提及的任何 或所有缺点的实现。
【附图说明】
[0022] 图1是示出语言无关内容确定系统的一个说明性实施例的框图。
[0023] 图2是示出图1所示的系统的操作的流程图的一个实施例。
[0024] 图3是指示如何分配置信水平的更详细的框图。
[0025] 图4是定义可用于标识内容中的信用卡数据的规则的规则树的一个实施例。
[0026] 图4A和4B是说明性用户界面。
[0027] 图5是示出创作系统中的语言无关内容确定系统的另一实施例的框图。
[0028] 图6示出基于云的体系结构中的系统的一个实施例。
[0029] 图7-9是说明性移动设备。
[0030] 图10是说明性操作环境的一个实施例。
【具体实施方式】
[0031] 图1是内容处理环境100的框图,内容处理环境100包括内容源系统102、语言无关 内容确定系统104和内容处理系统106。在图1中所示的实施例中,系统104从源系统102接收 内容108,确定内容108的性质,并向内容处理系统106提供指示内容108的性质的内容判断 110。内容处理系统106基于如内容判断110所标识的内容性质处理内容。
[0032] 出于本发明描述的目的,语言无关内容确定系统104将被描述为确定内容108是否 是敏感内容,W使得它受到数据传播政策的约束。例如,当内容108是电子邮件消息时,存在 管控内容是否可被发送给公司外部个人的数据传播政策(诸如当其包含知识产权内容时)。 此外,数据传播政策可管控当内容包含个人信息(诸如信用卡信息、社会保障号码等)时内 容的传播。然而,此外还存在当内容108包含粗俗语言时管控内容的传播的内部数据传播政 策。从而,本发明的描述将关于系统104确定内容108是否敏感W使得数据传播政策可对其 应用而进行。
[0033] 然而,将注意到,仅仅因为系统104被描述为确定内容108是否敏感,运仅是可如何 使用系统104的一个示例。系统104还可被用于标识内容108是否具有不同的性质。例如,系 统104可标识电子邮件消息(内容108)的语气是愤怒、正面还是负面。类似地,系统104还可 被用于确定内容108是否具有不同的性质。在任何情况中,内容处理系统106基于系统104确 定的内容的性质来处理内容。
[0034] 还应注意到,内容源系统102和内容处理系统106可W是同一系统。例如,内容源系 统102可W是创作应用,该应用被用于创作电子邮件消息、文字处理文档、电子表格文档、幻 灯片演示文档、绘图文档或另一类型的文档。从而,内容108可W是电子邮件消息的正文、附 件或可由内容源系统102创建的任何其它类型的文档。内容处理系统106也可被并入内容源 系统,使得用户101在内容源系统102中生成的内容具有由同一系统应用于其的数据传播政 策。
[0035] 作为示例,假定内容源系统102是电子邮件系统,而用户101与系统102交互W生成 包含内容108的电子邮件消息。用户101可使用诸如键盘、指点设备、语音、触摸姿势等用户 输入机制或其它机制来交互。在任何情况下,系统104可确定邮件消息是否包含敏感材料, 且如果包含敏感材料,则内容处理系统106可被并入电子邮件系统(该电子邮件系统包括内 容源系统102) W关于敏感材料实现数据传播政策。即,(用于创作内容的)电子邮件系统可 基于内容、或基于接收者或基于运两者阻塞某些电子邮件消息。类似地,也可采用其它数据 传播政策。
[0036] 在任何情况下,语言无关内容确定系统104包括内容确定组件112W及包括一组内 容确定规则117和119的规则存储115。每一规则117、119被用于标识某一种类的敏感信息。 例如,规则117可用于标识内容108中的信用卡号码,而规则119可被用于标识社会保障号 码。运些仅是示例。每一规则说明性地指定模式。如果内容108匹配规则中的模式,则确定内 容包含对应于该规则的敏感信息。在图1中所示的实施例中,每一规则包括分割内容确定模 式114和非分割内容确定模式116。图1示出其中规则117还具有另一组非分割内容确定模式 118的实施例。在所示实施例中,模式114操作于分割语言,而模式116和118操作于非分割语 言。当然,分割和非分割语言也可被组合。例如,模式114可仅操作于英语,或操作于所有分 割语言。类似地,模式116可操作于日语,而模式118可操作于汉语,而可对其它分割语言提 供其它模式集合。或者,可提供并安排一组非分割模式116,W使得该组模式116操作于所有 非分割语言。运在下面将更详细地描述。
[0037] 系统104还说明性地包括处理器120。处理器120说明性地是具有相关联的时序和 存储器电路(未示出)的计算机处理器。处理器120说明性地是系统104的功能组件,且由系 统104的其它组件激活W促成那些组件的功能。
[0038] 当然,还注意到,尽管环境100被示为分成各个系统和组件,那些系统和组件的功 能可彼此组合W具有较少的系统或组件,或者功能可被进一步划分W具有附加的系统和组 件。图1中所示仅用作示例。
[0039] 图2是示出图1所示的环境的操作的一个实施例的流程图。语言无关内容确定系统 104首先接收要被分析的内容108。运由图2中的框130指示。内容确定组件112访问各个规则 117-119W检测标识内容108的性质的信息。运由图2中的框132指示。
[0040] 作为示例,内容确定组件112可访问规则117-119W查看信用卡信息是否驻留在内 容108中。运可例如通过查找非常靠近词语"credit card(信用卡)"、"MasterCarcK万事达 卡r、"Visa(维萨r或"expiration date(有效期r的16位号码来进行。
[0041] 内容确定组件112说明性地捜索全部规则117-119,而不考虑内容108的语言,W便 确定是否有任何规则匹配内容108的任何部分。从而,可见系统104可被用于标识内容108的 性质,而无论其语言,甚至无论内容108是否包含多于一种语言的材料。
[0042] 在任何情况下,内容确定组件112然后确定规则117-119中是否有任何规则匹配内 容108。运由图2中的框134指示。如果为否,则系统104无法将内容108的性质标识为敏感,且 它仅输出默认内容判断,诸如内容不敏感的判断。运由图2中的框136指示。
[0043] 然而,如果在框134,内容确定组件112已标识了匹配内容108的规则117-119中的 至少一个规则,则内容确定组件112可将内容108的性质标识为敏感。如图2中的框138所示, 内容确定组件112然后向该判断分配置信水平。
[0044] 置信水平可按照各种不同的方式来设置。例如,在一个实施例中,规则117-119首 先使得内容确定组件112确定内容108是否包含16位号码。如果包含,则内容108匹配该特定 规则所定义的模式。然而,规则还可定义内容确定组件112要查找诸如日期、诸如词语 "credit card(信用卡)"等的协助证据。基于所标识的、并在匹配规则中陈列的协助证据, 内容确定组件112可分配置信水平,该置信水平基于内容是匹配分割模式还是非分割模式, 并基于内容108中找到的W支持内容108包含敏感材料的判断的协助数据的量而变化。
[0045] 内容确定组件112然后输出内容108的性质,连同置信水平作为内容判断110。输出 内容的性质连同置信水平由图2中的框140指示。作为示例,内容判断组件112可输出内容 108包含敏感材料的置信水平为90%的指示。当然,运仅是示例性的。
[0046] 一旦内容处理系统106已经接收了内容判断110,它就基于内容108的性质处理内 容108。运由图2中的框142指示。内容处理系统106可取决于内容108是否敏感而使用不同的 规则处理内容。
[0047] 作为示例,如果内容108是电子邮件消息,且或者消息的正文包含敏感内容,或者 消息的附件包含敏感内容,则内容处理系统106可仅仅显示指示内容108包含敏感材料并向 用户101指示如何继续(诸如通过指示该内容应仅被发送给授权人员)的消息。或者,内容处 理系统106可指示电子邮件消息将被阻塞,因为它包含敏感材料。当然,内容处理系统106还 可分析内容108的收件人W确定要采取什么动作,诸如阻塞电子邮件消息或是发送它等等。 在任何情况中,内容处理系统106基于系统104输出的内容108的性质来处理内容108。
[0048] 图3是示出内容确定组件112如何向内容判断110分配置信水平的更详细框图。在 图3所示的实施例中,内容确定组件112首先确定在给定规则上匹配的模式是用于分割语言 还是非分割语言。运由图3中的框150指示。
[0049] 如果匹配的规则是用于诸如英语的分割语言,则运影响所分配的置信水平。例如, 因为分割语言具有清楚分隔的词语(词语由空格间隔),于是作为规则一部分匹配的任何关 键词与它们在非分割语言中匹配的情况下相比,可与更高的置信度匹配。如上所述,即使 非分割语言中的文字串精确地匹配,该串基于其上下文也可意味着完全不同的东西。组件 112因此较不肯定文字串在规则中和在内容108中意味着相同的东西。
[0050] 从而,内容确定组件112然后确定已被找到W支持针对给定规则匹配的模式的确 证水平。运由框152指示。组件112然后基于匹配的模式W及所标识的确证来分配置信分数。 运由框154指示。
[0051] 作为特定示例,假定已被匹配的用于分割语言的规则正在查找信用卡信息。在一 个实施例中,该规则首先要求内容108匹配指定内容108必须包含16位号码的主模式。进一 步假定内容108的确包含16位号码。从而,分割语言中的该规则所要求的模式已被匹配。现 在假定,为了找到确证证据,该规则包括确证模式部分,确证模式部分包含除了 16位号码W 外也有可能存在于内容108中的某些关键词。运样的关键词可包括"Credit card(信用 卡)"、"e邱iration date(有效期)"等。内容确定组件112然后确定确证数据中是否有任何 数据在内容108中匹配。因为已被匹配的模式对应于分割语言,内容确定组件112可W非常 确信确证数据中的词语在模式中和在内容108中意味着相同的东西。即,如果规则中的关键 词之一是"credit card",且内容确定组件112在内容108中找到词语"credit card",卯J内 容确定组件112可W非常确信,之前匹配的16位号码实际上是信用卡号码。如果内容确定组 件112还在内容108中找到词语"expiration date",则置信水平甚至更高。基于在规则中匹 配的主模式W及对应的确证模式,分配置信水平。
[0052] 或者,如果在框150,确定匹配规则的模式对应于非分割语言,则内容确定组件112 再次查找确证数据W支持匹配的模式。运由图3中的框156指示。然而,与分割语言不同,即 使内容确定组件112将关键词匹配为确证数据,在非分割语言中不能同样肯定该关键词在 规则中和在内容108中意味着同样的东西。从而,尽管在内容108中定位确证数据甚至对于 非分割语言而言的确增加了置信水平,但是它增加置信水平的程度不如对于分割语言。
[0053] 作为特定示例,假定用于非分割语言的模式也要求内容108包含16位号码。进一步 假定内容108的确包含16位号码。然后,假定模式要求内容确定组件112在内容108中查找 当被翻译时对应于英语词语"credit card"的文字串。即使内容确定组件112的确在内容 108中定位了该文字串,运不意味着该文字串具有"credit card"的意思。实际上,它可能在 内容108的上下文中具有与信用卡无关的完全不同的意思。运在W上在背景部分中说明。从 而,尽管内容确定组件112的确增加其判断的置信水平,但它增加置信水平的程度不如分割 语言的情形。然而,在任何情况下,基于规则中匹配的模式W及所标识的确证数据来分配置 信分数。运由图3中的框158指示。
[0054] 图4示出了用来定义用于在诸如内容108的内容的正文内检测信用卡数据的规则 的分层树结构170。结构170包括头节点172,该头节点指示该规则用于检测信用卡数据。名 称节点174命名该特定规则(在此情况中,它被命名为"信用卡"),而描述节点176描述了该 规则做了什么。在运种情况下,它包括描述该规则试图标识包含信用卡信息的内容的文本 描述,且它还可描述当检测到信用卡信息时如何保护运一信息。
[0055] 结构170接下来包含S个模式节点178、180和182。模式节点178定义了可被用于在 分割语言中标识信用卡数据的一组模式和确证数据。节点178包括进一步定义该模式的一 组子节点184、186和188。节点184示出,对于要匹配的规则,要在内容中找到16位号码形式 的正则表达式。如果正则表达式被找到,则确证节点188标识可被用于确证该16位号码是信 用卡号码的判断的可选匹配。在一个实施例中,节点188包括与信用卡有关的关键词的列 表,运些关键词用由节点178表示的一种或多种分割语言(诸如英语)列出。再一次,作为示 例,关键词可包括"credit card"、"Visa" ,''Master Card"、"e 邱 iration date"等。置信节 点186定义了当16位号码已被标识且可选匹配中的至少一个匹配已被标识时与内容相关联 的置信水平。如果已标识多于一个的可选匹配(或确证匹配),则置信水平186可指定标识增 加置信度的额外置信水平。因此,节点186向内容确定组件112指定当在节点178处匹配了给 定规则和确证数据时,要向所作出的敏感判断分配什么置信水平。
[0化6] 节点180还包括多个子节点190、192和194。主匹配节点190再一次指定要针对对应 于节点182的规则匹配的模式激发。在图4中所示的实施例中,模式是包括16位号码的正则 表达式。
[0057]可选(或确证)匹配节点194定义了可被匹配W达到支持所匹配的模式的置信水平 的确证证据。在图4中所示的实施例中,可选匹配194包括一种或多种非分割语言的关键词 的列表。当然,该列表可仅由取决于其在进行分析的内容内的上下文而可在意思中有歧义 的文字串的列表构成。从而,对应于节点180的模式指示,即使在节点190处正则表达式被匹 配,且在节点194中至少一个关键词被匹配,在置信节点192处标识的置信水平仅是70%,而 对于节点186处的分割语言模式,置信水平是90%。从而,即使在分割语言和非分割语言中 出现相同类型的匹配,对应于非分割语言的置信水平较低,因为确证证据较不肯定。
[005引节点182还包括多个子节点196、198和200。对应于节点182的模式所定义的参数类 似于对节点180示出的那些参数。从而,存在将正则表达式定义为16位号码的主匹配节点 196,该号码要在内容108中匹配W便激发该规则。然而,可选匹配节点200包括可位于内容 108中的两种不同类型的信息。第一种类似于节点194处所示的信息。即,一种或多种非分割 语言的一组关键词被列出。如果那些关键词中的任何一个位于内容108中,它们用作确证数 据。然而,可选匹配节点200还规定了确证证据可包括日期。例如,当谈论信用卡信息时,包 括有效期是非常常见的。从而,如果16位号码位于内容中,且特定的非分割关键词位于内容 108中,且日期位于该内容中,则该信息是信用卡信息的置信度可W增加。从而,即使它是用 于非分割语言,节点198表达的置信水平是80%。运是因为即使关键词匹配较不肯定,但是 它们还被日期匹配确证。
[0059] 应注意到,对应于非分割语言的两个模式(对应于图4中的节点180和182)可包括 由系统104呈送的所有非分割语言的关键词的列表。即,可选匹配节点194和200中的该组关 键词可包括来自汉语、日语、韩语、越南语等的文字串。从而,无论在内容108中使用哪一非 分割语言,在模式180和182两者中均可进行匹配。类似地,对应于模式178的分割语言的可 选匹配节点188可包括来自系统旨在操作的基本上所有分割语言的词语。因此,节点188可 包含英语、法语、德语、西班牙语等的关键词的列表。因此,节点178可操作于所有分割语言。
[0060] 还将注意到,图4中示出的结构170仅示出具有可用于操作于所有所需语言W便标 识信用卡的模式的单个规则。运仅是可使用的一种类型的结构,且其仅示出一个示例性规 贝1J。此外,所公开的主匹配W及可选匹配和置信水平仅是示例性的。也可使用不同的或附加 的主匹配W及可选匹配和置信水平。
[0061 ]图4A和4B示出可用于增强理解的两个特定用户界面示例。图4A示出用户界面显示 300,其中用户101正在生成电子邮件消息作为内容108。显示300中的电子邮件消息说明性 地具有收件人部分302、主题部分304和附件部分306、发送按钮308、消息正文部分310和用 户教育部分312。在图4A所示的实施例中,用户101已在正文部分310中生成了较短的电子邮 件消息,并在附件部分306内附加了文档。对该电子邮件消息,存在两个收件人,John Doe和 Jason Smith。
[0062]当用户正在生成电子邮件消息(该电子邮件消息对应于内容108)时,内容确定组 件112还分析内容108W确定它是否包含敏感材料。当电子表格附件被附加在部分306中时, 内容确定组件112还分析该附件。
[0063] 在图4A中所示的实施例中,组件112分析了附件部分306并发现它包含敏感记录。 从而,内容处理系统106在用户界面显示300上在部分312中生成通知314。通知314包括图标 316、头部318、描述320W及警告或指示322。图标316可与被显示在部分312中的遵守注释或 提示相关联。它说明性地包含某种图形图像,并且该图像可取决于在部分312中提及的特定 数据传播政策而改变。当然,图标316也可W是静态图标。
[0064] 头部注释部分318仅仅是指示将要对正在创作的电子邮件消息或附件应用数据传 播政策的头部。在该实施例中,描述部分320陈述"This e-mail contains sensitive records(该电子邮件包含敏感记录r。因此,描述部分320描述数据传播政策将要应用于该 电子邮件消息的原因。警告或指示部分322陈述"Ensure it is sent to authorized recipients(确保它将被发送给授权的收件人r。该部分向用户指示如何遵守正被实施的 特定数据传播政策。从而,在显示300中的部分312中,可见到部分318向用户通知数据传播 政策正被实施,而描述部分320和警告或指示部分322关于数据传播政策正被实施的原因 W 及关于如何遵守该政策教导用户101。运均在文档被创作W及它被显示给用户101的同时 在文档本身(电子邮件消息和附件)的上下文中进行。
[0065] 在图4A所示的实施例中,还看到附件324被突出显示。在一个实施例中,电子邮件 消息(内容108)的敏感部分说明性地由某种类型的视觉提示指示,该视觉提示在显示300上 区分该敏感部分。在图4A所示的实施例中,附件324说明性地用与用户界面显示300的其余 部分不同的颜色(诸如黄色)突出显示。运指示,附件324是电子邮件中包含描述部分320中 提及的敏感记录的那部分。
[0066] 图4B示出了可被生成的另一用户界面显示330。用户界面显示330上的多个项类似 于图4A中示出的那些项,并被类似地编号。然而,可注意到多个不同。从图4B可见到,敏感信 息被包含在电子邮件消息的正文310中,而非附件中。从而,当用户正在键入电子邮件消息 的正文310时,内容确定组件112正在分析内容并在正文310中标识信用卡号码。当然,出于 本实施例的目的,实际号码已用字符x、y和Z代替。因为电子邮件消息包含敏感信息,对该邮 件应用数据传播政策。在所示实施例中,部分312中的描述部分320不仅描述为何对该电子 邮件实施数据传播政策,而且还描述内容处理系统106将要采取的措施。遵守注释陈述 叮his email will be blocked by your organization since it contains sensitive content(该电子邮件将被你的组织阻塞,因为它包含敏感内容r。运不仅指示了为何实施 数据传播政策(因为电子邮件包含敏感内容),而且它还关于系统106将由于该政策将对该 电子邮件做什么(阻塞它)教导用户。
[0067] 图5是示出其中在创作系统402内运行的创作应用400内部署语言无关内容确定系 统104的更具体实施例的框图。创作系统402说明性地包括处理器404,该处理器404被用于 运行创作应用,W使得用户101可通过用户设备406与创作系统402交互。用户设备406可W 是任何类型的用户设备,诸如台式计算机、膝上型计算机、掌上或平板计算机、移动设备、智 能电话、个人数字助理、多媒体播放器等。作为一个特定示例,假定创作系统402正在运行文 字处理创作应用400,该应用允许用户101生成运行应用400的文字处理文档408。在图5所示 的实施例中,语言无关内容确定系统104和内容处理组件106皆被嵌入创作应用400内。从 而,当用户创作文档40別寸,系统104和组件106正在分析文档408的内容W确定其性质(诸 如它是否敏感),并且它们相应地处理该文档的内容(诸如通过对敏感信息实施数据传播政 策)。图5仅仅被提供来示出系统104和组件106可被嵌入用于创作内容的应用内。
[0068] 还应注意到环境100可被部署在各种不同的体系结构中。环境100的不同部分可被 部署在用户设备406上、或服务器上,或者它们可分开在一个或多个客户机和一个或多个服 务器之间。此外,环境100的各部分可W是基于云的服务,部署在基于云的体系结构中。
[0069] 云计算体系结构说明性地包括基础架构、平台和应用。云服务禪合到其它设备或 系统,诸如云服务器、台式计算机、平板计算机、膝上型计算机、蜂窝电话或智能电话、或其 它移动设备或个人数字助理。云计算提供了不要求最终用户知晓交付服务的系统的物理位 置或配置的计算、软件、数据访问和存储服务而非产品。在各个实施例中,云计算通过诸如 因特网之类的广域网使用合适的协议交付服务。例如,云计算提供者通过广域网交付应用, 并且它们可W通过web浏览器或任何其他计算组件被访问。环境100的软件或组件W及相应 的数据可被存储在云中远程位置处的服务器上。云计算环境中的计算资源可W被整合在远 程数据中屯、位置处或者它们可W是分散的。云计算基础架构可W通过共享数据中屯、来交付 服务,即使在用户看来它们是单个访问点。因此,在此所述的组件和功能可W从远程位置处 的服务提供者使用云计算体系结构来提供。或者,它们可W从常规的服务器提供,或者它们 可W直接地安装在客户端设备上,或按照其它方式。
[0070] 图6示出云计算环境中的语言无关内容确定系统104、内容处理系统106和内容源 系统102。所有运些系统均被示为在云420中。用户101访问它们作为通过用户设备406提供 的服务。
[0071] 图7是可用作用户设备(或客户机设备)406的手持或移动计算设备的一个说明性 实施例的简化框图,在用户设备406中可部署本发明的系统(或其部分),或者该用户设备 406可被用于访问本发明的系统。图8和9是手持或移动设备的示例。
[0072] 图7提供了可W是用户设备406并可运行环境100的组件、或者与环境100交互的 客户机设备16的组件的一般框图。在设备16中,提供了通信链路13,该通信链路允许手持设 备与其它计算设备通信,并且在一些实施例中提供用于诸如通过扫描来自动接收信息的信 道。通信链路13的示例包括:红外端口、串行/USB端口、诸如W太网端口之类的电缆网络端 口、W及允许通过一个或多个通信协议的通信的无线网络端口,所述通信协议包括为用于 提供对网络的蜂窝访问的无线服务的通用分组无线服务(GPRSKlXrtt和短消息服务,并包 括提供对网络的局域无线连接的802.11和802. Ub(WiFi)协议、和蓝牙协议。
[0073] 根据其他实施例,应用或系统(像系统100)在连接到SD卡接口 15的可移动安全数 字(SD)卡上被接收。SD卡接口 15和通信链路13沿总线17与处理器19进行通信,该总线21还 连接到存储器23和输入/输出(I/O)组件25、W及时钟27和位置系统727。
[0074] 在一个实施例中,提供了I/O组件23W促成输入和输出操作。针对设备16的各个实 施例的I/O组件23可W包括:输入组件,比如按钮、触摸传感器、接近传感器、话筒、倾斜传感 器W及重力开关;W及输出组件,比如显示设备、扬声器和或打印机端口。也可W使用其他 I/O组件23。
[0075] 时钟25说明性地包括输出时间和日期的真实时间时钟组件。时钟还可W说明性地 为处理器17提供定时功能。
[0076] 定位系统27说明性地包括输出设备16的当前地理位置的组件。运例如可W包括全 球定位系统(GPS)接收机、LORAN系统、航位推算系统、蜂窝S角测量系统、或者其他定位系 统。运例如还可W包括生成所期望的地图、导航线路和其他地理功能的测绘软件或导航软 件。
[0077] 处理器21存储操作系统29、网络设定31、应用33、应用配置设定35、数据存储37、通 信驱动程序39W及通信配置设定41。存储器21可W包括所有类型的有形易失性和非易失性 计算机可读存储器设备。其还可W包括计算机存储介质(下面描述)。存储器21存储计算机 可读指令,所述指令在被处理器17执行时致使处理器根据所述指令执行计算机实现的步骤 或功能。Portions of system 100,for example,can reside in memory 21.处理器 17可 W也被其他组件激活W促进它们的功能。
[0078] 网络设定31的示例包括诸如代理信息、因特网连接信息W及测绘之类的事物。应 用配置设定35包括为特定企业或用户定制应用的设定。通信配置设定41提供了用于与其他 计算机进行通信的参数,并且包括诸如GPRS参数、SMS参数、连接用户名和口令之类的项目。
[0079] 应用33可W是之前已经存储在设备16上的应用或是在使用期间安装的应用,但是 运些应用可W是操作系统29的一部分,或者也可W在设备16之外被托管。
[0080] 图8和图9提供了可用的设备16的示例,尽管也可W使用其他设备。在图8,提供智 能电话或移动电话45作为设备16。电话45包括:一组小键盘47,其用于拨打电话号码;显示 器49,其能够显示包括应用图像、图标、网页、照片和视频在内的图像;W及控制按钮51,其 用于选择在显示器上示出的项目。电话包括天线53,该天线53用于接收诸如通用分组无线 服务(GPRS)和IXdt之类的蜂窝电话信号W及短消息服务(SMS)信号。在一些实施例中,电 话45还包括容纳安全数字(SD)卡57的SD卡槽55。
[0081] 图9的移动设备是个人数字助理(PDA)59或多媒体播放器或平板计算机等等(在此 称为PDA 59) "PDA 59包括电感屏61,所述电感屏感测指示笔63(或其他指示器,诸如用户的 手指)在该指示笔被置于屏幕之上时的位置。运允许用户在屏幕上选择、突出显示和移动项 目W及绘图和书写。PDA 59还包括多个用户输入键或按钮(比如按钮65),其允许用户将显 示器61上所显示的菜单选项或其他显示选项滚屏,并且允许用户在没有接触显示器61的情 况下改变应用或选择用户输入功能。尽管未被示出,但是PDA 59可W包括允许与其他计算 机进行无线通信的内置天线和红外发射机/接收机、W及允许对其他计算设备的硬件连接 的连接端口。运样的硬件连接通常是通过经由串行或USB端口连接到其他计算机的支架来 进行的。因此,运些连接是非网络连接。在一个实施例中,移动设备59还包括容纳SD卡69的 SD卡槽67。
[0082] 注意,设备16的其他形式是可能的。示例包括平板计算设备、音乐或视频播放器W 及其他手持计算设备。
[0083] 图10是其中可部署(例如)系统100的计算环境800的一个实施例。参考图10,用于 实现一些实施例的示例性系统包括计算机810形式的通用计算设备。计算机810的组件可 W包括,但不限于,处理单元820(可W包括处理器114)、系统存储器830和将包括系统存储 器在内的各种系统组件禪合至处理单元820的系统总线821。系统总线821可W是若干类型 的总线结构中的任一种,包括使用各种总线体系结构中的任一种的存储器总线或存储器控 制器、外围总线、W及局域总线。作为示例而非限制,运样的体系结构包括工业标准体系结 构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA化ISA)总线、视频电子技术标准协会 (VESA)局部总线和外围部件互连(PCI)总线(也称为夹层(Mezzanine)总线)。参考图1描述 的存储器和程序可被部署在图10的相应部分中。
[0084] 计算机810通常包括各种计算机可读介质。计算机可读介质可W是能由计算机810 访问的任何可用介质,而且包含易失性和非易失性介质、可移动和不可移动介质。作为示例 而非限制,计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质不同于且 不包括已调制数据信号或载波。计算机存储介质包括硬件存储介质,该硬件存储介质包括 W用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的任何方法和技 术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括,但不限于, 尺八1、301、66?1?01、闪存或其它存储器技术八0-1?01、数字多功能盘(0¥0)或其它光盘存储、磁 带盒、磁带、磁盘存储或其它磁性存储设备、或能用于存储所需信息且可W由计算机810访 问的任何其它介质。通信介质通常具体化计算机可读指令、数据结构、程序模块或传输机制 中的其他数据,并包括任何信息递送介质。术语"已调制数据信号"是指使得W在信号中编 码信息的方式来设定或改变其一个或多个特征的信号。作为示例而非限制,通信介质包括 诸如有线网络或直接线连接之类的有线介质,W及诸如声学、RF、红外及其他无线介质之类 的无线介质。上述任何组合也应该包括在计算机可读的介质范围内。
[0085] 系统存储器830包括易失性和/或非易失性存储器形式的计算机存储介质,如只读 存储器(R0M)831和随机存取存储器(RAM)832。包含诸如在启动期间帮助在计算机810内的 元件之间传输信息的基本例程的基本输入/输出系统833(BIOS)通常存储在ROM 831中。RAM 832通常包含处理单元820可立即访问和/或当前正在操作的数据和/或程序模块。作为示 例而非限制,图10示出了操作系统834、应用程序835、其他程序模块836和程序数据837。
[0086] 计算机810还可W包括其它可移动/不可移动、易失性/非易失性计算机存储介质。 仅作为示例,图10示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器 841,从可移动、非易失性磁盘852中读取或向其写入的磁盘驱动器851,W及从诸如CD ROM 或其他光学介质等可移动、非易失性光盘856中读取或向其写入的光盘驱动器855。可在示 例性操作环境中使用的其它可移动/不可移动、易失性/非易失性计算机存储介质包括但不 限于,磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器841通 常通过诸如接口 840之类的不可移动存储器接口连接到系统总线821,并且磁盘驱动器851 和光盘驱动器855通常通过诸如接口 850之类的可移动存储器接口连接到系统总线821。
[0087] W上讨论并在图10中示出的驱动器及其相关联的计算机存储介质为计算机810提 供了对计算机可读指令、数据结构、程序模块和其他数据的存储。在图10中,例如,硬盘驱动 器841被示为存储操作系统844、应用程序845、其他程序模块846和程序数据847。注意,运些 组件可与操作系统834、应用程序835、其它程序模块836和程序数据837相同,也可与它们不 同。在此操作系统844、应用程序845、其它程序模块846W及程序数据847被给予了不同的编 号,W说明至少它们是不同的副本。
[0088] 用户可W通过诸如键盘862、话筒863W及诸如鼠标、跟踪球或触摸垫等定点设备 861等输入设备来将命令和信息输入至计算机810中。其它输入设备(未示出)可W包括操纵 杆、游戏手柄、圆盘式卫星天线、扫描仪等。运些W及其它输入设备通常通过禪合到系统总 线的用户输入接口860连接到处理单元820,但也可通过诸如并行端口、游戏端口或通用串 行总线化SB)之类的其它接口和总线结构来连接。监视器891或其它类型的显示设备也经由 诸如视频接口 890之类的接口连接至系统总线821。除了监视器W外,计算机还可包括诸如 扬声器897和打印机896之类的其它外围输出设备,它们可通过输出外围接口 895来连接。
[0089] 计算机810使用到诸如远程计算机880等一个或多个远程计算机的逻辑连接在网 络化环境中操作。远程计算机880可W是个人计算机、手持设备、服务器、路由器、网络PC、 对等设备或其它常见的网络节点,且一般包括W上关于计算机810描述的多个或所有的元 件。图10中所描绘的逻辑连接包括局域网(LAN)871和广域网(WAN)873,但还可包括其他网 络。此类联网环境在办公室、企业范围的计算机网络、内联网和因特网中是常见的。
[0090] 当在LAN联网环境中使用时,计算机810通过网络接口或适配器870连接到LAN 871。当在WAN联网环境中使用时,计算机810通常包括调制解调器872或用于通过诸如因特 网等WAN 873建立通信的其它手段。调制解调器872可W是内置的或外置的,可经由用户输 入接口860或其它适当的机制连接到系统总线821。在联网环境中,相关于计算机810所示的 程序模块或其部分可被存储在远程存储器存储设备中。作为示例,而非限制,图10示出了远 程应用程序885驻留在远程计算机880上。应当理解,所示的网络连接是示例性的,并且可使 用在计算机之间建立通信链路的其它手段。
[0091] 尽管用结构特征和/或方法动作专用的语言描述了本主题,但可W理解,所附权利 要求书中定义的主题不必限于上述具体特征或动作。更确切而言,上述具体特征和动作是 作为实现权利要求的示例形式公开的。
【主权项】
1. 一种计算系统,包括: 内容确定组件,被配置为: 访问定义被用于将内容标识为第一类型的内容的模式的一组规则,每一规则具有能够 被分别匹配到以分割语言书写的文本内容和以非分割语言书写的文本内容的分割模式和 非分割模式; 针对每一规则中的所述模式,从源文档匹配文档的内容,而无论所述文档的内容是以 分割语言书写还是以非分割语言书写,以确定所述文档的内容是否是所述第一类型的内 容; 基于所述文档的内容是匹配分割模式还是匹配非分割模式,生成与关于所述文档的内 容是否是所述第一类型的内容的确定相对应的置信分数;以及 数据传播安全组件,被配置为: 基于所述关于所述文档的内容是否是所述第一类型的内容的确定以及相对应的置信 分数,标识数据传播规则;并且 基于所标识的数据传播规则,控制所述文档的内容通过计算机网络的传播。2. 如权利要求1所述的计算系统,其中,所述第一类型的内容包括敏感内容。3. 如权利要求1所述的计算系统,其中,所述内容确定组件被配置为:与所述文档的内 容匹配非分割模式相比较,如果所述文档的内容匹配分割模式,则向所述确定分配较高的 置信水平。4. 如权利要求3所述的计算系统,其中,所述规则中的至少一个规则包括主匹配部分和 确证匹配部分,并且其中,所述内容确定组件被配置为:首先针对所述主匹配部分来匹配所 述文档的内容,并且之后,如果所述文档的内容匹配所述主匹配部分,则针对所述确证匹配 部分来匹配所述文档的内容。5. 如权利要求4所述的计算系统,其中,所述内容确定组件被配置为:如果所述文档的 内容匹配所述确证匹配部分中的多个匹配模式中的多于一个匹配模式,则分配增加的置信 水平。6. 如权利要求1所述的计算系统,其中,所述源文档包括电子消息。7. 如权利要求6所述的计算系统,其中,所述电子消息包括电子邮件消息,并且所述文 档的内容包括下列项中的至少一个:电子邮件主体或者电子邮件附件。8. 如权利要求6所述的计算系统,其中,所述数据传播安全组件被配置为:通过下列项 中的至少一项来控制所述文档的内容的传播: 阻塞所述文档的内容被发送到潜在接收方; 显示指示所述文档的内容包含敏感材料并且所述文档内容将被阻塞被发送到潜在接 收方的消息;或者 显示指示所述文档的内容包含敏感材料并且指示所述用户如何基于所述数据传播规 则来进行处理的消息。9. 如权利要求1所述的计算系统,其中,所述内容确定组件被配置为:针对规则中标识 下列项中的至少一项的模式来匹配所述文档的内容:个人信息、信用卡信息、或者社会保障 号码信息。10. -种用于控制通过计算机网络传播文档的内容的计算机实现的方法,所述方法包 括: 访问定义被用于将内容标识为第一类型的内容的模式的一组规则,每一规则具有能够 被分别匹配到以分割语言书写的文本内容和以非分割语言书写的文本内容的分割模式和 非分割模式; 针对每一规则中的所述模式,从源文档匹配文档的内容,而无论所述文档的内容是以 分割语言书写还是以非分割语言书写,以确定所述文档的内容是否是所述第一类型的内 容; 基于所述文档的内容是匹配分割模式还是匹配非分割模式,生成与关于所述文档的内 容是否是所述第一类型的内容的确定相对应的置信分数; 基于所述关于所述文档的内容是否是所述第一类型的内容的确定以及相对应的置信 分数,标识数据传播安全规则;以及 基于所标识的数据传播安全规则,控制所述文档的内容通过计算机网络的传播。11. 如权利要求10所述的计算机实现的方法,其中,所述第一类型的内容包括敏感内 容。12. 如权利要求10所述的计算机实现的方法,其中,生成置信分数包括: 如果所述文档的内容匹配分割模式,则生成较高的置信分数,并且如果所述文档的内 容匹配非分割模式,则生成较低的置信分数。13. 如权利要求10所述的计算机实现的方法,其中,控制传播包括: 如果所述文档的内容是具有足够的相对应的置信分数的所述第一类型的内容,则根据 第一组处理规则来处理所述文档的内容;并且 否则,根据第二组处理规则来处理所述文档的内容。14. 根据权利要求10所述的计算机实现的方法,其中,每一模式包括主匹配部分和确证 匹配部分,并且其中,匹配包括: 首先针对给定模式的主匹配部分来匹配所述文档的内容; 如果所述文档的内容匹配所述给定模式的所述主匹配部分,则针对所述确证匹配部分 来匹配所述文档的内容;并且 如果所述文档的内容匹配所述给定模式的所述确证匹配部分,则向所述匹配分配第一 置信分数。15. 如权利要求14所述的计算机实现的方法,其中,所述给定模式的所述确证匹配部分 具有多个确证模式,并且其中,针对所述确证匹配部分来匹配所述文档的内容包括: 针对多个确证匹配模式中的每一个,匹配所述文档的内容;并且 如果所述文档的内容匹配多于一个确证匹配模式,则增加所述置信分数。16. 如权利要求10所述的计算机实现的方法,其中,每一规则标识不同种类的信息,当 被包括在所述文档的内容中时,所述不同种类的信息将所述文档的内容标识为所述第一类 型的内容。17. 如权利要求16所述的计算机实现的方法,其中,每一规则标识不同种类的信息,当 被包括在所述文档的内容中时,所述不同种类的信息将所述文档的内容呈现为敏感内容。18. 如权利要求17所述的计算机实现的方法,其中,匹配包括: 针对规则中标识信用卡信息的模式,匹配所述文档的内容。19. 如权利要求17所述的计算机实现的方法,其中,匹配包括: 针对规则中标识社会保障号码信息的模式,匹配所述文档的内容。20. 如权利要求17所述的计算机实现的方法,其中,匹配包括: 针对规则中标识个人信息的模式,匹配所述文档的内容。
【文档编号】G06F21/62GK106021237SQ201610389876
【公开日】2016年10月12日
【申请日】2013年2月1日
【发明人】M·甘地, C·拉曼纳, V·桑卡拉纳拉亚南, 菲约 R·庞特斯
【申请人】微软技术许可有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1