针对短不相关文本的检测的上下文感知方法

文档序号:9524182阅读:445来源:国知局
针对短不相关文本的检测的上下文感知方法
【技术领域】
[0001] 本文公开的主题一般设及用于确定和移除不相关文本的系统和方法,并且, 尤其设及基于周围多个文本或在缺少足够数量的文本时从类似文本中确定的传递 (transferred)上下文来确定短文本是否不相关。
【背景技术】
[0002] 流行的在线内容提供者每天吸引数百万的访问者。内容提供者可提供具有各种访 问者可读取的内容的一个或多个网页。该一个或多个网页可配置成允许访问者来提供对于 该一个或多个网页的主题的反馈(例如评论)。例如,网页可W是新闻文章,并且在线内容 提供者可允许访问者来提供关于文章的评论。
[0003] 然而,为了促进访问者间的讨论,在线内容提供者可能不会掩蔽(例如节制)由访 问者留下的评论。在运种情况下,恶意访问者(例如垃圾邮件制作者或其他不可靠访问者) 可能留下与给定网页的话题不相关的评论。运些评论可包括离家工作的提议、产品推广、项 目推广、广告、营销材料W及其他运样的评论。由于它们贬低由在线内容提供者推进的开放 论坛并驱赶合法访问者(例如留下与网页话题相关评论的访问者)离开,运些类型的评论 是有问题的。运反过来减少至在线内容提供者的总体访问者通信量。由于在线内容提供者 典型地依赖访问者通信量来产生收入,合法访问者的减少影响在线内容提供者来产生运样 的收入。
【附图说明】
[0004] -些实施例通过示例的方式来例示,并不限于附图中的图形。
[000引图1A-1B是例示在针对由在线内容提供者公布的给定文章的评论集合中不相关 评论的比例的图表。
[0006] 图2是依照示例实施例的系统框图,其包括用户装置和社交网络服务器。
[0007] 图3依照示例实施例、例示在在线内容提供者公布的文章之后的不相关评论。
[0008] 图4A-4C依照示例实施例、例示用于确定在所公布文章之后的给定评论是否不相 关的各种技术。
[0009] 图5是依照示例实施例、例示社交网络服务器的各种组件的框图。
[0010] 图6A-6E是例示针对各种语言模型的准确性改进的图表,其中改进针对第一集合 的文章使用依照示例实施例确定的、第一先天上下文感知特征。
[0011] 图7A-7E是例示针对各种语言模型的准确性改进的图表,其中改进针对第二集合 的文章使用依照示例实施例确定的、第二先天上下文感知特征。
[001引图8A-8B是例示精度-召回率曲线的图表,其中该精度-召回率曲线依照示例实 施例基于先天上下文感知特征。
[0013]图9A-9C是例示针对给定话题模型的准确性改进的图表,其中改进基于评论数量W及依照示例实施例确定的、所确定传递上下文感知特征。
[0014] 图lOA-lOB例示依照示例实施例用于确定从评论集合中选择的评论是否不相关 的方法。
[0015] 图11是例示机器的组件的框图,其中该机器的组件依照示例实施例配置成从机 器可读介质中读取指令。
【具体实施方式】
[0016] 检测对文章或公告的不相关评论是困难的。第一,评论通常非常短,并且给定运样 有限的信息,捕获评论的语义和相关性是困难的。
[0017] 第二,在不同上下文的情况下,相同的单词能够具有完全不同的含义。例如,分别 给定关于房地产和NASA的火星探测计划的两个新闻文章,在运些文章的评论中使用的术 语"space"能够指"作为营业场所租用或出售的区域"或"超出地球大气层的物理宇宙",其 是两个完全不同的概念。特别地,评论的上下文在定义评论的语义和相关性中具有重要作 用。
[0018] 第Ξ,在现实世界应用中,存在不相关评论在文章发布后立即公布的情况,其中仅 具有少量评论。为了例示,图1A和1B是例示在针对由在线内容提供者公布的给定文章的 评论集合中不相关评论的比例的图表。特别地,图1A和1B演示大量文章在第一批10个评 论中(如图1A所示)或在第一批20个评论中(如图1B所示)具有至少一个不相关评论。 运些不相关评论越早被移除,至在线内容提供者的访问者将被转移得越少。然而,在早期场 景(例如,在从文章公布后的相对短时间内)测量评论的上下文感知语义和相关性能够是 困难的,因为可能存在少于足够数量的评论来为正被讨论的评论提供上下文。
[0019] 所公开的系统和方法针对导出短文本的上下文依赖(例如,上下文感知)的语 义,使得与在不考虑上下文(上下文不可知)情况下导出的那些相比,相关性测量更准确。 通过评论的语义环境(周围文本)确定评论的上下文依赖的语义(诸如上述示例中的词 "space"的变化的含义)。运个公开从事于将评论的"先天(native)上下文"构建为针对 相同文章和/或公告所公布的评论集合,因为运些评论在诸如语言、话题、术语等的各种属 性之中更可能彼此相似。所构建的先天上下文可与一种或多种语言模型禪合来从运样短评 论中导出上下文依赖的语义。
[0020] 在一个实施例中,所公开系统和方法采用(leverage)先天上下文作为主体并使 用各种语言模型,诸如潜在狄利克雷分配("LDA")或奇异值分解("SVD"),来找到评论的 上下文依赖的潜在话题。在本文构建的先天上下文假设存在针对一个文章所公布的足够的 评论来充当评论的上下文。足够评论的数量(例如评论阔值)可W事先预确定,并且,在各 种实施例中,可W是特定数量的评论、所公布的评论的比例、所公布评论的总字数,W及其 他运样的度量。
[0021] 在文章被公布后不久,一般有相对少的评论。对于大多数语言模型而言,具有少量 评论可能难于用来确定与运样的评论关联的话题。然而,针对具有与正被讨论的文章相类 似话题的文章所公布的评论更可能具有类似的语言用法。例如,在关于"房地产"的文章之 后的评论更可能将术语"space"用于"住宅/商业区域"而不是"太空探索"的意义。因此, 在一个实施例中,所公开的系统和方法从事于从类似话题的其他文章中传递类似短文本来 构建"传递上下文",其继承先天上下文的力量但避免了上下文信息的稀疏。已构建传递上 下文的情况下,所公开语言模型可随后导出上下文依赖的语义来确定与正被讨论的文章关 联的给定评论是否是相关的。
[0022] 鉴于前述内容,W下示例系统和方法针对于确定在文章或公告之后的评论(例 如,短段落文本)是否与文章或公告不相关。特别地,所公开系统和方法采用针对评论集合 的所确定上下文来基于所确定上下文确定给定评论是否与该评论集合不相关。此外,所确 定上下文可W是从该评论集合中确定的先天上下文,或从话题相似的第二评论集合中确定 的传递上下文。运样所确定上下文的技术效果,无论其是先天的或是传递的,是存在通过语 言分类器确定从评论集合中选择的评论是否不相关的总体精确性的增加。
[0023] 在一个实施例中,运个公开提供用于检测不相关文本的方法,其中该方法包括从 多个文章中选择兴趣文章,该文章与先前从已访问该文章的一个或多个实体中提供的第一 批多个评论关联,W及提取第一批多个评论。响应于第一批多个评论超过评论阔值的确定, 该方法还包括基于上下文感知话题分布W及所选评论与所选文章之间的相似性为从所提 取第一批多个评论中选择的评论确定上下文感知特征,使用所确定上下文感知特征将文本 分类器应用于所提取一个或多个评论,该文本分类器提供来自所提取多个评论的给定评论 是否不相关的指示,W及响应于所应用的文本分类器,基于所提供指示对给定评论采取行 动。
[0024] 另外,响应于所提取一个或多个评论并未超过评论阔值的确定,该方法也包括从 选自于多个文章的文章子集中提取第二批多个评论,所提取第二批多个评论与所提取第一 批多个评论话题相似,定义传递上下文为所提取第一批多个评论和所提取第二批多个评论 的组合,基于传递上下文及所选评论与所选文章之间的相似性为选自于第一批多个评论中 的评论确定传递上下文感知特征,使用所确定传递上下文感知特征将文本分类器应用于所 提取第一批多个评论,该文本分类器提供来自所提取第一批多个评论中的给定评论是否不 相关的指示,W及响应于所应用的文本分类器,基于所提供指示对给定评论采取行动。
[0025] 在该方法的另一实施例中,该方法包括确定与传递上下文关联的话题的传递上下 文感知话题分布,其中,传递上下文感知特征的确定是基于所确定的传递上下文感知话题 分布。
[0026] 在该方法的又一实施例中,该方法包括为第一批多个评论确定术语-评论矩阵, 术语-评论矩阵识别存在于第一批多个评论中的多个术语,W及将矩阵因子分解应用到术 语-评论矩阵来获取与第一批多个评论关联的话题的上下文感知话题分布。
[0027] 在该方法的又一实施例中,应用到术语-评论矩阵的矩阵因子分解包括非负矩阵 因子分解。
[0028] 在该方法的又一实施例中,所选评论与所选文章之间的相似性定义为
其中: /、;;:{、;是通过使用单值分解矩阵因子分解来分解术语-评论矩阵所获得的矢量-矢 量变换; 是从选自于多个文章中的第d个文章的所提取一个或多个评论中选取的第k个评 论;化及 1?定义为
其中 Qd是针对选自于多个文章中的第d个文章从所提取一个或多个评论来构建的术语-文 档矩阵; q是从所提取一个或多个评论中选取的评论;W及Cd是与所选文章关联的所提取一个或多个评论的数量。
[0029] 在该方法的另一实施例中,所采取行动包括基于超过先前设立的阔值的指示将给 定评论识别为不相关评论,W及移除给定评论与所选文章的关联。
[0030] 在该方法的又一实施例中,所采取行动包括基于超过第一先前设立的阔值的指示 将给定评论识别为不相关评论,W及基于未超过第二先前设立的阔值的指示来识别给定评 论W供由审查者进行的节制(moderation)。
[0031] 本公开也描述用于检测不相关文本的系统。在一个实施例中,该系统包括具有储 存于其上的计算机可执行指令的非暂时性、计算机可读介质,W及已执行计算机可执行指 令、与非暂时性、计算机可读介质通信的一个或多个处理器,其配置成从多个文章中选择兴 趣文章,所选文章与先前从已访问所选文章的一个或多个实体中提供的第一批多个评论关 联,W及提取该第一批多个评论。该一个或多个处理器还配置成,响应于第一批多个评论超 过评论阔值的确定,基于上下文感知话题分布及所选评论与所选文章之间的相似性为从所 提取第一批多个评论中选择的评论确定上下文感知特征,使用所确定上下文感知特征将文 本分类器应用于所提取一个或多个评论,文本分类器提供来自所提取多个评论中的给定评 论是否不相关的指示,W及响应于所应用的文本分类器,基于所提供的指示对给定评论采 取行动。
[0
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1