用于改编文本内容以适应在线社区的语言行为的方法和系统的制作方法

文档序号:6360158阅读:185来源:国知局
专利名称:用于改编文本内容以适应在线社区的语言行为的方法和系统的制作方法
技术领域
本发明涉及在线社区内的组群电子通信。
背景技术
在这里,词语“在线”是指简单使用计算和电子设备与社区的成员进行交互。可经由因特网(Web 2.0)如邮件列表、讨论论坛或社交网络,或者经由内联网/以太网如公司的合作工作台、实践社区等等接入在线社区。在线社区又被称为虚拟社区,其由一个或多个管理员创建,表示组群(集体)电子通信场所,该电子通信场所在对于特定主题感兴趣的那些人之间是非实时(异步交互)的,其可以例如具有社会的、商业的或教育的属性。对该话题感兴趣的任意用户可以加入该社 区并且从而与它的成员交互。在这里,他们可以交换(发表和/或观看)文本内容、多媒体或更一般而言语音、数据。在一些在线社区中,仅通过口令标识的注册用户可以发表和/或观看内容。这些在线社区主要是基于语言的,因为在某种意义上书写的电子通信大体上是用于用户组群形成社区的唯一方式。这是因为,除了引起成员兴趣的话题之外,通常通过组群在该组群电子通信场所中改编并且实践特定的、交互式的语言行为来创建在线社区。这使得在在线社区中一些语言实践随着时间的推移变得仪式化,从而标记属于该社区的等级。换句话说,属于一个在线社区表明其自身共享词汇、语言登记簿、语言学惯例、缩写、首字母缩写、通信协议、代码、句法特征以及被它的成员以及被常规的语言学规范统一地识别和期望的概念。作为实例,在一些在线社区中-法国的首都被称为“埃菲尔铁塔城”;(在例如内联网上的合作工作台中的)团队领导被称为“老板”;表达“长期演进”被称为“LTE”,词语“早上好”被称为“gm”,对立的足球队被称为“失败者”,由该在线社区组织的游戏的获胜队被称为“国王”;-消息用“大家好”开始,并且问题用“先行谢过”或“谢谢您的回答”结束;-使用非正式T论坛(如法语或西班牙语)。应该注意,这些语言实践本身可能有一些语言学上的正当性,但是在概念、词汇表并且特别是语义学中可以发现它们是专用于该在线社区的。这是仅由在线社区的常规成员共享的语言文化。在这种情况下,其被视为生态系统。因此,到在线社区的社区连接涉及改编并且使用该社区专用的语言和公共代码。对于特定在线社区中的新成员,只有所书写的通信(消息、注解、评论、问题或更一般性而言电子文本)的措词如该社区的常规成员所期望那样时,发表该书写的通信才能成功。等效地,只有该新成员识别(解码)该在线社区的语言实践,才能在阅读时最佳地理解由该在线社区公布的书写通信。否则,任意新成员将感觉被该在线社区排斥。这是因为当用户加入在线社区时他或她面临的其中一个主要障碍无疑是变成该社区的“真实”成员所需要的改编努力。该改编通过具体而言鉴于该社区的语言行为而快速理解和/或正确措词书写文本,来表明其自身。由在线社区的成员对于由新成员(其因此还不熟悉该社区的词汇表和语义学)发表的消息(具体而言是问题)作出解释可能花费大量时间并且因此改变该社区的响应率。新用户(或新成员)还将需要更多时间来理解来自该在线社区的通信。

发明内容
本发明的一个目的在于改正前述缺点。本发明的另一个目的在于向在线社区的用户建议一种新的增值服务。本发明的另一个目的在于将书写的电子通信的内容改编适应(对准)在线社区的语言行为。
本发明的另一个目的在于保证在线社区的通信场所的内容的统一表示。本发明的另一个目的在于促进并且改善在公司的网络中进行信息共享的效率。本发明的另一个目的在于有助于新成员融入到在线社区。本发明的另一个目的在于从语言学观点表征在线社区。本发明的另一个目的在于促进在线社区的兴旺发达。本发明的另一个目的在于促进新用户出现属于虚拟社区的感觉。本发明的另一个目的在于建议一种促进在线社区之中的通信的出现的社会技术设备。本发明的另一个目的在于提高组群电子通信的效率。本发明的另一个目的在于标识在线社区的语言行为。为此目的,根据第一个方面,本发明涉及一种用于改编文本内容以适应在线社区的语言行为的方法,其中该方法包括以下步骤-建立该在线社区的语义学标记云;-基于该语义学标记云,确定该文本内容的至少一个概念的至少一个语义学邻域;-在所确定的语义学邻域的辅助之下重新表达该文本内容。根据第二个方面,本发明涉及一种用于改编文本内容以适应在线社区的语言行为的设备,该设备包括以下模块-语义学分析器,其被配置为建立该在线社区的语义学标记云;-语义学邻近度计算器,其被配置为基于该语义学标记云,确定至少一个文本内容概念的至少一个语义学邻域;-文本内容的语义学重新表达器,其使用所确定的语义学邻域。根据第三个方面,本发明涉及一种实现在存储介质上的计算机程序产品,该计算机程序产品可以被实现在计算机处理单元之中并且包括用于实现上述方法的指令。


在阅读了参考附图所完成的优选实施方式的以下描述之后,本发明的其他特点和优点将变得更加清楚和完整,其中
图I示意性地描述了用于语义学上改编一条文本内容以适应特定语言行为的设备的模块;图2示意性地描述了用于语义学上改编一条文本内容以适应特定语言行为的设备的非限制的功能架构。
具体实施例方式图I描述了要与在线社区51交互的用户20。这里,“与在线社区交互”是指在该社区的电子通信空间发表和/或读取电子文本内容。作 为非限制性的实例,在线社区51是-社交网络如“Facebook ”、“Twitter ”、“mySpace ” 或 “hi5 -个人索引服务,又被称为folksonomy(社交标记)如“delicious ”、“youtube ”、“flickr ” 或“yoolink ” ;-在线论坛如 www. commentcamarche. net、http://forum, hardware, fr/ 或http: //voyageforum. com/ ;或-内联网或以太网如合作工作台上的用户的组群。在用户20与一个在线社区51交互时,由语义学改编器10辅助他或她。语义学改编器10被配置为做出由用户生成的关于在线社区51的语言实践的文本内容的语义学投影。该语义学投影旨在最佳地改编用户20希望发表的文本内容,以适应在线社区51的语言实践。为此目的,语义学改编器10装配有多个模块,包括语义学分析器I、语义学邻近度计算器2和语义学重新表达器3。语义学分析器I被配置为建立在线社区51的标记(或关键字)的语义学云。为此,语义学分析器I进行在线社区51中所公布的文本交换的常规分析。这些交换通常被组织成讨论线程(例如论坛中的单个讨论主题、“Flickr ”中的单个集合、合作工作台中的单个项目、由“Facebook ”上的好友组群公布的一条内容)。由语义学分析器I建立的该语义学标记云是在线社区51的特征术语的语义学浓缩。这些术语配备有至少一个度量以强调它们在在线社区51的语言实践中的重要性。作为实例,一个度量可以是在交互中使用已经被发表在该在线社区51之中的特定概念的频率。在该情况下,由用于反映每个概念在该在线社区51中的出现的权重来表征每个概念。在变形中,或者相组合地,该度量还可以涉及其他属性,如来自信息论的香农(Shannon)分布,其反映一个概念所包括的信息量。这样,该语义学标记云不仅仅是在在线社区51中最常用的术语的列表,而是它的真实的语义学浓缩。作为实例,语义学标记云可以同时反映一条文本内容的最常见的概念以及它们在该内容中的语义学邻域(树形结构中的语义学标记云、3D语义学标记云)。这些概念可以涉及例如-礼节的规则(消息的引入和结束、招呼消息、先行谢过);-缩写;-语言登记簿和词汇表(例如商业词汇表、常用/正式/熟知/流行/俚语登记簿);
-派生语言学索引(微笑符或表情);-表达标点(以大写字母书写,复制相同的符号(例如多个感叹号)以传达意见或感觉的强度);-交互的语用学(姓的使用,非正式T格式的使用)。有利地,语义学标记云能够仅在专用于在线社区51的语言实践的帮助之下概括在线社区51的复杂内容。换句话说,语义学分析器I能够基于在在线社区51通常实施的情况来获得在线社区51的语义学图像。与用户希望在在线社区51中发表/阅读的任意文本内容独立地获得在线社区51的语义学标记云。语义学邻近度计算器2可操作来基于由语义学分析器I建立的语义学标记云来提供由用户20基于预定义的语义学邻近度报告(通过同义、类同义、或主观逻辑分析等等) 所生成的一条文本内容的语义学邻域。语义学邻近度计算器2被配置为在语义学标记云中确定由分别最能代表在用户20生成的文本内容中所标识的概念的术语/概念构成的语义学邻域。换句话说,每个确定的语义学邻域优选地包括在语义学上接近用户生成的文本内容中的所标识的概念的多个概念。优选地,语义学邻近度计算器2使用本体元数据4(如WordNet 、SentiWordNet⑧、Conc印tNet 的那些元数据)和/或由用户20预先定义的或自动生成的词汇表。该元数据4辅助语义学邻近度计算器2标识由用户20生成的文本内容中所包括的概念,这些概念的相应的语义学邻域被假设在语义学标记云中发现。更通常而言,语义学邻近度计算器2是一种“语义学代理”,因为它的功能是响应于关于一条特定文本内容的请求来提供至少一个语义学邻域。语义学代理是导向在线通信平台或更具体而言导向社交系统(社交网络和社交“标记”系统如“Facebook ”或“Flickr ”)的一条本体元数据或网关元数据。语义学重新表达器3能够-根据语义学邻近度计算器2,从语义学标记云中获取语义学上最接近由用户20生成的内容的术语/概念的那些术语/概念;并且-在获取的术语/概念的帮助之下,相应地重新表达由用户20生成的文本内容。因此由用户20生成的内容在从语义学标记云选择的语义学邻域的帮助之下被改编,并且随后被提供给用户20。在用户20拒绝改编的文本内容的情况中,优选地向该用户提供与前一个改编不同的新改编。为此,语义学重新表达器3通过继续执行语义学邻近度的测量,针对用户20生成的内容在由语义学邻近度计算器2确定的语义学邻域的内容的层次处进行查找,其步骤包括-估计由用户20生成的概念£与在线社区51的语义学云塑之间的语义学距离;-在概念£的附近搜索另一个概念使得^与£之间的语义学距离最小;-推荐概念^来代替概念£,^更适合该社区的语言行为。已经描述了用于测量语义学距离的不同技术,例如在(Langages et Modeles Objets 07 Toulouse, 2007 发表的 Μ· Z MAALA 等人的 “Distance semantique entreconcepts definis en ^5")中。也可以使用语义学相似性或者语义学关系的程度的测量。参考图2,其示出了用户与在线社区51的交互的过程。在语义学上改编一条文本内容以适应在线社区51的语言行为以以下方式支持前述功能模型-在任意发表包括文本评论21的内容之前,响应于用户20的请求或者自动地向设备发送该评论,以改编文本内容以适应在线社区51的语言行为(图2中的步骤11);-使用本体元数据4(图2中的步骤12),语义学邻近度计算器2标识评论21中的至少一个概念;
-再次使用本体元数据4(图2中的步骤12),语义学邻近度计算器2在在线社区51的语义学标记云31中搜索(图2中的步骤13)该文本评论21中所标识的每个概念的至少一个语义学邻域;-在语义学重新表达器3的帮助之下,根据语义学邻近度计算器2获取语义学上最接近的标记云概念31,然后将其提供给评论21,从而产生被改编为适应在线社区51的语言行为的评论22。向用户20发送改编后的评论22(图2中的步骤14);-用户自由地完全地或部分地赞成或取消对评论21做出的改变(图2中的步骤15)。优选地,立刻为用户20强调在由用户20生成的原始内容中修改的概念,以便助于识别所做出的改变,从而加速用户30对于这些概念20的认识,这使得新用户20出现属于在线社区51的感觉。应该注意,被改编为适应目标在线社区的语言行为的文本内容仅仅是一种建议,用户20可以忽视或拒绝。换句话说,在没有用户的明确赞成的情况下不能直接发表编辑后的文本内容。此外,上述方法还可以用于根据在线社区的应用行为来阐明该社区的通信空间中的一条标识的文本内容(例如被选择的)。作为实例,使用专用于在线社区的词典能够向不熟悉该社区的任意其他用户(例如与该社区的成员的年龄非常不同的用户)阐明由该社区公布的一条文本内容。由于改进和方便了不同网络术语之间的交流,所述方法特别可应用于商业网络中。由于该方法,商业间合作工作台的、具有不同的商业词汇表/文化的成员将具有更好的相互理解。该方法还能够协调所使用的词汇表(例如相同的缩写、相同的技术术语)。上述方法展示了一定数量的优点。其能够将一条文本电子内容的本体与目标在线社区的本体对准,这使得其能直接被该社区的成员理解。可以将该设备实现成与Web浏览器相关联的扩展或功能的形式并且它们的使用可以是自动的或者由用户发起的。可以例如在与原始文本内容相同的位置中、在新窗口 /标签或在实际气泡中显示由该设备改编的文本内容,同时-使其优选地能够区分所做的改变;并且-使得用户能够赞成或忽略该建议(或者甚至禁止该改编扩展/功能)。
权利要求
1.一种用于改编文本内容以适应在线社区的语言行为的方法,其中所述方法包括以下步骤 -建立所述在线社区的语义学标记云; -基于所述语义学标记云,确定所述文本内容的至少一个概念的至少一个语义学邻域; -在所确定的语义学邻域的辅助之下重新表达所述文本内容。
2.如权利要求I所述的方法,其特征在于,其进一步包括在本体元数据的帮助之下标识包括在所述文本内容之中的至少一个概念的步骤。
3.如权利要求I或2中的一项所述的方法,其特征在于,根据预定义的语义学邻近度报告来完成确定至少一个语义学邻域的步骤。
4.如权利要求I到3中的一项所述的方法,其特征在于,所确定的语义学邻域包括与所述文本内容中所标识的所述概念在语义学上接近的多个概念。
5.如权利要求I到4中的一项所述的方法,其特征在于,所述文本内容的重新表达包括选择所确定的语义学标记云概念来代替所述文本内容中所标识的所述概念的步骤。
6.如权利要求5所述的方法,其特征在于,所选择的概念是在语义学上接近所述文本内容中所标识的所述概念的概念。
7.一种用于改编文本内容以适应在线社区的语言行为的设备,所述设备包括以下模块 -语义学分析器(I),其被配置为建立所述在线社区(51)的语义学标记云; -语义学邻近度计算器(2),其被配置为基于所述语义学标记云,确定至少一个文本内容概念的至少一个语义学邻域; -文本内容的语义学重新表达器(3),其使用所确定的语义学邻域。
8.如权利要求7所述的设备,其特征在于,其进一步包括本体元数据(4),所述本体元数据使得能够标识在所述文本内容之中所包括的至少一个概念。
9.一种实现在存储介质上的计算机程序产品,所述计算机程序产品可以实现在计算机处理单元之中并且包括用于实现如权利要求I到6中的一项所述的方法的指令。
10.如权利要求9所述的计算机程序产品,其特征在于,其是与Web浏览器相关联的扩展。
全文摘要
一种用于改编文本内容以适应在线社区的语言行为的方法,包括以下步骤建立该在线社区的语义学标记云;基于该语义学标记云,确定该文本内容的至少一个概念的至少一个语义学邻域;在所确定的语义学邻域的辅助之下重新表达该文本内容。
文档编号G06Q10/10GK102844775SQ201180018338
公开日2012年12月26日 申请日期2011年4月14日 优先权日2010年4月27日
发明者J·斯坦, H·阿希 申请人:阿尔卡特朗讯
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1