一种互联网即时消息通讯系统的制作方法

文档序号:7749012阅读:137来源:国知局
专利名称:一种互联网即时消息通讯系统的制作方法
技术领域
本发明属于计算机科学/互联网技术领域,涉及在互联网即时消息通讯(Instant Messaging)系统中实现实时的针对多个聊天用户对的消息自动派发功能,尤其涉及到运用 统计自然语言处理技术对聊天消息进行的自动识别目的对象以达到自动派发功能。
背景技术
互联网即时消息通讯(Instant Messaging, IM)系统,俗称为聊天系统,大大方便人民群众利用网络进行远程对话和交流。例如,腾讯公司的QQ和微软公司的MSN都是互联 网上较为流行的即时消息通讯系统。现有的基本的即时消息通讯系统包含登录,消息发送 和接收,好友管理和分组,消息窗口进程的发起和结束等模块。用户发出某种既定的操作, 即可生成一个对话窗口,可以与在线的其他用户进行交流。然而在现有的即时消息通讯系统或者聊天工具的功能主要是提供基本的双人或 多人聊天功能,没有其他智能化的优化体验。用户需要维持多个不同的聊天窗口,以进行多 个不同对象的聊天。这多半会造成用户的困扰,因为为了和多个不同的聊天对象交流,用户 A需要手动的在多个窗口中切换,而每个窗口可能是如此的相似,以致A发给用户U1的消息 错发给用户U2是时常发生的情况。在现实世界中,人们在多人交流的场景中各自都能基本上辨识来自某个人的发言 是否需要自己给予立即回复或者反馈,例如,在一个会议中的讨论阶段,多个子议题正在被 讨论,某个与会人员是否应该立即回答另外一个人的问题或者是否立即就另一人的发言进 行反馈,首先就会基于自己和对方是否处于同一子议题,并且,对已经刚刚进展到的活动话 题处于感兴趣阶段。统计自然语言处理技术是一个包含广泛研究点的计算机科学,它是使计算机用数 学统计和机器建模学习的方法来理解和掌握自然的人类语言。包括词法和句法分析,语义 消歧,文本聚类和分类等技术,形成的应用主要有机器翻译,信息检索,自动问答系统,信息
过滤等等ο因此,在互联网IM聊天工具中,计算机亦可以通过自然语言的某种相关性的计 算,智能的判断即时消息的接收对象,简化用户操作,以增进用户体验。但目前传统的互联 网IM工具都还没有包含此项功能。

发明内容
本发明所要解决的技术问题是提供一种互联网即时消息通讯系统,具有智能化消 息派发功能,为用户使用互联网即时消息通讯提供方便。为了解决上述技术问题,本发明提出一种互联网即时消息通讯系统,包括即时消 息框架组件,所述即时消息框架组件用于提供即时消息通讯功能,包括用户登录管理模块, 好友管理模块,后台数据管理模块,消息发送和接收通信模块,所述后台数据管理模块用于 即时消息在后台数据库的读写控制;
其特征在于,还包括智能消息派发组件,所述智能消息派发组件包括消息上下文检索模块,分词和停用词预处理模块,关联模型模块,对象指派模块;所述消息上下文检索模块连接所述后台数据管理模块,用于按照一定策略查找所 述后台数据管理模块所管理的历史消息以及当前待发送消息,将结果发送到所述分词和停 用词预处理模块;所述分词和停用词预处理模块用于去除语句噪音,生成规范的语句数据表示,将 结果发送到所述关联模型模块;所述关联模型模块用于根据对消息上下文的关联分析,确定消息接收者;接收者的自动判别实际上是对用户的消息进行分组,以此分配到不同对话中去。 当用户输入消息M,自动派发组件利用消息的环境,引入关联模型,估计新消息与已存在对 话之间的语义相关性。假设用户Ua同时维护了 η个对话C1, C2, ...,Cn,则Ua发出的消息M 将被与所有对话进行相关性计算得到Rlv(MlCi),i = 1 η。然后找出最大的Rlv值,记做 MaxRlv,则消息M就会被发至MaxRlv所在的接收者。首先分析消息的上下文以定义关联模 型策略;接着分析语义关联;最后通过词_词的翻译概率获得语义关联计算公式所需要的 输入参数值。这样,就得到了完整的计算语义相关性的结果,将这个结果运用于新消息M与 η个对话的关联计算,即可判断出消息接收者,从而做到即时消息的自动派发。所述对象指派模块用于将关联模型模块确定的结果通知所述即时消息架构组件 的消息发送和接收通信模块。作为优选方案,本发明还包括对话管理器,所述对话管理器用于为用户会话提供 界面,对话管理器接收并显示所述消息发送和接收通信模块接收到的消息;接受用户输入 的待发消息并发送到的所述后台数据管理模块。进一步优选的,所述智能消息派发组件还包括带训练数据的统计翻译模块,所述 带训练数据的统计翻译模块用于语义数据的训练和语义词汇关联的集合的建立。本发明的智能消息自动派发组件可以由用户随意开启和关闭,用户也可以在消息 真正到达目的前,系统给出预测的对象目的后手动纠正可能发生的错误判断,由于本系统 记录每个对话的本次已发生的消息,所以每次纠正都会供后续的指导计算机自主学习,使 得派发逐渐趋向于准确。当用户发起多个不同聊天对象的对话时,初始情况下系统调阅该 用户与各个对象用户的历史记录,进行初始的消息关联计算,如果没有历史记录,则和普通 IM工具一样需要用户手动进行分发,积累了几个对话之后智能消息派发组件开始运作。本发明采用了统计自然语言技术的信息检索,机器翻译等处理方法,在互联网IM 系统的单一窗口而多消息接收对象的环境下,通过构建语义关联模型,计算新消息与各个 不同对话的已存在消息的语义相关性,选择最相关的对话,从而实现消息到对应的接收者 的自动派发,使用户在聊天过程更具有轻松、方便的体验。


下面结合附图和具体实施方式
对本发明的技术方案作进一步具体说明。图1为的系统模型图。图2为智能消息派发组件的系统框图。
具体实施例方式本发明所述的具有聊天消息自动派发功能的智能即时通讯工具系统模型如图1。 系统主要由即时消息软件架构组件和智能消息派发组件构成,对话管理器作为即时消息架 构上的模块,用于管理用户与多个其他IM用户聊天的过程。IM即时消息框架组件采用现今任何一种流行的IM聊天工具所用的架构模型即 可,主要包括但不限于登录管理,好友管理,后台数据管理模块,消息发送和接收通信模块。 此组件起到一个框架支撑作用,为本发明提供消息传递的平台。并且,此组件将直接与本地 数据库通信,以获取聊天历史记录,聊天对象信息等等。对话管理器则是提供一个用户会话的接口,是面向用户的聊天窗口,包括多个对 话的消息接收者的即时消息会话管理,以及用户的发送消息输入界面。用户输入所要发送 的东西,系统将利用智能消息派发组件提供的结果获得消息的目的用户对象,经过用户可 能进行的确认或调整后即把消息通过调用IM即时消息框架组件的消息收发模块发送至该 聊天对象。智能消息派发组件是本发明的核心组件,该组件实现自动检测消息接收者功能。如图2所示,智能消息派发组件包括消息上下文检索模块、分词和停用词预处理 模块,带训练数据的统计翻译模块,关联模型模块,对象派发模块。消息上下文检索模块连接所述后台数据管理模块,用于按照一定策略查找所述后 台数据管理模块所管理的历史消息以及当前待发送消息,将结果发送到所述分词和停用词 预处理模块。在用户可能维系若干个对话的环境下,对话刚开始时,如果所有发起的对话中 有一个从未有过历史消息,那么需要提示用户手动选择消息的目的。分词和停用词预处理模块是此组件的先行模块,为生成统一的数据的表示,去除 噪音而作的准备。汉语是一种字字连续的语言,字与字之间无空格或者其他标识,而实际 的语义往往由两个字或者多个字组成的词或者短语构成,所以为了准确的掌握一句话的意 思,机器也需要首先对汉语的句子进行按词切分。停用词是指一些无意义的虚词,或者按具 体需求指定不处理的词,为了不造成过多冗余的计算,甚至产生危害系统效果的噪音,需要 对一些词进行去除。关联模型模块用于根据对消息上下文的关联分析,确定消息接收者。接收者的自 动判别实际上是对用户的消息进行分组,以此分配到不同对话中去。当用户输入消息M,自 动派发组件利用消息的环境,引入关联模型,估计新消息与已存在对话之间的语义相关性。 假设用户Ua同时维护了 η个对话C1, C2,. . .,Cn,则Ua发出的消息M将被与所有对话进行相 关性计算得到Rlv(MlCi),i = 1 η。然后找出最大的Rlv值,记做MaxRlv,则消息M就会 被发至MaxRlv所在的接收者。首先分析消息的上下文以定义关联模型策略;接着分析语义 关联;最后通过词-词的翻译概率获得语义关联计算公式所需要的输入参数值。这样,就得 到了完整的计算语义相关性的结果,将这个结果运用于新消息M与η个对话的关联计算,即 可判断出消息接收者。对象指派模块用于将关联模型模块确定的结果通知所述即时消息架构组件的消 息发送和接收通信模块。另外,关联模型模块需要通过带训练数据的统计翻译模块来提前构建。具体方法 包括1)基于机器翻译的语料训练机制以获取词-词关联,2)建立了科学的消息关联模型。
1)基于机器翻译的语料训练,获得词_词关联。带训练数据的统计翻译模块通过对语料的训练得到词Wi与词 之间的翻译概率 ^ans(WjIWi)0如果两个词是同一自然语言,那么就可以理解为词Wi到词Wj的相关性转移 概率。设语料 S = {(Sl,s/ ), (s2, S2' ),..., (sn, sn' )},每个句子对(Si,Si')具有 相似的意思但是组成的词不同,通过使用既定的统计翻译模型(IBM统计翻译模型)可以得 到词-词的翻译概率,Si中的词可以“翻译”为Si'中的词。语料的选取采用抓取网络上的社区互助问答系统即QA问答系统的问答材料的方 法获得。引入一个网络爬虫即自动网页抓取分析器,把QA问答系统中的QA问答对抓取下 来存档,就获得了初始待训练语料。之所以采用网络社区互助问答系统作为训练语料,是因 为目前可用的公开的标准平行语料库还没有,而QA问答对具有如下特性第一,因提问者 和回答者就同一话题的表达习惯可能不同,可以提供相似语义的不同词汇;第二,QA问答 近似于IM聊天的短对话,具有情境上的较大相似;第三,QA社区的问答材料的类别,话题足 够丰富,具有构成语料的条件。
在本例中,15000个问答对被系统采集到,于是构成了语料T :T = Kq1, B1), (q2, a2) , . . . , (q
15000,ai5000) ; (ai,Ql),(a2,Q2),· ,(ai5000' Q15000) ^来获得词Wi至词Wj的翻译概率trans (Wj | Wi)。翻译模型采用IBM统计翻译模型 1。将语料经过上文所述切词和停用词过滤预处理之后,输入该模型,就得到了词语间的翻 译概率。每一个词a,如果和某个词b产生的翻译概率大,就表示这两个词具有语义上的近 似度。2)消息关联模型。为了计算新消息M和每个对话C之间的关联程度Rlv (Μ | C),逐个对M与C中暂存 的每一句话进行计算,并采取时间距离加权策略,求得最大值,即为两者的关联度。即RHM I C) = maxf^ 如二讲,/v(M I其中,K是C中消息总数,!1^是(中第i个消息,diSt(M,mi)表示M与Hii发生的时 间上的距离(以秒计算),考虑到时间秒数的权值与话题转化速率的关系,采用开根号的加 权较为合适。为了计算消息间的关联Rlv(Mlmi),引入了一个在语言建模框架下的基于翻译的 挖掘词_词翻译概率的信息检索模型,即Rlv(M I ^) = Πp^ I ^)
q&M其中,q表示M中的一个词语,P (q | Hii)表示从消息Hii到q的生成概率,为了计算一 个文本和一个词语的关联即P(Qlmi),把词语视为此文本的一个翻译结果生成,则可得到Ι^) = (1"/1)Σ trami^ I W)Pml (W \mi) + APml h I D)
WGmi其中,w是HIi中出现的词语,trans (q | w)表示词w至词q的翻译概率,D表示该对 话中所有的消息集合,Pml(qID) —项是引入的线性插入项,为了避免零概率的产生。λ是平 滑因子,经验值一般取0.8。设|D|和ImiI分别表示D和HIi的长度,则Pml (W I HIi) = tf(w, HiiVImi I,Pml (q|D) = ft (q | D) / | D |。综合上述分析,即可得到消息关联模型
<formula>formula see original document page 7</formula>另外,需要假设trans(w|w) ^ 1,这表示自身翻译概率始终为1。显然,消息关联 模型依赖于基于机器翻译的语料训练,获得词_词关联的带训练数据的统计翻译模块的构 建,即需要得到tranS(q|W)的值,参见上文1)的叙述。最后所应说明的是,以上具体实施方式
仅用以说明本发明的技术方案而非 限制, 尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对 本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均 应涵盖在本发明的权利要求范围当中。
权利要求
一种互联网即时消息通讯系统,包括即时消息框架组件,所述即时消息框架组件用于提供即时消息通讯功能,包括用户登录管理模块,好友管理模块,后台数据管理模块,消息发送和接收通信模块,所述后台数据管理模块用于即时消息在后台数据库的读写控制;其特征在于,还包括智能消息派发组件,所述智能消息派发组件包括消息上下文检索模块,分词和停用词预处理模块,关联模型模块,对象指派模块;所述消息上下文检索模块连接所述后台数据管理模块,用于按照一定策略查找所述后台数据管理模块所管理的历史消息以及当前待发送消息,将结果发送到所述分词和停用词预处理模块;所述分词和停用词预处理模块用于去除语句噪音,生成规范的语句数据表示,将结果发送到所述关联模型模块;所述关联模型模块用于根据对消息上下文的关联分析,确定消息接收者;所述对象指派模块用于将关联模型模块确定的结果通知所述即时消息架构组件的消息发送和接收通信模块。
2.根据权利要求1所述的互联网即时消息通讯系统,其特征在于还包括对话管理器, 所述对话管理器用于为用户会话提供界面,对话管理器接收并显示所述消息发送和接收通 信模块接收到的消息;接受用户输入的待发消息并发送到的所述后台数据管理模块。
3.根据权利要求1或2所述的互联网即时消息通讯系统,其特征在于,所述智能消息派 发组件还包括带训练数据的统计翻译模块,所述带训练数据的统计翻译模块用于语义数据 的训练和语义词汇关联的集合的建立。
全文摘要
本发明涉及一种互联网即时消息通讯系统,其目的就是通过对普通IM聊天工具进行一个新式的自动消息派发的功能的置入,使IM聊天工具具有智能化功能,为了在IM聊天工具中搭建一个自动消息派发器,本发明采用了统计自然语言技术的信息检索,机器翻译等处理方法,在互联网IM系统的单一窗口而多消息接收对象的环境下,通过构建语义关联模型,计算新消息与各个不同对话的已存在消息的语义相关性,选择最相关的对话,从而实现消息到对应的接收者的自动派发。
文档编号H04L12/58GK101834809SQ20101017543
公开日2010年9月15日 申请日期2010年5月18日 优先权日2010年5月18日
发明者温杰, 王君泽, 王舟, 王芙蓉, 禹航, 胡广 申请人:华中科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1