一种即时通信会话记录的管理方法及装置的制作方法

文档序号:7966021阅读:167来源:国知局
专利名称:一种即时通信会话记录的管理方法及装置的制作方法
技术领域
本发明涉及通信及计算机技术领域,尤其涉及一种即时通讯会话记录的管 理方法及装置。
背景技术
随着即时通讯(IM)技术的不断发展和普及,越来越多的用户不仅采用IM 软件在网络中与其他用户进行交流,还可以将IM软件作为用户向其他用户咨 询工作或学习中遇到问题的工具,同时,用户间的会话记录伴随着用户间的交 流在IM系统中保存下来,为用户以后查找自己关注的信息提供了资料。例如当用户A向用户B对一个问题进行了咨询,用户B返回了问题的 答案,当用户C就同一个问题咨询用户A或用户B时,用户A需要查看与用 户B的会话记录中的相关信息,或者用户B需要查看与用户A的会话记录中 的相关信息时,用户A或用户B都需要在会话记录中人工查找相关记录,当 会话记录较多或用户A与用户C咨询问题的时间间隔较长时,采用现有技术 的方法,不仅增加了人工查找的工作量,而且查找效率较低。如果用户A就同一问题对多个用户进行了咨询,当用户A希望从与多个 用户的会话记录中查询信息时,采用现有技术的方法,如用户使用的即时通信 系统提供会话记录查看功能的即时通信系统时,用户A只能人工对多个用户的 会话记录逐一查看,找到自己关心的信息。即使用户A使用其它一些提供了用 户会话记录的数据导入/导出功能的即时通信系统,用户A也需要将多个用户 的会话记录数据先进行导出,然后在导出数据中进行查询,用户A还可根据自 己关心的信息的关键词在导出数据中进行查询,但采用关键词的方式也只能定 位到包含该关键词的语段,该语段不一定与用户关心的信息相关,也不能实现
用户在会话记录中有效查找信息。 发明内容本发明提供一种即时通讯会话记录的管理方法及装置,用以解决现有技术 中存在的即时通讯用户在会话记录中查询信息时,不仅操作繁瑣,而且查询效 率低的问题。本发明提供以下技术方案一种即时通信会话记录的管理方法,包括如下步骤 获取用户的会话记录并对其进行分类得到样本集合;分别对各样本集合进行相关性分析生成相应的分类組合,该分类组合包含 所述样本集合中会话记录对应的特征向量;会话主题关联到分类组合对应的会话记录;以及冲艮据用户查询时输入的关键词查找与该关键词匹配的会话主题,并将查找 到的与会话主题关联的会话记录呈现给用户。其中,生成会话主题后进一步分析会话主题之间的相关性,并将相关性大 于预定阈值的会话主题合并为同一个会话主题,使合并后的会话主题与被合并 的所有会话主题所对应的会话记录关联。按不同的会话用户对会话记录进行分类生成样本集合。较佳的,才艮据所述样本集合中会话记录的间隔时间,进一步将一个样本集 合划分为多个不同的样本集合。对样本集合进行相关性分析生成分类组合包括步骤生成样本集合中每条会话记录对应的特征向量;分析各特征向量与其他特征向量的相关性;根据所述相关性对特征向量进行分类生成分类组合。其中,对每条会话记录进行分词处理,删除该会话记录中无实际意义的词语并合并剩余词i吾中的同义词生成该会话记录对应的特4正向量。根据组成所述特征向量的各词在其特征向量中的权重计算各特征向量的 相关性。根据分类组合中出现频率大于预定阈值的词语确定该分类组合的会话主题。一种即时通信会话记录的管理装置,包括用于存储用户会话记录的单元;用于对所述会话记录进行分类生成样本集合的单元;用于对所述样本集合进行相关性分析生成相应的分类组合的单元;用于确定所述分类组合对应的会话主题,并使该会话主题关联到分类组合 对应的^S舌记录的单元;以及用于根据用户查询时输入的关键词查找与该关键词匹配的会话主题,并将 查找到的与会话主题关联的会话记录呈现给用户的单元。较佳的,所述装置还包括用于分析会话主题之间的相关性,并将相关性大于预定阈值的会话主题合 并为同一个会话主题,以及将合并后的会话主题与被合并的所有会话主题所对 应的会话记录关联的单元。本发明有益效果如下本发明对用户会话记录进行分类生成样本集合后,分别对各样本集合进行话主题关联到分类组合对应的会话记录。采用本发明后,当用户需要从会话记 录中查询信息时,用户只需输入关键词,系统将自动查找与该关键词匹配的会 话主题,并将查找到的会话主题所关联的会话记录呈现给用户,不仅避免了用 户手工查询信息时的繁瑣4喿作,而且提高了查询效率。


图1为本发明实施例中用户会话记录的管理装置结构示意图; 图2为本发明实施例中用户会话记录管理方法的示意图; 图3为本发明实施例中对用户会话记录进行分类的处理流程图; 图4为本发明实施例中对样本集合进行相关性分析的处理流程图。
具体实施方式
为了解决现有技术中,即时通讯用户在会话记录中查询信息时,不仅操作 繁瑣,而且查询效率低的问题,本实施例中对用户会话记录进行分类生成样本 集合,分别对各样本集合进行相关性分析生成相应的分类组合并确定出分类组 合对应的会话主题,并将会话主题关联到分类组合对应的会话记录,以及根据 用户输入的关键词查找与该关键词匹配的会话主题,并将查找到的会话主题所 关联的会话记录呈现给用户。参阅图1所示为本实施例中用户会话记录的管理装置结构示意图,包括 存储单元101、分类单元102、分析单元103、会话主题单元104、合并单元105 和查询单元106。存储单元101用于保存用户的会话记录和会话主题。分类单元102用于获 取会话记录并对会话记录进行分类得到样本集合。分析单元103用于对样本集 合进行相关性分析,生成样本集合的分类组合。会话主题单元104用于确定样 本集合分类组合的会话主题,并使该会话主题关联到分类组合对应的会话记 录。合并单元105用于分析会话主题之间的相关性,并将相关性大于预定阈值 的会话主题合并为同 一个会话主题,以及将合并后的会话主题关联到被合并的 所有会话主题对应的会话记录。查询单元106用于接收用户在会话记录中查询 信息时输入的关键词和查找与该关键词匹配的会话主题,并将查找到的会话主 题所关联的会话记录呈现给用户。参阅图2所示为本实施例中用户会话记录管理方法的示意图,包括 步骤201 、获取用户的会话记录并对该会话记录进行分类得到样本集合。
步骤202、对生成的样本集合进行相关性分析生成相应的分类組合。步骤203、根据各分类组合中词语出现的频率确定分类组合对应的会话主 题,并使该会话主题关联到分类组合对应的会话记录。步骤204、分析会话主题之间的相关性,并将相关性大于预定阈值的会话 主题合并为同一个会话主题,使合并后的会话主题关联到被合并的所有会话主 题对应的会话记录。步骤205、当用户在会话记录中查询信息时,根据用户查询时输入的关键 词查找与该关键词匹配的会话主题,并将查找到的会话主题所关联的会话记录 呈现给用户。在步骤201中,对会话记录进行分类的处理流程参阅图3所示,处理过程步骤301、判断会话记录是否已经过分类处理,如果已经过分类处理,则 不对其进行处理;否则,执行步骤302。步骤302、对没有经过分类处理的会话记录4艮据不同的用户对会话记录进 行分类,如判断会话记录TR/和会话记录TRj是否属于同 一用户间的会话记录,如果会话记录TR/和会话记录TRj分属于不同用户间的会话,将会话记录TR/和会话记录TRj划分为不同的样本集合TS;如果会话记录TR,'和会话记录TRj属于同一用户间的会话记录,则将会话记录TR/和会话记录TRj划分到相同的样本集合中。步骤303、将同一样本集合根据该样本集合中的会话记录的间隔时间进行 划分,进一步划分为不同的样本集合,会话记录的间隔时间根据实际应用,可 设为一星期等。经过步骤303处理生成的样本集合TS为进行相关性分析的样本集合。 参阅图4所示,对一个样本集合采用KNN ( K Nearest Neighbor, K最近 邻居)算法进行相关性分析的处理过程如下步骤401、对样本集合TS中的每条会话记录TR生成对应的特征向量。
首先对每条会话记录TR进4亍分词处理,去除其中的助词,"又词等无实际意义 的词,得到集合S;合并S中的同义词,例如将{"电脑","计算机"}合并为 {"计算机,,,"计算机,,}。将经过同义词合并后的对应亍每条会话记录的集合 S进行向量化,生成特征向量S (W,,W2,W3......Wn),其中Wi为第i个元素的权重,各元素为S中的词语。步骤402、计算与各会话记录TR对应的特征向量^中各元素的权值W。 采用如下公式进行权值计算『"^ = (A^)xl。g(iV/",+0.01) , V2L[机")x!og(W"'+0.01)12其中,『(/,^)为词t在特征向量S中的权重,而为词t在特征向量S中的词频,N为每个样本集合TS中会话记录TR的总数,&为每个 样本集合TS中出现词t的会话记录TR数,分母为归一化因子。步骤403、计算与各会话记录对应的特征向量之间的相关系数,根据计算 所得相关系数确定与各特征向量最相似的K个特征向量。具体实施时,采用如下公式其中,Sim(《,《)为特征向量《与特征向量《的相关系数,^和W,分别为特征向量c/,.和特征向量《的第k个元素的权值。通过计算,获得各特征向量间的相关系数,根据该相关系数,将与每一个 特征向量最相关的K个特征向量分别组合为一个集合,K的取值可根据实际应 用进行确定。步骤404、将各会话记录对应的特征向量划分到分类C中的不同类中生成 分类组合。分类C为样本集合TS中各会话记录对应的特征向量组成的集合。计算出各会话记录对应的特征向量间的相关系数,
方法一当分类C为空时,则采用如下方式生成分类C中的一个向量集 合c,然后将c添加到分类C中对应于会话记录的特征向量《和特征向量(分别属于对方最相似的K个邻居组成的集合,则《和^属于同一类c,生成类c并将该类与特征向量《和 特征向量^对应的会话记录关联,然后将类c添加到分类C,每个类c中的特 征向量组成一个分类组合。方法二当分类C不为空时,则计算对应于各会话记录的特征向量^属于 某个类c (ceC)的权重,采用如下的公式 ;Ki,C》=》一力:K《,C:)其中,^为对应于一条会话记录的特征向量,《为与^最相似的K个邻居组成的集合中的特征向量,s/w(je,《)为元与其最相关的特征向量《的相关系 数,该相关系数可根据步骤403计算结果获得,y",。)为类别属性函数,如果特征向量《属于类q, y(《,。)的函数值为1,否则为0。根据计算得到 z^,c》,比较特征向量^在各类q中的权值,将特征向量文分到权值较大的类Q中,并将该类G与特征向量^对应的会话记录关联。釆用方法二时,如果特征向量^和现存每个类c的相关度都很小,则可采 用方法一的方式生成一个新的类c',并将类c'加入到分类C中,并将类c'与特 性向量^对应的会话记录关联。对各特征向量进行处理后,将特征向量都划分到一个类中,由各类分别组 成分类组合。将生成的各分类组合中出现频率最高的N个词语或者频率大于a的词语, 确定为该分类组合的会话主题,N值和a值根据实际应用进行确定。对每个样本集合TS进行上述处理后生成分类组合及该分类组合对应的会 话主题,将生成的会话主题进行相关性分析时,将会话主题作为KNN算法的
一个样本集合,计算该集合中每一个会话主题中各词在该会话主题中的权重,根据权重,利用步骤403中的公式,计算出各会话主题的相关系数,将相关系 数大亍设定阈值的会话主题进行合并。呈现会话记录给用户时,根据不同的会话用户将会话记录进行排列,也可 以根据会话主题中会话记录的权重顺序排列。以上实施例中采用了 KNN算法对样本集合进行相关性分析,但本发明不 仅限于采用KNN算法对样本集合进行分析。对会话记录进行相关性分析的方 法还可以应用向量机算法、神经网络算法以及贝叶斯算法等基于向量空间的训 练算法和分类方法。例如采用贝叶斯算法时,计算各会话记录对应特征向量中 每个词出现在某个会话中的概率,然后根据贝叶斯公式计算出特征向量属于某 个会话的概率,将其加入到概率最大的会话中。采用本发明,当用户在会话记录中查询用户关心的信息时,用户只需要输 入关键词,系统将自动查询与关键词匹配的会话主题,并将与该会话主题关联 的会话记录呈现给用户,不仅避免了用户手工查询信息时的繁琐操作,而且提 高了查询效率。明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求 及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
权利要求
1、一种即时通信会话记录的管理方法,其特征在于,包括如下步骤获取用户的会话记录并对其进行分类得到样本集合;分别对各样本集合进行相关性分析生成相应的分类组合,该分类组合包含所述样本集合中会话记录对应的特征向量;根据各分类组合中词语出现的频率确定分类组合对应的会话主题,并使该会话主题关联到分类组合对应的会话记录;以及根据用户查询时输入的关键词查找与该关键词匹配的会话主题,并将查找到的与会话主题关联的会话记录呈现给用户。
2、 如权利要求1所述的方法,其特征在于,生成会话主题后进一步分析 会话主题之间的相关性,并将相关性大于预定阈值的会话主题合并为同一个会联。
3、 如权利要求1或2所述的方法,其特征在于,按不同的会话用户对会 话记录进行分类生成样本集合。
4、 如权利要求3所述的方法,其特征在于,根据所述样本集合中会话记 录的间隔时间,进一步将一个样本集合划分为多个不同的样本集合。
5、 如权利要求1所述的方法,其特征在于,对样本集合进行相关性分析 生成分类组合包括步骤生成样本集合中每条会话记录对应的特征向量; 分析各特征向量与其他特征向量的相关性; 才艮据所述相关性对特征向量进行分类生成分类组合。
6、 如权利要求5所述的方法,其特征在于,对每条会话记录进行分词处 理,删除该会话记录中无实际意义的词语并合并剩余词语中的同义词生成该会 话记录对应的特征向量。
7、 如权利要求6所述的方法,其特征在于,根据组成所述特征向量的各 词在其特征向量中的权重计算各特征向量的相关性。
8、 如权利要求5所述的方法,其特征在于,根据分类组合中出现频率大 于预定阈值的词语确定该分类组合的会话主题。
9、 一种即时通信会话记录的管理装置,其特征在于,包括 用于存储用户会话记录的单元;用于对所述会话记录进行分类生成样本集合的单元;用于对所述样本集合进行相关性分析生成相应的分类组合的单元;用于确定所述分类组合对应的会话主题,并使该会话主题关联到分类组合对应的会话记录的单元;以及用于根据用户查询时输入的关键词查找与该关键词匹配的会话主题,并将查找到的与会话主题关联的会话记录呈现给用户的单元。
10、 如权利要求9所述的装置,其特征在于,还包括用于分析会话主题之间的相关性,并将相关性大于预定阈值的会话主题合 并为同一个会话主题,以及将合并后的会话主题与被合并的所有会话主题所对 应的会话记录关联的单元。
全文摘要
本发明公开了一种即时通信会话记录的管理方法,用于解决现有技术中即时通信用户在会话记录中查询信息时,不仅操作繁琐,而且查询效率低的问题。该方法包括获取用户的会话记录并对其进行分类得到样本集合;分别对各样本集合进行相关性分析生成相应的分类组合,该分类组合包含所述样本集合中会话记录对应的特征向量;根据各分类组合中词语出现的频率确定分类组合对应的会话主题,并使该会话主题关联到分类组合对应的会话记录;以及根据用户查询时输入的关键词查找与该关键词匹配的会话主题,并将查找到的与会话主题关联的会话记录呈现给用户。本发明同时公开了一种即时通信会话记录的管理装置。
文档编号H04L9/06GK101119326SQ200610109539
公开日2008年2月6日 申请日期2006年8月4日 优先权日2006年8月4日
发明者石燕伟 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1