收集用户行为特征的方法和装置的制作方法

文档序号：7625895阅读：172来源：国知局

专利名称：收集用户行为特征的方法和装置的制作方法
技术领域：
本发明涉及智能通信增值业务技术领域，特别是指一种收集用户行为特征的方法和装置。
背景技术：
在目前的信息服务系统中，提供用户满意个性化的服务是运营商及其他的服务提供商所追求的目标，也是用户所真正需要的。目前，用户行为特征(包括行为习惯)的收集与统计系统在通信行业中已有不少应用，尤其是在一些增值业务系统中。然而，现有的收集用户行为特征的方法一般只限于对一些粗略的数目统计或是一些不计名的调查问卷之类的统计。
目前，对用户行为特征的收集，更多的使用在因特网或短信平台。例如，在以太网平台，通过收集统计分析用户浏览过的网页或其他的上网记录这些用户行为特征，就可以分析出被高频访问的网页、新闻等内容。但是，更多的是应用于不针对特定用户的收集与统计，并不去确定用户的身份，不能定位到具体的用户，因此其统计信息可能不可靠。例如，某用户为增加某网页的被访问量，可以通过重复访问该网页来实现，但这样却不能反应出该网页实际的被访问量。
又如在短信平台，利用短信来进行投票或信息交流，可以通过发送短信的手机号码来识别用户，实现针对特定用户的行为特征的收集，进而进行统计和分析。但这种方式局限性很强，目前，短信平台的用户行为特征的收集多用于类似投票的业务中，实现对投票进行统计。
众所周知，对于通信系统，基本的话音业务(即普通电话业务)仍然占据着重要的位置，是人们传递信息的主要方式，通过语言的交流也最能反映用户的行为特征。但目前尚没有一种基于语音业务收集用户行为特征的技术。

发明内容
有鉴于此，本发明的主要目的在于提供了一种收集用户行为特征的方法和装置，以实现可通过通话话音收集用户行为特征。
本发明提供的一种收集用户行为特征的方法，包括以下步骤A、获取用户通信时的通话话音；B、将所述通话话音的内容通过语音识别转换为文本信息；C、从所述文本信息中识别出用户的行为特征信息并进行保存。
其中，步骤A所述获取用户通信时的通话话音的步骤包括建立用户的通信话路进行通话时，对所述通信话路进行录音获取所述用户的通话话音。
其中，步骤A后进一步包括分析出所述通话话音的声纹特征，根据所述声纹特征识别出对应的用户标识；步骤C所述保存的步骤进一步包括将所述用户的行为特征信息与所述用户标识对应保存。
其中，步骤C所述保存前进一步包括判断是否已经保存有相同用户标识的相同行为特征信息，若是，则结束当前流程，否则执行所述保存。
其中，所述判断是否已经保存有相同用户标识的相同行为特征信息的步骤包括判断所述根据声纹特征识别出的用户标识是否与已经保存的用户标识相同；或，判断所述分析出的通话话音的声纹特征是否与已经保存的用户标识所对应的声纹特征相同。
其中，步骤C所述从文本信息中识别出用户的行为特征信息的步骤包括识别出所述文本信息中的关键字；根据识别出的关键字分析出用户的行为特征信息。
其中，分析出用户的行为特征信息的步骤包括使用采用预定策略的方法、神经网络的方法、模糊查询的方法、或关联分析方法分析出用户的行为特征信息。
本发明提供的一种收集用户行为特征的装置，包括话音获取单元，用于获取用户通信时的通话话音，并传送给语音识别单元；语音识别单元，用于将所述通话话音内容转换为文本信息、分析出通话话音的声纹特征，分别传送给语义分析单元和用户身份识别单元；语义分析单元，用于从所述文本信息中识别出用户的行为特征信息，并发送给行为特征存储单元；用户身份识别单元，用于根据声纹特征识别出对应的用户标识，并发送给行为特征存储单元；行为特征存储单元，用于将所述用户标识和用户的行为特征信息对应保存。
其中，所述话音获取单元由智能网中的智能外设IP或增强智能外设AIP实现。
其中，所述话音获取单元、语音识别单元由智能网中的智能外设IP或增强智能外设AIP实现。
由上述方法可以看出，本发明能够通过普通的电话通话来获取用户的行为特征。还利用用户语音来识别用户身份，使得针对需要识别用户的数据统计不再依赖于用户电话的电话号码，从而在公用电话上，以及共用的家庭电话或企业电话也能够识别出用户的身份，使统计信息更为可靠和有实用性。
并且，在对特定话题进行统计的时候，可以通过比较历史记录，判断对同一用户是否进行了重复统计并进行相应的过滤，从而使统计的结果更为准确。并且，还可根据用户信息的详细程度，进一步的将统计结果进行相应的归类。
可以说，本发明所提供的方案能够让服务提供者方便获取用户的行为特征，进而提供相应的个性化的服务，可以极大的丰富信息服务提供的方式和手段。例如，可分析特定用户的电话话音来获取单个用户的行为特征，记录一些有预先设定的关键词相关的信息，就可以对用户进行提醒。还可用于调查有多少人在打电话时以某特定词语(如超级女生)作为话题。还可用于收集、统计通话时出现频度很高的关键词，以用于预测大家所关心的事以及比较流行的话题。

图1为用户行为特征的收集系统示意图。
图2为用户行为特征收集流程图。
图3为用户行为特征的收集系统实施例示意图。
图4为实现用户行为特征的收集系统的智能网示意图。
具体实施例方式
本发明提供了通过话音收集用户的行为特征的技术方案，不仅可以用来统计用户群的行为特征，还可以用来统计单个用户行为特征。本发明的核心思想是在通信网络中，当用户建立通话时，获取用户通话的具体内容，通过语音识别的身份确认技术确定用户的标识，并且通过语音识别技术将通话话音内容转换为文本形式的信息，然后分析出文本信息内容，获得关键字，再根据关键字获得所述用户的行为特征。
如图1示出了本发明用户行为特征的收集系统，包括话音获取单元、语音识别单元、语义分析单元、用户身份识别单元、行为特征存储单元。
其中，话音获取单元用于获取用户的通话话音；语音识别单元用于将获得的通话话音内容转换为文本信息，以及分析出通话话音的声纹特征；语义分析单元用于从转换的文本信息中识别出关键字信息，分析出关键字信息对应的用户行为特征信息；用户身份识别单元用于根据分析出的声纹特征识别出对应的用户标识；行为特征存储单元用于将所述用户标识和识别出的用户行为特征信息对应保存起来，以用于统计。
对照图1示出的收集系统，并参照图2示出的用户行为特征收集流程图，在收集用户行为特征时，包括以下步骤步骤201话音获取单元获取用户通话的原始话音内容，发送给语音识别单元。
其中，话音获取单元可以建立到用户话路的连接，从而实现对用户通话内容的监听录音，来获得用户通话话音。
步骤202语音识别单元对传送过来的话音内容进行识别，将话音内容转换为文本的描述信息发送给语义分析单元，以及分析出话音的声纹特征发送给用户身份识别单元。
其中，语音识别技术可以参考申请号为88107791的中国专利。将话音内容转换为文本形式可采用如下方法抽取发出的语音所具有的频谱等物理特征，与预先存储的母音、子音或单词的物理特征模型进行比较。从而将语音转换为文字信息。
而对于语音识别的身份确认技术，其原理是每个人的生物特征不同，其发音特征也各不相同，因此可利用人的发音特点、即通话话音来提取话音声纹特征(声纹特征也可称为特征码，是能够反映该话音生物特征的标识，可能是一串数字或是一个数字及其他符号的组合系列或是用来描述变化趋势的数字或坐标点的组合等，具体参见申请号88107791的中国专利)，通过不同用户的不同声纹特征区别不同的用户。
步骤203语义分析单元接收转换出的文本信息，识别出文本信息中的关键字，根据识别出的关键字分析出用户的行为特征，发送给行为特征存储单元。
在根据确定关键字是否能反映用户特征时，可以采用事先预定策略的方法，也可以用神经网络或其他的关联分析方法来判断。例如，下表1为关键词与行为特征对照表，示出了预先设定的用于分析的条件

表1当语义分析过程发现有与表1对应的关键词时，便输出行为特征描述字段中的相关信息。在判断文本信息中是否出现所述关键字时，并不一定要完全匹配，例如，当文本信息中仅出现关键字“房产证、按揭”时，也可输出“正准备购房”的行为特征描述信息，当然，匹配率越多，行为特征描述就越准确。另外，对于由关键字对应到行为特征描述信息过程中，还可以采用数据库中的模糊查找的方法来丰富查找结果，例如，“房产证、房屋证，房屋产权证”都可以视为对应到关键词“房产证”，从而来输出对应的行为特征描述信息。而上面提到的神经网络是一种具有自学习能力的智能系统，例如可自学习出哪些关键词表示哪些行为特征描述，又例如还可进行相近语义的学习等，能够丰富模糊查询的内容。
类似的，为了更准确的对用户行为进行判断，还可以有更多的判断准则或其他的判断形式，如对比关联的方法等。
由于上述的神经网络、模糊查询、对比关联均为现有技术，此处不再赘述。
步骤204用户身份识别单元接收语音识别单元发送过来的声纹特征，识别出该声纹特征对应的用户标识，发送给行为特征存储单元。
实现本步骤，需要预先对各个用户提取并记录其各自的声纹特征信息(即特征码)，并将声纹特征信息和用户标识对应存储起来。当接收到语音识别模块发送过来的声纹信息后，将该声纹信息与预先记录的声纹特征信息进行比较，找出与之匹配的声纹信息(这里匹配不一定是完全吻合，可能是在一定误差许可范围内的近似吻合)，从而获得记录的该声纹信息所对应的用户标识，提供给行为特征存储单元；若未检索到有匹配的预先存储的声纹信息，则可向行为特征存储单元报告无对应用户的记录。
步骤205行为特征存储单元用于将用户身份识别单元发送过来的用户标识和语义分析单元发送过来的行为特征信息对应保存起来，以用于进行统计等。
例如，当通过语义分析判断出用户A通话出现的关键词符合表1中的索引为1的记录，则行为特征存储单元可保存如下表2示出的内容

表2当存储的信息用于分析和统计时，若每个用户标识还对应记录有各个用户的注册信息(如年龄、性别等)，还可以对统计结果进行性别、年龄等分类。
另外，统计结果的记录可以按照不同的需要以不同的形式组织，如果为了记录历史信息便于比较，可以记录用户身份信息以及日期还有所检测词等等，如下表3所示

表3通过所检测关键词、用户标识，可用于在记录过程中防止重复统计。例如，当出现与要统计的关键词对应的信息时，还要判断该用户是否以前已经被记录统计过，这可以通过判断针对该条关键词是否已经存在该用户标识，或对应到该标识对应的话音的声纹信息，如果是，则要过滤掉采集的该次话音，不需要再进行语义分析等后续过程，防止被重复记录统计。
如果只是为了获取某些关键词相关的话题的出现频度等统计信息时，而不需要知道具体的用户，在记录和统计时，可忽略身份识别的过程。即省略了对语音身份识别的步骤，以及省略了对应到用户ID的步骤。
对于图1示出的各个单元，在实际实现中，可能由一个设备或多个设备来实现，图3示出了该系统的一个实施例，其中话音获取单元、语音识别单元、语义分析单元、用户身份识别单元的功能由通话放音设备实现，特征记录单元的功能由用户习惯分析记录设备用来实现。当然，也可以由通话放音设备实现话音获取单元、语音识别单元的功能，其他单元的功能都由用户习惯分析记录设备用来实现。这和具体设备所支持的功能有关。
下面参见图4示出的智能网系统，对本发明基于智能网的实现进行描述。由智能网系统实现本发明时，由智能网来实现图1示出的话音获取单元，对通话话音进行采集，或进一步的实现语音识别单元的语音到文本信息的语音识别转换功能，而语义分析、声纹识别转换及记录功能，可由外部设备(如计算机)来实现，这样的实现方式基于原智能网网络，不影响原网络的运行。下面参见图4示出的智能网络进行详细说明。
图4示出的智能网络的业务定制系统，指能够生成和定制业务的系统，例如SMP。智能处理系统，指智能网中的智能外设(IP)或增强智能外设(AIP)等具有放音、录音以及语音识别等功能的设备。业务控制系统，如SCP，存储有用户业务逻辑。通话连接系统，如MSC、SSP等设备，能够提供接入智能网的功能。
通过智能网实现收集用户行为特征时，包括以下步骤当用户拨号或是用户作为被叫被呼叫时，负责接通话路的通话连接系统(如SSP)中的业务触发点触发智能业务，上报业务控制系统(如SCP)；业务控制系统(如SCP)通过事先的业务预定情况决定是否对该话路进行话音分析(考虑到并不是所有的通话记录都要进行话音分析和统计，可以通过业务定制的方式进行设定，只选择一些话路话音进行分析和统计)。如果要进行分析，则业务控制系统(如SCP)向智能处理系统(如AIP)下达对该话路进行录音的指令；业务控制系统(如SCP)指示通话连接系统(如SSP)连接智能处理系统(如AIP)；智能处理系统(如AIP)可以根据规范的交互接口获取通话的话音数据，按照指定格式对话路进行录音。录音完毕，拆除智能处理系统(如AIP)和通话连接系统(如SSP)的连接。
之后，智能处理系统(如AIP)将获取的话音信息发送给外部计算机，实现语音识别及记录等后续步骤。
需要说明的是，上例中，智能处理系统实现的仅是话音采集。目前，一些智能处理系统带有一些语音识别的功能，因此也可以由业务控制系统控制智能处理系统将语音信息转化后的话音文本信息及声纹信息，在直接或间接(例如由业务控制系统转发)给如外部计算机等外围设备，由外部计算机等外围设备实现语音识别及行为特征的记录等步骤。
以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
权利要求
1.一种收集用户行为特征的方法，其特征在于，该方法包括以下步骤A、获取用户通信时的通话话音；B、将所述通话话音的内容通过语音识别转换为文本信息；C、从所述文本信息中识别出用户的行为特征信息并进行保存。
2.根据权利要求1所述的方法，其特征在于，步骤A所述获取用户通信时的通话话音的步骤包括建立用户的通信话路进行通话时，对所述通信话路进行录音获取所述用户的通话话音。
3.根据权利要求1所述的方法，其特征在于，步骤A后进一步包括分析出所述通话话音的声纹特征，根据所述声纹特征识别出对应的用户标识；步骤C所述保存的步骤进一步包括将所述用户的行为特征信息与所述用户标识对应保存。
4.根据权利要求3所述的方法，其特征在于，步骤C所述保存前进一步包括判断是否已经保存有相同用户标识的相同行为特征信息，若是，则结束当前流程，否则执行所述保存。
5.根据权利要求4所述的方法，其特征在于，所述判断是否已经保存有相同用户标识的相同行为特征信息的步骤包括判断所述根据声纹特征识别出的用户标识是否与已经保存的用户标识相同；或，判断所述分析出的通话话音的声纹特征是否与已经保存的用户标识所对应的声纹特征相同。
6.根据权利要求1所述的方法，其特征在于，步骤C所述从文本信息中识别出用户的行为特征信息的步骤包括识别出所述文本信息中的关键字；根据识别出的关键字分析出用户的行为特征信息。
7.根据权利要求6所述的方法，其特征在于，所述分析出用户的行为特征信息的步骤包括使用采用预定策略的方法、神经网络的方法、模糊查询的方法、或关联分析方法分析出用户的行为特征信息。
8.一种收集用户行为特征的装置，其特征在于，包括话音获取单元，用于获取用户通信时的通话话音，并传送给语音识别单元；语音识别单元，用于将所述通话话音内容转换为文本信息、分析出通话话音的声纹特征，分别传送给语义分析单元和用户身份识别单元；语义分析单元，用于从所述文本信息中识别出用户的行为特征信息，并发送给行为特征存储单元；用户身份识别单元，用于根据声纹特征识别出对应的用户标识，并发送给行为特征存储单元；行为特征存储单元，用于将所述用户标识和用户的行为特征信息对应保存。
9.根据权利要求7所述的装置，其特征在于，所述话音获取单元由智能网中的智能外设IP或增强智能外设AIP实现。
10.根据权利要求7所述的装置，其特征在于，所述话音获取单元、语音识别单元由智能网中的智能外设IP或增强智能外设AIP实现。
全文摘要
本发明提供了一种收集用户行为特征的方法，包括获取用户通信时的通话话音；将所述通话话音的内容通过语音识别转换为文本信息以及分析出所述通话话音的声纹特征对应的用户标识；将所述用户的行为特征信息与所述用户标识对应保存。还提供了收集用户行为特征的装置，包括话音获取单元、语音识别单元、语义分析单元、用户身份识别单元和行为特征存储单元。通过本发明，可实现通过通话话音收集用户行为特征。
文档编号H04Q3/00GK1852354SQ20051011316
公开日2006年10月25日申请日期2005年10月17日优先权日2005年10月17日
发明者闵国兵, 钟杰萍, 汪芳山申请人:华为技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：闵国兵;钟杰萍;汪芳山
技术所有人：华为技术有限公司
我是此专利的发明人

上一篇：一种收集用户通信特征信息的方法和装置的制作方法
上一篇：一种实现广播业务移动性管理的方法及装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。