即时通信中流媒体交互内容识别的方法、客户端及系统的制作方法

文档序号：7866727阅读：263来源：国知局

专利名称：即时通信中流媒体交互内容识别的方法、客户端及系统的制作方法
技术领域：
本发明属于通信、软件技术领域。
背景技术：
即时通信(InstantMessaging,简称IM),大多数情况下,指的是能够即时发送或接收互联网消息等功能的业务。它已成为人们通过网络进行交互通信的平台，用以实现包括文本、图片、语音、视频、多媒体等多种数据格式的交互操作，并能够对已有的文档数据利用即时通信工具便利地进行传输操作。在交互通信的基础上，通过即时通信工具还逐步发展出了个人页面、博客、微博、电子邮件、音乐、图片、游戏、影视和搜索等多种功能。即时通信工具已不再单纯作为聊天工具，还实现了资讯、娱乐、搜索、电子商务、办公、网络社区等更加广泛的用途。能够实现即时通信接入功能的设备多种多样。典型的设备类型，包括使用传统网络的个人电脑，以及平板电脑；还包括使用移动互联网的智能手机，等等。目前即时通信软件的类型也多种多样，典型的包括有腾讯科技公司的QQ或微信、微软公司的MSN、A0L的ICQ，以及淘宝旺旺、网易泡泡、飞信、小米公司的米聊，等等。在当前的技术条件下，利用录制流媒体数据的形式进行交互的即时通信形式，应用日益普及。比如，常用的微信即时通信工具、米聊即时通信工具或者QQ即时通信工具等，都可以录制音频数据后发送至联系人对象所在的即时通信客户端，以及接收联系人对象所发送的音频数据。在录制音频数据进行交互时，能够避免输入字符的麻烦性，为广大用户所喜爱。所录制的音频数据，通常以流媒体交互框的形式进行呈现，当音频数据的时间长度长的时候，流媒体交互框的长度就较长，当音频数据的时间长度短的时候，流媒体交互框的长度就较短，并且，常常还标注有流媒体的时间长度等。在触发流媒体交互框后，即可播放所对应的流媒体数据。但利用流媒体交互框的形式展示流媒体内容时，有一个不利之处，就是用户在查看流媒体交互记录时，必须要播放及收听相应的流媒体数据，才能够查看其中的流媒体内容。该查看方式是繁琐的。

发明内容
本发明的目的是提供一种即时通信中流媒体交互内容识别的方法，以及对应的客户端及系统，利用本发明，能够对交互通信中的流媒体内容进行识别，对应着流媒体交互框对识别的字符内容进行载入及输出操作。本发明所提供的一种即时通信中流媒体交互内容识别的方法，包括有如下步骤采集已完成交互的流媒体内容，该流媒体内容为语音内容或视频内容或多媒体内容；将前述的流媒体内容识别为字符；在满足识别字符的输出条件时，将识别内容插入到原流媒体交互框中输出，或插入到原流媒体交互框的邻近位置输出，或替换原流媒体交互框输出。
进一步，将所述的流媒体内容识别为字符的操作，是通过将前述的流媒体内容推送至识别服务器进行识别操作，进而返回至所在的即时通信客户端。进一步，所述的流媒体内容在向识别服务器进行推送操作的情况下，以流媒体内容集合的方式进行推送，该流媒体内容集合中包括两个或两个以上流媒体交互框对应的流媒体内容。进一步，所述的识别字符的输出条件，是按如下方式实施的预设用以触发识别字符输出的字符呈现控件；当采集获得前述字符呈现控件的触发消息时，将已识别的字符内容对应着所在的流媒体交互框进行载入及输出操作。进一步，所述的字符呈现控件，对应着全部的流媒体交互框进行设置，或者对应着所在当前窗口中的各流媒体交互框进行设置，或者对应着特定的单条或多条流媒体交互框进行设置。进一步，在采集获得对所在的流媒体交互框进行触发播放操作消息时，对所在的流媒体交互框的流媒体内容进行识别后，将识别字符输出。进一步，在触发前述的流媒体交互框时，可通过如下步骤进行实施采集用户对特定流媒体交互框的触发消息；取相邻N条即时通信消息中的流媒体交互框，识别后获取对应字符输出，或者，在判断已具有识别字符的情况下，采集已识别的字符输出。进一步，前述的N，选为1-4之间的正整数。进一步，对应着识别获得的字符内容，通过可编辑的控件形式进行呈现；在通过前述控件采集获得用户对字符内容的编辑信息的情况下，将编辑后的内容对应着所在的即时通信消息进行存储，作为该条流媒体内容的即时通信消息的默认识别数据。进一步，在对所进行的流媒体交互内容进行数据搜索时，触发数据搜索范围内的流媒体内容进行字符识别。进一步，针对待识别的流媒体内容来说,对流媒体内容中的部分数据识别获得字符后，对应着原流媒体交互框输出。进一步，在将识别获得的字符内容替换原有的流媒体交互框的情况下，将替换后的字符数据，与所在即时通信消息的流媒体内容之间建立起链接关系；在采集获得对该字符数据任一位置的触发消息时，启动该链接关系，调出所对应的流媒体数据并开启播报。进一步，对应着原流媒体交互框所输出的字符数据，为识别获得的字符中的部分数据，其字符量占总字符量的50%或以下。进一步，对应着原流媒体交互框所输出的字符内容，选择特定属性类型的字符进行保留。进一步，所保留的字符类型，为所在即时通信消息识别字符内容中的名词内容。进一步，在所识别获得的字符数据和对应的流媒体交互内容之间，建立起数据的对应关系，在触发特定位置的流媒体交互内容时，与其相对应的字符内容做差异化显示，或者在触发特定的字符内容时，与其相对应的流媒体交互内容所在部分做差异化显示。进一步，在流媒体交互框与识别获得的字符内容之间建立起对应关系，是通过将
6流媒体交互框进行分割的方式来实现的，依据识别获得的字符的数量对流媒体交互框进行相应份数的分割，每一份对应着一个字符。本发明还提供一种即时通信中流媒体交互内容识别的客户端，该客户端包括流媒体内容采集单元，用以采集已完成交互的流媒体内容，该流媒体内容为语音内容或视频内容或多媒体内容；流媒体内容识别单元，用以将前述的流媒体内容识别为字符；识别内容输出单元，用以在满足识别字符的输出条件时，将识别内容插入到原流媒体交互框中输出，或插入到原流媒体交互框的邻近位置输出，或替换原流媒体交互框输出。本发明还提供一种即时通信中流媒体交互内容识别的系统，该系统包括即时通信客户端，用以采集已完成交互的流媒体内容，推送至下述的识别服务器进行字符识别，将识别后的字符内容，在满足识别字符的输出条件时插入到原流媒体交互框中输出，或插入到原流媒体交互框的邻近位置输出，或替换原流媒体交互框输出；识别服务器，用以接收前述即时通信客户端所推送的流媒体内容，将流媒体内容识别为字符内容后推送至前述的即时通信客户端。进一步，所述的即时通信客户端，它包括流媒体内容采集单元，用以采集已完成交互的流媒体内容，该流媒体内容为语音内容或视频内容或多媒体内容；流媒体内容推送单元，用以将前述采集的流媒体内容推送至对应的识别服务器；识别内容接收单元，用以接收识别服务器所推送的识别字符内容；识别内容输出单元，用以在满足识别字符的输出条件时，将识别内容插入到原流媒体交互框中输出，或插入到原流媒体交互框的邻近位置输出，或替换原流媒体交互框输出。进一步，所述的识别服务器，它包括流媒体接收单元，用以接收前述即时通信客户端所推送的待识别流媒体内容；流媒体识别单元，用以识别所接收的流媒体内容为字符内容；识别结果推送单元，用以将识别获得的字符内容推送至前述的即时通信客户端。

图I是本发明所述即时通信中流媒体交互内容识别的方法流程图，对应着实施例I。图2是本发明所述即时通信中流媒体交互内容识别的客户端的结构框图，对应着实施例2。图3是本发明所述即时通信中流媒体交互内容识别的系统的结构框图，对应着实施例3。
具体实施例方式实施例I在本发明中，能够对用户以流媒体内容为交互形式的即时通信交互记录，进行字符识别后将其数据对应着已完成交互操作的流媒体内容进行载入。在具体实施时，参图I所示，本实施例具有如下步骤步骤SI 10，采集已完成交互的流媒体内容,该流媒体内容为语音内容或视频内容或多媒体内容；步骤S120，将前述的流媒体内容识别为字符；步骤S130，在满足识别字符的输出条件时，将识别内容插入到原流媒体交互框中输出，或插入到原流媒体交互框的邻近位置输出，或替换原流媒体交互框输出。如前所述，本发明所描述的流媒体内容，是已经完成交互通信的流媒体内容，该流媒体内容可能是由用户自己所发出并且已向联系人对象进行了数据传输操作，或者是所接收到的来自于联系人对象的即时通信消息。在当前的应用技术中，所述的流媒体内容尤其以录制语音信息的音频数据为主；但需要指出的是，录制的视频数据也同样可以作为流媒体内容，比如，通过录制唇语所形成的数据内容，或者对于哑语来说，手势的视频数据就可以作为交互的主要内容。另外，所述的流媒体内容也可以是多媒体内容，同时具有音视频数据。在当前的技术条件下，流媒体形式的交互内容在交互记录中通常以条框的形式进行展示。需要指出的是，流媒体内容展示的形式灵活多样，并不局限于条形的框体结构。在本发明中，为了便于描述，将用以表达流媒体交互记录的结构形式，统称为流媒体交互框。流媒体内容的识别方式灵活多样，作为典型的实施例，是对应着所在的即时通信客户端设置远程的识别服务器。在该识别服务器中预设语音识别语料库以及语音识别引擎，接收即时通信客户端所传输的语音数据后，对其进行识别操作。这种设置方式的优点，是能够减少即时通信客户端所在终端的软硬件负担，并可以提高识别率；不足之处是需要网络通信才能够实施。在利用识别服务器进行识别操作的情况下，将所选择的需要进行字符识别的流媒体内容传输至识别服务器；在识别服务器中利用预设的语音识别语料库及语音识别引擎进行识别操作；然后将识别获得的结果返回至前述的即时通信客户端。其中，如果所述的流媒体内容预存于即时通信客户端所在当前终端的话，则通过所在即时通信客户端获取前述识别服务器所对应的IP地址以及端口号，生成发送套接字，进行数据的发送操作。如果所述的流媒体内容存储在即时通信系统服务器中的话，则可以通过系统服务器采集即时通信客户端的识别申请，将所选择的流媒体内容转入到前述的识别服务器，以供识别操作。由识别服务器所获得的识别内容可以直接发送至前述的即时通信客户端，也可以首先传输至即时通信系统服务器，再由即时通信系统服务器转发至该即时通信客户端。需要指出的是，也可以通过即时通信客户端所在的终端设备，预设流媒体识别模块，比如语音识别模块。该语音识别模块中预装有语音识别语料库以及语音识别引擎，能够接收所推送的语音交互内容，经识别处理后将其转变为字符内容。在进行流媒体内容向识别服务器的推送操作时，为了节约发起通信操作的时间量，适合将流媒体内容以集合的形式进行发送。进行发送时的流媒体内容集合，其中包括有两个或者两个以上的流媒体交互框所对应的流媒体内容。每个流媒体交互框所对应的单个流媒体内容，对应着一条流媒体形式的交互信息。在具体实施时，每个流媒体内容集合可以包括更多的交互信息的条数，比如5条或者10条或者100条，甚至可以包括所有已存储的流媒体交互内容。在触发流媒体内容的识别操作时，或者触发已识别的字符内容进行呈现操作时，都可以通过设置字符呈现控件的形式进行实施。所述的字符呈现控件，能够在触发该控件的情况下，将所对应的已识别字符内容进行输出操作。其中，如果前述的字符内容已经识别完成的话，则对其进行采集及输出即可；如果前述的字符内容还没有识别完成的话，则采集所有被触发的流媒体内容，对其进行识别操作。具体来说，可通过如下步骤进行实现预设用以触发识别字符输出的字符呈现控件；当采集获得前述字符呈现控件的触发消息时，将已识别的字符内容对应着所在的流媒体交互框进行载入及输出操作。前述的字符呈现控件，可以对应着全部的流媒体交互框进行设置。在这种情况下，如果各流媒体交互框均没有进行字符识别的话，则将全部的流媒体交互框所对应的流媒体交互内容进行字符识别操作，然后将识别结果对应着各流媒体交互框输出。如果已经有部分的流媒体内容被识别的话，则将没有被识别的各流媒体内容进行采集之后进行字符识别及输出操作。前述的字符呈现控件，也可以仅仅采集所在当前窗口中的各流媒体交互框所对应的流媒体内容进行识别操作。这是因为用户当前所观察的窗口中的流媒体交互内容，可能正是用户所关注的数据，而其它窗口中的流媒体交互内容，用户可能并不关注。进一步，前述的字符呈现控件也可以仅仅针对于特定的单条或者多条流媒体交互框进行设置。举例来说，对应着每条流媒体交互信息，在触发信息发起人所在的位置时，即可生成相应的字符呈现控件。所述的发起人所在的位置，指的是用以呈现发起人数据信息的位置，该位置通常显示有发起人的头像数据或用户名等数据。在针对所在的流媒体交互框展现了字符呈现控件后，若通过该控件采集获得用户的触发信息，比如通过触摸屏的点击触发消息，或者通过鼠标器的点击消息等，即可触发判定所在流媒体交互框对应的流媒体内容是否已进行字符识别的操作进程，在没有进行字符识别的情况下，将其数据进行采集，对其进行字符识别。然后将识别获得的字符内容，通过其所在的流媒体交互框或者在该流媒体交互框旁边进行输出操作。另外，在触发对流媒体交互框所对应流媒体内容进行识别操作时，还可以这样进行采集用户对特定流媒体交互框的触发播放操作的消息，使得该流媒体交互框所对应的流媒体内容进入到播报状态；与此同时,对所在的流媒体交互框中的流媒体交互内容进行识别，转换为字符后输出。如果已经对所在流媒体交互框中的流媒体内容预先进行了字符识别的话，则直接采集该已识别的字符进行输出。于是，用户在播报与特定流媒体交互框对应的流媒体数据时，也可以看到识别获得的属于该流媒体交互框的字符内容。进一步，在触发特定的流媒体交互框时，还可以这样进行采集用户对特定流媒体交互框的触发消息，比如对特定流媒体交互框的点击消息。然后，取相邻N条即时通信消息中的流媒体交互框，其中N适合选为1-4之间的正整数。经识别后获取与所选择流媒体交互框对应的字符，分别对应着所在的流媒体交互框输出；另外，所选择范围内的流媒体交互框中的流媒体数据可能已经预先进行了数据识别，于是，就可以遍历与所选择的流媒体交互框相对应的数据，判断是否有预存的已识别字符结果，在具有的情况下，可以直接将其采集并对应着各自所在的流媒体交互框输出。利用这种方式尤其有价值，因为对于即时通信消息来说，如果用户查看当前的即时通信消息，那么，该用户也非常有可能期望查询相邻的即时通信消息。进一步，前述的各识别字符内容，还可以通过可编辑的控件形式进行呈现。该控件在输出字符内容的情况下，还可以采集用户对字符内容的编辑信息，将编辑后的内容对应着所在的即时通信消息进行存储，作为该条流媒体内容的即时通信消息的默认识别数据。触发流媒体交互内容进行识别操作的因素还有其它的类型。比如说，用户A和联系人对象B之间一共有210条流媒体内容的交互消息，在用户A的记忆中，联系人对象B曾经口述了自己的地址，也就是说，用户A需要在联系人对象B所发出的流媒体内容中搜索地址方面的数据信息。这种情况下，就可以触发对流媒体交互内容的字符识别操作。可以由操作方，比如用户A，选择需要进行搜索的数据范围，根据该数据范围进行字符的识别操作。作为举例，在前述210条流媒体内容中，来自联系人对象B的流媒体内容的即时通信消息共有110条，于是，就可以对该110条即时通信消息采集后进行字符识别操作。所识别获得的字符内容，需要对应着所在的流媒体交互框进行数据的输出操作。如前所述，典型的字符内容的输出方式包括(I)将识别内容插入到原流媒体交互框中输出。作为举例，在即时通信交互界面中展示有用户A和联系人对象B之间的流媒体交互框,每个流媒体交互框均对应有流媒体内容。在各流媒体交互框的旁边,设置有字符呈现控件。在触发了该字符呈现控件后，即可对该流媒体交互框所对应的流媒体内容进行采集，对其进行字符识别的处理操作。进而将识别获得的字符内容直接插入到所在的流媒体交互框中。在这种实施方式下，所述的流媒体交互框的尺寸可以根据需要进行调整。比如说，依据默认的字体来输出识别后的内容时，如果流媒体交互框的长度太短，则可以将流媒体交互框做相应的延伸；如果一行的流媒体交互框长度不够，还可以延伸为多行的流媒体交互框，直至能够容放下所有的字符内容。另外，也可以保持原有的流媒体交互框的尺寸不变，若原有的流媒体交互框的尺寸不足以插入所有已识别获得的字符内容的话，则可以仅显示部分的字符内容，而在采集获得对字符内容所在区域的触发消息后，生成弹出窗口，完整输出所有的字符内容。(2)插入到原流媒体交互框的邻近位置输出。这种方式下，是将识别获得的字符内容插入到与原有的流媒体交互框相邻近的位置处，而不在原有的流媒体交互框的位置上插入。这种实施方案下，需要调整交互界面的布局，来为插入字符内容提供空间。插入字符内容的位置，优选的形式是邻近着所对应的流媒体交互框的下方，成行地插入。(3)替换原流媒体交互框输出。这种方式下，就直接将识别获得的字符内容替换原有的流媒体交互框。需要指出的是，在替换了原有的流媒体交互框之后，还适合对替换后的字符内容赋予流媒体数据播报的链接功能。也就是说，所替换后的字符数据，与所在即时通信消息的流媒体内容之间建立起链接关系，在触发该字符数据的任一位置时，即可启动该链接关系，调取与其对应的流媒体数据，开启之后播报所对应的流媒体内容。
进一步，因为流媒体交互框的长度通常有限，而流媒体交互框所对应的字符量通常较大，这种情况下，如果以原有的流媒体交互框的尺寸来插入识别的字符内容的话，多数情况下，就无法容放所识别获得的字符内容。于是，还可以对识别的字符内容进行内容删减处理后，再在原流媒体交互框中进行插入操作。比如删减后的字符量占总字符量的比例控制在50%或以下，这种情况下，就便于在流媒体交互框中插入识别获得的字符内容。在对识别的字符内容进行删减处理时，可以保留最前面的字符内容。另外，也可以设置需要保留的字符属性。在通常情况下，名词性的内容会包括有比较多的数据信息，于是，就可以设置识别后字符的保留原则为优先保留名词内容，而将其它的内容，包括无法进行有效识别的内容都删减掉。作为举例，如果流媒体内容所描述的字符为“想快点去打篮球”，经删减处理之后，仅保留了名词性的数据，为“篮球”，利用这一名词，用户一旦看到了“篮球”这两个字符后，就会明白流媒体交互框所对应的流媒体交互内容讨论的是篮球方面的事情，于是，也可以提示用户了解该流媒体交互框涉及的数据内容。进一步，在流媒体交互框和识别的字符内容分开进行的方案中，因为流媒体交互框对应着流媒体数据，而流媒体数据的不同部分，又对应着识别的字符数据。因此，还可以在所识别获得的字符数据和对应的流媒体交互内容之间，建立起数据的对应关系，在触发特定位置的流媒体交互内容时，与其相对应的字符内容做差异化显示，或者在触发特定的字符内容时，与其相对应的流媒体交互内容所在部分做差异化显示。所述的差异化显示，尤其指的是色彩上的差异。进一步，特定的流媒体交互内容与所对应的识别获得的字符内容之间，适合采用同样的色彩进行表达，比如，同时采用与周围其它内容不一样的绿色进行表达，以此进行区分。在具体实施时，作为举例，可以将整个流媒体交互框按照字符的数量进行分割，比如识别获得的字符一共有18个，于是就将流媒体交互框分割成18份，每一份对应着一个字符。当触发了相应的流媒体交互框的位置后，判定所触发位置对应的字符数据。将所触发的流媒体交互框的相应位置，以及所对应的字符数据，通过将其与周围内容进行差异化处理的方式进行呈现。比如说，当触发了流媒体交互框的内容部分对应着第3到第6个字符的情况下，就可以将所对应的字符部分用黄色阴影进行差异化显示，没有被触发的部分不设置该黄色阴影。实施例2参图2所示，在本实施例中，对应着前面所描述的方法提供了一种即时通信中流媒体交互内容识别的客户端200，该客户端200是一种即时通信客户端，能够实现各种预设的即时通信功能。进一步，所述的客户端200还包括如下结构流媒体内容采集单元210，用以采集已完成交互的流媒体内容，该流媒体内容为语音内容或视频内容或多媒体内容；流媒体内容识别单元220，用以将前述的流媒体内容识别为字符；识别内容输出单元230，用以在满足识别字符的输出条件时，将识别内容插入到原流媒体交互框中输出，或插入到原流媒体交互框的邻近位置输出，或替换原流媒体交互框输出。具体实施时，首先通过前述的流媒体内容采集单元210，采集已完成交互操作的流媒体内容。需要指出的是，该采集操作还可以通过特定的触发条件进行触发，比如前面所述的字符呈现控件，在触发后，可以根据所选择的流媒体交互框采集与其对应的流媒体内容。所述的流媒体内容，典型的实施例是语音内容，另外，也可以是视频内容，或者是包括有音频或视频数据的多媒体内容。将采集获得的流媒体内容，通过流媒体内容识别单元220进行识别操作，转变成字符数据。识别的方式，可以通过该流媒体内容识别单元220，将待识别的流媒体内容推送至配套的识别服务器进行识别后接收识别结果，另外，也可以通过所在的终端预设流媒体识别模块，比如语音识别模块，对采集的流媒体内容进行识别操作，将其转变为字符数据。所获得的字符识别结果，通过前述的识别内容输出单元230，在满足字符识别的输出条件时，将识别的内容插入到原有的流媒体交互框中进行输出，既可以全部插入，也可以部分插入，或者，在原有的流媒体交互框的邻近位置，比如在原流媒体交互框邻近下方的位置进行插入操作；或者，直接将原流媒体交互框删除，用识别获得的字符内容替换原流媒体交互框后输出。在替换原流媒体交互框进行输出的情况下，所输出的字符内容还可以加载原流媒体内容的链接。实施例3本实施例还提供一种即时通信中流媒体交互内容识别的系统300。该系统300能够实现预设的即时通信功能。比如，设置即时通信客户端所在的系统服务器，通过系统服务器设置有登录服务结构，获取即时通信客户端当前的登录信息，主要包括各即时通信客户端的动态IP地址以及端口号，并向登录的其它关联即时通信客户端推送前述的IP地址以及端口号信息。以及设置有状态服务结构，用于存储各个即时通信用户的登录状态；设置有离线消息服务结构，用于存储即时通信离线用户的相关信息；设置有用户信息数据库服务结构，用于存储用户号码标识，或与用户号码标识对应的其它基本资料，以及用户相关的群组、讨论组等信息，或用户向联系人对象发送的、被系统服务器所存储的离线数据，或者由联系人对象发出的、被系统服务器所存储的离线数据，等等。进一步，本发明所描述的系统300，还可以对已完成交互通信的流媒体内容进行识别，转变为字符后对应着流媒体交互框进行载入操作。为实现该目的，参图3所示，所述的系统300包括即时通信客户端310，用以采集已完成交互的流媒体内容，推送至下述的识别服务器320进行字符识别，将识别后的字符内容，在满足识别字符的输出条件时插入到原流媒体交互框中输出，或插入到原流媒体交互框的邻近位置输出，或替换原流媒体交互框输出；识别服务器320，用以接收前述即时通信客户端310所推送的流媒体内容，将流媒体内容识别为字符内容后推送至前述的即时通信客户端310。作为典型的实施例而非限定，所述的即时通信客户端310包括流媒体内容采集单元311，用以采集已完成交互的流媒体内容，该流媒体内容为语音内容或视频内容或多媒体内容；流媒体内容推送单元312，用以将前述采集的流媒体内容推送至对应的识别服务器 320 ；识别内容接收单元313，用以接收识别服务器320所推送的识别字符内容；
识别内容输出单元314，用以在满足识别字符的输出条件时，将识别内容插入到原流媒体交互框中输出，或插入到原流媒体交互框的邻近位置输出，或替换原流媒体交互框输出。对应地，所述的识别服务器320包括流媒体接收单元321，用以接收前述即时通信客户端310所推送的待识别流媒体内容；流媒体识别单元322，用以识别所接收的流媒体内容为字符内容；识别结果推送单元323，用以将识别获得的字符内容推送至前述的即时通信客户端 310。具体实施时，通过即时通信客户端310中的流媒体内容采集单元311，采集用户和联系人对象之间已经完成交互的流媒体内容。这儿所述的流媒体内容，尤其指的是包括语音内容的音频数据，当然，也可以是其它的流媒体数据形式，比如视频内容或者包括有音频与视频内容的多媒体内容等。将采集获得的流媒体内容，经由流媒体内容推送单元312，推送至配套设置的识别服务器320。所述的识别服务器320，既可以在系统的即时通信服务器中设置，也可以独立设置。该识别服务器320与即时通信客户端310之间的数据通信，能够通过所在的系统服务器进行数据中转，也可以在两者之间直接进行数据的交互操作。由识别服务器320中的流媒体接收单元321，接收即时通信客户端310所推送的待识别流媒体内容，在识别服务器320中预设有流媒体识别单元322，在该流媒体识别单元322中，作为举例而非限定，可以包括用以进行语音识别的语音识别语料库，以及进行语音识别处理操作的语音识别引擎。在识别服务器320中，经由流媒体识别单元322所识别的字符内容结果，通过识别结果推送单元323，推送至前述的即时通信客户端310中。通过即时通信客户端310中的识别内容接收单元313，接收到识别服务器320所推送的识别字符内容后，通过识别内容输出单元314，来判定是否满足识别字符的输出条件。所述的输出条件，既可以通过触发预设的控件后启动字符内容的输出操作，也可以按照预设的条件，一旦获得识别的字符内容结果，即可以进行输出。将识别获得的字符内容结果进行输出的形式，可以将识别内容插入到原流媒体交互框中输出，或插入到原流媒体交互框的邻近位置输出，或替换原流媒体交互框输出。以上是对本发明的描述而非限定，基于本发明思想的其它实施例，亦均在本发明的保护范围之中。
权利要求
1.一种即时通信中流媒体交互内容识别的方法，其特征在于该方法包括有如下步骤采集已完成交互的流媒体内容,该流媒体内容为语音内容或视频内容或多媒体内容；将前述的流媒体内容识别为字符；在满足识别字符的输出条件时，将识别内容插入到原流媒体交互框中输出，或插入到原流媒体交互框的邻近位置输出，或替换原流媒体交互框输出。
2.根据权利要求I所述的一种即时通信中流媒体交互内容识别的方法，其特征在于将所述的流媒体内容识别为字符的操作，是通过将前述的流媒体内容推送至识别服务器进行识别操作，进而返回至所在的即时通信客户端。
3.根据权利要求2所述的一种即时通信中流媒体交互内容识别的方法，其特征在于所述的流媒体内容在向识别服务器进行推送操作的情况下，以流媒体内容集合的方式进行推送,该流媒体内容集合中包括两个或两个以上流媒体交互框对应的流媒体内容。
4.根据权利要求I所述的一种即时通信中流媒体交互内容识别的方法，其特征在于所述的识别字符的输出条件，是按如下方式实施的，预设用以触发识别字符输出的字符呈现控件；当采集获得前述字符呈现控件的触发消息时，将已识别的字符内容对应着所在的流媒体交互框进行载入及输出操作。
5.根据权利要求4所述的一种即时通信中流媒体交互内容识别的方法，其特征在于所述的字符呈现控件，对应着全部的流媒体交互框进行设置，或者对应着所在当前窗口中的各流媒体交互框进行设置，或者对应着特定的单条或多条流媒体交互框进行设置。
6.根据权利要求I所述的一种即时通信中流媒体交互内容识别的方法，其特征在于在采集获得对所在的流媒体交互框进行触发播放操作消息时，对所在的流媒体交互框的流媒体内容进行识别后，将识别字符输出。
7.根据权利要求I所述的一种即时通信中流媒体交互内容识别的方法，其特征在于在触发前述的流媒体交互框时，可通过如下步骤进行实施，采集用户对特定流媒体交互框的触发消息；取相邻N条即时通信消息中的流媒体交互框，识别后获取对应字符输出，或者，在判断已具有识别字符的情况下，采集已识别的字符输出。
8.根据权利要求7所述的一种即时通信中流媒体交互内容识别的方法，其特征在于前述的N，选为1-4之间的正整数。
9.根据权利要求I所述的一种即时通信中流媒体交互内容识别的方法，其特征在于对应着识别获得的字符内容，通过可编辑的控件形式进行呈现；在通过前述控件采集获得用户对字符内容的编辑信息的情况下，将编辑后的内容对应着所在的即时通信消息进行存储，作为该条流媒体内容的即时通信消息的默认识别数据。
10.根据权利要求I所述的一种即时通信中流媒体交互内容识别的方法，其特征在于在对所进行的流媒体交互内容进行数据搜索时，触发数据搜索范围内的流媒体内容进行字符识别。
11.根据权利要求I所述的一种即时通信中流媒体交互内容识别的方法，其特征在于针对待识别的流媒体内容来说，对流媒体内容中的部分数据识别获得字符后，对应着原流媒体交互框输出。
12.根据权利要求I所述的一种即时通信中流媒体交互内容识别的方法，其特征在于在将识别获得的字符内容替换原有的流媒体交互框的情况下，将替换后的字符数据，与所在即时通信消息的流媒体内容之间建立起链接关系；在采集获得对该字符数据任一位置的触发消息时，启动该链接关系，调出所对应的流媒体数据并开启播报。
13.根据权利要求I所述的一种即时通信中流媒体交互内容识别的方法，其特征在于对应着原流媒体交互框所输出的字符数据，为识别获得的字符中的部分数据，其字符量占总字符量的50%或以下。
14.根据权利要求I所述的一种即时通信中流媒体交互内容识别的方法，其特征在于对应着原流媒体交互框所输出的字符内容，选择特定属性类型的字符进行保留。
15.根据权利要求14所述的一种即时通信中流媒体交互内容识别的方法，其特征在于所保留的字符类型，为所在即时通信消息识别字符内容中的名词内容。
16.根据权利要求I所述的一种即时通信中流媒体交互内容识别的方法，其特征在于在所识别获得的字符数据和对应的流媒体交互内容之间，建立起数据的对应关系，在触发特定位置的流媒体交互内容时，与其相对应的字符内容做差异化显示，或者在触发特定的字符内容时，与其相对应的流媒体交互内容所在部分做差异化显示。
17.根据权利要求16所述的一种即时通信中流媒体交互内容识别的方法，其特征在于在流媒体交互框与识别获得的字符内容之间建立起对应关系，是通过将流媒体交互框进行分割的方式来实现的，依据识别获得的字符的数量对流媒体交互框进行相应份数的分割，每一份对应着一个字符。
18.—种即时通信中流媒体交互内容识别的客户端，其特征在于该客户端包括流媒体内容采集单元，用以采集已完成交互的流媒体内容,该流媒体内容为语音内容或视频内容或多媒体内容；流媒体内容识别单元，用以将前述的流媒体内容识别为字符；识别内容输出单元，用以在满足识别字符的输出条件时，将识别内容插入到原流媒体交互框中输出，或插入到原流媒体交互框的邻近位置输出，或替换原流媒体交互框输出。
19.一种即时通信中流媒体交互内容识别的系统，其特征在于该系统包括即时通信客户端，用以采集已完成交互的流媒体内容，推送至下述的识别服务器进行字符识别，将识别后的字符内容，在满足识别字符的输出条件时插入到原流媒体交互框中输出，或插入到原流媒体交互框的邻近位置输出，或替换原流媒体交互框输出；识别服务器，用以接收前述即时通信客户端所推送的流媒体内容，将流媒体内容识别为字符内容后推送至前述的即时通信客户端。
20.根据权利要求19所述的一种即时通信中流媒体交互内容识别的系统，其特征在于所述的即时通信客户端包括，流媒体内容采集单元，用以采集已完成交互的流媒体内容,该流媒体内容为语音内容或视频内容或多媒体内容；流媒体内容推送单元，用以将前述采集的流媒体内容推送至对应的识别服务器；识别内容接收单元，用以接收识别服务器所推送的识别字符内容；识别内容输出单元，用以在满足识别字符的输出条件时，将识别内容插入到原流媒体交互框中输出，或插入到原流媒体交互框的邻近位置输出，或替换原流媒体交互框输出。
21.根据权利要求19所述的一种即时通信中流媒体交互内容识别的系统，其特征在于所述的识别服务器包括，流媒体接收单元，用以接收前述即时通信客户端所推送的待识别流媒体内容；流媒体识别单元，用以识别所接收的流媒体内容为字符内容；识别结果推送单元，用以将识别获得的字符内容推送至前述的即时通信客户端。
全文摘要
本发明提供了一种即时通信中流媒体交互内容识别的方法、客户端及系统，属于通信、软件技术领域。其中所提供的方法包括有如下步骤采集已完成交互的流媒体内容，该流媒体内容为语音内容或视频内容或多媒体内容；将前述的流媒体内容识别为字符；在满足识别字符的输出条件时，将识别内容插入到原流媒体交互框中输出，或插入到原流媒体交互框的邻近位置输出，或替换原流媒体交互框输出。利用本发明，能够对交互通信中的流媒体内容进行识别，对应着流媒体交互框对识别的字符内容进行载入及输出操作。
文档编号H04L12/58GK102946399SQ20121048941
公开日2013年2月27日申请日期2012年11月26日优先权日2012年11月26日
发明者马宇尘申请人:上海量明科技发展有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马宇尘
技术所有人：上海量明科技发展有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。