直播内容分类方法及装置的制造方法_3

文档序号：9727411阅读：来源：国知局

器获取声音信息后，可以采用预设特征提取算法，对该声音信息进行特征提取，将提取到的特征信息作为声音内容特征信息，该声音内容特征信息用于表示声音信息所指示内容的特征。
[0121]进一步地，由于声音信息中包含不同种类的声音信息，则该服务器可以采用不同的预设特征提取算法，对该声音信息进行特征提取，得到不同种类的声音内容特征信息。例如，提取到的声音内容特征信息可以包括音调特征、音强特征、音色特征、频率特征、幅度特征和相位特征等，本发明实施例对此不做限定。
[0122]其中，该预设特征提取算法用于提取该声音信息的特征信息，可以为PCA(Principal Component Analysis，主分量分析法)、FDA(Linear Discriminant Analysis,线性判别分析法)、ICA(Independent Component Analysis，独立分量分析法)等，本发明实施例对该预设特征提取算法不做限定。
[0123]2023、将该声音信息转换为该文本信息，对该文本信息进行特征提取，得到文本内容特征信息，并采用预设特征提取算法，对该声音信息进行特征提取，得到该声音信息的声音内容特征信息。
[0124]步骤2023的具体过程与步骤2021、2022类似，在此不再赘述。
[0125]203、计算该内容特征信息与每个内容类型的预设内容特征信息之间的匹配度，按照计算得到的匹配度从大到小的顺序，选取预设数目的匹配度，将选取的匹配度所对应的内容类型确定为该直播用户的内容类型。
[0126]具体地，为了在直播过程中确定与直播内容匹配的内容类型，该服务器可以预先确定每个内容类型的预设内容特征信息。内容类型可以包括:天籁之音、青春偶像、幽默搞笑、K歌达人、乐器达人、情感聊吧、游戏直播、视频播放和在线教育等类型，根据天籁之音、青春偶像、幽默搞笑、K歌达人等内容类型，可以预先确定预设天籁之音内容特征信息、预设青春偶像内容特征信息、预设幽默搞笑内容特征信息和预设κ歌达人内容特征信息等。
[0127]当根据直播用户的声音信息获取到内容特征信息后，可以获取每个内容类型的预设内容特征信息，将获取到的内容特征信息与每个内容类型的预设内容特征信息进行匹配，计算该内容特征信息与每个内容类型的预设内容特征信息之间的匹配度。
[0128]其中，内容特征信息与预设内容特征信息之间的匹配度用于表示该内容特征信息与该预设内容特征信息的相似程度，对于每个内容类型的预设内容特征信息来说，若该内容特征信息与该预设内容特征信息的匹配度越高，表示该内容特征信息与该预设内容特征信息越相似，则该声音信息属于该预设内容特征信息对应的内容类型的可能性也越高。
[0129]在计算内容特征信息与每个内容类型的预设内容特征信息之间的匹配度后，按照匹配度从大到小的顺序进行排列，按照排列顺序选取预设数目的匹配度，将选取的匹配度所对应的内容类型确定为该直播用户的内容类型。
[0130]本发明实施例中，对于不同类型的内容特征信息，根据该内容特征信息确定该直播用户的内容类型的具体过程也不同。基于上述步骤2021-2023，根据该内容特征信息确定该直播用户的内容类型的过程可以包括以下步骤2031-2033中的至少一项:
[0131]2031、获取每个内容类型的预设文本内容特征信息，计算该文本内容特征信息与每个内容类型的预设文本内容特征信息之间的匹配度，按照匹配度从大到小的顺序，选取预设数目的匹配度，将选取的匹配度所对应的内容类型确定为该直播用户的直播内容类型。
[0132]基于上述步骤2021，服务器可以预先确定每个内容类型的预设文本内容特征信息，每个内容类型的预设文本内容特征信息包括至少一个关键词。例如，该内容类型可以为“幽默”、“情感”、“游戏”、“教育”等，如果内容类型为“教育”，则与“教育”对应的预设文本内容特征信息可以包括“英语教学”、“第一课”、“问题”等关键词。
[0133]当获取到声音信息的文本内容特征信息后，该服务器可以获取每个内容类型的预设文本内容特征信息，根据该文本内容特征信息中的关键词以及每个内容类型的预设文本内容特征信息中的关键词，计算该文本内容特征信息与每个内容类型的预设文本内容特征信息之间的匹配度，并将计算得到的匹配度按照从大到小的顺序进行排列，按照排列顺序选取预设数目的匹配度，将选取的匹配度所对应的内容类型确定为该直播用户的内容类型。
[0134]具体地，计算该文本内容特征信息与某一个内容类型的预设文本内容特征信息之间的匹配度时，该服务器可以从该文本内容特征信息中的关键词中，选取与该内容类型对应的任一关键词相似的关键词，确定所选取的关键词的数目，作为该文本内容特征信息与该内容类型的预设文本内容特征信息之间的匹配度。或者，将所选取的关键词的数目与该内容类型对应的关键词的总数目之间的比例作为该文本内容特征信息与该内容类型的预设文本内容特征信息之间的匹配度。
[0135]进一步地，内容特征信息中包含的关键词可以为高频关键词或者普通关键词，则在计算匹配度时，该服务器可以将高频关键词和普通关键词区分开来，分别计算对应的匹配度。
[0136]具体地，该服务器预先设置高频词库和普通词库，并根据预先设置的高频词汇和普通词库，确定该文本内容特征信息中的高频关键词和普通关键词，从高频关键词中，选取与内容类型对应的任一关键词相似的关键词，确定所选取的关键词的数目，作为高频匹配度，从普通关键词中，选取与内容类型对应的任一关键词相似的关键词，确定所选取的关键词的数目，作为普通匹配度。此时，为了增加高频关键词对计算的匹配度的影响，该服务器可以根据第一权重对高频匹配度进行加权，得到加权高频匹配度，并根据第二权重对普通匹配度进行加权，得到加权普通匹配度，并计算加权高频匹配度与加权普通匹配度之和，作为该文本内容特征信息与该内容类型的预设文本内容特征信息之间的匹配度。其中，该第一权重大于该第二权重，可以由服务器预先确定。
[0137]例如，文本内容特征信息包括高频关键词A，普通关键词B、预设文本内容特征信息包括关键词A、B、C、D，第一权重为1.5，第二权重为1，则高频关键词A与预设文本内容特征信息中的关键词匹配，高频匹配度为1，且普通关键词B与预设文本内容特征信息中的关键词匹配，普通匹配度为1，根据第一权重和第二权重分别进行加权后，可以计算出加权高频匹配度为1.5，加权普通匹配度为1，则该文本内容特征信息与该预设文本内容特征信息之间的匹配度为2.5。
[0138]2032、获取每个内容类型的预设声音内容特征信息，计算该声音内容特征信息与每个内容类型的预设声音内容特征信息之间的匹配度，按照匹配度从大到小的顺序，选取预设数目的匹配度，将选取的匹配度所对应的内容类型确定为该直播用户的直播内容类型。
[0139]基于上述步骤2022，服务器可以预先确定每个内容类型的预设声音内容特征信息，其中，服务器可以根据“男声”、“女声”、“童声”、“成年声音”、“沙哑声音”、“清悦声音”、“乐器类别”、“歌曲伴奏”、“劲爆音乐节奏”、“民谣音乐节奏”和“伤感音乐节奏”等多个内容类型，确定每个内容类型的预设声音内容特征信息。
[0140]2033、获取每个内容类型的预设文本内容特征信息和预设声音内容特征信息，每个内容类型的预设文本内容特征信息包括至少一个关键词，计算该文本内容特征信息与每个内容类型的预设文本内容特征信息之间的匹配度，并计算该声音内容特征信息与每个内容类型的预设声音内容特征信息之间的匹配度，按照计算得到的匹配度从大到小的顺序，选取预设数目的匹配度，将选取的匹配度所对应的内容类型确定为该直播用户的直播内容类型。
[0141]本步骤2033与上述步骤2031、步骤2032类似，对此不再赘述。
[0142]可选地，由于声音信息中包括用户声音信息和环境声音信息，因此在获取声音信息的内容特征信息时，获取声音信息中包含的用户声音信息，对用户声音信息进行特征提取，得到第一内容特征信息，获取声音信息中包含的环境声音信息，对环境声音信息进行特征提取，得到第二内容特征信息，根据第一内容特征信息和第二内容特征信息，确定直播用户的内容类型。
[0143]具体地，该服务器可以将用户声音信息转换为第一文本信息，对第一文本信息进行特征提取，得到第一文本内容特征信息，并且采用预设特征提取算法，对用户声音信息进行特征提取，得到第一声音内容特征信息;还可以将环境声音信息转换为第二文本信息，对第二文本信息进行特征提取，得到第二文本内容特征信息，并且采用预设特征提取算法，对环境声音信息进行特征提取，得到第二环境内容特征信息。
[0144]为了便于对多个内容类型的预设内容特征信息进行管理，可以将每个内容类型的预设内容特征信息存储于内容数据库中，例如将所有内容类型的预设内容特征信息存储于同一内容数据库，或者将不同内容类型的预设内容特征信息存储于不同的内容数据库，本发明实施例对此不做限定。进一步地，每个内容类型的预设内容特征信息可以包括预设文本内容特征信息和预设声音内容特征信息，这两种内容特征信息可以存储于同

完整全部详细技术资料下载

当前第3页1 2 3 4 5