一种角色分析方法及分析系统与流程

文档序号：16855816发布日期：2019-02-12 23:16阅读：793来源：国知局

本申请涉及信息处理领域，特别是一种角色分析方法及分析系统。

背景技术：

目前，在传媒行业市场里有许多对针对明星和剧本的数据化分析的系统，但缺少一个可以通过对剧本的评估来实现剧本中角色的演员匹配的系统，导致有的人手中有好的剧本但是无法将它拍成电影或电视剧或者是有好的剧本但是不能选择出适合的演员来拍成电影或电视剧。

技术实现要素：

本申请的目的在于克服上述问题或者至少部分地解决或缓解上述问题。

根据本申请的一个方面，提供了一种角色分析方法，包括如下步骤：s2：在预设文本中提取第一标签词；s4：根据所述第一标签词及预设规则确定第一标签数值；s6：根据所述第一标签词数值与第二标签词所对应的第二标签数值得出计算结果；s8：根据所述计算结果得出所述第一标签数值所对应的第一信息与所述第二标签数值所对应的第二信息之间的相关度。

可选地，所述步骤s6包括：s61：根据所述第一标签数值中的至少其中之一与所述第二标签数值的至少其中之一得出第一计算结果；s62：根据所述第一标签数值中的至少其中之一与所述第二标签数值的至少其中之一得出第二计算结果；所述步骤s8为：根据所述第一计算结果与所述第二计算结果得出所述第一信息与所述第二信息的相关度。

可选地，所述步骤s61为通过公式：cosa＝(x1*y1+x2*y2+…+xn*yn)/((x1^2+x2^2+…+xn^2)^1/2)*(y1^2+y2^2+…+yn^2)^1/2得出所述第一计算结果，所述步骤s62为通过公式：cosa＝(x1*y1+x2*y2+…+xn*yn)/((x1^2+x2^2+…+xn^2)^1/2)*(y1^2+y2^2+…+yn^2)^1/2得出所述第二计算结果；其中a为夹角，且a大于等于0度，小于等于90度，x1-xn为第一标签数值，y1-yn为第二标签数值，a越大，则所述第一信息与所述第二信息相关度越低，夹角a越小，则所述第一信息与所述第二信息相关度越高。

可选地，所述步骤s8包括：s81：将多个所述第一计算结果按照预设规则排序，并得到矩阵a1；s82：将多个所述第二计算结果按照预设规则排序，并得到矩阵b1；s83：根据所述矩阵a1与所述矩阵b1得出所述第一信息与所述第二信息的相关度。

可选地，所述角色分析方法还包括：s10：通过公式：cosa＝(x1*y1+x2*y2+…+xn*yn)/((x1^2+x2^2+…+xn^2)^1/2)*(y1^2+y2^2+…+yn^2)^1/2，根据所述第一标签数值中的至少其中之一与第三标签词所对应的第三标签数值的至少其中之一得出第三计算结果，通过公式：cosa＝(x1*y1+x2*y2+…+xn*yn)/((x1^2+x2^2+…+xn^2)^1/2)*(y1^2+y2^2+…+yn^2)^1/2，根据所述第一标签数值中的至少其中之一与所述第三标签数值的至少其中之一得出第四计算结果；其中a为夹角，且a大于等于0度，小于等于90度，x1-xn为第一标签数值，y1-yn为第三标签数值，a越大，则所述第一信息与所述第三标签值所对应的第三信息的相关度越低，夹角a越小，则所述第一信息与所述第三信息相关度越高；s12：将多个所述第三计算结果按照预设规则排序，并得到矩阵a1；s14：将多个所述第四计算结果按照预设规则排序，并得到矩阵b1；s16：根据公式a1＝[m-a1]/m*100计算第一吻合度，其中a1为第一吻合度，m为所述第三信息的数量；根据公式b1＝[m-b1]/m*100计算第二吻合度，其中b1为第二吻合度，m为所述第三信息的数量；s18：根据公式s＝0.35a1+0.65b1计算综合吻合度，其中s为综合吻合度。

可选地，所述步骤s2包括：s22：根据词频对分析所述预设文本进行分词；s24：根据所述分词建立分词数据库；s26：将所述分词数据库中的分词按照预设规则分类；s28：在分类后的分词中提取第一标签词。

根据本申请的另一方面，提供了一种角色分析系统，包括：第一客户端，用于接收预设文本；服务器，连接所述第一客户端，用于接收所述第一客户端发送的所述预设文本，在所述预设文本中提取第一标签词，根据所述第一标签词及预设规则确定第一标签数值，并根据所述第一标签数值与第二标签数值得出所述第一标签数值所对应的第一信息与所述第二标签数值所对应的第二信息之间的相关度。

可选地，所述角色分析系统还包括：第二客户端，连接所述服务器，用于接收第三标签；所述服务器通过公式：cosa＝(x1*y1+x2*y2+…+xn*yn)/((x1^2+x2^2+…+xn^2)^1/2)*(y1^2+y2^2+…+yn^2)^1/2，根据所述第一标签数值中的至少其中之一与所述第三标签所对应的第三标签数值的至少其中之一得出第三计算结果，通过公式：cosa＝(x1*y1+x2*y2+…+xn*yn)/((x1^2+x2^2+…+xn^2)^1/2)*(y1^2+y2^2+…+yn^2)^1/2，根据所述第一标签数值中的至少其中之一与所述第三标签数值的至少其中之一得出第四计算结果；其中a为夹角，且a大于等于0度，小于等于90度，x1-xn为第一标签数值，y1-yn为第三标签数值，a越大，则所述第一信息与所述第三标签值所对应的第三信息的相关度越低，夹角a越小，则所述第一信息与所述第三信息相关度越高；所述服务器将多个所述第三计算结果按照预设规则排序，并得到矩阵a1，将多个所述第四计算结果按照预设规则排序，并得到矩阵b1；根据公式a1＝[m-a1]/m*100计算第一吻合度，其中a1为第一吻合度，m为所述第三信息的数量；根据公式b1＝[m-b1]/m*100计算第二吻合度，其中b1为第二吻合度，m为所述第三信息的数量，根据公式s＝0.35a1+0.65b1计算综合吻合度，其中s为综合吻合度。

根据本申请的另一方面，提供了一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求上述任一项所述的方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如权利要求上述任一项所述的方法。

与现有技术相比，本申请所提供的角色分析方法及分析系统能够通过将预设本文(以剧本为例)中提取第一标签词(例如主角标签词、性格标签词，外貌标签词等等)，并将该标签词赋值，将该标签词的赋值与第二标签词(演员的性格、外貌等)所对应的第二标签值经过计算得出二者的匹配程度。因此，导演可以通过上述方法或系统自动找出最适合这个剧本的演员，同时演员也可以通过上述系统找到最适合自己的剧本。

进一步地，当导演以后预定演员之后，将预定演员的性格标签词、外貌标签词等(第三标签词)输入系统之后，将剧本与预定演员通过计算得出匹配程度，进而可以直观的展示该预定演员是否符合该剧本。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一个实施例的角色分析方法的流程图；

图2是根据本申请一个实施例的角色分析方法的流程图；

图3是根据本申请一个实施例的角色分析方法的流程图；

图4是根据本申请一个实施例的角色分析方法的流程图；

图5是根据本申请一个实施例的角色分析方法的流程图；

图6是根据本申请一个实施例的角色分析方法的流程图；

图7是根据本申请一个实施例的角色分析方法的流程图；

图8是根据本申请一个实施例的角色分析系统的示意图；

图9是根据本申请一个实施例的角色分析系统的示意图；

图10是根据本申请一个实施例的计算机程序产品的示意图；

图11是根据本申请一个实施例的计算机可读存储介质的示意图。

具体实施方式

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

在本申请中，预设文本为剧本，第一信息为剧本中的各种角色，第一标签词为剧本中的各种角色所对应的特点(例如外貌、年龄、性格等)，第二标签词为预存的演员所对应的特点(例如外貌、年龄、性格等)，第二信息为预存的演员，第三标签词为输入的演员所对应的特点(例如外貌、年龄、性格等)，第三信息为输入的演员。但是上述设定仅仅是便于解释只用，并不用来限定本申请的使用环境及适用范围。其他使用环境中，只要用到本申请所提供的分析方法及分析系统，均属于本申请所要求保护的范围之内。

本发明的目的在于，面对在校大学生以及网络写手等有导电影需求的群体，为他们提供一款可以上传自己的剧本，然后系统通过对剧本的分析为剧本中的角色匹配演员的app。第一，为部分专业的学生完成他们的影视作品提供便利；第二，帮助实现部分人的导演梦想。第三，为专业导演提供新的参考模式和方法

为实现上述目的，本发明采用的技术方案是：

一个剧本评估和角色匹配系统包括：终端接入和后台管理模块，终端接入模块主要是用户剧本上传或演员信息注册的接口，后台管理模块是以建立数据库的形式，根据我们采集到的演员各种数据及其量化分析，保持和维护演员数据的更新，再将用户上传的剧本情节进行智能化、标签化处理，最终得出对于剧本评估的结果，进而系统推荐存在于数据库里匹配的演员出来，从而完成剧本评估和角色匹配。

剧本角色匹配系统包括以下步骤：

一、收集数据

(一)从网站上抓取爬虫软件：(1)forespider；(2)八爪鱼。

(二)直接导入已有文本文件

二、自然语言处理及分词

步骤s1：根据频率来分词。一句话的分解可能有很多方法，但是每个方法的出的结果一定有好有坏。此时需要根据不同的方法的出的结果进行分析。本系统拟采用网络上的众多分词方法进行第一步分析。假设现有方法一和方法二两种分词方法。例如方法一分词后得到{a1,b1,c1}三部分，方法二得到分词{a1,b2,c2}……接下来就根据概率，即a1后面接b1的概率高还是接b2的概率高。这个概率便取决于网络，或者现有分词数据库等。频率高表示平时经常用，比如“书包装好了”，既可以认为是“书”“包装”“好了”，也可以是“书包”“装”“好了”，可想而知是后一种我们常用，便采用后一种分词方法。

步骤s2,：建立分词数据库。步骤s1中提到的分词数据库，模型如下。其中a表示前一个词段，b表示后一个词段，f表示频率，认为用保留了小数点后三位的数字为宜。此处以步骤s1中的语句为例。

当分词结果出现多种情况的时候，需要参考分词数据库。假设结果值为k，k的值等于一种分词方法中所有连接情况的频率总和。当词段数n＝3时，共需要进行两次数据库查找。即在第一种分词方法中，需要一次“书”和“包装”的查找，以及“包装”和“好了”的查找。两次查找均可以获得f，累加得k1。同理第二种分词方法得到结果值k2。将k1和k2比较，越大者表示分词更合理，更符合表达方式。

注意此分词数据库需要经过大量剧本训练而来。

步骤s3：处理步骤s1的分词结果。分词结果中一定有许多对剧本分析无用的词段，因此需要进行筛选来简化分析。本系统拟借鉴skip-gram模型，该模型的作用是跳过某些字来对语句进行缩减。例如在本系统中，要将“了”“呢”等不必要助词进行删减。

以小时代中的一句台词为例，“不，他住在泰山顶上。不过，就算是女特务，也有失手落水的时候，而且，还把别人也拖下了水。”首先依照步骤s1进行分词。

第一种分词方法的结果为：不，他住在，泰山，顶上，不过，就，算是，女，特务，也有，失手，落水，的，时候，而且，还把，别，人也，拖，下了，水。

第二种分词方法的结果为：不，他，住，在，泰，山顶，上，不过，就，算是，女，特务，也，有，失手，落水，的，时候，而且，还，把，别人，也，拖，下，了，水。

经过步骤s2频率分词方法的结果为：不，他，住在，泰山，顶上，不过，就，算是，女，特务，也，有，失手，的，时候，而且，还把，别人，也，拖，下，了，水。

再经过步骤s3的处理，最后应得到结果：不，他，住在，泰山，顶上，不过，就，算是，女，特务，有，失手，时候，还把，别人，拖，下，水。

步骤s4：词性分析。例句在分此后或多许多词段，如果不将其进行词性分类，并不能很好的有助于后序工作。本系统中，词性可分为以下几种：名词、动词、介词、代词、数词、连词、助词、叹词、量词、副词、语气词、拟声词、字符串、形容词、标点符号以及自定义词。可依照网络方法来为词段分类。

三、智能匹配与推荐系统

根据剧本角色标签与演员标签，依据一定的算法，对演员和剧本角色进行智能匹配并排序推荐。

智能匹配与推荐方法步骤：

1、系统录入演员资料，并打上标签。

2、导演进入系统上传剧本，系统筛选出剧本主要角色，并为角色打上标签。

3、系统根据剧本角色的标签和演员的标签利用某种匹配方式为剧本角色选演员，并排序，得出最适合的前十位演员。

4、系统允许导演查看演员所有资料，并允许导演选择系统推荐的全部或部分演员。

5、系统通过短信或邮件的方式告知演员被入选该剧本的某个角色。

6、系统允许演员进入系统查看该剧本，并选择是否对该剧本感兴趣，确认后系统将通过短信或邮件的方式通知导演。

进一步说明：

1.1演员智能标签系统

一、标签分类：

首先通过对现有剧本或实际人物的性格特征分类，对剧本中人物的描述大致分为以下类型：年龄、性别、国籍、外貌特征、语言、正反派。

其次对系统数据库中的演员及其演艺经历对其进行标签分类：年龄、性别、国籍、外貌特征、语言、参演角色正反派分析、演员粉丝影响力、绯闻系数、参演作品数量、所获演艺奖项。

二、对标签分类的具体说明：

1、年龄(a)

按年龄段进行匹配：例如将年龄按照10岁为一个段位，从1岁到100岁分为10段。1-10岁是1分，11-20岁是2分。以此类推，91-100岁是10分。剧本中极有可能出现年龄的模糊描述以及年龄的外貌表现的差异性，因此根据所述年龄段对年龄进行以上分类，并和演员年龄所在年龄段进行匹配。如出现剧本人物年龄跨度大的情况，根据不同年龄在剧本中出现的次数进行计算，或者使用年龄的平均值，或者通过频率或者通过其他方式来确定最后的年龄分数。

性别(b)

分为男性、女性、男变性者、女变性者，相对应的分数为1、2、3、4分。

3、国籍(c)

精确到国家，按照最新的联合国发布世界国家列表中的国家排名的先后顺序，排在第一个国家的为1分，排在第2个国家的为2分，以此类推。

4、外貌特征(d)

1)、五官

五官中包括眼睛、眉毛、鼻子、嘴巴、耳朵。可以分别对这些器官进行设定规则。这里以眼睛为例。例如眼睛有大眼睛、小眼睛、单眼皮、双眼皮等等因素。这里仅以上述四个因素为例，将上述四个因素进行组合。4个因素的组合一共有15种，将这15中组合分别赋值1-15分。

2)、身材特征

身高：按身高段区分，并根据性别和描述和身高段进行匹配：105cm以下、150-160cm、160-170cm、170-180cm、180-190cm、190cm以上。按照上述6个段位分别赋值1-6分。

3)、身体缺陷

同五官描述原理相同，将各种缺陷组合列举，然后赋值既可。

语言(e)

语言可以采用与国际赋值相同的方法，也可以采用其他方法赋值。

6、正反派(f)

剧本人物的角色定位有可能分为：正派、反派、中立、正派反转为中立、反派反转中立、正派反转为反派、反派反转为正派7种类型(中立的反转按照反转后的角色定位)，按照上述7种类型分别赋值1-7分。

通过演员的参演作品的数据库剧本角色分析，同样采取此种角色定位方式，按照参演角色的定位比例，给演员的角色定位打分。例如，某演员的反派角色分数＝该演员参演过作品的反派角色次数*(该角色获奖情况)/该演员所参演所有角色次数；获奖则*2，提名*1.5，正常出演*1，被争议*0.5。

演员粉丝影响力(g)

根据其微博粉丝数量排名和单条微博的点赞数和评论数等因素作为评判因素，评判因素比重分别为α，β，γ等，粉丝数量排名前50则第一项因素比重为α，名次下降50名，则比重下降0.1，最少为0。或者根据上述因素进行组合，然后根据每种情况进行赋值。

绯闻系数(h)

根据爬虫技术搜取近10年间阅读量每年排名前100的不良新闻及其当事人演员，依次对每位演员作出一个绯闻曝光率。一年中绯闻阅读量排名前十则该演员的该年绯闻系数为0，排名下降10则系数增加0.1，十年间曝光率总计为1，0曝光率则h＝1。或者根据上述因素进行组合，然后根据每种情况进行赋值。

参演作品数量(i)

参演作品数量包括参演电视剧和电影角色数量，主角、配角、群演，系数分别为α，β，γ，对数据库中所有演员的参演作品数量进行排名，前50名i＝1，依次下降50名则i依次减少0.1，最小值为0。或者根据上述因素进行组合，然后根据每种情况进行赋值。

所获演艺奖项(j)

所获演艺奖项包括获奖、提名、入围，系数分别为α，β，γ，其中获奖、提名、入围的奖项类型中还包括一类奖项、二类奖项、三类奖项，根据后台建立的一类奖项、二类奖项、三类奖项数据库分别对各类获奖、提名、入围系数划分为α1，α2，α3，β1，β2，β3，γ1，γ2，γ3。分别根据其获奖次数和系数进行成绩作和，>10则j＝1，每下降1则j减少0.1，j最小为0。或者根据上述因素进行组合，然后根据每种情况进行赋值。

在本实施例中，注：a、b、c、d、e作为外在条件评判标准，f、g、h、i、j作为演技条件评判标准，但并不以此为限。

2.1剧本角色智能标签系统

一、对剧本桥段进行分析、处理

1、先将整个剧本切分成一个个桥段(可以按照章节剧目直接来分、也可以按照其他剧情标准来分)

2、对第一步得到的每一个桥段进行中文分词、筛选出无关词语、得到桥段中的关键字，分析关键字的词性和权值：权值通过科学度量tf-idf进行计算，分析文本为桥段文本，遍历每一个词，利用每个词在各个桥段中出现个次数来除以所在桥段的总词数得到tf1,tf2…,如“是”,“和”，“中”等停止词设其权重为0，然后计算这个词的逆文本频率指数，公式为idf＝log(d/dw),d为桥段总词数，dw的数值为这个词在整个剧本所有桥段中所出现在的dw个桥段，也即是dw个含有这个词的桥段，当剧本中没有出现这个词就不会进行权值计算，也即是dw不存在是0的情况；最终这个词的权值为tf*idf，来作为关键字的权值。

3、根据关键字的词性和权值添加标签：采用多维度标签来进行标注，将剧本桥段分成人物层面(捕捉句子中对象描述)，人物信息层面(通过提取事件、形容等来匹配年龄，性别，国籍，外貌特征)，情感性格层面(具体和内心活动和情绪波动相关)等，通过句法分析情感词语结合语料库的对应文本添加标签；

以每一个完整句子为单位，首先是分析句子所存在的名词，从名词中找到人名及其一些你我他的称谓，以每一个有名字名词的句子作为分析对象，提取整个句子带有基础信息，感情色彩信息。通过句法分析找到每一个句子主语。例如：我在面试的时候见过kitty一次。她是个画着精致的烟熏妆、穿着性感的短裙、拎着品牌b包包上班的女人，我和kitty；而出现能出现第三人称的只有kitty，由此确认第二句话人物匹配为kitty.

二是抓取以人物主语为核心的句子中的人物基本信息：年龄，性别，国籍，外貌特征，语言，正反派，通过句子中的关键字匹配已建立好的人物属性标签库中，例如：我在面试的时候见过kitty一次。她是个画着精致的烟熏妆、穿着性感的短裙、拎着品牌b包包上班的女人，从中得到的名词关键字：女人品牌b,短裙，动词关键字：上班，面试，形容词关键字：性感，精致；由此根据标签库来推测匹配：性别女，年龄20-30左右，外貌特征：性感精致(外貌参数设置较高)，其他未得到的信息由标签库中已知人物模板概率最大的自动填充。

男主角a就是那种走在米兰时装周伸展台上、面容死气沉沉却英俊无敌的男人，就像我们每次打开时尚杂志都会看见的品牌b或者品牌c广告上那些说不出的阴沉桀骜却美得无可挑剔的平面模特。分析得到：性别男，年纪30以下，混血面孔，外貌参数较高。

二是分析句子中出情感词汇，以此来推测剧本中人物性格，对句子先除去停止词，然后对句子进行正面，中性，负面的分析，之后切分出句子带有情感的词组，和实现已经构建好的正面，负面情感词语文档匹配计算正、负词语(喜、怒、哀、苦、惧)的数据，将整个剧本中每一部分的情感得分相加，得到该人物在剧本中的情感表现，对应人物情感标签；例如男主角a只是喝了一口，就抬起头，用那双狭长的眼睛打量了我一分钟，然后摇摇头，没有任何表情地说：“重新再买一杯。”之后他就再也没有抬起头说任何的话。情感词汇4个，分别是只是、狭长、摇摇头、没有任何表情地，负面词数量为4，负面占比为100％，正面占比为0％，总体正面的分为-0.01，将整个剧本中分析男主角a的句子情感相加，即得到关于男主角a的人物情感数据。

二、根据已标注的多维度标签进行映射和计算

1、将剧本桥段的情感层面标签映射到演员的人物性格标签中，剧本桥段的人物层面映射到演员的人物身体标签等，剧本桥段的剧情层面映射到人物的个人特长层面，本来剧本桥段的标签权值和数据也映射到演员标签中，得到演员模板标签

2、映射过来得到的演员模板中存在各个标签的权值和数值，用演员数据库里的演员标签的权值和数值进行计算：因为是多维度的标签所以这里采用计算多维特征向量距离的方法，

关于人物模板各个标签参数为x1,x2,x3…,如男主角a的人物模板标签中由剧本标签库匹配得到，其最终映射量化的人物外貌系数等就是x1,x2,x3…,,而待匹配的演员各个标签参数为y1,y2,y3…，这里参数是由用户自己上传的参数数值。

这里采用计算多维特征向量距离的方法，采用余弦定理计算:cosa＝(x1*y1+x2*y2+x3*y3+…+xn*yn)/((x1^2+x2^2+…)^1/2)*(y1^2+y2*2+…)^1/2，计算出演员和桥段映射出来的演员模板的夹角，如果夹角越小则越相关，夹角越大(至正交90度)，则越不相关。

例如前面所述的年龄、性别、国籍、五官、身材、身体缺陷、语言、正反派、绯闻、参演作品数量、获得演艺奖项等等参数。其中具备中角色的上述参数为x1-xn，预存的演员的上述参数为y1-yn。通过余弦定理就能将x和y所分别对应的剧本角色与预存演员对应起来。将一个演员角色和一个剧本中的每一个桥段映射出来的演员模板进行计算，对得到的余弦值进行求和，最终得到总和最小的余弦值的演员即为最符合此剧本的演员。本申请中的技术方案所得出的是角色与演员之间的相关性。因此x与y的值并不是越大越好，而是越接近角色与演员的相关性越好。

在上述参数中，有的是关于外在条件的，例如五官、身材等；有的是关于演技条件的，例如参演作品数量、获得演艺奖项等。因此，选用不同参数进行计算就可以得出不同方面的相关性。例如只选用剧本角色中关于外在条件的参数与预存演员相对应的外在条件的参数进行计算，那么得出来的结果就是预存演员与剧本角色在外在条件方面的相关性。如果只选用剧本角色中关于演技件的参数与预存演员相对应的演技条件的参数进行计算，那么得出来的结果就是预存演员与剧本角色在演技条件方面的相关性。当然，角色参数和演员参数并不仅限于上述所列举的各项参数，本领域技术人员可以根据实际需求任意修改或增减上述参数。那么相对应地，得出的相关性也不仅限于上述的外在条件相关性和演技条件相关性，根据其他参数而得出的其他相关性都属于本申请所要求保护的范围内。

3.1智能匹配与推荐系统

对数据库中预存的所有演员进行外在条件排序a1

对数据库中预存的所有演员进行演技条件排序b1

对被匹配的演员进行外在条件排序得到a1

对被匹配的演员进行演技条件排序得到b1

其中，被匹配的演员是临时加入的演员。例如有一个剧本想要找演员，但是不想用预存的演员或者不需要看预存的演员是否合适，只想看看某一个特定的演员是否合适。此时，这个特定的演员就是上述匹配的演员。将该特定的演员的前述的年龄性别等参数作为y1-yn，与剧本中的x1-xn通过余弦定理对应。就可知道被匹配的演员与角色的相关性。如果被配备的演员有多个，则进行排序。

然后，根据a1、b1、a1、b1进行吻合度计算，设被匹配的演员总数为m，外在条件吻合度计算aa＝[m-a1]/m*100；演技条件吻合度计算bb＝[m-b1]/m*100；综合吻合度s＝0.35aa+0.65bb。最后根据综合吻合度给出角色匹配排序。

最后根据综合吻合度为导演提供适合该角色的演员排序。

app使用(终端接入模块)

让用户进行app的用户注册，设置“我要当导演”、“我要当演员”和“我要当编剧”三个模式的接口，让用户按需选择进入，来进行信息输入和输出。

让用户进行app的用户注册，设置“我要当导演”、“我要当演员”和“我要当编剧”、“群众”四个模式的接口，让用户按需选择进入，来进行信息输入和输出。每一个模式登陆后对应着不同的数据库进行查看和操作。

导演端输入(终端接入模块)

该板块包含两个数据库，一个后台提供的演员数据库，包括演员的个人信息(年龄、身高、体重、照片(包括证件照以及全身照)、联系方式)、学历(毕业院校、在校成绩单、在校作品以及在作品中饰演的角色)、影响力和得奖情况。另一个是导演数据库，供演员挑选导演，该数据库包括导演的个人信息(年龄、身高、体重、照片、联系方式)、完成作品情况(评分)以及获奖情况。该系统注册导演进行审核。每位导演进行注册时，需要实名验证并且出具身份证明的证件(资格证书、获奖证书等)，依据该导演的获奖情况，对该导演进行后台信誉的评分，初始编剧的信誉值为x0，评论、点赞任一剧本信誉值增加x，最后得出最终信誉值x。

信誉值的计算方法为：

该板块可实现的功能有：查看并处理消息(查看演员自荐消息，演员拒绝或接受邀约，编剧拒绝或接受邀约等信息)；上传剧本并根据剧本选择演员；发布招聘广告(招聘演员则显示在演员接口界面，招聘编剧则显示在编剧接口界面)；搜索或根据剧本标签查找编剧已上传剧本；向编剧邀约剧本(指定某编剧让他根据需求创造剧本)；可阅读在此app中编剧上传的剧本并给出评分或评论(可有收藏剧本功能)；选择编剧上传的剧本或自己上传的剧本，进行剧本分析并选择演员(由此向演员和编剧发出邀约)

演员端输入(终端接入模块)

演员注册时填写个人信息(年龄、身高、体重、照片(包括证件照以及全身照)、联系方式)，学历(毕业院校、在校成绩单、在校作品以及在作品中饰演的角色)，影响力，得奖情况来建立演员数据库。该系统注册演员进行审核。每位演员进行注册时，需要实名验证并且出具身份证明的证件(资格证书、获奖证书等)，依据该演员的获奖情况，对该演员进行后台信誉的评分，初始演员的信誉值为y0，评论、点赞任一剧本信誉值增加y，最后得出最终信誉值y。

演员注册并登录后可实现以下功能：查看并处理导演邀请信息(可根据剧本或导演直接拒绝或接受)；查看导演信息和导演给出的剧本信息；查看导演招聘广告；向导演发送消息(演员可通过招聘广告向此导演做试镜自荐)可阅读在此app中编剧上传的剧本并给出评分或评论；

编剧端输入(终端接入模块)

用户上传自己的个人信息、曾有过那些作品，获得过什么奖项，该板块用户可以查看并处理消息(导演邀约信息，所上传剧本的评论和排名)；上传剧本(也可根据剧本进行分析并查看与此剧本角色符合的演员角色但不可向演员发送邀请信息)；向导演发送消息(自荐剧本)；阅读编剧所上传的剧本并给出评论和评分。增加对该软件系统剧本库中的剧本内容审核。对该部分内容进行版权及内容的合法判断。版权判断可以对用户所输入/上传剧本进行查重检测，吻合值大于某个阈值则判定为无效剧本，不能加载到数据库中。合法判断：对剧本进行自然语言处理后对该剧本内容的分词进行敏感性判断，则需要建立一个敏感词库，如果剧本中敏感词汇的出现频率大于某个阙值，该剧本判定为无效剧本，不能加载到数据库中，并对敏感词汇出现频率高的剧本进行人工审核，确保剧本的合法性与安全性。初始编剧的信誉值为z0，评论、点赞任一剧本信誉值增加z，最后得出最终信誉值z。

群众在无注册或登录情况下仍可浏览该系统主页内容。用户在注册登录后方可

在大厅内阅读公开剧本；有自身的收藏夹，可用来收藏剧本信息并对剧本进行评论与点赞；可向剧组群众演员通道投递简历；可与服务端联系发布广告信息，同时服务端对广告信息进行合理收费。且群众在注册时需要实名验证，如上传自身身份证、学生证、手机短信验证等。初始群众的信誉值为k0，评论、点赞任一剧本信誉值增加k，最后得出最终信誉值k。

剧本量化(后台管理模块)

对导演上传的剧本进行智能化拆分，剔除掉无用信息，抓取剧本的核心信息与关键节点来进行智能标签化处理，实现对于剧本的情节桥段的分析与剧本本身类型和元素的定位，以此作为剧本评估的数据化分析，为导演呈现出一个标签化、数据化的剧本评估。

用户对剧本评论内容也需要进行内容合法判断，内容合法可对评论内容上传，系统并根据每位用户的评论数、点赞数以及身份认证情况对用户进行后台信誉的评分，在用户对剧本进行评分时，依据每位用户的信誉评分对每位用户的评分情况进行权重相加，信誉越高的用户评分权重越大，最终得出该部剧本的最终得分。具体计算方式如下：在公式weightedrank(wr)＝[v÷(v+m)÷r+(m÷(v+m)]÷c中，r是用普通计算方法得出的平均值，v是投票人数，只有经常投票的人才会被统计在内，m是进入美国imdb，豆瓣等评分网站所需要的最小票数，只有两单个人投票的电影即使是满分也没有用，c是目前所有电影的平均分，并且只有信誉值高于某个阈值的人才会被计算在有效评分之内，即把打分人的范围尽量限制在资深影迷的投票范围内的主要方法，而对于打分者的要求标准一般会限定在观看多少部电影以上，参与打分的电影超过多少部以上才有资格进行投票。且针对信誉值不同，用户投票数量为该用户实际投票数量乘以该用户的绝对信誉值，即信誉值越高该用户投票份额越多，信誉值越低该用户投票份额越少。通过采用如此复杂的算法，可以让电影评分偏向更平均一些，影片投票次数越多，它的评分就越接近真实的平均分，否则就越接近所有电影的平均分。

数据库(后台管理模块)

建立四个数据库，分别实现不同的功能。

建立七个数据库，分别实现不同的功能。(新增敏感词库、导演奖项分类数据库、演员奖项分类数据库)

双方数据匹配(后台管理模块)

根据剧本的情节要素的数据化分析和标签与剧本角色的有机联系，采用对双方的标签进行链接匹配的方法，再根据每个标签的匹配程度不同，给出每个标签设定不同的权重赋值，设计出加权的算法来进行匹配，用我们为剧本添加的智能化标签和分析，来匹配我们之前建立的数据库里储存的演员的个人信息数据和标签，以此排序出导演方传递的剧本中人物的角色扮演适合的角色列表。

导演端输出(终端接入模块)

导演端可以得到由数据匹配之后得出的演员名单，再在名单中链接上得出演员的个人信息和标签等相关数据，以此供导演方进行参考，以便让导演自己来确认演员是否与所上传剧本有更多其他的契合点，同时如果导演想选择这个演员，可以由此得到该演员的联系方式。至此，该系统就完成了剧本的评估与角色匹配。

请参照图1，本申请一实施例中，角色分析方法，包括如下步骤：

s2：在预设文本中提取第一标签词；

s4：根据所述第一标签词及预设规则确定第一标签数值；

s6：根据所述第一标签词数值与第二标签词所对应的第二标签数值得出计算结果；

s8：根据所述计算结果得出所述第一标签数值所对应的第一信息与所述第二标签数值所对应的第二信息之间的相关度。

请参照图2，在本申请一实施例中，所述步骤s6包括：

s61：根据所述第一标签数值中的至少其中之一与所述第二标签数值的至少其中之一得出第一计算结果；

s62：根据所述第一标签数值中的至少其中之一与所述第二标签数值的至少其中之一得出第二计算结果；

所述步骤s8为：根据所述第一计算结果与所述第二计算结果得出所述第一信息与所述第二信息的相关度。

在本实施例中，所述步骤s61为通过公式：

cosa＝(x1*y1+x2*y2+…+xn*yn)/((x1^2+x2^2+…+xn^2)^1/2)*(y1^2+y2^2+…+yn^2)^1/2得出所述第一计算结果，所述步骤s62为通过公式：

cosa＝(x1*y1+x2*y2+…+xn*yn)/((x1^2+x2^2+…+xn^2)^1/2)*(y1^2+y2^2+…+yn^2)^1/2得出所述第二计算结果；其中a为夹角，且a大于等于0度，小于等于90度，x1-xn为第一标签数值，y1-yn为第二标签数值，a越大，则所述第一信息与所述第二信息相关度越低，夹角a越小，则所述第一信息与所述第二信息相关度越高，但并不以此为限。

请参照图3，在本申请一实施例中，所述步骤s8包括：

s81：将多个所述第一计算结果按照预设规则排序，并得到矩阵a1；

s82：将多个所述第二计算结果按照预设规则排序，并得到矩阵b1；

s83：根据所述矩阵a1与所述矩阵b1得出所述第一信息与所述第二信息的相关度。

请参照图4，在本申请一实施例中，所述角色分析方法还包括：

s10：通过公式：

cosa＝(x1*y1+x2*y2+…+xn*yn)/((x1^2+x2^2+…+xn^2)^1/2)*(y1^2+y2^2+…+yn^2)^1/2，根据所述第一标签数值中的至少其中之一与第三标签词所对应的第三标签数值的至少其中之一得出第三计算结果，通过公式：

cosa＝(x1*y1+x2*y2+…+xn*yn)/((x1^2+x2^2+…+xn^2)^1/2)*(y1^2+y2^2+…+yn^2)^1/2，根据所述第一标签数值中的至少其中之一与所述第三标签数值的至少其中之一得出第四计算结果；其中a为夹角，且a大于等于0度，小于等于90度，x1-xn为第一标签数值，y1-yn为第三标签数值，a越大，则所述第一信息与所述第三标签值所对应的第三信息的相关度越低，夹角a越小，则所述第一信息与所述第三信息相关度越高；

s12：将多个所述第三计算结果按照预设规则排序，并得到矩阵a1；

s14：将多个所述第四计算结果按照预设规则排序，并得到矩阵b1；

s16：根据公式a1＝[m-a1]/m*100计算第一吻合度，其中a1为第一吻合度，m为所述第三信息的数量；根据公式b1＝[m-b1]/m*100计算第二吻合度，其中b1为第二吻合度，m为所述第三信息的数量；

s18：根据公式s＝0.35a1+0.65b1计算综合吻合度，其中s为综合吻合度。

请参照图5，在本申请一实施例中，所述步骤s2包括：

s22：根据词频对分析所述预设文本进行分词；

s24：根据所述分词建立分词数据库；

s26：将所述分词数据库中的分词按照预设规则分类；

s28：在分类后的分词中提取第一标签词。

请参照图6，在本申请一实施例中，还包括：s25：简化所述分词数据库。

请参照图7，在本申请一实施例中，在预设文本中提取第一标签词包括：

s21：获取爬虫软件

s22：通过所述爬虫软件在预设文本中提取第一标签词

请参照图8-图9，在本申请一实施例中，提供了一种角色分析系统，其特征在于，包括：第一客户端，用于接收预设文本；服务器，连接所述第一客户端，用于接收所述第一客户端发送的所述预设文本，在所述预设文本中提取第一标签词，根据所述第一标签词及预设规则确定第一标签数值，并根据所述第一标签数值与第二标签数值得出所述第一标签数值所对应的第一信息与所述第二标签数值所对应的第二信息之间的相关度。

在本申请一实施例中，所述角色分析系统还包括：第二客户端，连接所述服务器，用于接收第三标签；所述服务器通过公式：cosa＝(x1*y1+x2*y2+…+xn*yn)/((x1^2+x2^2+…+xn^2)^1/2)*(y1^2+y2^2+…+yn^2)^1/2，根据所述第一标签数值中的至少其中之一与所述第三标签所对应的第三标签数值的至少其中之一得出第三计算结果，通过公式：cosa＝(x1*y1+x2*y2+…+xn*yn)/((x1^2+x2^2+…+xn^2)^1/2)*(y1^2+y2^2+…+yn^2)^1/2，根据所述第一标签数值中的至少其中之一与所述第三标签数值的至少其中之一得出第四计算结果；其中a为夹角，且a大于等于0度，小于等于90度，x1-xn为第一标签数值，y1-yn为第三标签数值，a越大，则所述第一信息与所述第三标签值所对应的第三信息的相关度越低，夹角a越小，则所述第一信息与所述第三信息相关度越高；所述服务器将多个所述第三计算结果按照预设规则排序，并得到矩阵a1，将多个所述第四计算结果按照预设规则排序，并得到矩阵b1；根据公式a1＝[m-a1]/m*100计算第一吻合度，其中a1为第一吻合度，m为所述第三信息的数量；根据公式b1＝[m-b1]/m*100计算第二吻合度，其中b1为第二吻合度，m为所述第三信息的数量，根据公式s＝0.35a1+0.65b1计算综合吻合度，其中s为综合吻合度。

请参照图10，本申请一实施例中，计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求上述任一项所述的方法。

请参照图11，本申请一实施例中，计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如权利要求上述任一项所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

此外，该系统数据库合法化、私密化。始终保证用户数据库内容为获得用户许可后所得数据，并承诺对该数据库加密并进行安全性控制，尽最大努力不对外泄露数据内容。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetictape)，软盘(英文：floppydisk)，光盘(英文：opticaldisc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘杉;彭驿玲
技术所有人：中国传媒大学
我是此专利的发明人

上一篇：一种铝合金环件的校圆系统的制作方法
上一篇：一种产晒后修复作用多糖的类芽孢杆菌属菌株及其应用的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。