一种文本数据分析方法、装置、服务器和存储介质与流程

文档序号:14554974阅读:156来源:国知局
一种文本数据分析方法、装置、服务器和存储介质与流程
本发明涉及智能信息处理
技术领域
,尤其涉及一种文本数据分析方法、装置、服务器和存储介质。
背景技术
:随着互联网技术的快速发展,大部分的信息都是以文本的形式进行存储和展现。因此,为了便于信息的存储、管理和查询,对文本数据进行分类显得尤为重要。目前对于文本分类的文本数据分析方法主要有两大类,即基于链接分析的方法和基于内容分析的方法。基于链接分析的方法主要是通过文档页面间的链接关系来直接或者间接的做出评价,这种方法适用范围广但准确率不高。而基于内容的方法是在确定分类的主题词后,利用待分析文本数据本身的内容特征与主题词之间的相似度对文本进行分类,相比于基于链接分析的方法,其识别的准确率较高。然而,通常情况下,能够反映某一主题词含义的词汇很多,通过人为确定主题词向量的方式极易导致表述主题词的词汇不够全面。因此在主题词向量不完备的情况下,会降低文本内容特征与主题词之间的相似度,从而大大降低文本分类的准确度。技术实现要素:本发明实施例提供了一种文本数据分析方法、装置、服务器和存储介质,能够构建完备的主题词向量,提高分类的准确度。第一方面,本发明实施例提供了一种文本数据分析方法,包括:对预先确定的主题词进行扩展,确定主题词向量;根据所述主题词向量确定训练文本特征向量;根据所述主题词向量将待测试文本转换为测试文本特征向量;根据所述训练文本特征向量和测试文本特征向量对所述待测试文本进行分类。第二方面,本发明实施例提供了一种文本数据分析装置,包括:主题词向量确定模块,用于对预先确定的主题词进行扩展,确定主题词向量;训练文本特征向量确定模块,用于根据所述主题词向量确定训练文本特征向量;测试文本特征向量确定模块,用于根据所述主题词向量将待测试文本转换为测试文本特征向量;分类模块,用于根据所述训练文本特征向量和测试文本特征向量对所述待测试文本进行分类。第三方面,本发明实施例提供了一种服务器,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的文本数据分析方法。第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的文本数据分析方法。本发明通过对预先确定的主题词进行扩展,得到能够反映主题词含义的多个相关词汇,将主题词及其多个相关词汇构建完备的主题词向量,并利用主题词向量确定训练文本特征向量以及测试文本特征向量,以此利用训练文本特征向量对待测试文本进行分类。实现了通过构建完备的主题词向量对训练文本特征向量和测试文本特征向量进行确定,并根据完备的主题词向量确定的特征向量对待测试文本进行分类,提高文本分类的准确度。附图说明图1为本发明实施例一提供的一种文本数据分析方法的流程图;图2为本发明实施例二提供的一种文本数据分析方法的流程图;图3为本发明实施例三提供的一种文本数据分析装置的结构示意图;图4为本发明实施例四提供的一种服务器的结构示意图。具体实施方式下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。实施例一图1为本发明实施例一提供的一种文本数据分析方法的流程图,本实施例可适用于对文本进行分类的情况,该方法可由文本数据分析装置来执行。该方法具体包括如下步骤:步骤110、对预先确定的主题词进行扩展,确定主题词向量。在本发明的具体实施例中,主题词为各待分类文本的主题种类集合,例如有政治、财经和教育等主题。由于可以表示主题词主题含义的词汇很多,因此有必要对主题词进行扩展。在本实施例中,可以通过语义分析将各主题词分别与预先设置的语料库中各词汇进行匹配,将语料库中与各主题词匹配的词汇作为各主题词的扩展词汇,最后将各主题词与其扩展词汇共同构建主题词向量,得到较为完备的主题词向量。在较为完备的主题词向量的基础上对文本进行分类,能够对待分类文本中的各词汇进行充分地匹配和统计,避免了对于待分类文本中可表达主题词含义的词汇漏检的情况。示例性的,主题词“财经”通过语料库进行扩展后,可以得到例如财政、经济、金融等扩展词,将主题词“财经”与扩展词“财政、经济、金融”等词汇共同构建主题词向量,得到描述主题词“财经”较为完备的主题词向量。步骤120、根据所述主题词向量确定训练文本特征向量。在本发明的具体实施例中,训练文本是指与主题词相关的且已知分类主题的文本文档,这些文本文档共同构建了文本分类时所需的训练库。在确定训练文本特征向量时,首先可以采用ikanalyzer中文分词工具包对文本进行分词处理;其次在分词的基础上,提取训练库中各文本文档的特征词构建各文本的特征向量,并利用上述扩展生成的主题词向量对各文本的特征向量进行规范化处理,即根据各文本的特征向量中的特征词与主题词向量中各词汇的语义关系,保留与主题词向量中各词汇具有语义关系的特征词,并将各文本的特征向量中保留的特征词按照主题词进行归类;最后利用向量空间模型生成各文本的训练文本特征向量,即{<w1,t1>,<w2,t2>,……,<wi,ti>},其中wi表示文本中的词汇,ti表示词汇wi在文本中所占的权重。其中,权重ti采用tf-idf(termfrequency-inversedocumentfrequency)算法获得。tf指词频,即某个词汇在文本中出现的频率,其计算公式为其中,d表示待处理的文本,n(d,ti)表示词汇ti在文本d中出现的次数,表示文本中词汇的总数。idf指逆向文件频率,是对某个词汇普遍重要性的度量,其计算公式为idf(ti)=ln{d/(dti+1)},其中,d表示训练库中文本的总数,dti表示包含词汇ti的文本总数。因此,词汇ti在文本中的权重的计算公式可以表示为tf-idf(ti)=tf(d,ti)·idf(ti)。通过向量空间模型可以将繁杂的文本内容转换为较为标准的特征向量,便于对文本内容进行分析和处理。通过对主题词相关的文本文档中特征词的提取和规范化处理,可以进一步地获得与各主题词相关的且常用的或者当下流行使用的词汇。在一定程度上,根据扩展后的主题词向量从训练文本中能够尽可能的获得更加丰满的训练文本特征向量,有利于提高文本分类的准确度。示例性的,提取某一篇已知分类主题为财经的训练文本文档的特征词,其中“影子银行”为特征词之一。“影子银行”为全球金融危机时备受人们重视的特征词汇,一般是指那些有着部分银行的功能,却不受监管或少受监管的非银行金融机构。根据主题词向量对文本的特征向量进行规范化处理,保留“影子银行”一词,并将其分类为与主题词“财经”对应的训练文本特征向量。由于标准的语料库中很难对当下流行的语料进行总结和更新,因此对训练库中训练文本的特征向量进行规范化处理,有利于在主题词向量的基础上对主题词相关的词汇进行总结和补充,可以提高文本分类的准确度。步骤130、根据所述主题词向量将待测试文本转换为测试文本特征向量。在本发明的具体实施例中,待测试文本是指需要被分类的文本,测试文本特征向量是指将待测试文本内容处理简化为对应的向量空间模型。在本实施例中,对于测试文本特征向量的确定,同样可以首先采用ikanalyzer中文分词工具包对文本进行分词处理;其次在分词的基础上,提取测试文本文档的特征词构建特征向量,并利用上述扩展生成的主题词向量对特征向量进行过滤,保留与主题词向量中各词汇具有语义关系的特征词;最后利用向量空间模型和tf-idf算法生成测试文本的测试文本特征向量。步骤140、根据所述训练文本特征向量和测试文本特征向量对所述待测试文本进行分类。在本发明的具体实施例中,对于文本的分类,首先分别计算各文本的训练文本特征向量与测试文本特征向量的向量相似度,将属于同一训练文本的训练文本特征向量对应的向量相似度进行累加,得到文本相似度;其次根据文本相似度,将训练库中各文本进行排序,获取预设阈值个较大的文本相似度对应的文本,例如按照文本相似度由大到小或者由小到大的顺序进行排序,选取相似度较大的若干个文本相似度对应的文本;然后将预设阈值个文本对应的文本相似度按照各文本所属的主题词进行累加,得到各主题词对应的相似度累加和;最后将最大的相似度累加和对应的主题词确定为所述待测试文本的类别。示例性的,测试文本特征向量与所属主题为财经的训练文本a的训练文本特征向量的向量相似度分别为0.1、0和0.3,与所属主题为财经的训练文本b的向量相似度分别为0、0.1和0.2,与所属主题为教育的训练文本c的向量相似度分别为0.3、0.1和0.1。将属于同一训练文本的训练文本特征向量对应的向量相似度进行累加,得到测试文本与训练文本a、b和c的文本相似度分别为0.4、0.3和0.5。进而得到财经主题下的相似度累加和为0.7,教育主题下的相似度累加和为0.5。因此,将最大的相似度累加和对应的主题词即财经确定为待测试文本的类别。本实施例的技术方案,通过对预先确定的主题词进行扩展,得到能够反映主题词含义的多个相关词汇,将主题词及其多个相关词汇构建完备的主题词向量,并利用主题词向量确定训练文本特征向量以及测试文本特征向量,以此利用训练文本特征向量对待测试文本进行分类。实现了通过构建完备的主题词向量对训练文本特征向量和测试文本特征向量进行确定,并根据完备的主题词向量确定的特征向量对待测试文本进行分类,提高文本分类的准确度。实施例二本实施例在上述实施例一的基础上,提供了一种文本数据分析方法的一个优选实施方式,能够根据较为完备的主题词向量确定训练文本特征向量以及测试文本特征向量。图2为本发明实施例二提供的一种文本数据分析方法的流程图,如图2所示,该方法包括以下具体步骤:步骤201、通过语义分析将各主题词分别与预先设置的语料库中各词汇进行匹配。在本发明的具体实施例中,语料库是以电子计算机为载体承载语言知识的基础资源,其中存放的是在语言的实际使用中真实出现过的语言材料,需要经过加工处理才能成为有用的资源。在本实施例中,可以采用知网中文词库(hownet)作为扩展主题词的语料库。通过语义分析的方法,将各主题词分别与语料库中各词汇进行匹配,获得各词汇的匹配度,作为后续选取扩展词的依据。示例性的,假设主题词为:我们和市民,则利用知网中文词库对主题词进行扩展,可以得到如表1所示的扩展词汇。从表1可以看出,根据实际应用中各地域或各领域的用词习惯,能够表达主题词含义的扩展词汇很多,例如“我们”一词就可以用至少5个扩展词汇来表示。如果通过人为设定主题词的方式不能够充分得到较为完备的主题词向量,进而将同样可以表达主题词含义的词汇划分在主题词向量之外,降低了文本分类的准确度。表1利用知网中文词库对主题词进行扩展示例主题词扩展词1扩展词2扩展词3扩展词4扩展词5我们咱咱们吾辈俺们我辈市民城里人都市人步骤202、将所述语料库中与各主题词匹配的词汇作为各主题词的扩展词汇。在本发明的具体实施例中,根据语料库中各词汇与各主题词的匹配度,选取匹配度大于一定阈值的词汇作为各主题词的扩展词汇。通过语料库的扩展,可以获得较多的体现主题词含义的相关扩展词汇。步骤203、根据所述主题词和与各主题词匹配的扩展词汇,构建主题词向量。在本发明的具体实施例中,将各主题词分别与其扩展词汇共同构建各主题词向量,得到可以充分表达主题含义的较为完备的主题词向量,为文本的分类提供充分的依据。步骤204、根据预先确定的主题词,选取与各主题词相关的文本构建训练库。在本发明的具体实施例中,在确定主题词的情况下,选取与主题词相关的且已知分类主题的文本文档构建训练库。训练库中的各个文本能够清楚地反映各主题方向。示例性的,选取时政、财经、教育、骑车和家居5个词汇作为分类的主题词,通过人工采集的方式选择凤凰网、新浪网和网易等网站中与各主题词相关的共900篇文档建立训练库,其训练文本主题分布如表2所示,其中每篇语料文档的正文字数控制在800字左右。表2训练库中训练文本的主题分布示例主题数量(篇)所占比例时政31030.0%财经20022.2%教育25022.7%骑车637.0%家居778.5%步骤205、提取所述训练库中各文本的特征词构建各文本的特征向量。在本发明的具体实施例中,训练库中的各个文本能够清楚地反映各主题方向,且其中可能包含一些语料库中未曾收录的当下流行词汇,而这些流行词汇同样能够反映各主题方向,且时效性更高。因此,首先可以采用ikanalyzer中文分词器对文本进行分词处理;在分词的基础上,提取训练库中各文本文档的特征词构建各文本的特征向量。步骤206、利用所述主题词向量对所述训练库中各文本的特征向量进行规范化处理,依据处理结果生成各文本的训练文本特征向量。在本发明的具体实施例中,利用上述扩展生成的主题词向量对各文本的特征向量进行规范化处理,即根据各文本的特征向量中的特征词与主题词向量中各词汇的语义关系,保留与主题词向量中各词汇具有语义关系的特征词,并将各文本的特征向量中保留的特征词按照主题词进行归类;最后利用向量空间模型生成各文本的训练文本特征向量,即{<w1,t1>,<w2,t2>,……,<wi,ti>},其中wi表示文本中的词汇,ti表示词汇wi在文本中所占的权重。其中,权重ti采用tf-idf算法获得。步骤207、根据所述主题词向量将待测试文本转换为测试文本特征向量。在本发明的具体实施例中,待测试文本是指需要被分类的文本,测试文本特征向量是指将待测试文本内容处理简化为对应的向量空间模型。在本实施例中,对于测试文本特征向量的确定,同样可以首先采用ikanalyzer中文分词工具包对文本进行分词处理;其次在分词的基础上,提取测试文本文档的特征词构建特征向量,并利用上述扩展生成的主题词向量对特征向量进行过滤,保留与主题词向量中各词汇具有语义关系的特征词;最后利用向量空间模型和tf-idf算法生成测试文本的测试文本特征向量。步骤208、分别计算所述训练库中各文本的训练文本特征向量与所述测试文本特征向量的文本相似度。在本发明的具体实施例中,分别计算各文本的训练文本特征向量与测试文本特征向量的向量相似度,将属于同一训练文本的训练文本特征向量对应的向量相似度进行累加,得到该训练文本的文本相似度。由于训练文本是已知分类主题的文本文档,因此文本相似度体现了测试文本与该训练文本的相似程度,进而间接地体现了测试文本与该训练文本所属的主题的相似程度。示例性的,可以通过训练文本特征向量和测试文本特征向量之间的向量内积、欧式距离或余弦距离等方式来衡量文本的相似度,本实施例采用采用余弦距离作为相似度的度量,其计算公式为其中a表示测试文本特征向量,ai表示向量a中第i个元素的权重,b表示训练文本特征向量,bi表示向量b中第i个元素的权重。余弦距离越大则表示训练文本特征向量和测试文本特征向量的相似度越高。步骤209、根据所述文本相似度,将所述训练库中各文本进行排序,获取所述训练库中预设阈值个较大的文本相似度对应的文本。在本发明的具体实施例中,根据各训练文本的文本相似度,将训练库中各训练文本进行排序,例如按照文本相似度由大到小或者由小到大的顺序将对应的训练文本进行排序,选取预设阈值个较大的文本相似度对应的训练文本作为与测试文本邻近的训练文本,因此邻近的训练文本可以充分的体现测试文本与各主题词的相近程度。其中,预设的阈值可以根据用户需求或者经验或者现有的阈值设置的方法来确定,可以理解的是,预设的阈值越大则文本分类的准确度越大,但随之带来的计算的复杂度也越大。步骤210、将所述训练库中预设阈值个文本对应的文本相似度按照各文本所属的主题词进行累加,得到各主题词对应的相似度累加和。在本发明的具体实施例中,由于邻近的训练文本可以充分的体现测试文本与各主题词的相近程度,因此根据各邻近的训练文本所属的主题词进行归纳,将上述预设阈值个训练文本对应的文本相似度按照各文本所属的主题词进行累加,得到各主题词对应的相似度累加和。因此,各主题词对应的相似度累加和体现了测试文本与各主题词的相近程度。步骤211、将最大的相似度累加和对应的主题词确定为所述待测试文本的类别。在本发明的具体实施例中,可以理解的是,各主题词对应的相似度累加和越大,则测试文本与各主题词的相近程度越高,因此将测试文本的类别归纳为最大的相似度累加对应的主题词。优选的,若最大的相似度累加和对应的主题词包括至少两个主题词,则根据所述预设阈值个文本中属于所述至少两个主题词的各文本的文本相似度,分别计算所述至少两个主题词的相似度方差,选取最小的相似度方差对应的主题词确定为所述待测试文本的类别。在本发明的具体实施例中,当统计最后得出的各主题词对应的相似度累加和,难免存在最大的相似度累加和包括了至少两个主题词的情况,也就是说,同时存在两个主题词的相似度累加和相等且是各主题词对应的相似度累加和中的最大值。因此,此时对这种情况中的主题词进行进一步的判断,即根据上述至少两个主题词中属于各主题词下的邻近的各个训练文本的文本相似度,计算各主题词的相似度方差。由于方差表示了一组数据的离散程度,也就是说,方差越小则此组数据越稳定,因此最小的相似度方差表示其对应的主题词下的各个邻近的训练文本与测试文本的相似度值比较稳定,存在偶然性的概率较低,数据可靠性较高,进而选择相似度方差最小值对应的主题词为待测试文本的类别。本实施例的技术方案,通过语义分析的方式利用语料库对预先确定的主题词进行扩展,得到较为完备的主题词向量;将与主题词相关且已知分类主题的文本构建训练库,提取训练文本的特征向量,通过上述较为完备的主题词向量对特征向量进行规范化处理;同样将测试文本转换为测试文本特征向量,采用邻近算法对待测试文本进行分类。实现了通过构建完备的主题词向量对训练文本特征向量和测试文本特征向量进行确定,并根据完备的主题词向量确定的特征向量对待测试文本进行分类,提高文本分类的准确度。实施例三图3为本发明实施例三提供的一种文本数据分析装置的结构示意图,本实施例可适用于对文本进行分类的情况,该装置可实现本发明任意实施例所述的文本数据分析方法。该装置具体包括:主题词向量确定模块310,用于对预先确定的主题词进行扩展,确定主题词向量;训练文本特征向量确定模块320,用于根据所述主题词向量确定训练文本特征向量;测试文本特征向量确定模块330,用于根据所述主题词向量将待测试文本转换为测试文本特征向量;分类模块340,用于根据所述训练文本特征向量和测试文本特征向量对所述待测试文本进行分类。进一步的,所述主题词向量确定模块310,包括:语义分析单元,用于通过语义分析将各主题词分别与预先设置的语料库中各词汇进行匹配;扩展词汇选取单元,用于将所述语料库中与各主题词匹配的词汇作为各主题词的扩展词汇;主题词向量构建单元,用于根据所述主题词和与各主题词匹配的扩展词汇,构建主题词向量。进一步的,所述训练文本特征向量确定模块320,包括:训练库构建单元,用于根据预先确定的主题词,选取与各主题词相关的文本构建训练库;特征向量提取单元,用于提取所述训练库中各文本的特征词构建各文本的特征向量;训练文本特征向量确定单元,用于利用所述主题词向量对所述训练库中各文本的特征向量进行规范化处理,依据处理结果生成各文本的训练文本特征向量。进一步的,所述分类模块340,包括:文本相似度计算单元,用于分别计算所述训练库中各文本的训练文本特征向量与所述测试文本特征向量的文本相似度;邻近文本获取单元,用于根据所述文本相似度,将所述训练库中各文本进行排序,获取所述训练库中预设阈值个较大的文本相似度对应的文本;主题词相似度计算单元,用于将所述训练库中预设阈值个文本对应的文本相似度按照各文本所属的主题词进行累加,得到各主题词对应的相似度累加和;文本分类单元,用于将最大的相似度累加和对应的主题词确定为所述待测试文本的类别。优选的,所述文本分类单元还具体用于:若最大的相似度累加和对应的主题词包括至少两个主题词,则根据所述预设阈值个文本中属于所述至少两个主题词的各文本的文本相似度,分别计算所述至少两个主题词的相似度方差,选取最小的相似度方差对应的主题词确定为所述待测试文本的类别。本实施例的技术方案,通过各个功能模块间的相互配合,实现了主题词的扩展、训练文本特征向量的确定、测试文本的转换以及文本分类等功能。实现了通过构建完备的主题词向量对训练文本特征向量和测试文本特征向量进行确定,并根据完备的主题词向量确定的特征向量对待测试文本进行分类,提高文本分类的准确度。实施例四图4为本发明实施例四提供的一种服务器的结构示意图。如图4所示,该服务器具体包括:一个或多个处理器410,图4中以一个处理器410为例;存储器420,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器410执行,使得一个或多个处理器410实现本发明任意实施例所述的文本数据分析方法。处理器410与存储器420可以通过总线或其他方式连接,图4中以通过总线连接为例。存储器420,作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的文本数据分析方法对应的程序指令(例如,主题词的扩展以及训练文本的分词和规范化处理)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述的文本数据分析方法。存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。实施例五本发明实施例五还提供一种计算机可读存储介质,其上存储有计算机程序(或称为计算机可执行指令),该程序被处理器执行时用于执行一种文本数据分析方法,该方法包括:对预先确定的主题词进行扩展,确定主题词向量;根据所述主题词向量确定训练文本特征向量;根据所述主题词向量将待测试文本转换为测试文本特征向量;根据所述训练文本特征向量和测试文本特征向量对所述待测试文本进行分类。当然,本发明实施例所提供的一种计算机可读存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的文本数据分析方法中的相关操作。通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。值得注意的是,上述搜索装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1