文本挖掘的方法和装置与流程

文档序号:12120947阅读:348来源:国知局
文本挖掘的方法和装置与流程
本发明涉及信息提取、文本挖掘,并且特别地涉及用于对输入文本进行处理和分类的方法和装置。
背景技术
:在当今社会中,顾客关系管理(CustomerRelationshipManagement)是现代企业发展的重要环节。通过顾客关系管理,企业记录、评价、响应顾客的意见,从而提高产品或服务水平、维系顾客忠诚度。在顾客关系管理中,即时准确处理顾客的各种反馈意见是非常重要的。大量顾客通过热线电话、网络、email等各种不同途径提出他们的反馈,而企业从这些反馈中得到顾客对产品的期望、好恶等。传统做法是通过人工手动整理、挖掘这些信息,但很明显,这样做的缺点是成本高、效率低下,特别是当顾客反馈信息的数量是海量数据时。美国专利US8738363提出了一种基于预先设定的术语和模板的建议挖掘的方法。例如,对于输入文本“请支持加墨”,该方法找到一条历史文本“你们能提供续加墨粉的功能吗”该方法从输入文本中提取“支持”作为建议术语,提取“加”和“墨”作为企业术语。同时,该方法从历史文本中提取“提供”作为建议术语,提取“续加”和“墨粉”作为企业术语。其中,“支持”和“提供”是相似的,“加”和“续加”是相似的,“墨”和“墨粉”是相似的。因此,该方法判断输入文本与历史文本属于同一类别。但是,该方法高度依赖于所提取的术语,因此文本挖掘的精度不够高。有相似的术语的建议容易被分成相同的类别,而没有相似的术语的建议容易被分成不同的类别。一方面,有相似的术语的文本的含义可能是不同的,而不应被分 成相同的类别;另一方面,没有相似的术语的文本的含义可能是相同的,而应被分成相同的类别。例如,一条输入文本是“请在公司官网上公布产品发布日期”,另一条历史文本是“我想知道产品的发布日期”。因为这二者提取的关键字中都有“产品”、“发布”、“日期”这些相同的术语,因而被现有技术分成同一类别。但是,前者表达了用户想在官网上方便地看到产品发布日期,而后者表达了用户想知道产品发布日期是什么。对这两条文本,需要企业采取的响应措施是不同的,这两条文本也不应当属于同一类别。因此,仍然存在着对新的文本挖掘的方法和装置的需求,从而提高文本挖掘的精度。技术实现要素:本发明是鉴于上述问题中的至少一者而提出的。根据本发明的一个方面,提供了一种文本挖掘的方法,该方法包括:文本串接收步骤,用于接收输入文本串;状态对提取步骤,用于根据输入文本串提取状态对,该状态对包括第一状态和第二状态,第一状态包含第一满意度值和第一描述单元,第一满意度值为满意或不满意,第一描述单元包含第一名词和第一描述短语,其中,第一描述短语所描述的对象是第一名词,第一描述短语包含第一形容词或第一动词,且第二状态包含第二满意度值和第二描述单元,第二满意度值为满意或不满意,且第二满意度值与第一满意度值相反,第二描述单元包含第一名词和第二描述短语,其中,第二描述短语所描述的对象是第一名词,第二描述短语包含第二形容词或第二动词,且第二描述短语的含义与第一描述短语的含义相反;动作文本生成步骤,用于生成动作文本,动作文本描述了一个动作,该动作对应第一状态到第二状态的状态转移,动作文本包含第三动词和第三动词的宾语。通过以下参照附图对示例性实施例的描述,本发明的其他特征将变得清楚。鉴于上述内容,本发明对输入文本进行结构化的分析和语义分 析,有效地提高了文本挖掘的精度。附图说明并入说明书中并且构成说明书的一部分的附图示出了本发明的实施例,并且与描述一起用于说明本发明的原理。图1是根据第一示例性系统配置的装置的示意性框图。图2是文本挖掘单元的示例性硬件结构的框图。图3示出了根据第一实施例的生成动作文本的一般流程图。图4示出了状态对提取步骤的一个示例性实现。图5例示了动作文本包含的四个属性。图6例示了一个匹配表的实例,匹配表包含多个状态对的信息和多个动词短语之间的匹配关系。图7示出了动作文本生成步骤300的一个示例性流程图。图8示出了根据第二实施例的对文本串分类的一般流程图。图9示出了文本串分类步骤400的一个示例性流程图。图10示出了根据第三实施例的包含文本串预分类步骤的对文本串分类的一般流程图。图11示出了根据第三实施例的包含文本串预分类步骤的对文本串分类的一个示例性流程图。图12例示了对用户建议的结构化分类的一个实例。图13例示了应用本发明的方法对顾客意见分类的一个应用的用户界面。图14是根据本发明的一个实施例的文本挖掘装置的框图。具体实施方式下面将参考附图来详细描述本发明的优选的实施例。请注意,类似的参考数字和字母指的是图中的类似的项目,因而一旦在一幅图中定义了一个项目,就不需要在之后的图中讨论了。在本公开中,术语“第一”、“第二”等仅仅被用来在元件或步骤之间 进行区分,而并不意图表示时间顺序、优先级或重要性。应当指出,以下的描述实质上仅是说明性和示例性的,并且决不旨在限定本发明及其应用或用途。在实施例中陈述的部件和步骤、数值表达式以及数值的相对布置并不限定本发明的范围,除非另外特别说明。(计算机系统的硬件配置)图1是根据第一示例性系统配置的装置的框图。装置100包括用户界面(UI)单元110、语音文本转换单元120、文本挖掘单元130以及网络接口140。装置100可以是台式机、笔记本电脑、工业用计算机或其他具有计算能力的装置。装置100中的部件单元经由总线10相互通信。UI单元110包含显示器,向用户显示诸如状态和处理进度的各种信息。UI单元110还包括键盘或触敏屏来输入命令、或对装置100进行控制。语音文本转换单元120是可选的。单元120使得装置100能在原始数据是音频数据时,进行文本挖掘。单元120获取输入的语音数据,并通过连续语音识别模块,将输入语音转换为输入文本,并将输入文本送给单元130处理。如果原始数据是文本数据,则输入文本将直接被送给单元130处理。网络接口140用来与网络通信,可以从网络获得原始数据,也可将文本挖掘的结果上传网络,还可以从网络获得文本挖掘所需要的训练数据等。图2是文本挖掘单元130的示例性硬件结构的框图。处理器131通过将存储在硬盘驱动器(HDD)133中的程序加载到存储器132上,来控制装置100的总体操作。此外,处理器131经由总线10与文本挖掘单元130中的其他部件通信。处理器131还被配置为根据本发明的方法来读取、解码并执行全部步骤。处理器131利用系统总线10将文本挖掘的结果记录到存储器132中。除了存储器132之外,字符识别结果也可以被更永久地存储在HDD133上,或通过网络接口140上传到网络。在下文中,将参照第一实施例和附图,详细描述从输入文本中 挖掘响应动作的方法。(第一实施例)顾客的反馈、抱怨或建议的核心价值在于,企业可据此采取措施改进产品、服务、过程等。响应于顾客反馈或输入文本的内容,而得到的采取的措施或行动等,被称为动作。本发明的第一实施例提供了一种从输入文本中挖掘响应动作的方法。该方法能自动地、批量地处理顾客反馈或输入文本。现有技术中在处理输入文本时,是基于文本中的术语或词语的,这种处理是扁平化的,而没有对输入文本的整体进行结构化的、或语义级别的分析。而本发明提供了一种对输入文本串结构化的分析处理的方法。参见图3,图3示出了根据第一实施例的生成动作文本的一般流程图。人们的反馈常常是带有个人情感地表达自己的意见所形成的文本内容,能反映表达者的不满。而从这些不满和抱怨中,企业可以找到改进点,使得不满和抱怨转化为满意。即,改进动作对应着从不满意状态到满意状态的转移。步骤100,文本串接收步骤,用于接收输入文本串。表1例示了输入文本串以及所提取的状态对。表1表1例举了2个输入文本串。“打印机太贵了”。“这款打印机不支持自动裁纸”。步骤200,状态对提取步骤,用于根据输入文本串提取状态对。表1的第3至8列例示了状态对的结构。如表1所示,每条输入文本 对应着一个状态对,该状态对包括第一状态和第二状态。第一状态包含第一满意度值和第一描述单元,第一满意度值为满意或不满意。例如,对表1中的第一条文本串“打印机太贵了”采用意见挖掘技术(opinionmining)挖掘顾客对产品的评价是正面的还是负面的,得到第一满意度值,为不满意,在表1中用“否”表示。对表1中的第二条文本串“这款打印机不支持自动裁纸”采用意见挖掘技术得到第一满意度值,为不满意,在表1中用“否”表示。第一描述单元包含第一名词和第一描述短语,其中,第一描述短语所描述的对象是第一名词,第一描述短语包含第一形容词或第一动词。例如,第一条文本串的第一名词是“打印机”。第一描述短语包含了第一形容词“贵”,其描述的对象是第一名词“打印机”。第二条文本串的第一名词是“打印机”。第一描述短语为“不支持自动裁纸”,其包含了第一动词“不支持”,其描述的对象是第一名词“打印机”。第二状态包含第二满意度值和第二描述单元,第二满意度值为满意或不满意,且第二满意度值与第一满意度值相反。例如,第一条文本串的第二满意度值“满意”与第一满意度值“不满意”相反,在表1中用“是”表示。类似的,第二条文本串的第二满意度值是“满意”。需要注意的是,很多二值化的数值、文本或符号都能表示第一满意度值和第二满意度值的取值。例如,以下取值对儿分别表示含义相反的第一满意度值和第二满意度值:“1”和“-1”;“0”和“1”;“好”和“不好”;“正”和“负”;“Y”和“N”。第二描述单元包含第一名词和第二描述短语,其中,第二描述短语所描述的对象是第一名词,第二描述短语包含第二形容词或第二动词,且第二描述短语的含义与第一描述短语的含义相反。例如,第一条文本串的第二描述短语“便宜”包含了第二形容词“便宜”,其描述的对象是第一名词“打印机”,且第二描述短语“便宜”与第一描述短语“贵”的含义相反。第二条文本串的第二描述短语为“支持自动裁纸”,其包含了第二动词“支持”,其描述的对象是第一名词“打印机”,且第二描述短语“支持自动裁纸”与第一描述短语“不支持自动裁纸”的含义相反。需要注意的是,本发明中的短语有多种形式,可以是一个字,或一个词,或一个词组,或一组连续出现的字和/或词和/或词组。例如表1中的“贵”、“便宜”、“不支持自动裁纸”等。有多种方法可以从输入文本中提取状态对。图4示出了状态对提取步骤200的一个示例性实现。步骤210,从输入文本串提取名词,作为第一状态的第一名词。所提取的名词是输入文本串所描述或评价的对象。提取方法可使用现有技术,例如基于词性规则、句法规则、或基于词序列模板等方法提取所描述或评价的对象,作为第一状态的第一名词。对于表1的第一条文本串和第二条文本串,分别提取“打印机”作为第一状态和第二状态的第一名词。对于表1的第一条文本串,用传统的信息提取(InformationExtraction)技术,可提取出“贵”作为第一状态的第一描述短语。需要注意的是,第一描述短语的取值不是唯一的。例如,第一条文本串 的第一描述短语还可以是“太贵”或“太贵了”。以上三种第一描述短语的取值都包含了形容词“贵”,都是对第一名词“打印机”的描述或评价。这样,“打印机”和“贵”组成了第一条文本串的第一描述单元,是第一条文本串的核心内容。对于表1的第二条文本串,采用信息提取技术得到“不支持自动裁纸”作为第一状态的第一描述短语,其包含了动词“不支持”。第一描述短语“不支持自动裁纸”是对第一名词“打印机”的描述或评价。这样,“打印机”和“不支持自动裁纸”组成了第二条文本串的第一描述单元,是第二条文本串的核心内容。步骤220,根据输入文本串得到第一状态的满意度值。采用传统的意见挖掘(OpinionMining)技术,可得到一个二值化的值,来表示用户的满意度值。例如,可通过一个极性词典(PolarityVocabulary)来得到这个满意度值。词典中的词带有或正或负的极性,这个极性反映了满意度。例如,词典中的“贵”,其极性为负,表示不满意;又如,“不支持”,其极性为负,表示不满意。当输入文本中出现极性词典中的词语时,根据该出现的词语在词典中的极性,判断输入文本所表征的用户满意度值。因此表1中的两条输入文本串,其第一状态的满意度值均为“否“。此外,步骤220得到的二值化的值可以有多种表达形式,可以用“是”、“Y”、“1”“或““满意”表示用户满意的状态,并用“否”、“N”、“0”或“不满意”表示用户不满意或抱怨的状态。在本发明中,具体采用什么形式的一对儿二值化的值来表达一对儿含义相反的满意度值是不受限制的。步骤230,对第一状态的满意度值求相反值,得到第二状态的满意度值。对于表1中的两条输入文本串,分别对第一状态的满意度值“否“求相反值,分别得到第二状态的满意度值”是“。步骤240,对第一状态的第一描述短语中的第一形容词或第一动词求反义词,得到第二状态的第二描述短语。例如,对第一文本串的第一描述短语“贵”中的第一形容词“贵”求反义词,得到第二形容词“便宜”。为了得到第二描述短语,第一描述短语中的其他部分不变,因此第二描述短语是“便宜”。对第二文本串的第一描述短语“不支持自动裁纸”中的第一动词“不支持”求反义词,得到第二动词“支持”。为了得到第二描述短语,第一描述短语中的其他部分不变,因此第二描述短语是“支持自动裁纸”。通过直接对第一描述短语中的第一形容词或第一动词求反义词来得到第二状态的第二描述短语,计算方法直接、简便。回到图3,步骤300,动作文本生成步骤,用于生成动作文本,动作文本描述了一个动作,该动作对应第一状态到第二状态的状态转移,动作文本包含第三动词和第三动词的宾语。例如,对于表1的第一条文本串,步骤300生成了动作文本“降低价格”,其中第三动词是“降低”,第三动词的宾语是“价格”。而且“降低价格”所描述的动作对应从第一状态到第二状态的状态转移,即从第一满意度值为“不满意”到第二满意度值“满意”的转移,以及从第一描述单元“打印机”“和“贵”,到第二描述单元“打印机”和“便宜”,的转移。对于表1的第二条文本串,步骤300生成了动作文本“增加自动裁纸功能”,或“增加自动裁纸”,其中第三动词是“增加“,第三动词的宾语是“自动裁 纸功能”或“自动裁纸”。该动作文本所描述的动作对应从第一状态到第二状态的转移,并且该动作能达到将”不支持自动裁纸”转变为“支持自动裁纸”的效果。当第一状态为不满意时,该动作对应着不满意到满意的状态转移。这是大多数顾客反馈信息处理系统的目的,通过从不满意到满意的状态转移,来生成用于响应的动作,从而达到改进产品、服务、或过程等目的。当然,本发明的方法也可以处理第一状态为满意的情况,这时生成的动作文本所描述的动作对应着满意到不满意的状态转移。优选地,为了描述对输入文本串所做出的响应动作,本发明提供了一种结构化的框架,该框架中,动作文本包含以下4个属性:执行方属性,产品或服务属性,操作属性,对象属性。其中,执行方属性表示动作的执行方,产品或服务属性表示动作所涉及的产品或服务,操作属性表示动作的具体操作,对象属性表示动作所操作的对象。其中,该操作属性对应图3中的步骤300所生成的动作文本中的第三动词,该对象属性对应该第三动词的宾语。这个框架把要生成的动作文本进行了结构化和标准化处理。动作文本包含的这4个核心属性能准确、完整、标准化地描述一个动作。图5例示了动作文本包含的4个属性,以及每个属性的一些可能的取值。如图5所示,执行方属性表示动作的执行方,例如是维修中心、产品部门、部门3或部门4等。产品或服务属性表示动作所涉及的产品或服务,例如是照相机、打印机、官方网站、或服务等。操作属性表示动作的具体操作,例如是提高、降低、支持、或提供等。对象属性表示动作所操作的对象,例如是产品信息、价格、功能、或服 务信息等。以表1的第1条数据为例,如果所生成的动作仅是“降低价格”,就不完整。但如果动作的描述采用了上述结构化的框架,则会生成更加准确、完整的动作文本,即执行方属性——市场部门,产品或服务属性——打印机,操作属性——降低,对象属性——价格。以表1的第2条数据为例,如果所生成的动作仅是“增加自动裁纸功能”,就不完整。但如果动作的描述采用了上述结构化的框架,则会生成更加准确、完整的动作,即执行方属性——产品部门,产品或服务属性——打印机,操作属性——增加,对象属性——自动裁纸功能。下面将介绍步骤300动作文本生成步骤的多种实现方法。根据第一实例,动作文本生成步骤包括:根据状态对提取步骤得到的状态对,在匹配表中搜索,得到一个动词短语,所述动词短语包括动词和该动词的宾语,并将该动词作为动作文本的操作属性,将该动词的宾语作为动作文本的对象属性,其中,匹配表包含多个状态对的信息,多个动词短语,以及所述多个状态对的信息和所述多个动词短语之间的匹配关系。图6例示了一个匹配表的实例,匹配表包含多个状态对的信息和多个动词短语之间的匹配关系。图6的第2列例示了从第一状态到第二状态的状态转移,第3列例示了所对应的表示动作的动词短语。对于第1条数据,从“贵”到“便宜”的状态转移,对应动词“降低”作为动作的操作属性,动词的宾语“价格”作为动作文本的对象属性。第2至第4条数据的解释也依此类推。匹配表提供了状态对与动作之间的匹配关系。在文本挖掘的过程中,一旦提取了状态对,就可以方便、快速地在匹配表中查询,得到与状态对相对应的动作。需要注意的是,虽然图6例示的匹配表是一对一的关系,但这种一对一的结构不是必须的。可以理解,匹配表可以是多个状态转移对应同一个动词短语,即不同的文本串可能有不同的表达方式,所提取的状态对也可能是不同的,但相应的改进动作可能是相同的。另外,匹配表也可以为一个状态转移对应多个动词短语,就是说,一条文本串或顾客的一条反馈意见,可能对应多个或多种改进动作。以上的第一实例是通过查找匹配表,得到动作。下文的第二实例是通过对历史动作进行验证,从中选择能完成状态转移的动作。根据第二实例,动作生成步骤包括:获取多个历史动作文本,从中选择第一状态到第二状态的状态转移所对应的一个历史动作文本,作为所生成的当前动作文本。图7示出了动作文本生成步骤300的一个示例性流程图。步骤310,获取T个历史动作文本,其中,T是正整数。步骤320,给计数器t赋予初值1。步骤330,验证第t个动作文本是否对应从第一状态到第二状态的状态转移。如果是,则执行步骤340,将第t个动作文本作为所生成的当前动作文本。如果否,则执行步骤350,使t自增1。步骤360,判断t是否已超过了历史动作文本的总数。如果是,则结束;如果否,则返回步骤330进行验证。在本方法的一种实现中,提供了一个历史动作文本与状态转移的实例库,该实例库中具有多个历史动作文本与多个状态转移之间的对应关系。步骤330在该实例库 中检索并判断第t个动作文本是否对应从第一状态到第二状态的状态转移。请注意,历史动作文本的排序有多种方案。如果期望的生成动作文本在所有历史动作文本中有一个很大的顺序编号t,这意味着验证的次数会很多。因此效率高的排序是,期望的生成动作文本在所有历史动作文本中有一个比较小的顺序编号t。可以按历史动作文本的生成的先后顺序对历史动作文本排序。优选地,也可以按照历史动作文本被生成的次数,即历史动作文本在过去被生成的频率排序。这样做的考虑是,某个动作文本在过去被生成的次数越频繁,当下也越可能是应当生成的动作文本,就应当越早进行验证,减少计算量。反之,过去很少被采取的动作,当下是应当生成的动作文本的概率也比较低。可以理解,特别对于已经推向市场多年(例如是三年)的产品或服务,顾客三年后所反映的问题及对应的动作大多数是三年前已经出现过的,并且三年后的问题和动作基本上符合三年前的问题和动作的总体规律。请注意,T个历史动作文本的选取也有多种方法。可以把数据库中的所有历史动作文本用来验证,也可以根据输入文本的信息源只选取一部分历史动作文本进行验证,判断是否是当前应当生成的动作文本。例如,顾客打电话反馈意见的情况,可以选择当前输入文本串的呼入号码所关联的所有历史动作文本,而其他呼入号码关联的历史动作文本则不考虑。可以理解,同一顾客的反馈意见常常具有相关性,或可能就同一问题反复咨询。这种实现对可能性高的历史动作文本优先判断,提高了计算效率。在实际实施中,可以根据不同的输入文本串采取不同的动作文本生成的方法,以达到计算效率最大化的目的。例如,如果输入文本所涉及的产品类型是新推向市场的产品,这时采用第一实例的方法,即基于匹配表的动作生成方法;而如果输入文本所涉及的产品类型是推向市场多年的产品,就采用第二实例的方法,即基于验证的动作生成方法。根据第三实例,动作文本生成步骤包括:候选动词短语生成步骤,用于根据所述状态对提取步骤得到的状态对,得到多个候选动词短语,所述多个候选动词短语中的每一个包括动词和该动词的宾语;共现判断步骤,用于根据所述状态对的信息与所述多个候选动词短语在同一文章中的同时出现的次数、同时出现时的距离,分别对所述多个候选动词短语打分,将得分最高者所包括的动词作为动作文本的操作属性,将得分最高者所包括的动词的宾语作为动作文本的对象属性。优选地,对于共现次数越高的、或共现时的距离越近的候选动词短语的打分就越高。共现时的距离可以用字符数为计算单位,可以用行数为计算单位,还可以用段落数为计算单位。下面将简要说明动作的另外两个属性的生成方法,即如何生成动作文本的执行方属性以及动作文本的服务或产品属性。一种生成动作文本的执行方属性的方法是,根据所述输入文本串中所包括的词,在责任列表中搜索,得到至少一个责任方,并从中选择一个责任方,作为动作文本的执行方属性,其中,所述责任列表包含多个词,多个责任方,以及所述多个词和所述多个责任方之间的匹配关系。表2序号关键词或短语责任方1贵市场部门2打印机产品部门,市场部门3网站公关部门通过分析输入文本中的词或短语是否对应着责任列表中的责任方,来判断该条输入文本串的动作文本的执行方属性。表2例示了一个责任列表的局部,责任列表的第2列是关键词或短语,第3列是责任方。在输入文本串中提取责任列表第2列的关键词或短语。例如,对输入文本串“这款打印机实在是太贵了”,提取出关键词“贵”和“打印机”。“贵”在表2中对应着第一结果“市场部门”。“打印机”在表2中对应着第二结果“产品部门”或“市场部门”,对第一结果和第二结果取交集,得到“市场部门”。一种生成动作文本的产品或服务属性的方法是,从所述输入文本串中提取产品或服务的信息,作为动作文本的产品或服务属性。一般地,产品或服务会有相应的物料清单,即BillofMaterial(BOM)。请注意,物料清单中的内容可以是有形的产品、零件、材料等,也可以是无形的服务、过程等。物料清单包含了构成产品或服务的各种要素,及要素的组织结构。例如,对于输入文本“墨盒太贵了”,本方法将根据物料清单对输入文本中的词或短语进行识别,其中,“墨盒”作为物料清单中的一个要素被识别出来,并被作为动作文本的产品属性。第一实施例提供了一种从输入文本中自动挖掘信息,生成响应动作文本的方法。该方法对输入文本进行结构化的、语义级别的分析。该方法从非结构化的输入文本中,提取出结构化的信息,即状态对。该方法还体现了响应动作的本质,即能把状态对中的不满意状态转换为满意状态,用这种方法得到的动作文本准确、完整地描述了顾客或企业需要的响应动作。(第二实施例)本发明的第二实施例提供了一种对输入文本的分类方法。该方法能基于所生成的动作文本,自动地、批量地对输入文本分类。这种分类的机制是,顾客反馈的信息的价值在于所采取的响应动作。如果两段输入文本对应的动作文本相同,那么即便输入文本的表述方式可能是千差万别的,但输入文本还是应被分成一类。反之亦然。这种基于响应的动作对输入文本分类的方法,能排除输入文本表面的差异,达成企业对输入文本进行分析或处理的目的,分类机制更有意义。图8示出了根据第二实施例的对文本串分类的一般流程图。其中,步骤100、200和300的实现如第一实施例所述,这里不再重复。与图3相比,图8增加了步骤400,即文本串分类步骤,该步骤比较动作文本生成步骤所生成的当前动作文本与动作集合中的多个历史动作文本,并基于比较结果对当前输入文本串分类。图9示出了文本串分类步骤400的一个示例性流程图。步骤410,获取动作集合中的T个历史动作文本,其中,T是正整数。步骤420,给计数器t赋予初值1。步骤430,判断步骤300所生成的当前动作文本与第t个历史动作文本是否相同或相似。如果是,则执行步骤440,将当前输入文本串分类到目标类,目标类是第t个历史动作文本所对应的历史输入文本串所在的类。如果否,则执行步骤450,使t自增 1。步骤460,判断t是否已超过了历史动作文本的总数。如果是,则执行步骤470,为当前的输入文本串建立新的类别。如果否,则返回步骤430进行判断。步骤430中,判断当前动作文本与第t个历史动作文本是否相同或相似的一种方法是,判断表示当前动作的文本与表示第t个历史动作的文本是否相同或相似。一种判断方法是,基于现有技术的文本比较技术,判断当前动作文本与所述多个历史动作文本中的一个的相似度是否大于一个预定阈值,大于预定阈值表示相同或相似。另一种判断方法是,判断当前动作文本的4个属性与所述多个历史动作文本中的一个的相应的4个属性是否分别是同义词或近义词。例如,当动作的结构是包含如图5例示的4个属性时,步骤430判断当前动作文本的4个属性与第t个历史动作文本的相应的4个属性是否分别是同义词或近义词。在本发明中,两个完全相同的词属于同义词。举例来说,当前动作的执行方属性、产品或服务属性、操作属性和对象属性分别是“市场部门”、“计算机”、“降低”、“价格”,而第t个历史动作文本的这4个属性分别是“市场部”、“电脑”、“降低”、“售价”,这四组属性分别是同义词或近义词,步骤430的判断结果为“是”,下一步进入440。需要注意的是,分类的结果可以是只有一级结构,也可以具有多个级别的结构。图12例示了一个对输入文本分类的结构化表。该表包含4个级别,每个级别的内容和具体划分如图12所示,简洁起见不再重复。可以理解的是,分类的结构化表具有多少个级别,以及每个级别包含多少项,是不受限制的。第二实施例提供了一种对输入文本进行分类的方法,省去了人工分类的麻烦,并且该分类方法基于所生成的动作,能把海量的输入文本的数据,进行有意义的分类,也便于企业对这些海量输入文本的管理,以及进一步的信息挖掘。(第三实施例)本发明的第三实施例提供了一种对输入文本串进行分类的方法。该方法包含一个文本串预分类步骤。图10示出了根据第三实施例的包含文本串预分类步骤的对文本串分类的一般流程图。与图8相比,在步骤100之后增加了文本串预分类步骤500。更具体地,图11示出了根据第三实施例的包含文本串预分类步骤的对文本串分类的一个示例性流程图。与图10相比,图11对步骤500给出了示例性实现,即步骤510到550。步骤510,检索相似的历史文本串。步骤520,判断当前文本串与历史文本串中的一个的相似度是否大于阈值T2。换句话说,在所有的历史文本串中,是否存在与当前文本串的相似度大于阈值T2的历史文本串。如果是,则执行步骤530,将当前文本串分类到相似度大于T2的历史文本串所在的类别。例如,当前文本串是“打印机太贵了”,而一个历史文本串是“打印机真贵!”这两个文本串非常相似,相似度大于T2,则把当前文本串与该历史文本串分成同一类。这样做的原因是,如果当前文本串与某个历史文本串非常相似,那么二者属于同一类别是一个大概率事件。这时不执行步骤200至400,直接将二者分为同一类会提高计算速度。如果否,则执行步骤540,即判断是否当前文本串与所有历史文本串的相似度都小于阈值T1,其中,T1<T2。如果是,则执行步骤550,为当前输入文本串建立一个新的类别。这样做的原因是,如果当前文本串与所有历史文本串都非常不相似,那么当前文本串与所有历史文本串都不属于同一类别是一个大概率事件。这时不执行步骤200至400,直接为当前输入文本串建立一个新的类别会提高计算速度。如果否,则依次执行步骤200,300,400,即先提取状态对,再生成动作,然后根据生成的动作文本对输入文本串分类。下面,图13例示了应用本发明的方法对顾客意见分类的一个应用的用户界面。需要注意的是,在不超出本发明的发明原理和保护范围的前提下,可以有多种用户界面。图13仅是多种用户界面之中的一个示例。该界面的顶部“顾客之声识别工具”,显示了该应用的名称。可以理解的是,对该应用可以进行各种命名,且命名结果不影响该应用的功能和本发明的保护范围。界面上方是对当前顾客意见进行操作的几个按钮,按“下一条”可以查看下一条顾客意见,按“取消”可以取消当前用户意见,按“保存”可以保存当前的动作生成结果和分类结果。界面的左侧显示了当前一条顾客意见的相关信息,包括信息来源、所涉及的产品或服务信息,以及顾客意见的内容。界面的右侧是顾客之声识别工具的识别结果。该工具对顾客意见“打印机AB123的墨盒太贵了”进行识别,生成了动作,该动作的四个属性显示在界面右下方,即执行方为“市场部”,操作为“降低”,产品或服务为“墨盒”,以及对象为“价格”。另一个识别结果是对当前的顾客意见的分类结果。该分类体系具有四个级别的结构,如界面右上方所示,分类结果是产品->打印机-> 墨盒->降低价格。图13例示的用户界面可以方便清晰地显示顾客意见的内容、针对顾客意见所生成的动作、以及分类结果。需要注意的是,虽然以上实施例中的输入文本是关于产品的信息,但本发明也可以用于输入文本是关于服务的信息。对于很多各种提供者,例如旅行社,在顾客和旅行社之间有大量对话。自动识别用户的期望或建议对旅行社和顾客来说都是很有帮助的。例如,对于来自顾客的输入文本“哦,你们提供的行程里不包括雪景”,利用本发明的方法提取得到第一状态的满意度值“不满意”,第一状态的态度词“不包括雪景”,以及第二状态的满意度值“满意”,第二状态的态度词“包括雪景”。基于输入文本,在历史数据库中找到相关的历史动作文本有3条,如表3所示。经过验证,只有第一条历史动作文本对应第一状态到第二状态的转移,因此,将第一条历史动作文本作为当前生成的动作。并将第一条历史动作文本所对应的输入文本所在的类别,作为当前输入文本的类别。表3(技术效果)从顾客意见数据库中,任意选择4000条意见,作为4000条历史输入文本串,或称为训练数据,这些文本串的正确分类结果是已知的。选择另外的1000条意见,即1000条当前输入文本串,作为测试数据。分别采用两种方法对测试数据分类。第一种方法属于现有技术。其中,文本串之间的相似度是基于文本串所包含的词语的相似度得来的。就是说,在两个文本串之间有越多的相似的词语对儿、以及每对儿相似的词语的相似度越高,则文本串之间的相似度也越高。比较当前文本串与所有历史文本串的相似度,选择与当前文本串的相似度最高的3条历史文本串所在的类别,作为当前文本串的候选类别。因此,候选类别的个数是1,2或3。第二种方法是属于本发明的方法,即上文所述的从当前文本串提取状态对,基于状态转移生成动作文本,以及根据所生成的动作文本是否相同或相似来判断文本串之间的相似度。比较当前文本串与所有历史文本串的相似度,选择与当前文本串的相似度最高的3条历史文本串所在的类别,作为当前文本串的候选类别。因此,候选类别的个数是1,2或3。无论采用以上两种方法中的哪一种,对技术效果的评估标准是相同的。如果当前文本串的分类结果的真值与候选类别中的任何一个相同,则判断当前文本串的分类结果是正确的;否则,分类结果是错误的。在这1000条测试数据的分类任务中,基于第一种方法的分类的正确率为84%,而基于第二种方法的分类的正确率为95%,高出了十余个百分点。实验表明,与现有技术相比,本发明的分类方法能达到更好的分类正确率。现有技术的方法对文本中的所有的词同等地对待,对哪些词与用户态度相关,哪些词是冗余的表述不进行区分。而且,现有技术的 方法没有对文本进行语义分析,对输入文本所表达的含义无法充分挖掘。本发明的方法去除与用户态度或应采取的动作无关的信息,提取出表示用户态度的状态对,状态对中的满意度值和态度词能准确、简洁地表征用户态度。本发明的方法对输入文本进行结构化的分析和语义分析,并根据状态转移得到所生成的动作文本,保证了动作能有效地将用户态度从不满意变为满意。因为生成的动作文本的准确,因此基于动作文本的分类也更准确。本发明还提供了一种文本挖掘的装置。图14是根据本发明的一个实施例的文本挖掘装置的框图。可以由硬件、固件、软件中的任何设备或其任意组合,来构成文本挖掘装置1000及其所包括的单元,只要装置1000中的单元能够实施上述的文本挖掘方法的相应步骤的功能即可。如果装置1000是部分地或全部地由软件构成,则该软件被存储在计算机的存储器中,并且当该计算机的处理器通过执行存储的软件来进行处理时,该计算机能够实现本发明的手写登记方法的功能。另一方面,装置1000可以部分地或全部地由硬件或固件构成。装置1000可以作为功能模块被并入到其他计算设备中。文本挖掘装置1000包括:文本串接收单元,其被配置为接收输入文本串;状态对提取单元,其被配置为根据输入文本串提取状态对,该状态对包括第一状态和第二状态,第一状态包含第一满意度值和第一描述单元,第一满意度值为满意或不满意,第一描述单元包含第一名词和第一描述短语,其中,第一描述短语所描述的对象是第一名词,第一描述短语包含第一形容词或第一动词,第二状态包含第二满意度值和第二描述单元,第二满意度值为满意或不满意,且第二满意度值与第一满意度值相反,第二描述单元包含第一名词和第二描述短语,其中,第二描述短语所描述的对象是第 一名词,第二描述短语包含第二形容词或第二动词,且第二描述短语的含义与第一描述短语的含义相反;动作文本生成单元,其被配置为生成动作文本,动作文本描述了一个动作,该动作对应第一状态到第二状态的状态转移,动作文本包含第三动词和第三动词的宾语。优选地,文本挖掘装置1000还可以包括文本串分类单元1400,其被配置为比较动作文本生成单元1300所生成的当前动作文本与动作集合中的多个历史动作文本,并基于比较结果对当前输入文本串分类。优选地,文本挖掘装置1000还可以包括文本串预分类单元1500,其被配置为按照图11的步骤510到步骤550执行对输入文本串的预分类。在一些实施例中,本发明还可以体现为记录在记录介质中的程序,包括用于实现根据本发明的方法的机器可读指令。因此,本发明还涵盖存储有用于实现根据本发明的方法的程序的记录介质。此外,对本领域技术人员公知的技术、方法及设备可能不进行详细讨论,但在适当的情况下旨在作为本说明书的一部分。虽然通过示例详细描述了本发明的一些具体实施例,但是本领域技术人员应当理解,上述的示例仅是例示性的,而不限定本发明的范围。本领域技术人员应当理解,可以在不偏离本发明的范围和精神的情况下对上述实施例修改。本发明的范围是由所附的权利要求限定。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1