1.一种确定文档情感倾向性的方法,其特征在于,所述方法包括:
获取一个具有字典树结构的情感词典,所述情感词典中包含带有情感标定值的情感词;
将待测文档以字为单位与所述情感词典中字典树的各节点进行匹配,获取相匹配的情感词以及所述情感词的情感标定值,其中,所述将待测文档以字为单位与所述情感词典中字典树的各节点进行匹配,获取相匹配的情感词以及所述情感词的情感标定值包括:将所述待测文档分解为单个的字,根据所述字在待测文档中的排列顺序依次与所述情感词典中字典树的各节点进行匹配,当存在与所述字相匹配的节点时,在所述节点的子节点中匹配与所述字相邻的后一个字,将匹配成功的字组成情感词,并获取所述情感词的情感标定值;
累加所述待测文档获取到的所有情感词的情感标定值,得到所述待测文档的情感标定值;
根据所述待测文档的情感标定值在预置的情感趋向映射区间中的位置,确定所述待测文档的情感趋向。
2.根据权利要求1所述的方法,其特征在于,所述获取一个具有字典树结构的情感词典包括:
根据不同的领域创建至少一个情感词典,所述情感词典中包含指定领域中的情感词;
将所述情感词典中的情感词按照正面、中性、负面三类进行划分,并根据情感词的情感程度标记情感标定值;
将所述情感词以字为单位组建字典树,得到具有字典树结构的情感词典;
在所述至少一个情感词典中获取一个所述待测文档所属领域的情感词典。
3.根据权利要求1所述的方法,其特征在于,在所述将待测文档以字为单位与所述情感词典中字典树的各节点进行匹配,获取相匹配的情感词以及所述情感词的情感标定值之后,还包括:
当匹配到以所述待测文档中的字为开头的情感词时,将不再匹配所述待测文档中与所述字组成所述情感词的其他字。
4.根据权利要求1-3中任一项所述的方法,其特征在于,在所述根据所述待测文档的情感标定值在预置的情感趋向映射区间中的位置,确定所述待测文档的情感趋向之前,所述方法还包括:
设置正面情感阈值和负面情感阈值;
将大于所述正面情感阈值的情感标定值区间划分为正趋向区间,将小于所述负面情感阈值的情感标定值区间划分为负趋向区间,将正面情感阈值和负面情感阈值之间的区间范围划分为中性区间。
5.根据权利要求2所述的方法,其特征在于,所述将所述情感词典中的情感词按照正面、中性、负面三类进行划分,并根据情感词的情感程度标记情感标定值包括:
将正面情感词的情感值取大于零的值;
将负面情感词的情感值取小于零的值;
将中性情感词的情感值取为零。
6.一种确定文档情感倾向性的装置,其特征在于,所述装置包括:
第一获取单元,用于获取一个具有字典树结构的情感词典,所述情感词典中包含带有情感标定值的情感词;
第二获取单元,用于将待测文档以字为单位与所述第一获取单元获取的情感词典中字典树的各节点进行匹配,获取相匹配的情感词以及所述情感词的情感标定值,其中,所述第二获取单元包括:分解模块,用于将所述待测文档分解为单个的字、匹配模块,用于根据所述分解模块分解出的字在待测文档中的排列顺序依次与所述情感词典中字典树的各节点进行匹配、所述匹配模块还用于,当存在与所述字相匹配的节点时,在所述节点的子节点中匹配与所述字相邻的后一个字、获取模块,用于将所述匹配模块匹配成功的字组成情感词,并获取所述情感词的情感标定值;
计算单元,用于累加所述第二获取单元从所述待测文档中获取到的所有情感词的情感标定值,计算出所述待测文档的情感标定值;
确定单元,用于根据所述计算单元计算出待测文档的情感标定值在预置的情感趋向映射区间中的位置,确定所述待测文档的情感趋向。
7.根据权利要求6所述的装置,其特征在于,所述第一获取单元包括:
创建模块,用于根据不同的领域创建至少一个情感词典,所述情感词典中包含指定领域中的情感词;
标记模块,用于将所述创建模块创建的情感词典中的情感词按照正面、中性、负面三类进行划分,并根据情感词的情感程度标记情感标定值;
组建模块,用于将所述创建模块创建的情感词典中的情感词以字为单位组建字典树,得到具有字典树结构的情感词典;
获取模块,用于在所述创建模块创建的至少一个情感词典中获取一个所述待测文档所属领域的情感词典。
8.根据权利要求6或7中任一项所述的装置,其特征在于,所述装置还包括:
设置单元,用于在所述确定单元确定所述待测文档的情感趋向之前,设置正面情感阈值和负面情感阈值;
划分单元,用于根据所述设置单元的设置,将大于所述正面情感阈值的情感标定值区间划分为正趋向区间,将小于所述负面情感阈值的情感标定值区间划分为负趋向区间,将正面情感阈值和负面情感阈值之间的区间范围划分为中性区间。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求5中任意一项所述的一种确定文档情感倾向性的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至权利要求5中任意一项所述的一种确定文档情感倾向性的方法。