一种基于用电信息采集系统的客户互动信息搜索引擎系统的制作方法

文档序号:12748003阅读:330来源:国知局
一种基于用电信息采集系统的客户互动信息搜索引擎系统的制作方法与工艺

本发明涉及一种电力系统领域的方法,具体讲涉及一种基于用电信息采集系统的客户互动信息搜索引擎系统。



背景技术:

根据中国智能电网发展规划,2011—2015年,中国的智能电网进入全面建设阶段。2015年,将完成41项智能电网创新示范工程建设任务,智能电网中用电信息采集系统用户互动的功能基本实现,包括信息互动、电能和业务互动。在互动信息的基础上通过“分时电价”、“阶梯电价”和“双向调度”等手段“削峰填谷”作用明显,并实现了在不停电情况下对用户负荷进行控制进而推进了有序用电。结构化的客户互动信息存储采用服务器数据库存储模式,非结构化互动信息的未来的发展趋势是基于Hadoop架构的电力数据中心。一般大中城市的接入电用户数达到百万数量级,随之而来的是海量互动信息,高效、准确及全面查找信息成为提高工作效率、充分利用数据资源的瓶颈。



技术实现要素:

为克服上述现有技术的不足,本发明提供一种基于用电信息采集系统的客户互动信息搜索引擎系统,可实现用于现阶段存储于单机或企业局域网共享文件内容的搜索,从而实现对客户信息的准确查找。

实现上述目的所采用的解决方案为:

一种基于用电信息采集系统的客户互动信息搜索引擎系统,其中,所述搜索引擎系统基于开源搜索引擎solr构建,包括电力词库模块、文档解析模块、中文分词模块、索引库模块和检索接口模块。

优选的,所述电力词库模块的内容有两方面来源,其一参考国家和电力行业标准以及国际电网技术委员会的标准,将用户互动信息中常用专业词汇归入词库;其二将核心刊物关键词和采用正规化分布熵的领域术语抽取算法抽取“中国电机工程学报”等摘要中的相关术语归入词库。

优选的,所述文档解析模块负责解析文件,从非结构化数据如PDF、Word、Excel和PowerPoint等格式的文档中提取描述文档的文字,这些描述性的信息包括文档标题、作者、主要内容等,在进一步进行语法分析和语言处理即使用TF—IDF(term frequency-inverse document frequency)加权算法对正文中的词进行评估,选取权值大于阈值的词抽取为文档的 核心词汇并进一步应用信息增益方法(Information Gain)优选核心词汇进而形成包含内容及核心词汇的文本文件。

利用开源库中多种资源完成不同格式的文档处理。例如,Apache POI程序能完成Microsoft Office格式文档读和写的功能。其结构包括:HSSF提供读写Microsoft Excel XLS格式档案的功能;XSSF提供读写Microsoft Excel OOXML XLSX格式档案的功能;HWPF提供读写Microsoft Word DOC格式档案的功能;HSLF提供读写Microsoft PowerPoint格式档案的功能;HDGF提供读写Microsoft Visio格式档案的功能等。PDFBox提供PDF文档的创建、处理以及文档内容提取功能。

优选的,所述中文分词模块负责运用中文分词算法,将文本文件内容进行全文分词,将分词结果逐个和电力词库中标准化术语比对,删除词库中没有的分词,使用电力词库的标准词语,形成索引文件,中文分词采用“IK Analyzer”工具包,建立索引数据库和搜索时分词时,都需要和电力词库标准库比对,这样建立起来的索引数据库容易被使用相同标准词库的搜索引擎搜索到。

优选的,所述索引库模块通过互动信息数据预处理使用数字签名算法消重,使用相量空间模型(VSM:Vector Space Model)表示文本的特征信息,建立索引数据库,为用户搜索提供检索源;

所述索引库模块的索引文件包含索引词及索引目录。

有别于其他专题搜索引擎,本系统在形成索引库时的特点是,索引词是基于电力词库建立,从而形成标准化的索引库。

优选的,所述检索接口模块是用户使用的接口,接受用户的输入并输出查询结果。检索时将输入的检索词分词后形成关键词,分词器分析关键词,进行解析并同电力词库对照,形成多个搜索词,然后对索引文件进行搜索,并对结果进行排序输出给用户。

有别于其他搜索引擎,本系统在检索时的特点是,分词后的关键词与电力词库比对,从而形成标准化的检索词。

优选的,所述检索包括:1)建立特征项:对文档的字、词、句子建立特征项,Document=D(t1,t2,…tk,…tn),表示为一个维度,其中tk表示第k个特征项;

2)计算特征项的权重:在一个待检索对象中,每个特征项都被赋予一个权重cj,以表示特征项在该文本中的重要程度;

3)建立向量空间模型:在舍弃了各个特征项之间的顺序信息之后,一个文本就表示成向 量,即特征空间的一个点;文本d1的表示:V(d1)=(wi1,wi2,……wik,…wim),其中,wik=f(tk,cj)为权重函数,反映权重为cj的特征相tk决定文档di属于特征集的程度;

4)相似度计算:向量空间模型将所有文档映射为此文档的向量空间,从而将文档信息的匹配问题转化为向量空间中的矢量匹配问题,n维空间中点的距离用向量之间的余弦夹角来度量,即表示了文档间的相似程度,假设目标文档为U,查找时和目标文档U比对的某个未知文档为Vi,夹角越小说明文档的相似度越高,相似计算公式(1):

其中,wik是未知文档Vi中第k个特征项的权重函数,wk是目标文档U中第k个特征项的权重函数,特征项共有m个即k的取值从1到m;采用词频计算权重函数即wik=tfk(di)1/2,进行归一化处理:tfk(di)表示第k个特征项在未知文档Vi中出现的频率,j的取值从1到m即遍历所有特征项;dj表示第j项文档;Wk的计算方法和Wik相同,在目标文档U中采用词频计算权重函数即wk=tfk(d)1/2,并进行归一化处理:tfk(d)表示第k个特征项在目标文档U中出现的频率,j的取值从1到m即遍历所有特征项。

在返回用户检索信息时,把相似度从高到低进行排序,给出检索条目。

与现有技术相比,本发明具有以下有益效果:

本发明中文分词技术和电力词库相结合,建立起标准的索引,搜索时分词后的关键词与电力词库比对,从而形成标准化的检索词,使搜索准确、全面和快速。

附图说明

图1为本发明的搜索引擎框架图;

图2为本发明的索引框架图;

图3为本发明的检索框架图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步的详细说明。

本发明基于开源搜索引擎solr工具包,构建一种搜索硬盘文件内容的检索工具,包括电力词库模块、文档解析模块、中文分词模块、索引库模块和检索接口模块。电力词库模块建立行业规范用语,特别是将用户互动信息中常用专业词库归类。文档解析模块负责解析文件;中文分词模块负责运用中文分词算法,将文件内容进行全文分词,结合电力词库,建立全文索引。索引库存储数据;检索接口模块是用户使用的接口,接受用户的输入并输出查询结果。系统框架如图1。

文件解析模块中,从非结构化数据如PDF、Word、Excel和PowerPoint等格式的文档中提取描述文档的文字,这些描述性的信息包括文档标题、作者、主要内容等,在进一步进行语法分析和语言处理进而形成索引。利用开源库中多种资源完成不同格式的文档处理。例如,Apache POI程序能完成Microsoft Office格式文档读和写的功能。其结构包括:HSSF提供读写Microsoft Excel XLS格式档案的功能;XSSF提供读写Microsoft Excel OOXML XLSX格式档案的功能;HWPF提供读写Microsoft Word DOC格式档案的功能;HSLF提供读写Microsoft PowerPoint格式档案的功能;HDGF提供读写Microsoft Visio格式档案的功能等。PDFBox提供PDF文档的创建、处理以及文档内容提取功能。

电力词库的内容主要参考国家和电力行业标准,以及国际电网技术委员会的标准。由于智能电网是新生事物在不断完善中,其中的一些常用词汇需要搜集单独加入。

中文分词采用“IK Analyzer”工具包,建立索引数据库和搜索时分词时,都需要和电力词库标准库比对,这样建立起来的索引数据库容易被使用相同标准词库的搜索引擎搜索到。

索引框架如图2。Word,Excel,Txt,Pdf等硬盘中存储的不同类型的文件应用相应的工具包从文件中提取文件内容形成文本文件送给分词器,分词器结合电力专业词库建立索引文件,索引文件中包含的是文本中提取的关键信息并和电力词库比对而建立的关键词。

有别于其他专题搜索引擎,本系统在形成索引库时的特点是,索引词是基于电力词库建立,从而形成标准化的索引库。

检索框架如图3。用户输入关键词后,分词器分析关键词,进行解析并同电力词库对照,形成多个搜索词,然后对索引文件进行搜索,并对结果进行排序输出给用户。

有别于其他搜索引擎,本系统在检索时的特点是,分词后的关键词与电力词库比对,从而形成标准化的检索词。

具体实现如下:

1)建立特征项:对文档的字、词、句子等建立特征项,Document=D(t1,t2,…tk,…tn),其中tk表示第k个特征项,表示为一个维度。具体地,可以将某个客户用电缴费信息的付款 单位、付款金额、用户号码、客户地址、项目名称、电费月份、本次实收、合计人民币等词分别作为D(t1,t2,…tk,…tn)中的一个特征项。

2)计算特征项的权重:在一个待检索对象中(例如文本),每个特征项都被赋予一个权重cj,以表示特征项在该文本中的重要程度。具体地,对于用户关心的特征项:电费月份、项目名称、应收费用、账户余额等赋予较重的权重,而对于与本次检索关系较为稀疏的其他特征项:客户地址、流水号、委托单位等赋予较少的权重。

3)建立向量空间模型:在舍弃了各个特征项之间的顺序信息之后,一个文本就表示成向量,即特征空间的一个点。如文本d1的表示:V(d1)=(wi1,wi2,……wik,…wim)。其中,wik=f(tk,cj)为权重函数,反映特征tk决定文档di是否属于cj的重要性。

4)相似度计算:向量空间模型将所有文档映射为此文档的向量空间,从而将文档信息的匹配问题转化为向量空间中的矢量匹配问题。n维空间中点的距离用向量之间的余弦夹角来度量,也即表示了文档间的相似程度。假设目标文档向量为U,未知文档为Vi,夹角越小说明文档的相似度越高,相似计算公式(1):

其中的权重wik是特征项在文档中所出现频率的函数,用tfk(di)表示tk在文档di中出现的频率,采用词频wik=tfk(di)1/2计算权重函数,并进行归一化后处理:

在返回用户检索信息时,以相似度进行排序,给出检索条目。

最后应当说明的是:以上实施例仅用于说明本申请的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换,但这些变更、修改或者等同替换,均在申请待批的权利要求保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1