一种基于公安领域知识本体模型的信息搜索方法

文档序号:6435325阅读:272来源:国知局
专利名称:一种基于公安领域知识本体模型的信息搜索方法
技术领域
本发明属于公安领域自然语言受控词的搜索技术领域,涉及一种基于公安领域知识本体模型的信息搜索方法。
背景技术
随着公安行业信息化手段的飞速发展,公安行业存在大量的数据库和信息系统的应用,但是由于公安行业处理信息的形式多样,其中存在大量重复和关联数据,现有系统及各警种在搜索数据时,只能找到与搜索目标完全匹配的词汇及其相关文本。为了能够更好的实现搜索的效果,扩大搜索结果的范围,找到信息之间存在的隐藏的关联关系,以利于案件侦破。为此,必须找到搜索词汇和其他词汇之间的关系,为了找到这种隐藏的关联关系, 就需要建立统一的受控词表,给每个词汇划定清晰的受控词类别。当前已经存在一些针对领域的知识本体的研究,例如,许湘莲、郭江、肖志怀和曾洪涛发表在《水电能源科学》2007年04期上的“基于本体的电厂维护领域知识表达方法研究”,通过对维护领域知识的分析,提出了基于本体的电厂维护知识表达模型,建立了维护领域本体知识的分类方法,规范了领域知识的描述,使知识的重用、共享和交互成为可能, 为提高全体协同维护决策提出了一种行之有效的解决方案。《中国机械工程》2005年15期上由倪益华、顾新建和吴昭同发表的“基于本体的企业知识管理平台的构建”,研究了知识管理实施中的关键技术-知识的分类、知识的表示、企业知识的构建、知识的共享和集成。 为制造企业实现基于本体的知识管理平台提供了一种新的理论和方法。但是由于知识本体研究人员缺乏对公安业务的深刻理解,所以针对于公安领域的知识本体研究还未形成。由于上述原因,公安行业迫切需要一个完备的自然语言知识本体模型,并在此模型的基础上,形成集公安数据采集、加工、组织、发布和维护的受控词自动攫取平台,能够对现有的信息进行自动的、整合性的分析处理,并生成一个科学合理的受控词表,找出不同信息之间可能存在的关联关系,根据这种新的方案建立搜索引擎,从而准确的扩大搜索范围, 找到已有数据中隐藏的案件线索和关系。

发明内容
针对现有技术中存在的技术问题,本发明的目的是提供一种基于公安领域自然语言知识本体模型的信息搜索方法,根据公安知识本体模型生成受控词攫取平台,并通过平台生成受控词表,对各种不同来源的数据进行归类,在归类的过程中发现受控词之间的关联关系,以达到扩大搜索范围的目的。本发明的技术方案为—种基于公安领域知识本体模型的信息搜索方法,其步骤为1)获取公安领域的基础数据集合,建立一个分析数据仓库;2)对所述分析数据仓库中的数据进行聚类分析,得到人、物、时空、警务管理、组织机构和行为六个基本要素的聚类结果;
3)根据所述聚类结果将所述分析数据仓库中的数据划分为人、物、时空、警务管理、组织机构和行为六个类别;4)对分类后的每一类别数据进行聚类分析,得到每一类别基本要素的要素维度;5)对每个要素维度中包含的数据进行聚类分析,得到每个要素维度的分类属性;6)根据所述基本要素、要素维度和分类属性中的特征值名称确定受控词类别的名称,然后按照受控词类别,将公安数据划分到相应受控词类别中,得到受控词库;其中,对每一类别建立一张受控词表,每个受控词表中有一受控词来源字段;7)对所述受控词库采用聚类索引方法,针对同一受控词,建立受控词的自然属性索引号、业务属性索引号和数据属性索引号;8)对输入的查询请求,通过任一所述索引号在所述受控词库中匹配查找与输入词有关联关系的受控词。进一步的,聚类得到所述聚类结果的方法为首先对所述分析数据仓库中的数据进行自由聚类,然后计算每个分类的特征值及其比例,并根据特征值在分类中的比例设置阈值,将特征值达到阈值,并且特征一致的分类进行合并;然后根据分类结果设置聚类分析中的分类数和聚类规则,对所述分析数据仓库中的数据重新进行聚类分析,得到所述聚类结果。进一步的,确定所述受控词类别的名称的方法为计算每次聚类中每个特征值的比重,按照特征值在聚类中占据的比例大小,将比例高的特征值的名称作为受控词类别的名称。进一步的,所述基本要素人的要素维度包括实有人口、外籍人员、港澳台人员、 违法犯罪人员、在逃人员、警官、事业文职、协警;所述基本要素物的要素维度包括一般物品、枪支、机动车、物证、书证、生理特征、物理特征、化学特征;所述基本要素组织的要素维度包括户政组织、社团组织、公民自治、国家行政、国家事业、涉案机构、黑恶势力、团伙组织、警务机构、保安机构;所述基本要素行为的要素维度包括生活行为、社交行为、特征行为、违法违纪行为、犯罪行为、管控行为、侦查行为、检查行为;所述基本要素时空的要素维度包括时间、时区、时段、地域、地段、网络空间、GIS现场、电子现场;所述基本要素警务管理的要素维度包括警员管理、文书管理、制度管理、国家行政、国家事业、涉案机构、黑恶势力、团伙组织、警务机构、保安机构。进一步的,所述索引号包括数据维度、数据分类属性、受控词限定类、受控词及其受控词代码值。进一步的,所述要素维度的分类属性包括自然/基本属性、标识/标志/标记属性、业务属性、强制/行政/管理措施属性、法定文书属性、检验/鉴定/考核属性。进一步的,所述按照受控词类别,将公安数据划分到某个受控词类别中的方法为 首先,根据确定好的受控词类别,对公安数据进行自动的采集和搜索,建立基础数据库;然后对所述基础数据库中的数据进行词法分析、句法分析、语义分析,找到数据中的主题词、 同义词、近义词,并计算词的词频,根据词频得到热词;最后根据受控词类别将数据划分到某个受控词类别中,从而形成包括主题词、同义词、近义词和热点词的所述受控词库。进一步的,生成所述受控词的过程中,如果在同一条公安信息中有多个受控词,则通过每一受控词所属类别的名称,找到该受控词对应的聚类,如果聚类中的特征值存在交集,则确定两个受控词之间存在紧密的关联关系;如果两个受控词不在同一公安信息中,则找到该受控词对应的聚类,如果聚类的特征值存在交集,则两受控词存在松散的关联关系; 然后,将所述关联关系存储到一关联关系表中,并在所述关联关系表中查找是否存在相同的关联关系,如果没有,则将受控词相关的公安信息连同受控词一起记录到所述关联关系表中,同时标记所述关联关系是紧密的,还是松散的;如果所述关联关系表中存在相同的关联关系,则记录相关公安信息。进一步的,所述自然属性索引号和业务属性索引号为独立索引号,所述数据属性索引号为相关索引号。进一步的,对所述受控词库进行排重处理,其方法为对于由所述自然属性索引树中产生的受控词冲突,对冲突受控词进行规范统一,并同时给出同义词和近义词;对于由所述业务属性索引树中产生的冲突,保持现状不变。本搜索方法的核心内容主要包含三部分公安行业自然语言知识本体模型,公安领域的受控词表攫取平台,以及公安行业受控词库及其关联关系。公安行业自然语言知识本体模型是整个发明的基础和核心,也是指导受控词表攫取平台开发的原则。通过聚类的方法,形成由公安信息要素、公安数据属性和公安应用领域三个维度组成的公安领域知识本体模型。通过聚类可以发现公安信息要素包含人员、物品物证痕迹、机构与组织、时空、行为和警务管理六大基本信息要素。每一类要素通过聚类方法,可以分为自然/基本属性、标识/标志/标记属性、业务属性、强制/行政/管理措施属性、法定文书属性、检验/鉴定/考核属性六大数据属性。根据应用领域的不同,可以在公安行业内应用到刑侦、反恐、治安、国保等部门。根据上述模型,可以将公安信息划分到某类要素的某种属性中,并具体分类到某种具体的应用领域,这样就能对公安行业内的所有信息按照统一的标准进行分类和整理。基于上述知识本体模型的搜索方法,是利用网络技术、数据库技术以及文本处理手段,对公安网内的所有信息进行自动的采集和搜索,并对数据进行分析,在自然语言接口、词法分析、句法分析、语义分析、文本分类、文本聚类和知识库建设等方面采用多种算法,将数据划分到六个基础要素的某个特定属性中,从而自动形成由主题词、同义词、近义词、关联词、敏感词和热点词组成的公安行业基础受控词库,形成词与词之间的等同关系和等级。更为重要的是,平台能自动识别并建立关联关系,关联关系包含两种,第一种词与词之间的关系,例如,人员A用刀刺伤人员B,这样人员A和人员B就有可能存在嫌疑人与受害人之间的关系。第二种是词与类别之间的关系,根据前面叙述的发明内容,将每个词汇都划分到某个具体类别中,使每个词和某个类别之间都建立一种明确对应关系。最终形成的受控词库基于知识本体模型中的要素、数据属性和应用领域三个维度,从而形成包含公安全部信息的基础词库,完整的展现了公安信息的基础元素和结构,体现了词与词之间的等同关系、等级关系和关联关系。这样,公安人员在搜索某个关键词时, 就可以同时搜索出它的同义词、近义词和关联词。综上所述,本搜索技术建立了公安行业的自然语言知识本体模型,利用信息的要素属性、数据属性和应用领域三个属性,建立三维模型。在模型的基础上,开发实现了自动的公安行业受控词攫取平台,该平台采用多种分词算法和聚类算法,其最大的特点是能够自动的获取公安网内的信息,自动进行分析处理信息,自动形成受控词库,自动建立关联关系。此外,该平台还具备手工维护和修正受控词库的功能。受控词库由主题词、同义词、近义词、关联词、敏感词、热点词所组成,受控词同时体现了词与词的等同、等级和关联关系。这样就可以实现搜索范围的扩大。与现有技术相比,本发明的优点本发明的优点是首次科学的建立了公安行业自然语言知识本体模型。该模型结构简单明了,易于应用和实施。同时,目前并未出现基于科学模型的受控词自动攫取平台,所以本发明也是首次实现了基于科学模型的受控词表自动攫取平台,该平台可维护,可扩展, 部署完成后能够自动生成受控词表,为公安行业信息的持续整合利用奠定了基础。特别是本发明所开发出的搜索平台能够自动搜索出与目标词汇相关的词汇,这一点解决了公安行业内隐藏信息不易利用和关联的问题,是对现有技术的一个重要突破。


图1为公安信息知识本体模型形成流程图
图2为要素和属性构建方法;
图3公安领域知识本体模型;
图4为人员维度构建流程图5为物品物证维度构建流程图6为组织机构维度构建流程图7为行为维度构建流程图8为时空维度构建流程图9为警务管理构建流程图10为分类属性验证流程图11受控词表攫取和维护平台流程图。
具体实施例方式首先建立模型,根据模型开发受控词攫取平台,生成受控词,建立受控词之间的关系,通过关系提供搜索服务。下面结合附图对本发明的具体实施方法进行详细描述1.构建自然语言知识本体模型当前公安信息系统中存在大量的信息数据,没有统一的分类原则,所以要确定一个可以规划公安信息系统中信息数据的自然语言知识本体分类,分类通过要素、属性和数据来源三个方面进行。通过将公安行业信息数据进行聚类分析,形成了基本的公安业务信息数据模型。模型的建立过程如图1所示。模型构建的具体方法为1)首先获取基础数据集合,包含大量实际案件数据、办公文档、公安标准,建立一个完备的分析数据仓库。2)对分析数据仓库中的数据进行聚类分析,聚类分析是数据库中的一种数据挖掘技术,首先进行自由聚类,然后计算每个分类的特征值及其比例,并根据特征值在分类中的比例设置阈值,根据特征值是否达到阈值对分类进行合并,对于特征值达到阈值,并且特征一致的分类进行合并。根据计算得出的结果设置聚类分析中的分类数等聚类参数和规则, 对全部数据重新进行聚类分析,然后重复上述步骤,最后可以得到一个合乎公安业务需要, 并且不可拆分也不可合并的分类,这样就可以将案件信息拆分成人、物、时空、警务管理、组织机构和行为六个基本要素。分析方法如图2所示。3)用实际的案件数据和公安信息验证这六个基本要素,可以确定没有出现六要素之外的信息。同时采用数据库中的钻取技术根据聚类的结果将数据划分为人、物、时空、警务管理、组织机构和行为六个类别。4)对分类后的数据进行聚类分析,方法同步骤幻中的一样。从而形成如图3、图 4、图5、图6、图7、图8所示方法,形成了六个维度模型,即描述人、物品/物证/痕迹、组织 /机构、行为、时空、警务管理六个维度的切片维度模型。5)通过钻取技术获取步骤4)中每个要素维度的数据,然后再次通过聚类方法分析每个维度中包含的数据。也就是采用步骤幻中所述的方法,对关于人的数据进行聚类, 可以发现人要素信息包含自然/基本属性、标识/标志/标记属性、业务属性、强制/行政 /管理措施属性、法定文书属性、检验/鉴定/考核属性。继续通过聚类分析的方法分析其他要素,依然能够发现包含这些属性,并且在分析其他要素的过程中,可以确定没有出现除上述六种属性以外的其他属性。从而最终形成基于公安信息处理领域的自然语言知识本体的分类属性,如图9中所示的以下分类属性“自然/基本属性、标识/标志/标记属性、业务属性、强制/行政/管理措施属性、法定文书属性、检验/鉴定/考核属性”。6)结合要素和属性,以及公安信息的来源三方面因素,就可以形成公安信息知识本体模型。图10为基于公安信息处理领域的自然语言知识本体的多维数据模型2.根据模型确定受控词分类原则,并根据此原则开发受控词攫取平台,生成受控词;在模型已经确定的前提下,通过在整个公安信息系统中的数据分析应用,将现有数据按照要素、要素维度(如图3 8所示)和分类属性(如图9所示)进行多次切片后, 将可以明确现行数据所属的类别,确定相应的受控类别分类原则,方法如下第一步,读取要素,要素维度和分类属性中的特征值,这些特征值都存在于模型建立过程中,按照步骤2、、4)、5)的顺序依次进行聚类分析后所产生的聚类当中,每个聚类当中都包含构成该聚类所需要的所有特征。第二步,计算聚类中(此处所说的聚类是模型建立过程中,按照步骤幻、4)、5)依次进行聚类分析所产生的聚类,即对不同要素、维度和属性分别进行聚类)每个特征值的比重,按照特征值在聚类中占据的比例大小,将比例高的特征值的名称作为聚类的名称,将聚类名称作为受控词类别的名称。第三步,根据确定好的受控词类别,开发受控词攫取平台,该平台首先利用网络技术、数据库技术以及文本处理手段,对公安网内的所有信息进行自动的采集和搜索,建立基础数据库,此数据库中包含已有的公安信息系统的历史数据,然后对数据库中的数据进行词法分析、句法分析、语义分析,找到数据中的主题词、同义词、近义词,根据词频分析(词频分析是自然语言处理中的一种分析词汇出现频率的一种分析方法,是一种公知技术)找到热词,最终根据受控词类别将数据划分到某个受控词类别中,每个类别建立一张受控词表,每个受控词表中有一个受控词来源字段,受控词攫取平台在划分受控词的过程中,自动
8将该受控词的来源信息填充到该字段中。从而自动形成由主题词、同义词、近义词和热点词组成的公安行业基础受控词库,这样就为搜索方法建立了基础。3.建立词汇之间的关联关系为了能够在公安系统内实现最大程度的信息搜索,在建立前面所述的模型和受控词攫取平台的基础上,接下来就是要建立起词与词之间,词与受控词类别之间的关联关系。 从本质上讲,关联关系也是受控词攫取平台的一部分功能。关联关系分为两种一种是词与受控词类别的关系,一种是词与词之间的关系。通过受控词攫取平台,自动将词汇划分到某个受控词类别中,例如,将“棍棒”划分到作案工具类别,使棍棒属于作案工具,这样从数据库的物理存储形式上建立了受控词与类别之间的关系,但是并没有一种通用的方法来进行检索,所以必须通过下面的聚类索引方法建立起受控词之间的关系,便于进行查找。3.1词与类别的关系为了便于搜索词与类别之间的关系,基于聚类索引方法,针对同一受控词,分别通过自然属性、业务属性和数据属性三个角度生成索引号,通过索引号进行检索,即可确定词与类别之间的关系,例如,我们规定Rl就是人员类别,通过判断某个受控词的开头是不是 R1,即可判断该词汇是否属于人员类别。通过对受控词库建立自然属性索引树、业务属性索引树和数据属性索引树,即从自然、业务和数据属性三个角度来建立索引树,树是数据结构中的一个公知概念,是从根节点到最后的受控词(也就是叶节点),对其中的每个节点都进行统一规则的编号;索引树起始于要素节点,结束于公安信息化受控词(表)节点,在索引树中确定可规范为数据代码、术语等类型的受控词的唯一位置,实现查找和关联时的唯一性。3. 1. 1编码规则,即多维索引号编码规则将数据仓库中的数据首先按照数据维度分类,再按照数据分类属性进行分类,再根据受控词的限定进行分类,直到最后的受控词类别,总共分成4段,每段都从01开始赋值,例如公民身份号码受控词为身份、证件、身份证号码自然属性索引号R100010101Rl_00_01_01_01人境内人员境内外公民身份证件类别受控词(类别)业务属性索引号R202020101R2_02_02_01_01人户政业务标识类别身份标识种类受控词(类别)数据属性索引号R300010100R3_00_01_01_00人境内人员证件类别身份证件类别主题词无受控词(类别)通过前面的例子可以清楚地看到,根据受控词的基本构成,本编码规则的任意受控词索引树由数据维度、数据分类属性、受控词限定类、受控词及其受控词代码值组合而成。当数据分类属性为不可再分的数据对象时,数据分类属性和受控词限定类可以合并,如下面的例子所示。
公安机关机构代码受控词(表)为公安机关机构代码表自然属性索引号Z121520Zl_2_15_20组织警务机构警务机构类别受控词(类别)业务属性索引号Z2151208Z2_15_12_08组织警务机构类别警务机构标识受控词(类别)数据属性索引号Z330205Z3_3_02_05组织标识类别警务机构类别主题词标识受控词(类别)综合上述两种情况,受控词的编码规则表示如下,以身份证号码为例,其中受控词限定类和受控词可以合并,举例如下公民身份号码受控词为身份号码、身份证号码自然属性索引号R100010101Rl_00_01_01_01人境内人员境内外公民身份证件类别受控词(类别)数据维度数据分类属性受控词限定类受控词受控词代码值根据前述的编码规则,即可以对数据仓库中所有的受控词进行编码,每个受控词表都有一个对应的索引字段,用于保存受控词所对应的索引号。在用户检索某个受控词时, 只需要通过判断索引号不同分段的代码,就可以判断这个受控词属于那个受控词类别,同时可以找到该受控词的同级受控词,以及它的上级和下级受控词,这样就建立起受控词的等同关系和等级关系。3. 1. 2排重规则一个受控词或数据代码可以具有三组索引号,自然属性索引号和业务属性索引号为独立索引号,数据属性索引号为相关索引号。当任意一个受控词名称在本索引树中具有唯一索引号时,则表明在本索引范围内未产生冲突。出现下面现象时即为出现冲突异名冲突由自然属性索引树和业务属性索引树中的受控词(表和主题词)引起, 基本的异名数据冲突表现为 当任意两个以上受控词在索引号中出现数据分类属性、受控词限定类相同,受控词名不同,而受控词同时具有相同部分和不相同部分时,或者具备完全相同的部分时,则将产生代码冲突,体现为受控词名的异名同义冲突; 当任意两个以上受控词在索引号中出现数据分类属性、受控词限定类相同,受控词名不同,而受控词代码表项不同时,则也将产生代码冲突,体现为受控词名的异名同义异码冲突。 当任意两个以上受控词在索引号中出现数据分类属性相同、受控词限定类不唯一、且受控词也相同时,则将产生受控词定义冲突,体现为受控词名的同名异义冲突; 当任意两个以上受控词在索引号中出现数据分类属性、受控词限定类、受控词均相同,但受控词代码值项相同,而代码表示不相同时,则将产生受控词代码表示冲突,体现为受控词代码的同名同义异码冲突;
当任意两个以上受控词在索引号中出现数据分类属性、受控词限定类、受控词均相同,但受控词代码值项不相同不相同时,则将产生受控词域值冲突,体现为受控词代码的同名同义值域冲突;冲突的解决办法在上述冲突中,产生于自然属性索引树中的冲突属于错误性冲突,应该由唯一的受控词进行规范,并同时给出同义词和近义词,例如洗浴、足疗和洗脚屋,统一规范为足疗, 同时确定足疗的同义词和近义词为洗浴和洗脚屋。而产生于业务属性索引树中的冲突,属于合理性冲突的,应保持现状不变,这是由于合理性冲突已经广泛地存在于侦查、审判、强制手段等法律行为和法律文书中,改正冲突将导致大量的历史档案失去法律效力。这样,通过索引树编码和排重,即可确定受控词与受控词类别之间的惟一关系。3. 2受控词与受控词之间的关联关系通过模型建立起来的受控词攫取平台,可以在处理文本和历史数据时,发现受控词和受控词之间的关联关系,方法如下第一步通过服务器端的受控词攫取平台处理公安信息,生成受控词,这些公安信息可能是一篇文本,一条数据库记录等各种格式。第二步如果在同一条公安信息中发现多个受控词,通过每一受控词所属类别的名称,可以找到该受控词对应的聚类,如果聚类中的特征值存在交集,那么就可以确定两个受控词之间存在紧密的关联关系。如果两个受控词不在同一公安信息中,则直接找到该受控词对应的聚类,如果聚类的特征值存在交集,则认为两个受控词存在松散的关联关系。第三步在关联关系表中查找是否已经找到过相同的关联关系,如果没有,则将受控词相关的公安信息连同受控词一起记录到关联关系表中,同时通过不同的数值记录关联关系是紧密的还是松散的。如果在关联关系表中找到了相同的关联关系,则记录相关公安信息,以利于下次查找时直接给出结果,提高查找效率。通过上述处理方法,即可建立受控词之间的关联关系。4.开发和应用本发明描述的模型、根据模型生成的受控词以及受控词建立起来的关联关系,主要是应用在公安业务上的数据查询方法。该数据查询方法的实现主要包含三个步骤。第一步,受控词的攫取平台。根据数据模型及相应的规则,可以得到无冲突的受控词表,数据模型就最开始的知识本体模型,规则就是前述的所有方法,开发数据采集工具,采集现有公安系统中的文档、已有数据库数据和网页信息,通过数据迁移工具将其放到一个临时的数据库中,通过标注标引工具对其进行语料加工,也就是对原始数据进行标注标引,标注标引完成后,采用前面所述的数据模型和相应规则,通过数据抽取工具对原始数据进行抽取,即可将抽取出的词汇放入对应的受控词表中,此外,还开发受控词表的维护工具,对已有的受控词进行维护,从而生成完善的自然语言知识本体模型的受控词表攫取平台,整体流程和功能模块如图11所示,完成这一功能模块,也意味着数据查询方案具有不断学习和完善功能。第二步通过自动建立关联关系,实现查找结果的关联功能。建立词与类别的关联关系,公安人员在查找相关内容时,即可发现所查找词汇的精确属性和分类。建立词与词之间的关联关系后,即可在查找时,不仅能够找到所查找词汇的相关信息,更能找到与之相关
表2物维度及其分类属性和受控词类别
权利要求
1.一种基于公安领域知识本体模型的信息搜索方法,其步骤为1)获取公安领域的基础数据集合,建立一个分析数据仓库;2)对所述分析数据仓库中的数据进行聚类分析,得到人、物、时空、警务管理、组织机构和行为六个基本要素的聚类结果;3)根据所述聚类结果将所述分析数据仓库中的数据划分为人、物、时空、警务管理、组织机构和行为六个类别;4)对分类后的每一类别数据进行聚类分析,得到每一类别基本要素的要素维度;5)对每个要素维度中包含的数据进行聚类分析,得到每个要素维度的分类属性;6)根据所述基本要素、要素维度和分类属性中的特征值名称确定受控词类别的名称, 然后按照受控词类别,将公安数据划分到相应受控词类别中,得到受控词库;其中,对每一类别建立一张受控词表,每个受控词表中有一受控词来源字段;7)对所述受控词库采用聚类索引方法,针对同一受控词,建立受控词的自然属性索引号、业务属性索引号和数据属性索引号;8)对输入的查询请求,通过任一所述索引号在所述受控词库中匹配查找与输入词有关联关系的受控词。
2.如权利要求1所述的方法,其特征在于聚类得到所述聚类结果的方法为首先对所述分析数据仓库中的数据进行自由聚类,然后计算每个分类的特征值及其比例,并根据特征值在分类中的比例设置阈值,将特征值达到阈值,并且特征一致的分类进行合并;然后根据分类结果设置聚类分析中的分类数和聚类规则,对所述分析数据仓库中的数据重新进行聚类分析,得到所述聚类结果。
3.如权利要求2所述的方法,其特征在在于确定所述受控词类别的名称的方法为计算每次聚类中每个特征值的比重,按照特征值在聚类中占据的比例大小,将比例高的特征值的名称作为受控词类别的名称。
4.如权利要求2所述的的方法,其特征在于所述基本要素人的要素维度包括实有人口、外籍人员、港澳台人员、违法犯罪人员、在逃人员、警官、事业文职、协警;所述基本要素物的要素维度包括一般物品、枪支、机动车、物证、书证、生理特征、物理特征、化学特征; 所述基本要素组织的要素维度包括户政组织、社团组织、公民自治、国家行政、国家事业、 涉案机构、黑恶势力、团伙组织、警务机构、保安机构;所述基本要素行为的要素维度包括 生活行为、社交行为、特征行为、违法违纪行为、犯罪行为、管控行为、侦查行为、检查行为; 所述基本要素时空的要素维度包括时间、时区、时段、地域、地段、网络空间、GIS现场、电子现场;所述基本要素警务管理的要素维度包括警员管理、文书管理、制度管理、国家行政、国家事业、涉案机构、黑恶势力、团伙组织、警务机构、保安机构。
5.如权利要求1所述的方法,其特征在于所述索引号包括数据维度、数据分类属性、 受控词限定类、受控词及其受控词代码值。
6.如权利要求1或2或3或4或5所述的方法,其特征在于所述要素维度的分类属性包括自然/基本属性、标识/标志/标记属性、业务属性、强制/行政/管理措施属性、法定文书属性、检验/鉴定/考核属性。
7.如权利要求6所述的方法,其特征在于所述按照受控词类别,将公安数据划分到某个受控词类别中的方法为首先,根据确定好的受控词类别,对公安数据进行自动的采集和搜索,建立基础数据库;然后对所述基础数据库中的数据进行词法分析、句法分析、语义分析,找到数据中的主题词、同义词、近义词,并计算词的词频,根据词频得到热词;最后根据受控词类别将数据划分到某个受控词类别中,从而形成包括主题词、同义词、近义词和热点词的所述受控词库。
8.如权利要求7所述的方法,其特征在于生成所述受控词的过程中,如果在同一条公安信息中有多个受控词,则通过每一受控词所属类别的名称,找到该受控词对应的聚类,如果聚类中的特征值存在交集,则确定两个受控词之间存在紧密的关联关系;如果两个受控词不在同一公安信息中,则找到该受控词对应的聚类,如果聚类的特征值存在交集,则两受控词存在松散的关联关系;然后,将所述关联关系存储到一关联关系表中,并在所述关联关系表中查找是否存在相同的关联关系,如果没有,则将受控词相关的公安信息连同受控词一起记录到所述关联关系表中,同时标记所述关联关系是紧密的,还是松散的;如果所述关联关系表中存在相同的关联关系,则记录相关公安信息。
9.如权利要求7所述的方法,其特征在于所述自然属性索引号和业务属性索引号为独立索引号,所述数据属性索引号为相关索引号。
10.如权利要求9所述的方法,其特征在于对所述受控词库进行排重处理,其方法为 对于由所述自然属性索引树中产生的受控词冲突,对冲突受控词进行规范统一,并同时给出同义词和近义词;对于由所述业务属性索引树中产生的冲突,保持现状不变。
全文摘要
本发明公开了一种基于公安领域知识本体模型的信息搜索方法,属于公安领域自然语言受控词的搜索技术领域。本方法为1)建立一个分析数据仓库,并对其进行聚类分析,得到六个基本要素;2)根据聚类结果将分析数据仓库中的数据划分为六个类别;3)对每一类别数据进行聚类,得到每一类别基本要素的要素维度;4)对每个要素维度中的数据进行聚类得到其分类属性;5)根据上述聚类结果确定受控词类别的名称,将公安数据划分到相应受控词类别中,得到受控词库;6)对每一受控词,建立多维引号;7)通过索引号在受控词库中查找与输入词有关联的受控词。本发明能够自动搜索出与目标词汇相关的词汇,解决了公安行业内隐藏信息不易利用和关联的问题。
文档编号G06F17/30GK102314519SQ201110306999
公开日2012年1月11日 申请日期2011年10月11日 优先权日2011年10月11日
发明者王电 申请人:中国软件与技术服务股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1