一种基于文法规则的分类方法

文档序号:10552963阅读:319来源:国知局
一种基于文法规则的分类方法
【专利摘要】本发明公开了一种基于文法规则的分类方法,通过near关键词描述一种不区分顺序的临近关系,定义两个关键词前后出现要很近;通过after关键字描述一种区分顺序的临近关系;通过and/or/not关键字的组合,可定义文法规则的“与或非”关系,通过逻辑关系强化文法规则的描述能力;将A?/B?关键字在典型的文本分析中应用,文本是和角色相关的,在文法匹配时,角色这一属性能够有效增强文法匹配的针对性,细化匹配粒度。可应用于海量文本内容的快速分类,在千万级数据可达到秒级响应,能够有效解决海量数据下的文本实时分类等应用场景。通过定义一种类SQL查询条件,使得文法规则的定义具有可读性强、逻辑结构严谨的特点。
【专利说明】
一种基于文法规则的分类方法
技术领域
[0001]本发明属于文本分类技术领域,尤其涉及一种基于文法规则的分类方法。
【背景技术】
[0002]在大数据分析中,数据量日趋庞大,无论是入库和查询,都出现性能瓶颈,用户的应用和分析结果呈整合趋势,对实时性和相应时间要求越来越高,现有的数据分析已经无法满足海量数据下的文本实时分类的功能。

【发明内容】

[0003]本发明的目的在于提供一种基于文法规则的分类方法,旨在解决现有的数据分析已经无法满足海量数据下的文本实时分类的功能的问题。
[0004]本发明是这样实现的,该基于文法规则的分类方法包括以下步骤:
[0005]步骤一、通过near关键词描述一种不区分顺序的临近关系,定义两个关键词前后出现要很近;
[0006]步骤二、通过after关键字描述一种区分顺序的临近关系;
[0007]步骤三、通过and/or/not关键字的组合,可定义文法规则的“与或非”关系,通过逻辑关系强化文法规则的描述能力;
[0008]步骤四、将A-/B-关键字在典型的文本分析中应用,文本是和角色相关的,在文法匹配时,角色这一属性能够有效增强文法匹配的针对性,细化匹配粒度。
[0009]本发明还采取如下技术措施:
[0010]在步骤三中,and描述为“同时匹配”,等同于数学逻辑中的“与”关系;
[0011]or描述“有一个匹配”,等同于数学逻辑中的“或”关系;
[0012]not描述“不能匹配”,等同于数学逻辑中的“非”关系。
[0013]本发明具有的优点和积极效果是:该基于文法规则的分类方法可应用于海量文本内容的快速分类,在千万级数据可达到秒级响应,能够有效解决海量数据下的文本实时分类等应用场景。通过定义一种类SQL查询条件,使得文法规则的定义具有可读性强、逻辑结构严谨的特点,同时便于维护。
【附图说明】
[0014]图1是本发明实施例提供的基于文法规则的分类方法的流程图。
【具体实施方式】
[0015]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0016]下面结合附图及具体实施例对本发明的应用原理作进一步描述。
[0017]该基于文法规则的分类方法包括以下步骤:
[0018]SlOl、通过near关键词描述一种不区分顺序的临近关系,定义两个关键词前后出现要很近;
[0019]在文字上方便定位“关联式”的语义,同时避免由于口语、书面语表述区别,语音识别字错误带来的匹配度问题;例如:您好near欢迎;
[0020]S102、通过after关键字描述一种区分顺序的临近关系;
[0021 ]在文字上方便定位“问答式”的语义;例如:是否明白after是的;
[0022]S103、通过and/or/not关键字的组合,可定义文法规则的“与或非”关系,通过逻辑关系强化文法规则的描述能力;
[0023]and描述为“同时匹配”,等同于数学逻辑中的“与”关系;
[0024]or描述“有一个匹配”,等同于数学逻辑中的“或”关系;
[0025]not描述“不能匹配”,等同于数学逻辑中的“非”关系;
[0026]通过上述关键字的组合,可定义文法规则的“与或非”关系,通过逻辑关系强化文法规则的描述能力。在典型的质检类应用中,定义“要说什么同时不能说什么”,就可以通过组合and/not关键字描述,如:欢迎and not不清楚;
[0027]S104、将A-/B-关键字在典型的文本分析中应用,文本是和角色相关的,比如:坐席和客户、质检员和质检主管等;在文法匹配时,角色这一属性能够有效增强文法匹配的针对性,细化匹配粒度;例如:A-欢迎您after B-请问,描述角色A说了 “欢迎您”,同时角色B跟着说了 “请问” O
[0028]应用于海量文本内容的快速分类,在千万级数据可达到秒级响应,能够有效解决海量数据下的文本实时分类等应用场景。通过定义一种类SQL查询条件,使得文法规则的定义具有可读性强、逻辑结构严谨的特点,同时便于维护。
[0029]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种基于文法规则的分类方法,其特征在于,该基于文法规则的分类方法包括以下步骤: 步骤一、通过near关键词描述一种不区分顺序的临近关系,定义两个关键词前后出现要很近; 步骤二、通过after关键字描述一种区分顺序的临近关系; 步骤三、通过and/or/not关键字的组合,可定义文法规则的“与或非”关系,通过逻辑关系强化文法规则的描述能力; 步骤四、将A-/B-关键字在典型的文本分析中应用,文本是和角色相关的,在文法匹配时,角色这一属性能够有效增强文法匹配的针对性,细化匹配粒度。2.如权利要求1所述的基于文法规则的分类方法,其特征在于,在步骤三中,and描述为“同时匹配”,等同于数学逻辑中的“与”关系; or描述“有一个匹配”,等同于数学逻辑中的“或”关系; not描述“不能匹配”,等同于数学逻辑中的“非”关系。
【文档编号】G06F17/30GK105912607SQ201610210107
【公开日】2016年8月31日
【申请日】2016年4月6日
【发明人】刘郁松, 何国涛, 李全忠, 蒲瑶
【申请人】普强信息技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1