一种道路运输常态化问题诉求发现方法及系统与流程

文档序号:33157705发布日期:2023-02-04 00:01阅读:33来源:国知局
一种道路运输常态化问题诉求发现方法及系统与流程

1.本发明涉及自然语言处理技术在道路运输行业应用领域,特别涉及一种道路运输常态化问题诉求发现方法及系统。


背景技术:

2.各个行业领域中的热线电话是广大人民群众表达意愿心声、反映利益诉求、参与行业治理的重要渠道。
3.当前,热线电话所搜集到的各类诉求的工单文本主要由全国各地业务人员梳理生成,具有数据量大、诉求主题多样、文本长度参差不齐、文本表述丰富等特点,且主要依赖人工查看或简单的文本分词统计发现,发现效率、查全率均较低。显然,借助机器学习、自然语言处理技术挖掘工单文本常态化问题诉求更具优势。
4.诉求发现属于机器学习和自然语言处理技术中主题模型、文本聚类领域应用,主要涉及分词、词向量表示、lsi、lda、k-means等算法或过程。但常规的诉求发现算法和流程并不能适应本应用场景,主要原因包括:(1)常用工单文本长度以长文本为主,而lsi、lda等模型对长文本的处理能力较弱,容易导致主题划分效果不佳;(2)工单文本诉求主题多样、内容表述丰富,当前lsi、lda等基于浅层语义的模型并不能适应中文表述复杂多样,影响主题划分精度。
5.综上所述,为解决当前热线电话服务中人工发现方法效率、查全率低,采用传统主题发现方法精度低的问题,提供一种集成深度学习的新的道路运输常态化问题诉求发现方法尤为必要。


技术实现要素:

6.为解决上述现有技术中所存在的问题,本发明提供一种道路运输常态化问题诉求发现方法及系统,以实现快速、准确、全面发现热线电话工单文本中的常态化问题诉求。
7.一方面,为了实现上述技术目的,本发明提供了一种道路运输常态化问题诉求发现方法,包括:s1,获取道路运输工单文本,构建道路运输工单文本语料库;s2,对所述道路运输工单文本语料库进行预处理,得到处理道路运输工单文本语料库;s3,基于所述处理道路运输工单文本语料库中的处理道路运输工单文本,得到所述处理道路运输工单文本的包含深层语义的低维文本向量特征;s4,基于所述低维文本向量特征,构建道路运输工单文本主题划分模型,得到所述处理道路运输工单文本的文本所属主题标签;s5,获取所述文本所属主题标签的top10关键词,实现主题提取和精简。
8.可选地,所述道路运输工单文本语料库包括:话术规则库、分词词典和停用词表;所述话术规则库由所述道路运输工单文本中的话术梳理形成的短语或正则表达
式构成;所述分词词典由道路运输术语、地点名称、工单信息以及利用新词发现技术梳理的未登录词汇构成;所述停用词表为通过将收集的各大公开停用词语料进行去重操作后,再添加工单信息词汇形成的专用停用词表。
9.可选地,所述预处理为去除所述道路运输工单文本中的冗余语句和字符,包括:s21,以所述话术规则库中的所述短语或所述正则表达式为标准,采用正则匹配过滤所述道路运输工单文本中的无效话术语句;s22,基于所述分词词典,采用结巴分词方法,对过滤后的所述道路运输工单文本进行分词处理,得到道路运输工单文本分词结果;s23,基于所述停用词表,剔除所述道路运输工单文本分词结果中的冗余字符,得到所述处理道路运输工单文本语料库。
10.可选地,所述s3包括:s31,采用自训练词向量模型,生成所述处理道路运输工单文本的静态向量矩阵,将所述静态向量矩阵输入至文本深度学习模型中,提取所述处理道路运输工单文本的静态语义向量特征;s32,采用bert预训练模型,生成所述处理道路运输工单文本的动态向量矩阵,将所述动态向量矩阵输入至所述文本深度学习模型中,提取所述处理道路运输工单文本的动态语义向量特征;s33,采用连接方式集成所述静态语义向量特征和所述动态语义向量特征,形成所述低维文本向量特征。
11.可选地,所述s4包括:s41,以所述低维文本向量特征为输入,采用canopy算法进行预聚类,得到聚类个数和初始簇心;s42,以所述聚类个数和所述初始簇心为输入,采用k-means算法进行二次聚类,构建得到所述道路运输工单文本主题划分模型,获得所述处理道路运输工单文本的所述文本所属主题标签。
12.另一方面,为了实现上述技术目的,本发明提供了一种道路运输常态化问题诉求发现系统,包括:语料库构建模块、预处理模块、特征提取和集成模块、聚类模块和主题提取精简模块;所述语料库构建模块用于获取道路运输工单文本,构建道路运输工单文本语料库;所述预处理模块用于对所述道路运输工单文本语料库进行预处理,得到处理道路运输工单文本语料库;所述特征提取和集成模块用于基于所述处理道路运输工单文本语料库中的处理道路运输工单文本,得到所述处理道路运输工单文本的包含深层语义的低维文本向量特征;所述聚类模块用于基于所述低维文本向量特征,构建道路运输工单文本主题划分模型,得到所述处理道路运输工单文本的文本所属主题标签;
所述主题提取精简模块用于获取所述文本所属主题标签的top10关键词,实现主题提取和精简。
13.可选地,所述语料库构建模块包括:话术规则库构建单元、分词词典构建单元和停用词表构建单元;所述话术规则库构建单元用于将所述道路运输工单文本中的话术梳理成短语或正则表达式,形成话术规则库;所述分词词典构建单元用于将道路运输术语、地点名称、工单信息以及利用新词发现技术梳理的未登录词汇整合为分词词典;所述停用词表构建单元用于将收集的各大公开停用词语料进行去重操作后,添加工单信息词汇,形成停用词表。
14.可选地,所述预处理模块包括:话术清洗单元、分词单元和停用词剔除单元;所述话术清洗单元用于以所述话术规则库中所述短语或所述正则表达式为标准,采用正则匹配过滤所述道路运输工单文本中的无效的话术语句;所述分词单元用于基于所述分词词典,采用结巴分词方法,对过滤后的所述道路运输工单文本进行分词处理,得到道路运输工单文本分词结果;所述停用词剔除单元用于基于所述停用词表,剔除所述道路运输工单文本分词结果中的冗余字符,得到所述处理道路运输工单文本语料库。
15.可选地,所述特征提取和集成模块包括:静态语义向量特征提取单元、动态语义向量特征提取单元和特征集成单元;所述静态语义向量特征提取单元用于采用自训练词向量模型,生成所述处理道路运输工单文本的静态向量矩阵,将所述静态向量矩阵输入至文本深度学习模型中,提取所述处理道路运输工单文本的静态语义向量特征;所述动态语义向量特征提取单元用于采用bert预训练模型,生成所述处理道路运输工单文本的动态向量矩阵,将所述动态向量矩阵输入至所述文本深度学习模型中,提取所述处理道路运输工单文本的动态语义向量特征;所述特征集成单元用于采用连接方式集成所述静态语义向量特征和所述动态语义向量特征,形成所述低维文本向量特征。
16.可选地,所述聚类模块包括:预聚类单元和二次聚类单元;所述预聚类单元用于以所述低维文本向量特征为输入,采用canopy算法进行预聚类,得到聚类个数和初始簇心;所述二次聚类单元用于以所述聚类个数和所述初始簇心为输入,采用k-means算法进行二次聚类,构建得到所述道路运输工单文本主题划分模型,获得所述处理道路运输工单文本的所述文本所属主题标签。
17.本发明具有如下技术效果:1.与传统人工发现方法相比,本发明基于机器学习与自然预研处理技术发现方法克服了传统人工发现方法效率低、查全率低、主观性强的缺点;2.与常规主题发现和文本聚类流程相比,本发明可提升主题发现精度,主要表现为:(a)通过话术规则过滤工单文本冗余语句,有效降低文本长度进而降低后续模型的复杂度;(b)集成自训练glove词向量模型与bert预训练模型,实现工单文本静态语义和动态语
义的全面挖掘;(c)在特征提取过程中,textcnn和bi-lstm相结合的网络框架,集成了卷积神经网络短文本特征提取高效性与lstm长文本语序特征的高敏感性,有助于更好捕获深度语义信息,更适应长短不一的工单文本;(d)在聚类过程中,两步聚类方法有效解决单一k-means模型对聚类数和初始聚类中心的依赖问题,提升本方法的实用性和可操作性;3.本发明可快速、准确、全面发现热线电话工单本文中的常态化问题诉求,为行业管理部门梳理诉求主题分类架构,进而把握和跟踪行业热点问题并有针对性地开展答复工作奠定基础,有助于提升交通运输行业治理能力和公共服务水平。
附图说明
18.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
19.图1为本发明实施例一道路运输常态化问题诉求发现方法的流程框图;图2为本发明实施例一文本深度学习模型示意图;图3为本发明实施例二道路运输常态化问题诉求发现系统示意图。
具体实施方式
20.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
21.实施例一以道路运输领域中的热线电话为例,如图1所示,本发明公开一种道路运输常态化问题诉求发现方法,包括:s1,获取道路运输工单文本,构建道路运输工单文本语料库;道路运输工单文本语料库包括:话术规则库、分词词典和停用词表,其中:话术规则库由道路运输工单文本中与敏感词汇无关的话术梳理形成的短语或正则表达式构成,在本实施例中,可以设定投诉举报、问题咨询、意见建议为敏感词汇;例如:工单文本“【工单备注:无】【工单来源:电话】【xx号普通单】【xx号普通单接报时间:xxxx年xx月xx日xx时xx分xx秒,xx号普通单截止时间:xxxx年xx月xx日xx时xx分xx秒】市民来电反映:
……
(市民要求信息保密,无需回复)”可提炼出冗余短语“市民要求信息保密,无需回复”及工单信息文本对应正则表达式(可自行设定表达式的格式、结构和内容)加入话术规则库中。
22.分词词典由道路运输术语、地点名称、工单信息以及利用新词发现技术梳理的未登录词汇构成,分词词典示例如表1所示,表中示例部分可根据实际情况做适应性修改和调整:表1
停用词表为通过将收集的各大公开停用词语料进行去重操作后,再添加工单信息词汇形成的专用停用词表,各大公开停用词语料主要包括:哈工大停用词词库、四川大学机器学习智能实验室停用词库、百度停用词表等。
23.s2,对道路运输工单文本语料库进行预处理,得到处理道路运输工单文本语料库;预处理为去除道路运输工单文本中的冗余语句和字符,具体包括:s21,以话术规则库中的短语或正则表达式为标准,采用正则匹配过滤道路运输工单文本中的无效话术语句;s22,基于分词词典,采用结巴分词方法,对过滤后的道路运输工单文本进行分词处理,得到道路运输工单文本分词结果;s23,基于停用词表,剔除道路运输工单文本分词结果中的冗余字符,得到处理道路运输工单文本语料库。
24.s3,基于处理道路运输工单文本语料库中的处理道路运输工单文本,得到处理道路运输工单文本的包含深层语义的低维文本向量特征;具体包括:s31,采用自训练词向量模型,生成处理道路运输工单文本的静态向量矩阵,将静态向量矩阵输入至文本深度学习模型中,提取处理道路运输工单文本的静态语义向量特征;其中,自训练词向量模型为基于大量历史道路运输工单文本训练生成的glove全局词向量模型,所述大量历史道路运输工单文本需预先采用s2方法进行预处理。
25.s32,采用bert预训练模型,生成处理道路运输工单文本的动态向量矩阵,将动态向量矩阵输入至文本深度学习模型中,提取处理道路运输工单文本的动态语义向量特征;其中,本实施例的文本深度学习模型示意图如图2所示,由输入层、textcnn层、bi-lstm层、全连接层组成。输入层用于输入处理道路运输工单文本的动态向量矩阵。textcnn层由卷积层和池化层组成,用于实现对动态向量矩阵关键特征的初步提取;本实施例中,textcnn层依照“卷积层1—池化层—卷积层2”的顺序拼接而成;卷积层1和卷积层2中以“不同大小”、“同一大小多个数量”方式设置滤波器,以获得更丰富且互补的文本特征;池化层中采用步长为1的最大池化,以聚焦重要特征。bi-lstm层进一步提取关键特征中的语序信息,形成多维语序特征;全连接层将多维语序特征连接为一维向量特征。文本深度学习模型的各层参数设置如表2所示:表2s33,采用连接方式集成静态语义向量特征和动态语义向量特征,形成包含深层语义的低维文本向量特征,即工单文本静态语义向量特征为,工单文本动态语义向量特征为,则集成后的向量特征为。
26.s4,基于低维文本向量特征,构建基于两步聚类方法的道路运输工单文本主题划分模型,得到处理道路运输工单文本的文本所属主题标签,具体包括:s41,以低维文本向量特征为输入,采用canopy算法进行预聚类,估算聚类个数k和初始簇心;s42,以聚类个数k和所述初始簇心为输入,采用k-means算法进行二次聚类,构建得到道路运输工单文本主题划分模型,获得处理道路运输工单文本的文本所属主题标签。
27.s5,利用tf-idf分别获取各文本所属主题标签的top10关键词,实现主题提取和精简。
28.与传统人工发现方法相比,本发明基于机器学习与自然预研处理技术发现方法克服了传统人工发现方法效率低、查全率低、主观性强的缺点;与常规主题发现和文本聚类流程相比,本发明可提升主题发现精度,主要表现为:(a)通过话术规则过滤工单文本冗余语句,有效降低文本长度进而降低后续模型的复杂度;(b)集成自训练glove词向量模型与bert预训练模型,实现工单文本静态语义和动态语义的全面挖掘;(c)在特征提取过程中,textcnn和bi-lstm相结合的网络框架,集成了卷积神经网络短文本特征提取高效性与lstm长文本语序特征的高敏感性,有助于更好捕获深度语义信息,更适应长短不一的工单文本;(d)在聚类过程中,两步聚类方法有效解决单一k-means模型对聚类数和初始聚类中心的依赖问题,提升本方法的实用性和可操作性。
29.本发明可快速、准确、全面发现热线电话工单本文中的常态化问题诉求,为行业管理部门梳理诉求主题分类架构,进而把握和跟踪行业热点问题并有针对性地开展答复工作奠定基础,有助于提升交通运输行业治理能力和公共服务水平。
30.实施例二如图3所示,本发明公开一种道路运输常态化问题诉求发现系统,包括:语料库构建模块、预处理模块、特征提取和集成模块、聚类模块和主题提取精简模块;语料库构建模块用于获取道路运输工单文本,构建道路运输工单文本语料库;语料库构建模块包括:话术规则库构建单元、分词词典构建单元和停用词表构建单元;话术规则库构建单元用于将道路运输工单文本中与敏感词汇无关的话术梳理成短语或正则表达式,形成话术规则库,在本实施例中,可以设定投诉举报、问题咨询、意见建议为敏感词汇;分词词典构建单元用于将道路运输术语、地点名称、工单信息以及利用新词发现技术梳理的未登录词汇整合为分词词典;停用词表构建单元用于将收集的各大公开停用词语料进行去重操作后,添加工单信息词汇,整合形成停用词表。
31.预处理模块用于对道路运输工单文本语料库进行预处理,得到处理道路运输工单文本语料库;预处理模块包括:话术清洗单元、分词单元和停用词剔除单元;话术清洗单元用于以话术规则库中短语或正则表达式为标准,采用正则匹配过滤道路运输工单文本中的无效的话术语句;分词单元用于基于分词词典,采用结巴分词方法,对过滤后的道路运输工单文本进行分词处理,得到道路运输工单文本分词结果;停用词剔除单元用于基于停用词表,剔除道路运输工单文本分词结果中的冗余字符,得到处理道路运输工单文本语料库。
32.特征提取和集成模块用于基于处理道路运输工单文本语料库中的处理道路运输工单文本,得到处理道路运输工单文本的包含深层语义的低维文本向量特征;特征提取和集成模块包括:静态语义向量特征提取单元、动态语义向量特征提取单元和特征集成单元;静态语义向量特征提取单元用于采用自训练词向量模型,生成处理道路运输工单文本的静态向量矩阵,将静态向量矩阵输入至文本深度学习模型中,提取处理道路运输工单文本的静态语义向量特征;动态语义向量特征提取单元用于采用bert预训练模型,生成处理道路运输工单文本的动态向量矩阵,将动态向量矩阵输入至文本深度学习模型中,提取处理道路运输工单文本的动态语义向量特征;特征集成单元用于采用连接方式集成静态语义向量特征和动态语义向量特征,形成低维文本向量特征。
33.聚类模块用于基于低维文本向量特征,构建道路运输工单文本主题划分模型,得到处理道路运输工单文本的文本所属主题标签;聚类模块包括:预聚类单元和二次聚类单
元;预聚类单元用于以低维文本向量特征为输入,采用canopy算法进行预聚类,得到聚类个数k和初始簇心;二次聚类单元用于以聚类个数k和初始簇心为输入,采用k-means算法进行二次聚类,构建得到道路运输工单文本主题划分模型,获得处理道路运输工单文本的文本所属主题标签。
34.主题提取精简模块用于利用tf-idf获取文本所属主题标签的top10关键词,实现主题提取和精简。
35.本发明实施例二提供的道路运输常态化问题诉求发现系统的技术特征和技术效果与本发明实施例一提供的道路运输常态化问题诉求发现方法相同,在此不予赘述。
36.本发明还提供一种道路运输常态化问题诉求发现设备,包括处理器、存储器以及存储在存储器中且被配置为由处理器执行的计算机程序,处理器执行计算机程序时实现上述法律法规名称识别方法。
37.本发明还提供一种计算机可读的存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制所述计算机存储介质所在设备执行上述法律法规名称识别方法。
38.在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或者设备取指令并执行指令的系统)使用,或结合这些指令执行系统、设备或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
39.计算机可读介质的更具体示例(非穷尽式列表)包括如下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算器可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
40.应当理解,本发明的各个部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数字信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用逻辑电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
41.以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1