一种公告发布的方法、设备及计算机可读存储介质与流程

文档序号:28101117发布日期:2021-12-22 11:23阅读:73来源:国知局
1.本技术属于公文处理
技术领域
:,尤其涉及一种公告发布的方法、设备及计算机可读存储介质。
背景技术
::2.有关部门和多个社区存在着统筹管理的关系,因此,有关部门需要给多个社区的社区居民发送公告以是实现上级政策的传递。3.公告的管理主要以纸质化或者电子存档为主。传统的公告处理主要时通过灵活配置设计策略实现公文的流转,很大程度上依赖于人为因素的干涉。在大数据来临的时代,由于公告数量的快速增长,内容分散公文介质不一,这种原始的发布消息方法已经严重影响智慧政务的发展。4.因此,如何实现公告可以精确快速的下发至相关人员或者单位是目前公告发布的一大难题。技术实现要素:5.本技术实施例提供了一种公告发布的方法、设备及计算机可读存储介质,可以解决公告不能精准下发至相关人员的问题,提高了有关部门和居民之间信息沟通的高效性。6.第一方面,提供了一种公告发布的方法,该方法包括:提取公告中的文本信息;利用训练好的机器阅读理解模型确定文本信息中的多个关键信息,每个关键信息包括:标签和标签对应的答案,标签和标签对应的答案包括:公告中的公告名称、发布时间、涉及的地点信息、人员信息或者目标群体限定条件信息中的至少一种;构建每个社区居民对应的社区居民画像,社区居民画像包括:社区居民的基本信息、附加信息和行为信息;确定与多个关键信息中至少一个关键信息匹配的第一社区居民画像;将公告发布给第一社区居民画像对应的多个社区居民。7.第一方面提供的方法,首先提取公告中的文本信息,然后利用训练好的阅读理解模型提取文本信息中的关键信息,该关键信息包括了标签和该标签对应的答案。该关键信息表示了公告中的涉及到的与相关人员相对应的主要信息,比如:公告的公告时间、发布时间、涉及的地点信息、人员信息或者目标群体限定条件等信息。然后,再根据居民的基本信息、附加信息和行为信息,构建每个社区居民对应的社区居民画像,从而实现对居民的标签化管理。然后,确定与多个关键信息中至少一个关键信息相匹配的第一社区居民画像,将公告发布给第一社区居民画像对应的多个社区居民,从而实现了公告对社区居民的精准发布,提高了有关部门和居民之间信息沟通的高效性。8.可选的,利用训练好的机器阅读理解模型确定文本信息中的多个关键信息,包括:利用分词工具对所述文本信息进行分词得到多个词语;确定每个词语对应的词性和实体信息;利用训练好的机器阅读理解模型,在多个词语分别对应的词性和实体信息中,确定多个关键信息。在该种实现方式中,首先对文本信息进行分词并且确定每个词语对应的词性和实体信息,然后再利用训练好的机器阅读理解模型,在多个词语分别对应的词性和实体信息中确定多个关键信息,提高了关键信息提取的准确度。9.可选的,该方法还包括:获取训练样本,所述训练样本包括:样本文本、样本问题和样本答案;利用训练样本和初始阅读理解模型生成预测答案;基于预测答案与样本答案计算答案损失值;基于答案损失值对初始阅读理解模型进行迭代训练,得到训练好的阅读理解模型。在该种实现方式中,通过将样本文本与样本问题和样本答案输入至初始阅读理解模型中进行迭代训练,从而可以更好的结合上下文和问题之间的信息,使得阅读理解模型在深刻理解词语语义的基础上,更进一步的对上下文和整个公告进行透彻的理解和分析,预测出正确答案,从而提升了答案的准确性,提高了模型的训练效果。10.可选的,初始阅读理解模型包括:嵌入层、自注意力层和线性层,利用所述训练样本和初始阅读理解模型生成预测答案,包括:将样本文本和样本问题输入至嵌入层,生成样本文本向量和样本问题向量;将样本文本向量和样本问题向量输入至自注意力层,生成文本问题权重矩阵;将样本文本问题权重矩阵输入至线性层,生成预测答案。在该种实现方式中,利用阅读理解模型的四层结构,可以使得阅读理解模型根据上下文和公告生成有一定相关概率的预测答案。11.可选的,获取公告的发布参数,发布参数包括:公告下发的效率、社区居民的接受率、社区居民的响应率和公告下发的准确率;根据发布参数调整社区居民画像。在该种实现方式中,利用公告的发布参数动态调整社区居民画像,使得社区居民画像更为全面,在一定程度上提高了公告中的关键信息和社区居民画像的匹配程度,从而提高的公告发布的准确性。12.可选的,文本信息包括:照片或者影印式文件,提取所述公告中的文本信息,包括:将公告进行预处理,得到公告中的多个字符信息;对多个字符信息进行卷积和下采样处理,得到文本信息的初步特征提取利用池化层对文本信息的主要特征进行提取;利用全连接层得到多个字符的文本信息。在该种实现方式中,利用卷积神经网络模型对公告为照片或者影印式文件中的文字信息进行提取,提高了文字信息提取的准确度。13.可选的,居民基本信息包括:姓名、性别、民族和户籍信息;居民附加信息包括:家庭信息、工作信息、社保信息、医疗信息、教育信息、养老信息、服刑人员的监控信息和残障人士的保障信息;居民行为信息包括:出行信息、消费信息和互联网访问信息。14.第二方面,提供了一种装置,该装置包括用于执行以上第一方面或者第一方面的任意一方面可能的实现方式中的各个步骤的单元。15.第三方面,提供了一种装置,该装置包括至少一个处理器和存储器,该至少一个处理器用于执行以上第一方面或第一方面的任意可能的实现方式中的方法。16.第四方面,提供了一种装置,该装置包括至少一个处理器和接口电路,该至少一个处理器用于执行以上第一方面或者第一方面中的任意一方面可能的实现方式中的方法。17.第五方面,提供了一种公告发布设备,该通信设备包括处理器,该处理器用于执行以上第一方面或者第一方面中的任意一方面可能的实现方式中的方法。18.第六方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序在被处理器执行时,用于执行第一方面或第一方面的任意可能的实现方式中的方法。19.第七方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序被执行时,用于执行第一方面或第一方面的任意可能的实现方式中的方法。20.第八方面,提供了一种芯片或者集成电路,该芯片或者集成电路包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有该芯片或者集成电路的设备执行第一方面或第一方面的任意可能的实现方式中的方法。21.可以理解的是,上述第二方面至第八方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。22.本技术实施例与现有技术相比存在的有益效果是:本技术提供的方法,首先提取公告中的文本信息,然后利用训练好的阅读理解模型提取文本信息中的关键信息,该关键信息包括了标签和该标签对应的答案。该关键信息表示了公告中的涉及到的与相关人员相对应的主要信息,比如:公告的公告时间、发布时间、涉及的地点信息、人员信息或者目标群体限定条件等信息。然后,再根据居民的基本信息、附加信息和行为信息,构建每个社区居民对应的社区居民画像,从而实现对居民的标签化管理。然后,确定与多个关键信息中至少一个关键信息相匹配的第一社区居民画像,将公告发布给第一社区居民画像对应的多个社区居民,从而实现了公告对社区居民的精准发布,提高了有关部门和居民之间信息沟通的高效性。附图说明23.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。24.图1是本技术实施例提供的一种公告的发布方法的示意性流程图;图2是本技术实施例提供的利用cnn进行文字信息提取的示意性流程图;图3是本技术实施例提供的从文本信息中提取多个关键信息的示意性流程图;图4是本技术实施例提供的机器阅读理解模型的训练过程的示意图;图5是本技术实施例提供的利用训练样本集和初始阅读理解模型生成预测答案的方法的示意性流程图;图6是本技术实施例提供的公告发布装置的示意图;图7是本技术实施例提供的公告发布设备的示意图。具体实施方式25.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本技术的描述。26.首先,在介绍本技术提供的方法和系统之前,需要对下文中即将提及的部分术语进行说明。当本技术提及术语“第一”或者“第二”等序数词时,除非根据上下文其确实表达顺序之意,否则应当理解为仅仅是起区分之用。27.术语“示例性的”或者“例如”等词用于表示作例子、例证或说明。本技术实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。28.除非另有说明,本文中“/”一般表示前后关联对象是一种“或”的关系,例如,a/b可以表示a或b。术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,在本技术的描述中,“多个”是指两个或两个以上。29.当有关部门向社区居民发布公告时,一般会将其公示在有关部门官方网站,或者通过线下方式将信息粘贴在公示栏中,在这一过程中,并没有形成描述公示内容的格式化结构数据,这成为制约人们进行信息检索的瓶颈。并且,每一份公告的受众人群不同,面对海量的社区公告,人们通常无法快速搜寻与自己身份相匹配的信息,且当有关部门、社区有紧急公告需要发布时,现有的传播方式往往不能及时的将信息传递给对应的居民,即信息传递的实效性不能保证。因此,随着大数据时代的来临和数字政务平台建设体系的逐步完善,这种原始的发布公告的方法已经严重落伍,成为制约智慧政务发展的瓶颈。30.在相关技术中,在公告的发布过程中首先进行公告文件预处理,并且提取公告文件中的相关信息,然后根据该相关信息将公告文件发送给居民。但是,在对公告文件进行预处理时,只能处理特定格式的电子文档,对于照片,或者影印等其他格式文档无法做到全面的识别。在提取公告文件中的相关信息时采用的是基于规则的文献检索的方法,提取精度较差。因此,就目前来看,上述相关问题并没有得到很好的解决。31.因此,如何在有关部门和居民之间建立高效的信息沟通渠道,打造高效便捷的信息投放体系,使得有关部门发送给各个社区的公告可以在第一时间投放给对应人员和单位,是目前亟需解决的问题。32.有鉴于此,本技术提供了一种公告发布的方法,首先提取公告中的文本信息。然后,根据该文本信息确定出公告中的多个关键信息,该多个关键信息中的每个关键信息包括标签和该标签对应的答案,该标签和该标签对应的答案包括:公告中的公告名称、发布时间、地点信息、人员信息或者目标群体限定条件中的至少一种。然后,利用社区居民的基本信息、附加信息和行为信息构建每个社区居民对应的社区居民画像,确定多个关键信息中至少一个关键信息匹配的第一社区居民画像,然后将该公告发布给第一社区居民画像对应的多个社区居民,从而使得有关部门发送给各个社区的公告可以在第一时间投放给相应的人员和单位,提高了有关部门和居民之间的信息沟通的高效性。33.为了说明本技术提供的技术方案,下面通过具体实施例来进行说明。34.请参见图1,图1是本技术一个实施例提供的一种公告的发布方法的示意性流程图。本实施例中公告发布方法的执行主体为,公告发布设备,该设备包括但不限于个人电脑或者服务器等。35.如图1所示的,公告发布方法包括:s110至s150。36.s110、提取公告中的文本信息。37.在本技术实施例中,公告发布设备获取到公告后,首先根据公告的不同形式将公告中的文字信息提取出来。38.例如,有关部门会通过网站发布文字通知、社区印发纸质报告或者互联网中传播照片信息等不同形式发布公告。因此,公告发布设备对于不同形式的公告需要采用不同的方式进行文字信息的提取。39.作为一种可能的实现方式,当有关部门会通过有关部门网站发布文字通知,并且有关部门网站中的公告数据是以文字的方式直接显示在界面中,则直接获取该界面的文字信息。40.当有关部门网站中的公告数据是以文件的形式保存在有关部门网站中,则可以通过爬虫获取该文件链接并且提取文字信息。41.具体地,在利用网络爬虫进行文字信息提取时,可以参考有关部门网站中公告的发布规则,采用scrapy框架编写爬虫脚本,以网络爬虫的方式,获取该公告的文字信息。42.在本技术的另一个实施例中,对于公告文件的来源是有关部门社区印发的纸质报告时,在提取纸质报告的文字信息之前首先需要对该纸质报告进行扫描,生成电子版的可携带式文档格式(portabledocumentformat,pdf)。对于该pdf文件,以开源pdf处理框架pdflumber作为底层,可以将一般格式的pdf文件进行文字信息的提取。43.在本技术的另一个实施例中,对于公告文件的来源是互联网中传播的照片、图片或者影印式的pdf文件时,可以通过卷积神经网络模型cnn对照片、图片或者影印式的pdf进行文字信息的提取。44.需要说明的是,cnn模型可以由公告发布设备预先训练好,也可以由其他设备预先训练好后将cnn模型对应的文件移植至公告发布设备中,也就是说,训练该cnn模型的执行主体与使用该cnn模型进行文字提取的执行主体可以是相同的,也可是不同的。例如,当采用其他设备训练初始cnn模型时,其他设备对初始cnn模型结束训练后,固定初始cnn模型参数,得到cnn模型对应的文件,然后,将该文件移植到公告发布设备中。45.下面,在步骤s110的基础上对本技术实施例提供的利用cnn进行文字信息的提取的方法做具体介绍,图2示出了本技术实施例提供的利用cnn进行文字信息提取的示意性流程图,如图2所示的,该方法s200包括:s210至s240。46.s210、对公告文件进行预处理。47.需要说明的是,在步骤s210中的公告的发布形式为影印式、图像或者照片形式等。48.可以理解的是,不管是影印式pdf文件、图片或者是照片形式都属于图像的一种,因此对公告进行预处理的过程实际上是指图像的降噪过程,其目的是为了减少图像中的无用信息,以便后续进一步处理。49.可选的,该预处理方法可以包括灰度化处理、二值化处理或者字符切分以及归一化等处理方式。50.在本技术实施例中,可以对公告进行二值化处理。经过二值化处理后,公告的图像只剩下两种颜色,即对于图像的背景为白色,文字信息为黑色。51.s220、对公告中的文字信息进行初步特征提取。52.在本技术实施例中,利用cnn模型的卷积层对公告中的文字信息进行初步特征提取。53.具体地,在本技术实施例中,卷积层由多层卷积核构成,输入的公告经过卷积层的卷积核时,除过第一层外,每经过一个特征提取组,其输出都会缩小一半尺寸。54.s230、对公告中的文字信息提取主要特征提取。55.为了减小训练参数的数量,降低卷积层输出的特征向量的维度,减小过拟合现象,只保留有用的图片信息,减小噪声的传递,在本技术实施例中,利用cnn模型中的池化层对待处理图像的主要特征进行提取。56.作为一种可能的实现方式,可以选用最大池化或者均值池化作为池化层进行主要特征的提取。57.s240、对公告中的文字信息进行分类。58.在上述步骤s210‑s230中的卷积层和池化层提取特征,并减小原始公告带来的参数。然而,为了生成最终的输出,需要应用全连接层来生成需要的类的数量的分类器。即,经过全连接层后可以得到公告中每个文字的预测值。59.结合图1和图2,具体介绍了公告发布设备可以对不同发布形式的公告中的文字信息进行提取。60.s120、从文本信息中提取关键性信息。61.为了将公告精准发布给每一个相关人员或者单位,需要对文本信息中的关键信息进行提取,该关键性是指公告中的公告名称、发布时间、地点信息、人员信息或者目标群体限定条件信息等。并且,提取的关键性信息是以标签‑答案的形式输出。62.在步骤s120的基础上图3示出了本技术实施例提供的从文本信息中提取多个关键信息的示意性流程图,如图3所示的,该方法包括:s310‑s350:s310、利用信息检索方案对文本信息进行初步检索。63.首先,公告发布设备使用信息检索方案对文本信息进行初步检索,将检索结果与预先设定好的检索库进行匹配,从而提取到文本信息中的关键信息。64.需要说明的是,该信息检索方法是指信息检索的关键词。65.示例性的,当设定的关键词为本科,则在预先设定好的检索库中进行匹配,从而得到该关键信息为本科‑受众学历信息。66.还需要说明的是,该检索库中还包括了公告常见的专有名词,比如:位置信息、政策信息、受众年龄信息以及受众学历信息等。67.s320、利用分词工具对文本信息进行分词得到多个词语。68.在本技术实施例中,为了提取文本信息中的关键性信息,首先需要对文本信息进行分词。69.作为一种可能的实现方式,可以使用python版的jieba分词工具对文本信息进行分词操作。从而将文本信息划分为多个词语。70.s330、确定每个词语对应的词性和实体信息。71.进一步的,为了更精确的提取文本信息中的关键性信息,需要对分词后的文本信息进行词性和实体识别。72.需要说明的是,该词性是指名词、动词、形容词或者介词等,该实体识别是指该词表示地点、时间或者人物等信息。73.作为了一种可能的实现方式,在本技术实施例中,可以利用开源框架ltp对文本信息进行句法分析。通过句法分析后可以去掉文本信息中的网络标签、移除标点信息、切分成词,去掉停用词和句子重组。74.通过步骤s330可以将文本信息中分词后的多个词语赋予词性和实体信息。75.步骤s320和步骤s330为可选的步骤,换句话说,对文本信息中的多个关键信息进行提取时,可以选择进行分词以及对分词后的词性和实体识别的分析的步骤。76.s340、利用训练好的机器阅读理解模型确定文本信息中的多个关键信息。77.在本技术实施例中利用训练好的阅读理解模型对文本信息确定文本信息中的多个关键信息,当在训练好的阅读理解模型中输入公告以及标签时,可以输出对应该标签的答案。78.首先,在步骤s340的基础上,对该机器阅读理解模型的训练过程进行具体介绍。图4示出了本技术实施例提供的机器阅读理解模型的训练过程的示意图,如图4所示的,该方法包括:s410至s440。79.s410、获取训练样本,该训练样本包括:样本文本、样本问题和样本答案。80.在本技术实施例中,训练样本是对阅读理解训练的基础文本,训练样本可以是各种篇幅长度的文本,本技术实施例对此不做限制。并且样本问题是与样本文本的内容具有一定关联的问题,即样本答案是基于样本问题在样本文本中可以得到的答案。81.作为一种可能的实现方式,可以利用历史公告信息作为训练样本进行机器阅读理解模型的训练。82.在本技术实施例中,为了得到的关键性信息为标签‑答案的形式,在阅读理解模型进行训练时需要对样本问题和样本答案进行标注。83.需要说明的是,在本技术实施例中,样本问题即表示标签。84.示例性的,该样本问题可以是:公告的执行时间是什么时候,然后对具体时间进行标注,示例性的,标注的时间为10月10号。或者该样本问题可以是:公告的执行地点是什么时候,然后对具体的地点进行标注,示例性的,标注的地点为北京。85.可以理解的是,每篇公告都是由数个标签‑答案对组成。86.s420、利用训练样本集和初始阅读理解模型生成预测答案。87.需要说明的是,预测答案是通过初始阅读理解模型对样本文本的分析得到的样本问题的答案,其答案与样本答案可能相同也可能不同。88.当预测答案与样本答案不同时,通过计算预测答案与样本答案的损失值,从而继续对初始阅读理解模型进行迭代训练,直到该损失值满足预设条件时,表示初始阅读理解模型训练成为训练好的阅读理解模型。89.本技术的阅读理解模型为利用bert模型作为框架训练得到的,该模型包括:嵌入层、自注意力层和线性层。下面对本技术实施例提供的利用训练样本集和初始阅读理解模型生成预测答案的方法进行具体介绍。图5示出了本技术实施例提供的利用训练样本集和初始阅读理解模型生成预测答案的方法的示意性流程图,如图5所示的,该方法包括s510‑s520。90.s510,将训练文本和样本问题输入至嵌入层中,得到训练文本向量和样本问题向量。91.可以理解的是,为了实现计算机对初始阅读理解模型的训练,首先需要将标注好的样本文本转化为计算机可以理解的语言,因此,在将标注好的样本文本输入至初始阅读理解模型中进行训练之前,需要将标签信息和公告正文信息转化为词向量的形式转化为向量矩阵。92.需要说明的是,嵌入层是用于对训练文本的为样本文本、样本问题和样本答案进行词嵌入式编码处理的层级结构。93.因此,在本技术实施例中通过将训练文本通过嵌入层的嵌入式编码处理生成与其相对应的词向量集合即样本文本向量,以及将样本问题通过嵌入层的嵌入式编码处理生成与其相对应的词向量集合即样本文本问题向量。94.具体地,对训练文本和样本问题进行嵌入式编码即通过embedding矩阵给每个单词分配一个固定长度的向量表示。95.s520,将样本文本向量和样本问题向量输入至自注意力层得到文本问题的权重矩阵。96.需要说明的是,自注意力层是用于对样本文本的所有词向量以及样本问题的所有词向量进行自注意力处理的层级结构,样本文本的词向量和样本问题的词向量经过自注意力处理生成问题权重矩阵。97.具体地,将训练样本的词向量和样本问题的词向量输入至自注意力层,首先根据每一个样本词向量得到其对应的q向量、k向量以及v向量。再将q向量和k向量进行相似度计算得到权重矩阵,其中相似度函数包括点积、拼接等。在权重矩阵进行计算时,利用如下公式计算该词对文本的其他各部分的参考程度:(1)其中,eij表示当前词对文本信息中的其他部分的参考程度,xi表示当前词的序列的行,xj表示当前词的序列的列;dz表示各个词语中的计算结果进行累加的z的维度,wq表示q向量的维度,wk表示k向量的维度。98.进一步的,在权重矩阵进行计算时,可以利用如下计算公式量化文本各部分对当前词嵌入的影响:(2)其中,aij表示文本中的其他词语对当前词的注意力权重。99.然后,将上述计算得到的结果点成v向量,得到加权的每个样本向量的评分v,最后将每一个样本向量的评分v相加,即得到注意力矩阵即生成了文本问题权重矩阵。100.可以理解的是,使用q和k计算了相似度之后得到相似度评分。之后有了相似度评分,就可以把内容v加权回去了,因此在得到上述量化后的结果之后,使用该结构与键值对里面的v相乘,对各个词语的计算结果进行累加,输出为z就是自注意力体现当前词的权重结果。101.s530,将样本问题权重矩阵输入至线性层生成样本问题的预测答案。102.需要说明的是,线性层是用于对文本问题权重矩阵进行线性变换处理的层级结构。经过线性层的线性变换处理,得到答案在公告文本中的开始位置以及结束位置的概率,将开始位置概率最大的词单元作为答案的开始,将结束位置概率最大的词单元作为答案的结束,即得到样本问题的预测答案。103.上述步骤s510‑530具体是介绍了如何利用训练样本和初始阅读理解模型生成预测答案。104.s430、基于预测答案与样本答案计算答案损失值。105.在步骤s430中,可以基于预测答案与样本答案计算交叉熵函数,得到答案损失值。106.s440、基于答案损失值对初始阅读理解模型进行迭代训练,得到训练好的阅读理解模型。107.在本技术实施例中,可以基于答案损失值反向调整初始阅读理解模型的参数,以达到对阅读理解模型进行阅读理解分析训练的目的。同时,还可以通过判断答案损失值是否小于预设阈值来确定是否停止训练,在答案损失值大于或者等于预设阈值的情况下,则继续对阅读理解模型迭代训练,在答案损失值小于预设阈值的情况下,则停止训练,表示该阅读理解模型训练完成。108.需要说明的是,该预设阈值可以根据具体情况设定本技术实施例不做限定。109.示例性的,当预设阈值为0.5时,若答案损失值为0.4,则答案损失值小于预设阈值,停止训练。当答案损失值为0.8时,则答案损失值大于预设阈值,则进行训练直到预设阈值小于0.5。110.上述步骤s410‑步骤s440具体介绍了从初始阅读理解模型进行训练之后得到训练好的阅读理解模型的具体过程。111.然后,利用训练好的机器阅读理解模型确定文本信息中的多个关键信息。112.首先,将该公告和待回答问题输入至训练好的阅读理解模型中进行处理,得到待回答问题的答案。113.具体地,首先将公告文本和待回答问题输入至训练好的阅读理解模型中的嵌入层中从而生成部门文本的词向量和待回答问题的词向量,再将部门文本的词向量和待回答问题的词向量输入至训练好的阅读理解模型中的自注意力层从而得到文本问题的权重矩阵,最后将文本问题的权重矩阵输入至训练好的线性层后得到待回答问题的答案。114.示例性的,当某部门的公告文本,假设该部门的公告文本包括样本文本在某社区的在南大门领取抗疫物资,某某社区在北大门领取抗疫物资,样本问题是某社区在哪里领取抗疫物资,样本答案是南大门。115.将样本文本和样本问题输入至训练好的阅读理解模型中时,首先阅读理解模型中的嵌入层生成样本文本的词向量c1和样本问题的词向量c2。将上述样本文本的词向量c1和样本问题的词向量c2输入至注意力层中生成文本问题矩阵c。将文本矩阵c输入至线性层中检查处理得到样本文本中每个词单元作为答案开始位置和答案结束位置的概率。其中坐标为北作为答案开始位置的概率最高,坐标为门作为答案结束位置的概率最高,则样本问题的答案为南大门。116.需要说明的是,机器阅读理解模型可以由公告发布设备预先训练好,也可以由其他设备预先训练好后将机器阅读理解模型对应的文件移植至公告发布设备中,也就是说,训练该机器阅读理解模型的执行主体与使用该机器阅读理解模型进行多个关键信息提取的执行主体可以是相同的,也可是不同的。例如,当采用其他设备训练初始机器阅读理解模型时,其他设备对初始机器阅读理解模型结束训练后,固定初始机器阅读理解模型参数,得到机器阅读理解模型对应的文件,然后,将该文件移植到公告发布设备中。117.上述实施例对如何利用阅读理解模型确定公告中的关键信息进行了具体介绍。118.s350、基于信息检索方案和训练好的阅读理解模型确定关键性信息。119.在本技术实施例中,为了进一步提高关键信息的准确率。将步骤s310中确定的关键性信息和步骤s310中检出得到的关键性信息进行对比。即将利用检索方案检索出的关键信息和利用训练好的阅读理解模型确定出的关键信息一致的关键信息作为最终的关键信息。120.上述步骤s310‑s350具体介绍了如何从文本信息中确定多个关键信息。121.s130、构建每个社区居民对应的社区居民画像,社区居民画像包括:社区居民的基本信息、附加信息和行为信息。122.基于上述步骤s110‑120确定出了公告文本中的多个关键信息。那么该多个关键性信息如何精准投放给社区居民,在本技术实施例中,可以根据社区居民的信息对每个社区居民构建社区居民画像。123.可以理解的是,社区居民画像是将社区居民信息数据形象化的方法,社区画像的核心是将社区居民信息标签化。124.需要说明的是,该社区居民信息标签主要包括三大类:居民的基本信息、附加信息和行为信息等。125.其中,居民基本信息是居民户口本中所体现的基础性信息,其中包括姓名、性别、民族和户籍信息等。126.居民附加信息是对居民长期行为和状态的概况信息,涵盖家庭信息、工作、社保、医疗、教育和养老等相关信息,还包括针对特殊人群的特殊附加信息,例如:服刑人员的监控信息、残障人士的保障信息等。127.居民行为信息是居民的短期行为或者一次性行为的记录,主要包括出行、消费和互联网访问等信息。128.s140、确定与多个关键信息中至少一个关键信息匹配的第一社区居民画像。129.将步骤s120中得到的公告信息中的关键信息与步骤s130中构建的社区居民画像进行匹配,从而确定第一社区居民画像。130.需要说明的是,该第一社区居民画像是指步骤s130中构建的社区居民画像中包含有关键信息的居民画像。131.还需要说明的是,该多个关键信息中的一个关键信息和第一社区居民画像中相匹配或者该多个关键信息中的多个关键信息和第一社区居民画像相匹配,对此,本技术实施例不做限制。132.示例性的,当得到的公告中的多个关键信息分别为:公告的受众群体是什么‑大学生;受众群体的户籍为省内还是省外‑省内。则第一社区居民画像为包含有基本信息中的文化程度为大学生或者户籍为省内的社区居民画像为第一社区居民画像。133.s150、将公告发布给第一社区居民画像对应的多个社区居民。134.在步骤s150中,将公告发布给符合条件的第一社区居民画像对应的多个社区居民。该多个社区居民即为公告发布的目标人群。135.示例性的,当得到的公告中的多个关键信息分别为:公告的受众群体是什么‑大学生;受众群体的户籍为省内还是省外‑省内。然后根据该关键信息将公告发布给社区居民画像中为基本信息中的文化程度为大学生或者户籍为省内的社区居民。136.可以理解的是,社区居民画像由多个因素组成,在步骤s130中的社区居民画像不一定全面,因此需要根据公告下发结果进一步优化社区居民画像。137.具体地,可以对公告下发结果进行统计,并确定公告下发的效率、以及社区居民的接受率和响应率以及公告下发的准确度。从而利用该反馈结果进一步完善以往统计不完全的社区居民画像,使得社区居民的画像更加丰富,最终提高了公告下发的准确度。138.在本技术实施例中,首先提取公告中的文本信息,然后利用训练好的阅读理解模型提取文本信息中的关键信息,该关键信息包括了标签和该标签对应的答案。该关键信息表示了公告中的涉及到的与相关人员相对应的主要信息,比如:公告的公告时间、发布时间、涉及的地点信息、人员信息或者目标群体限定条件等信息。然后,再根据居民的基本信息、附加信息和行为信息,构建每个社区居民对应的社区居民画像,从而实现对居民的标签化管理。然后,确定与多个关键信息中至少一个关键信息相匹配的第一社区居民画像,将公告发布给第一社区居民画像对应的多个社区居民,从而实现了公告对社区居民的精准发布,提高了有关部门和居民之间信息沟通的高效性。139.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。140.结合图1‑图5对本技术实施例提供的公告发布的方法进行了具体的介绍,下面对本技术实施例提供的公告发布装置和设备进行具体介绍。141.图6是本技术实施例提供的公告发布装置的示意图。包括的各单元用于执行图1‑图5对应的实施例中的各步骤,具体请参阅图1‑图5各自对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图6,公告发布装置6包括:提取单元601,该提取单元用于提取公告中的文本信息。142.第一确定单元602,该第一确定单元602用于利用训练好的机器阅读理解模型确定文本信息中的多个关键信息。143.构建单元603,该构建单元603用于构建每个社区居民对应的社区居民画像。144.第二确定单元604,该第二确定单元604用于确定与多个关键信息中至少一个关键信息匹配的第一社区居民画像。145.发送单元605,该发送单元605用于将公告发布给第一社区居民画像对应的多个社区居民。146.该第一确定单元602还用于,利用分词工具对文本信息进行分词得到多个词语;确定每个词语对应的词性和实体信息;利用训练好的机器阅读理解模型,在多个词语分别对应的词性和实体信息中,确定多个关键信息。147.该第一确定单元602还用于,获取训练样本,训练样本包括:样本文本、样本问题和样本答案;利用训练样本和初始阅读理解模型生成预测答案;基于预测答案与样本答案计算答案损失值;基于答案损失值对初始阅读理解模型进行迭代训练,得到训练好的阅读理解模型。148.该第一确定单元602还用于,将样本文本和样本问题输入至嵌入层,生成样本文本向量和样本问题向量;将样本文本向量和样本问题向量输入至自注意力层,生成文本问题权重矩阵;将样本文本问题权重矩阵输入至线性层,生成预测答案。149.该构建单元603还用于,获取公告的发布参数,发布参数包括:公告下发的效率、社区居民的接受率、社区居民的响应率和公告下发的准确率;根据发布参数调整社区居民画像。150.当公告包括:照片或者影印式文件,提取单元601还用于,将公告进行预处理,得到公告中的多个字符信息;对多个字符信息进行卷积和下采样处理,得到文本信息的初步特征提取;利用池化层对文本信息的主要特征进行提取;利用全连接层得到多个字符的文本信息。151.图7是本技术实施例提供的公告发布设备的示意图。如图7所示,该实施例的公告发布设备700包括:处理器710、存储器720以及存储在所述存储器720中并可在所述处理器710上运行的计算机程序730。处理器710执行所述计算机程序730时实现上述各个公告发布的方法实施例中的步骤,例如图1所示的步骤110至150。或者,所述处理器710执行所述计算机程序730时实现上述各装置实施例中各模块/单元的功能,例如图6所示模块610‑650的功能。152.示例性的,所述计算机程序730可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器720中,并由处理器710执行,以完成本技术。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序730在所述公告发布设备700中的执行过程。153.所述公告发布设备700可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述公告发布设备可包括,但不仅限于,处理器710、存储器720。本领域技术人员可以理解,图7仅仅是公告发布设备的示例,并不构成对公告发布设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述公告发布设备还可以包括输入输出设备、网络接入设备、总线等。154.所称处理器710可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field‑programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。155.所述存储器720可以是所述公告发布设备700的内部存储单元,例如公告发布设备700的硬盘或内存。所述存储器720也可以是所述公告发布设备700的外部存储设备,例如所述公告发布设备700上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述存储器720还可以既包括所述公告发布设备700的内部存储单元也包括外部存储设备。所述存储器720用于存储所述计算机程序以及所述公告发布设备所需的其他程序和数据。所述存储器720还可以用于暂时地存储已经输出或者将要输出的数据。156.本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述公告发布方法。157.本技术实施例提供了一种计算机程序产品,当计算机程序产品在公告发布设备上运行时,使得公告发布设备执行时实现可实现上述公告发布方法。158.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。159.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。160.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。161.在本技术所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。162.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。163.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。164.所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read‑onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。165.以上所述实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围,均应包含在本技术的保护范围之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1