基于数据追踪的新闻稿件画像生成方法和系统与流程

文档序号:30614019发布日期:2022-07-02 00:27阅读:80来源:国知局
基于数据追踪的新闻稿件画像生成方法和系统与流程

1.本发明涉及基于数据追踪的新闻稿件画像生成方法和系统。


背景技术:

2.新闻稿件是公司/机构/政府/学校等单位发送于传媒的通信渠道,用来公布有新闻价值的消息,通常会用电子邮件、传真、书信形式分发于报章、杂志、电台、电视台、通讯社的编辑;高质量的新闻稿件,能够获得在这些大型新闻网站首页展示的机会,通过为互联网新闻工作者提供新闻素材,使得自己公司的品牌形象传播到互联网的各个角落。
3.新闻稿件长期以来被视为官方声明,是企业永久、公开记录的一部分,是品牌内容的重要资产,每一篇新闻稿件都应该具有明确正式的消息来源,每个企业都应该只发布自身为主体或者跟自身直接相关的新闻资讯;在碎片化传播环境下,明确的消息来源有助于建立企业的透明度与可信度,使品牌和企业成为行业内相关话题专业、权威、可信任、可追溯的消息来源。
4.在新闻稿件生成过程中,现有常规操作方法为:通过关键词提示和录入写作模板来辅助新闻从业者进行新闻稿件的撰写和生成,由于关键词种类和数量较多,使得撰写生成的新闻稿件适用性较差,词汇使用不够精准,新闻稿件不能准确表述,从而影响新闻稿件的撰写质量;同时,现有的新闻稿件往往需要进行过滤和纠错后才能进行传输,新闻从业者人工修改会消耗较多的撰写时间,导致新闻从业者的工作效率低下,撰写生成完成后的新闻稿件发布和推广实际难度较大。


技术实现要素:

5.本发明实施例提供了基于数据追踪的新闻稿件画像生成方法和系统,方法和结构设计合理,基于多类型功能模块的相互联动作用,配合独有的时政新闻数据库和自定义时政热点词库,添加了自然语言处理技术,融合了中文文本纠错、标点符号纠错、同义词替换、时政专有名词提示以及敏感词汇标记过滤等一系列功能,使得新闻稿件的撰写更加人性化和智能化,实现数据传输和追溯,生成新闻稿件画像和用户画像,从而显著提升新闻从业者编辑撰写新闻稿件的工作效率和新闻稿件的撰写质量,同时将生成的新闻稿件采用特定的通讯器传输到不同的终端设备,方便新闻稿件的推广和发布,解决了现有技术中存在的问题。
6.本发明为解决上述技术问题所采用的技术方案是:
7.基于数据追踪的新闻稿件画像生成方法,所述生成方法包括以下步骤:
8.s1,服务器启动,基于多种信息源进行新闻从业者和新闻用户数据追踪和与汇入,参照追踪和汇入的数据经过相似度计算,生成一篇新的新闻稿件,进而获取新闻稿件画像和用户画像,所述新闻稿件画像包括新闻稿件作者的写作风格和写作类型,所述用户画像包括用户姓名、用户年龄和用户评论;服务器通过传输组件进行新闻稿件文字的录入,同时载入数据库来辅助进行新闻稿件的撰写修改和生成,所述数据库包括专有新闻语料库、素
材库和自定义时政热点词库;
9.s2,基于新闻语料库对实时录入的新闻稿件文字进行时政专有名词提示,以提升新闻稿件用词的专业性和精准度,并给出文本修改建议;
10.s3,基于素材库和自定义时政热点词库对实时录入的新闻稿件文字进行文本语法逻辑错误和字词错误检测,并给出文本修改建议;
11.s4,对实时录入的新闻稿件文字进行标点符号错误检测,并给出标点修改建议;
12.s5,对经过检测甄别修改后的新闻稿件文字进行敏感词汇检测过滤,并给出过滤修改建议;
13.s6,对过滤后的新闻稿件文字进行同义词替换,以使新闻稿件文字更加精炼准确;
14.s7,将上述步骤中的修改建议采纳存储在服务器的缓存器内以实时动态扩充历史库并提升服务器的自训练学习能力,同时将修改生成的新闻稿件通过通讯组件传输到终端设备。
15.基于素材库和自定义时政热点词库对实时录入的新闻稿件文字进行文本语法逻辑错误和字词错误检测,并给出文本修改建议包括以下步骤:
16.s3.1,对录入的新闻稿件文字进行中文语言逻辑判定;
17.s3.2,对录入的新闻稿件文字进行中文分词,对分词结果进行基于字粒度和词粒度的错误检测,并根据专有的自定义时政热点词库进行深度党政名词错误名词检测;
18.s3.3,获取所有疑似错字错词的音似、形似、谐音和混淆音候选字词,并使用候选词对疑似错误进行内容替换,基于语言算法模型进行候选字词替换排序打分,只保留得分最高的最优纠正候选词;
19.s3.4,实时动态扩充语料库和词表,并添加到语言算法模型,进而为新闻从业者提供文本修改建议。
20.所述传输组件包括扫描器和转换传输器,所述转换传输器的型号为bpc-817s,在转换传输器上设有4个引脚,所述转换传输器的一号引脚与扫描仪的输出端相连,在转换传输器的一号引脚和二号引脚之间设有相并联的第一电阻和第二电阻;在转换传输器的三号引脚通过第三电阻连接有三极管,在三极管的基极和发射极之间设有第五电阻,在三极管的发射极上通过通讯线与服务器相连;在转换传输器的四号引脚上通过相并联的第四电阻和第一二极管连接有电源。
21.所述通讯组件包括相配合设置的rs485通讯器、无线收发器和gprs通讯器,所述无线收发器的型号为esp8266,在无线收发器上设有8个引脚;所述gprs通讯器的型号为sim800c,在gprs通讯器上设有42个引脚,在gprs通讯器的二号引脚和六号引脚之间设有相并连的第六电阻和第七电阻;所述gprs通讯器通过十五号引脚、十六号引脚、十七号引脚和十八号引脚连接有sim卡,在gprs通讯器的十五号引脚、十六号引脚和十七号引脚上分别设有第四电容、第五电容和第六电容,在gprs通讯器的十八号引脚上连接有第七电容;所述rs485通讯器的型号为sp3485,在rs485通讯器上设有8个引脚。
22.基于数据追踪的新闻稿件画像生成系统,所述生成系统包括:
23.输入模块,所述输入模块用于服务器启动通过传输组件进行新闻稿件文字的录入,同时载入数据库来辅助进行新闻稿件的撰写生成,所述数据库包括专有新闻语料库、素材库和自定义时政热点词库;
24.第一文本修改模块,所述第一文本修改模块用于服务器基于新闻语料库对实时录入的新闻稿件文字进行时政专有名词提示,以提升新闻稿件用词的专业性和精准度,并给出文本修改建议;
25.第二文本修改模块,所述第二文本修改模块用于服务器基于素材库和自定义时政热点词库对实时录入的新闻稿件文字进行文本语法逻辑错误和字词错误检测,并给出文本修改建议;
26.标点修改模块,所述标点修改模块用于服务器对实时录入的新闻稿件文字进行标点符号错误检测,并给出标点修改建议;
27.过滤修改模块,所述过滤修改模块用于服务器对经过检测甄别修改后的新闻稿件文字进行敏感词汇检测过滤,并给出过滤修改建议;
28.替换模块,所述替换模块用于服务器对过滤后的新闻稿件文字进行同义词替换,以使新闻稿件文字更加精炼准确;
29.执行模块,所述执行模块用于服务器将上述步骤中的修改建议采纳存储在服务器的缓存器内以实时动态扩充历史库并提升服务器的自训练学习能力,同时将修改生成的新闻稿件通过通讯组件传输到终端设备。
30.所述第二文本修改模块包括:
31.逻辑判定模块,所述逻辑判定模块用于服务器对录入的新闻稿件文字进行中文语言逻辑判定;
32.检测模块,所述检测模块用于服务器对录入的新闻稿件文字进行中文分词,对分词结果进行基于字粒度和词粒度的错误检测,并根据专有的自定义时政热点词库进行深度党政名词错误名词检测;
33.评估模块,所述评估模块用于服务器获取所有疑似错字错词的音似、形似、谐音和混淆音候选字词,并使用候选词对疑似错误进行内容替换,基于语言算法模型进行候选字词替换排序打分,只保留得分最高的最优纠正候选词;
34.建模模块,所述建模模块用于服务器实时动态扩充语料库和词表,并添加到语言算法模型,进而为新闻从业者提供文本修改建议。
35.本发明采用上述结构,通过输入模块使服务器启动通过传输组件进行新闻稿件文字的录入,同时载入数据库来辅助进行新闻稿件的撰写生成;通过第一文本修改模块使服务器基于新闻语料库对实时录入的新闻稿件文字进行时政专有名词提示,以提升新闻稿件用词的专业性和精准度,并给出文本修改建议;通过第二文本修改模块使服务器基于素材库和自定义时政热点词库对实时录入的新闻稿件文字进行文本语法逻辑错误和字词错误检测,并给出文本修改建议;通过标点修改模块使服务器对实时录入的新闻稿件文字进行标点符号错误检测,并给出标点修改建议;通过过滤修改模块使服务器对经过检测甄别修改后的新闻稿件文字进行敏感词汇检测过滤,并给出过滤修改建议,具有实用高效、精准智能的优点。
附图说明:
36.图1为本发明的结构示意图。
37.图2为本发明的第二文本修改模块的结构示意图。
38.图3为本发明的传输组件的结构示意图。
39.图4为本发明的转换传输器的电气原理图。
40.图5为本发明的通讯组件的结构示意图。
41.图6为本发明的无线收发器的电气原理图。
42.图7为本发明的gprs通讯器的电气原理图。
43.图8为本发明的rs485通讯器的电气原理图。
44.图9为本发明的流程示意图。
具体实施方式:
45.为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。
46.如图1-9中所示,基于数据追踪的新闻稿件画像生成方法,所述生成方法包括以下步骤:
47.s1,服务器启动,基于多种信息源进行新闻从业者和新闻用户数据追踪和与汇入,参照追踪和汇入的数据经过相似度计算,生成一篇新的新闻稿件,进而获取新闻稿件画像和用户画像,所述新闻稿件画像包括新闻稿件作者的写作风格和写作类型,所述用户画像包括用户姓名、用户年龄和用户评论;服务器通过传输组件进行新闻稿件文字的录入,同时载入数据库来辅助进行新闻稿件的撰写修改和生成,所述数据库包括专有新闻语料库、素材库和自定义时政热点词库;
48.s2,基于新闻语料库对实时录入的新闻稿件文字进行时政专有名词提示,以提升新闻稿件用词的专业性和精准度,并给出文本修改建议;
49.s3,基于素材库和自定义时政热点词库对实时录入的新闻稿件文字进行文本语法逻辑错误和字词错误检测,并给出文本修改建议;
50.s4,对实时录入的新闻稿件文字进行标点符号错误检测,并给出标点修改建议;
51.s5,对经过检测甄别修改后的新闻稿件文字进行敏感词汇检测过滤,并给出过滤修改建议;
52.s6,对过滤后的新闻稿件文字进行同义词替换,以使新闻稿件文字更加精炼准确;
53.s7,将上述步骤中的修改建议采纳存储在服务器的缓存器内以实时动态扩充历史库并提升服务器的自训练学习能力,同时将修改生成的新闻稿件通过通讯组件传输到终端设备。
54.基于素材库和自定义时政热点词库对实时录入的新闻稿件文字进行文本语法逻辑错误和字词错误检测,并给出文本修改建议包括以下步骤:
55.s3.1,对录入的新闻稿件文字进行中文语言逻辑判定;
56.s3.2,对录入的新闻稿件文字进行中文分词,对分词结果进行基于字粒度和词粒度的错误检测,并根据专有的自定义时政热点词库进行深度党政名词错误名词检测;
57.s3.3,获取所有疑似错字错词的音似、形似、谐音和混淆音候选字词,并使用候选词对疑似错误进行内容替换,基于语言算法模型进行候选字词替换排序打分,只保留得分最高的最优纠正候选词;
58.s3.4,实时动态扩充语料库和词表,并添加到语言算法模型,进而为新闻从业者提
供文本修改建议。
59.所述传输组件包括扫描器和转换传输器,所述转换传输器的型号为bpc-817s,在转换传输器上设有4个引脚,所述转换传输器的一号引脚与扫描仪的输出端相连,在转换传输器的一号引脚和二号引脚之间设有相并联的第一电阻和第二电阻;在转换传输器的三号引脚通过第三电阻连接有三极管,在三极管的基极和发射极之间设有第五电阻,在三极管的发射极上通过通讯线与服务器相连;在转换传输器的四号引脚上通过相并联的第四电阻和第一二极管连接有电源。
60.所述通讯组件包括相配合设置的rs485通讯器、无线收发器和gprs通讯器,所述无线收发器的型号为esp8266,在无线收发器上设有8个引脚;所述gprs通讯器的型号为sim800c,在gprs通讯器上设有42个引脚,在gprs通讯器的二号引脚和六号引脚之间设有相并连的第六电阻和第七电阻;所述gprs通讯器通过十五号引脚、十六号引脚、十七号引脚和十八号引脚连接有sim卡,在gprs通讯器的十五号引脚、十六号引脚和十七号引脚上分别设有第四电容、第五电容和第六电容,在gprs通讯器的十八号引脚上连接有第七电容;所述rs485通讯器的型号为sp3485,在rs485通讯器上设有8个引脚。
61.基于数据追踪的新闻稿件画像生成系统,所述生成系统包括:
62.输入模块,所述输入模块用于服务器启动通过传输组件进行新闻稿件文字的录入,同时载入数据库来辅助进行新闻稿件的撰写生成,所述数据库包括专有新闻语料库、素材库和自定义时政热点词库;
63.第一文本修改模块,所述第一文本修改模块用于服务器基于新闻语料库对实时录入的新闻稿件文字进行时政专有名词提示,以提升新闻稿件用词的专业性和精准度,并给出文本修改建议;
64.第二文本修改模块,所述第二文本修改模块用于服务器基于素材库和自定义时政热点词库对实时录入的新闻稿件文字进行文本语法逻辑错误和字词错误检测,并给出文本修改建议;
65.标点修改模块,所述标点修改模块用于服务器对实时录入的新闻稿件文字进行标点符号错误检测,并给出标点修改建议;
66.过滤修改模块,所述过滤修改模块用于服务器对经过检测甄别修改后的新闻稿件文字进行敏感词汇检测过滤,并给出过滤修改建议;
67.替换模块,所述替换模块用于服务器对过滤后的新闻稿件文字进行同义词替换,以使新闻稿件文字更加精炼准确;
68.执行模块,所述执行模块用于服务器将上述步骤中的修改建议采纳存储在服务器的缓存器内以实时动态扩充历史库并提升服务器的自训练学习能力,同时将修改生成的新闻稿件通过通讯组件传输到终端设备。
69.所述第二文本修改模块包括:
70.逻辑判定模块,所述逻辑判定模块用于服务器对录入的新闻稿件文字进行中文语言逻辑判定;
71.检测模块,所述检测模块用于服务器对录入的新闻稿件文字进行中文分词,对分词结果进行基于字粒度和词粒度的错误检测,并根据专有的自定义时政热点词库进行深度党政名词错误名词检测;
72.评估模块,所述评估模块用于服务器获取所有疑似错字错词的音似、形似、谐音和混淆音候选字词,并使用候选词对疑似错误进行内容替换,基于语言算法模型进行候选字词替换排序打分,只保留得分最高的最优纠正候选词;
73.建模模块,所述建模模块用于服务器实时动态扩充语料库和词表,并添加到语言算法模型,进而为新闻从业者提供文本修改建议。
74.本发明实施例中的基于数据追踪的新闻稿件画像生成方法和系统的工作原理为:基于多类型功能模块的相互联动作用,配合独有的时政新闻数据库和自定义时政热点词库,添加了自然语言处理技术,融合了中文文本纠错、标点符号纠错、同义词替换、时政专有名词提示以及敏感词汇标记过滤等一系列功能,使得新闻稿件的撰写更加人性化和智能化,实现数据传输和追溯,生产新闻稿件画像和用户画像,从而显著提升新闻从业者编辑撰写新闻稿件的工作效率和新闻稿件的撰写质量,同时将生成的新闻稿件采用特定的通讯器传输到不同的终端设备,方便新闻稿件的推广和发布。
75.在整体方案中,画像生成系统主要包括输入模块,用于服务器启动通过传输组件进行新闻稿件文字的录入,同时载入数据库来辅助进行新闻稿件的撰写生成,所述数据库包括专有新闻语料库、素材库和自定义时政热点词库;第一文本修改模块,用于服务器基于新闻语料库对实时录入的新闻稿件文字进行时政专有名词提示,以提升新闻稿件用词的专业性和精准度,并给出文本修改建议;第二文本修改模块,用于服务器基于素材库和自定义时政热点词库对实时录入的新闻稿件文字进行文本语法逻辑错误和字词错误检测,并给出文本修改建议;标点修改模块,用于服务器对实时录入的新闻稿件文字进行标点符号错误检测,并给出标点修改建议;过滤修改模块,用于服务器对经过检测甄别修改后的新闻稿件文字进行敏感词汇检测过滤,并给出过滤修改建议;替换模块,用于服务器对过滤后的新闻稿件文字进行同义词替换,以使新闻稿件文字更加精炼准确;执行模块,用于服务器将上述步骤中的修改建议采纳存储在服务器的缓存器内以实时动态扩充历史库并提升服务器的自训练学习能力,同时将修改生成的新闻稿件通过通讯组件传输到终端设备。
76.在上述多个功能模块的相互配合作用下,将新闻从业者撰写的新闻稿件扫描传输到服务器进行修改优化处理,配合服务器内独有的时政新闻数据库和自定义时政热点词库,添加了自然语言处理技术,融合了中文文本纠错、标点符号纠错、同义词替换、时政专有名词提示以及敏感词汇标记过滤等功能,辅助新闻从业者进行新闻稿件创造,获取高质量的新闻稿件,有利于提升新闻从业者的写作效率和写作质量。
77.优选的,传输组件包括扫描器和转换传输器,所述转换传输器的型号为bpc-817s,在转换传输器上设有4个引脚,所述转换传输器的一号引脚与扫描仪的输出端相连,在转换传输器的一号引脚和二号引脚之间设有相并联的第一电阻和第二电阻;在转换传输器的三号引脚通过第三电阻连接有三极管,在三极管的基极和发射极之间设有第五电阻,在三极管的发射极上通过通讯线与服务器相连;在转换传输器的四号引脚上通过相并联的第四电阻和第一二极管连接有电源,采用全景扫描的形式,将文字信息转换成画像信息,再转换成电信号,输入到服务器内,从而触发服务器进入工作状态,开始对新闻稿件进行修改优化,生成高质量的新闻稿件。
78.生成高质量的新闻稿件之后,需要通过通讯组件传输到终端设备,优选的,通讯组件包括相配合设置的rs485通讯器、无线收发器和gprs通讯器,可以根据终端设备的类型和
应用场景的差异来选取不同的通讯设备,保证信息数据的精准传输,从而将高质量的新闻稿件展示给用户,方便进行查看。
79.对于基于数据追踪的新闻稿件画像生成方法,主要包括以下步骤:服务器启动通过传输组件进行新闻稿件文字的录入,同时载入数据库来辅助进行新闻稿件的撰写生成,所述数据库包括专有新闻语料库、素材库和自定义时政热点词库;基于新闻语料库对实时录入的新闻稿件文字进行时政专有名词提示,以提升新闻稿件用词的专业性和精准度,并给出文本修改建议;基于素材库和自定义时政热点词库对实时录入的新闻稿件文字进行文本语法逻辑错误和字词错误检测,并给出文本修改建议;对实时录入的新闻稿件文字进行标点符号错误检测,并给出标点修改建议;对经过检测甄别修改后的新闻稿件文字进行敏感词汇检测过滤,并给出过滤修改建议;对过滤后的新闻稿件文字进行同义词替换,以使新闻稿件文字更加精炼准确;将上述步骤中的修改建议采纳存储在服务器的缓存器内以实时动态扩充历史库并提升服务器的自训练学习能力,同时将修改生成的新闻稿件通过通讯组件传输到终端设备。
80.进一步的,本技术方案中的检测修改方法与现有的中文纠错方式存在较大差异和改进,基于更加特定的领域,使用更加海量的行业数据和自定义行业词库,具有更加强大的语言表征能力,语言模型效果更好,计算效率大幅度提升,并且能够获取更加准确的纠错结果。
81.综上所述,本发明实施例中的基于数据追踪的新闻稿件画像生成方法和系统基于多类型功能模块的相互联动作用,配合独有的时政新闻数据库和自定义时政热点词库,添加了自然语言处理技术,融合了中文文本纠错、标点符号纠错、同义词替换、时政专有名词提示以及敏感词汇标记过滤等一系列功能,使得新闻稿件的撰写更加人性化和智能化,实现数据传输和追溯,从而显著提升新闻从业者编辑撰写新闻稿件的工作效率和新闻稿件的撰写质量,同时将生成的新闻稿件采用特定的通讯器传输到不同的终端设备,方便新闻稿件的推广和发布。
82.上述具体实施方式不能作为对本发明保护范围的限制,对于本技术领域的技术人员来说,对本发明实施方式所做出的任何替代改进或变换均落在本发明的保护范围内。
83.本发明未详述之处,均为本技术领域技术人员的公知技术。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1