基于聊天数据的信息定向抓取方法及信息管理系统与流程

文档序号:17481209发布日期:2019-04-20 06:28阅读:280来源:国知局
基于聊天数据的信息定向抓取方法及信息管理系统与流程

本发明涉及信息处理技术领域,尤其涉及一种基于聊天数据的信息定向抓取方法及信息管理系统。



背景技术:

随着网络通信的飞速发展,qq、微信等聊天软件已成为人们日常交流必不可少的交流工具,无论是在日常生活中,还是在工作中,几乎都在某种程度上依赖这些聊天软件来进行信息传输,在享受到网络通信技术所带来的便捷性、高效性的同时,也带来了信息管理混乱、遗漏等问题。

举例而言,现在的公司,可能借助各种各样的聊天工具中的群组功能进行线上业务交流,主流的一般使用qq群、微信群和钉钉群,以软件开发项目为例,线上需求讨论时,有一些是大家提出来的想法,有一些是决定要实现的功能,这些聊天数据会以自然的形式交杂在一起;又比如在项目测试阶段,测试人员测出bug后会直接发在项目群里,开发人员看到以后也会发信息询问测试人员详情,修复完成后也会在群上通知大家,如果同时有多个测试人员与多个开发人员在群上交流不同的问题,这些信息就会在交流群中完全无规律的交杂在一起,上面举例的两个场景,都非常不利于有效信息的记录与回溯,从而导致无法快速、准确的从这些信息记录中获取个人需求的有效信息。



技术实现要素:

为了解决上述问题,本发明提供了一种基于聊天数据的信息定向抓取方法,所述方法包括步骤:

设置至少一信息抓取主题;

定向遍历聊天软件所生成的聊天数据,查找与所述主题相关的目标数据,其中所述目标信息包含目标聊天记录及目标共享文档;

保存所述目标数据至指定路径中。

在一实施中,在所述保存所述目标数据至指定路径中的同时记录系统时间为所述目标数据的保存时间。

在一实施中,在所述定向遍历聊天软件所生成的聊天数据步骤前,确定所述目标数据的最近一次保存时间;所述定向遍历聊天软件所产生的聊天数据具体包含:

基于所述最近一次保存时间定向遍历所述聊天软件中生成时间晚于所述最近一次保存时间的所述聊天数据。

在一实施中,所述目标共享文档包含文档标题中包含所述主题的共享文档,以及所述目标聊天记录中发言人在预设时间段内上传的共享文档。

在一实施中,所述预设时间段包含所述发言人在发送所述目标聊天记录后的一预设时长。

在一实施中,所述设置至少一信息抓取主题具体包含:新建所述目标聊天记录的保存文档;以所述主题命名所述保存文档。

在一实施中,所述查找与所述主题相关的目标数据具体包含:

在定位到每一条所述目标聊天记录后,保存所述目标聊天记录的前后预设条聊天记录作为所述目标聊天记录的延伸信息。

由此可见,本发明实施例所提供的基于聊天数据的信息定向抓取方法,可基于用户设置的信息抓取主题,从聊天工具所生成的聊天数据中定向抓取目标数据,并单独保存在指定的路径中,不仅便于用户从繁杂的聊天数据中,快速获取到所关注的信息,还能对这些目标数据进行自行管理,为用户提供了便捷性;更进一步的,在目标数据不仅包含了目标聊天记录,还包含了与主题相关的共享文档,保证了数据的完整性,为用户提供了更全面的数据抓取体验;另一方面,用户可直接通过新建文档的方式设置主题关键字,无需进行额外的设置操作,不仅在操作简单,而且在后续查找文档时也可更快速的定位。

此外,基于同一的发明构思,本发明还提供了一种基于聊天数据的信息管理系统,所述系统运行在计算机设备上,并基于上述基于聊天数据的信息定向抓取方法实现信息的管理。

在一实施中,所述系统包含:

用户操作单元,提供用户需求信息的输入接口,其中所述用户需求信息包含信息抓取主题、信息保存路径;

信息处理单元,基于所述用户需求信息从用户本地安装的聊天软件所生成的聊天数据中,抓取与所述主题相关的目标数据,并保存在所述信息保存路径中。

在一实施中,所述系统更包含权限管理单元,通过用户输入的身份信息验证用户合法性。

附图说明

一个或多个实施方式通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施方式的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。

图1绘示本发明第一实施例所提供的基于聊天数据的信息定向抓取方法流程图;

图2绘示本发明第二实施例所提供的基于聊天数据的信息管理系统结构示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。

本发明第一实施例提供了一种基于聊天数据的信息定向抓取方法,可对聊天软件中生成的聊天数据进行定向抓取并保存,从而为用户筛选出关键信息,并集中呈现,以便于查阅。

请参照图1,图1绘示本发明第一实施例所提供的基于聊天数据的信息定向抓取方法流程图。

如图1所示,文本处理方法具体包含以下步骤:

步骤101,设置至少一信息抓取主题。

其中,信息抓取主题可根据用户需求来进行设置,可包含内容关键词,即聊天数据中,包含有该关键词的数据;账户名,即指定账户所发送的聊天消息。

例如,可设置信息抓取主题为包含内容关键词:“产品001测试”,那么后续将会从相应聊天数据中抓取出包含该内容关键词的相关数据。

步骤102,定向遍历聊天软件所生成的聊天数据,查找与所述主题相关的目标数据。

具体而言,可基于聊天软件所提供的接口,来遍历聊天软件所生成的聊天数据,也可以通过遍历聊天软件保存在本地的记录文件来进行数据查找,具体的实施方式可基于不同聊天软件的实际情况来选取,本发明并不以此为限。

值得注意的是,用户在设置主题的同时,也可选取需要遍历的聊天软件,例如,可选取只对微信中所产生的聊天数据进行抓取,或者选取微信和qq中所产生的聊天数据进行抓取。在用户对聊天软件进行选定后,本步骤中,将分别对选定的聊天软件中所生成的数据进行遍历,分别查找与主题相关的目标数据。

其中,所述目标数据是指与用户设置的信息抓取主题相关的聊天数据,判断是否与主题相关的方式可包含判断聊天数据中是否包含用户设置的内容关键词,或发言人的账户名是否与用户设置的账号名相同,若包含内容关键词或账户名相同,那么可确定该聊天数据为目标数据。

在一实施中,聊天数据可包含各发言人发送的言论信息、发送时间记录及上传的共享文档,故目标数据也可包含目标聊天记录及目标共享文档。

其中,目标共享文档可包含文档标题中包含所述主题的共享文档,以及所述目标聊天记录中发言人在预设时间段内上传的共享文档。所述预设时间段包含所述发言人在发送所述目标聊天记录后的一预设时长。

举例而言,当在群组模式的对话窗口下,可能会同时针对不同的讨论主题交织发送消息及上传相关的共享文档,由于在实际应用场景下,若公司没有硬性规定,一般而言,文档命名都是基于个人而提出的,具有不确定性,有些共享文档可能刚好以设置的关键词进行命名,但有些共享文档可能与目标主题相关,但并标题中并没有包含关键词,那么,若只通过标题中是否包含关键词来确定共享文档是否与主题相关,可能就会错过某些相关的重要文档。如此一来,可结合目标聊天记录来同步确定与主题相关的共享文档。

具体而言,当共享文档被上传后,会记录上传时间及上传账户名,而根据日常的聊天习惯,一般在群组中上传了共享文档之前或之后的一时长内,会在群组里发送文档上传的提醒,以提醒相关人员进行查看。

例如,用户a在群组中上传了一份测试报告后,会在群中发送消息“产品001测试的测试报告已完成,上传在群文件中了,请大家查收。”那么该条聊天记录将会被识别为目标聊天记录,但由于测试报告的标题为“测试报告v1”,而无法被直接识别为目标共享文档,在本实施例中,可通过目标聊天记录定位到用户a及目标聊天记录的发送时间,并基于用户a的账户名与发送时间从共享文件夹中查找符合条件的目标共享文档。具体过程可包含:先通过用户a的账户名定位到共享文件夹中用户a上传的所有共享文件,在基于发送时间及预设时长,例如10分钟,查找在发送时间前10分钟及后10分钟这段时间内是否有文档上传,若有,则确定该文档为目标共享文档。

如此一来,可在一定程度上避免相关数据的遗漏,提升信息抓取的准确度及完整性。

步骤103,保存所述目标数据至指定路径中。

在经过步骤102的查找获取到目标数据后,可将目标数据保存在预先指定的路径中,其中目标聊天记录可统一保存在指定路径中预先建立的文档中,较佳的文档类型可为.doc,.txt格式;目标共享文档可统一保存在指定路径中,较佳的,可将目标共享文档的格式转换为.txt格式,以提升文档的兼容性,便于用户编辑处理。

在一实施例中,在保存所述目标数据至指定路径中的同时,还会记录系统时间为所述目标数据的保存时间,从而用于标记数据的保存时间,以便于后续的查阅和管理。

如此一来,在定向遍历聊天软件所生成的聊天数据步骤前,可先示是否已经保存过相关的目标数据,并确定所述目标数据的最近一次保存时间,从而基于所述最近一次保存时间定向遍历所述聊天软件中生成时间晚于所述最近一次保存时间的所述聊天数据。以避免重复遍历和查找,提升处理速率。

更进一步的,在定位到每一条目标聊天记录后,可保存所述目标聊天记录的前后预设条聊天记录作为所述目标聊天记录的延伸信息。其中获取延伸信息的方式有两种:

第一,确定目标聊天记录的发言人,获取该发言人在该条目标聊天记录前后发送的至少1条聊天记录及再次时间段内,其他发言人所发送的全部聊天记录。具体可参照以下示例:

发言人a:测试项目的截止时间改为10月30号,大家注意加快进度。

发言人b:哪个测试项目啊,这么多项目呢?

发言人a:抱歉,是产品001测试项目。

发言人c:好忙啊,感觉做不完,求增援。

发言人a:小张,你临时过去增援吧。

以上聊天记录中,发言人a发送的“抱歉,是产品001测试项目。”将会因包含主题关键词,被识别为目标聊天记录,然而我们可以看出,前后的聊天记录都包含了有效信息,若单只保存该条目标聊天记录,将无法获知全部信息,那么通过第一种方式来加入延伸信息,即,上述聊天记录中,除了目标聊天记录外,其他都会作为目标聊天记录的延伸信息进行保存,以便于用户获知更有效的内容。

第二,获取目标聊天记录的前后3条聊天记录,作为延伸信息。

无论是第一种方式,还是第二种方式,都是为了避免目标聊天记录中所包含的有效信息不足而提出的补充措施,通过加入延伸信息来辅助对目标聊天记录的补充,可更准确的为用户提供有效信息,也可在一定程度上避免了有效信息的疏漏。

在本发明的实施例中,可通过新建文档的方式设定信息抓取主题,具体可包含:新建所述目标聊天记录的保存文档;并以所述主题命名所述保存文档。如此一来,可自动将目标聊天记录保存在新建的文档中,而也可以通过文档的名称来快速定位用户所需查阅的文档数据。

综上所述,本发明实施例所提供的基于聊天数据的信息定向抓取方法,可基于用户设置的信息抓取主题,从聊天工具所生成的聊天数据中定向抓取目标数据,并单独保存在指定的路径中,不仅便于用户从繁杂的聊天数据中,快速获取到所关注的信息,还能对这些目标数据进行自行管理,为用户提供了便捷性;更进一步的,在目标数据不仅包含了目标聊天记录,还包含了与主题相关的共享文档,保证了数据的完整性,为用户提供了更全面的数据抓取体验;另一方面,用户可直接通过新建文档的方式设置主题关键字,无需进行额外的设置操作,不仅在操作简单,而且在后续查找文档时也可更快速的定位。

基于同样的发明构思,本发明的实施例还提供了一种基于聊天数据的信息管理系统,可基于上述方法实现信息管理。

具体而言,所述管理系统可基于c/s架构实现,即以客户端程序的方式安装并运行在客户端本地;也可以基于b/s架构进行实现,即用户通过网络浏览器访问服务器端程序,并基于系统提供的网络页面进行相关的操作。无论选用哪种架构实现,所述信息管理系统都是运行在计算机设备上,并通过程序的运行来实现具体的方法流程。

请参照图2,图2绘示本发明第二实施例所提供的基于聊天数据的信息管理系统结构示意图。

如图2所示,所述管理系统包含:

用户操作单元210,提供用户需求信息的输入接口,其中所述用户需求信息包含信息抓取主题、信息保存路径。

在一实施中,用户操作单元210提供一操作平台给用户,用户可在平台上新建文件夹,及文档,新建文档的名称则为信息抓取主题,例如内容关键词或账户名等。如此一来,新建的文档则对应用来保存抓取到的相关目标聊天记录,而文件夹路径则用于保存目标共享文档。

此外,用户还可以自行在平台上对文件夹及相关文档进行管理。

更进一步的,用户还可以通过用户操作单元210提供的配置信息选项,设置需要抓取的聊天工具及抓取的频率等配置信息,后续管理系统将基于这些配置信息进行聊天数据的定向抓取。

信息处理单元220,基于所述用户需求信息从用户本地安装的聊天软件所生成的聊天数据中,抓取与所述主题相关的目标数据,并保存在所述信息保存路径中。其中,信息处理单元220定向抓取信息的方法具体可参照图1所示实施例中的基于聊天数据的信息定向抓取方法,在此不进行赘述。

此外,为了保护用户数据的安全性,所述管理系统还包含权限管理单元,可通过用户输入的身份信息验证用户合法性。

本实施例所提供的基于聊天数据的信息管理系统可为用户提供简单的操作平台,通过新建文档的方式来进行信息抓取主题及保存路径的设置,操作便捷、简单;并基于用户设置信息,进行聊天数据的定向抓取,可方便用户对各类繁杂的聊天记录进行管理、分类,并保存。

本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施方式,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1