一种多源APP软件数据处理方法、装置

文档序号:37773995发布日期:2024-04-25 11:00阅读:6来源:国知局
一种多源APP软件数据处理方法、装置

本发明涉及一种多源app软件数据处理方法、装置,属于app软件数据分析领域。


背景技术:

1、随着移动应用市场规模不断扩大,app软件数据(例如用户操作、日志和用户评论)的规模和复杂性持续增加。单一软件数据源包含的软件缺陷信息有限,现有研究大多使用孤立或零散的信息分析app软件缺陷,不能正确地理解软件缺陷,导致开发人员往往无法从单一软件数据源中获取足够的、有效的缺陷信息。

2、duan等人从app软件用户评论中筛选与app软件缺陷有关的用户评论,并从用户使用反馈中识别app软件缺陷。wang等人在最新的研究中提出arab方法,将用户评论文本的描述和评论属性相结合用以提取细粒度的用户操作和异常行为,并挖掘两者之间的关联关系。shu等人发现,用户在app软件中的行为可以体现软件功能的使用情况,这对识别app软件缺陷,推进app软件功能的开发和迭代具有重要意义。在基于日志进行软件缺陷分析方面,mei等人在最近的工作中提出了基于日志信息和cnn-text的软件系统异常检测方法(ctlog)。然而,mcmillan指出大多数的日志仅限于记录粗粒度的用户操作。上述方法在数据分析过程中未充分考虑多源软件数据之间异质性强、存在噪声和错误的问题,难以挖掘多源数据的潜在关联。

3、多源app软件数据之中含有丰富的缺陷信息,对开发人员快速理解和修复app软件缺陷,提升软件的用户体验和市场竞争力具有重要意义。然而,多源app软件数据中存在噪声、错误,不同源数据间语义、差异大等问题导致难以对其进行缺陷分析,因此,对多源app数据中包含的缺陷信息进行捕获、解析、筛选并获取有效的app软件缺陷内容亟待解决的问题。


技术实现思路

1、本发明提供了一种多源app软件数据处理方法、装置,以解决多源app软件数据中缺陷内容的提取问题。

2、本发明的技术方案是:

3、根据本发明的第一方面,提供了一种多源app软件数据处理方法,包括:step1、捕获多源app软件数据;step2、解析多源app软件数据;step3、筛选多源app软件缺陷内容;step4、抽取app软件缺陷内容。

4、所述多源app软件数据包括app软件用户评论数据、app软件用户操作数据、app软件运行日志数据;其中,app软件用户评论数据包括app软件名称、app软件评论星级、app软件评论文本;app软件用户操作数据包括app软件名称、app软件用户操作事件、app软件功能活动、app软件组件、app软件用户操作描述;app软件运行日志数据包括app软件名称、app软件日志级别、app软件日志记录。

5、所述step2具体包括:对app软件用户评论数据的app软件评论文本进行分词,获得分词后的app软件用户评论、app软件评论词性列表;依据app软件缺陷用户评论关键词列表对分词后的app软件用户评论进行词干化,获得词干化的app软件用户评论;基于androidui框架将app软件用户操作数据中app软件用户操作事件、app软件功能活动、app软件组件、app软件用户操作描述解析为细粒度的内容;依据细粒度的内容,统计app软件用户操作数据在相同app软件中发生比例。

6、所述筛选多源app软件缺陷内容,用于获得app软件用户差评评论、app软件缺陷用户操作、app软件缺陷运行日志。

7、所述step3具体包括:

8、step3.1、获取app软件用户评论数据datarev、app软件用户操作数据dataoperation、app软件用户日志数据datalog、分词后的app软件用户评论rev.segment、app软件评论词性列表rev.lexilist、词干化的app软件用户评论rev.standardcontent,执行step3.2;

9、step3.2、判断每一条app软件用户评论数据的app软件评论星级datarev.rarestar是否小于等于预设星级,若是,则执行step3.3,否则执行step3.5;

10、step3.3、将datarev.rarestar小于等于预设星级的用户评论作为app软件用户差评评论,执行step3.4;

11、step3.4、从rev.segment、rev.lexilist、rev.standardcontent中分别筛选与app软件用户差评评论对应的分词后的app软件用户差评评论derev.segment、app软件差评评论词性列表derev.lexilist、词干化的app软件用户差评评论derev.standardcontent,执行step3.6;

12、step3.5、舍弃该条app软件用户评论,执行step3.2;

13、step3.6、判断每一类app软件用户操作数据发生比例是否小于预设比例,若是,则执行step3.7,否则执行step3.8;

14、step3.7、将满足条件的app软件用户操作数据保存为app软件缺陷用户操作deoperation,执行step3.9;

15、step3.8、舍弃该条app软件用户操作数据,执行step3.6;

16、step3.9、判断每一条app软件运行日志数据的日志级别datalog.loglevel是否为预设级别,若是,则执行step3.11,否则执行step3.10;

17、step3.10、舍弃该条app软件运行日志,执行step3.9;

18、step3.11、将满足条件的app软件运行日志数据的app软件名称、app软件日志记录保存为app软件缺陷运行日志delog,结束step3。

19、所述step4具体包括:定义app软件缺陷内容为一个四元组<缺陷名称、缺陷表现、缺陷结果,缺陷原因>;在app软件用户差评评论存在于app软件缺陷关键词列表的情况下,对筛选的app软件用户差评评论进行词法分析,根据词法分析结果抽取缺陷名称、缺陷表现;从筛选的app软件缺陷用户操作中抽取其app软件功能活动、app软件组件、app软件用户操作描述作为缺陷结果;从筛选的app软件缺陷运行日志中抽取其app软件日志记录作为缺陷原因;定义并构建app软件缺陷内容异构图。

20、根据本发明的第二方面,提供了一种多源app软件数据处理装置,包括:捕获模块,用于捕获多源app软件数据;解析模块,用于解析多源app软件数据;筛选模块,用于筛选多源app软件缺陷内容;抽取模块,用于抽取app软件缺陷内容。

21、根据本发明的第三方面,提供了一种终端,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器被配置为执行上述中任一项所述的方法。

22、根据本发明的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,该程序被处理器执行时使处理器实现上述中任一项所述的方法。

23、本发明的有益效果是:

24、本发明首先基于3种工具捕获3个来源的app软件数据,包含app软件用户评论、app软件用户操作、app软件运行日志;其次,本发明解析多源app软件数据中与app软件缺陷有关的内容;接着对解析出来的与app软件缺陷相关的内容进行筛选,过滤不相关,冗余的内容;最后,定义app软件缺陷内容为一个四元组<缺陷名称、缺陷表现、缺陷结果,缺陷原因>,从筛选的app软件缺陷相关内容中抽取app软件缺陷内容,并构建app软件缺陷内容异构图。

25、综上,本发明有助于从大规模、多源app软件数据中解析、筛选出与app软件缺陷相关的内容,并将抽取的pp软件缺陷内容构建为一个app软件缺陷内容异构图,可表示app软件缺陷内容之间的关联关系,支持对app软件缺陷内容的关联分析,为开发人员提供有效的app软件缺陷信息。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1