字串辨识方法与机器学习方法与流程

文档序号:14505094阅读:402来源:国知局

本发明公开了一种字串辨识方法与机器学习方法,更具体的说,是降低资讯离散度的字串辨识方法与机器学习方法。



背景技术:

深度学习、类神经网络等人工智能技术在近年来快速地发展。人工智能领域中另一个重要的技术是机器学习。其中一种机器学习的方法通常是提供大量文件给计算机装置,使计算机装置从大量文件中建构出特定的判读原则以及对应的其他人工智能运作原则。

然而,在某些领域中,文件带有大量的缩写、代号,而且每个人可能用不同的代号、缩写来指涉同一件事。而对于计算机装置来说,不同的代号、缩写就会被判读成不同的事物。因此,如何增进计算机装置判读代号、缩写的能力,为有待克服的方法。



技术实现要素:

有鉴于上述问题,本发明旨在提供一种字串辨识方法与应用此方法的机器学习方法。以增进计算机装置判读代号与缩写的能力。

本发明提供了一种字串辨识方法,包含:依据字串内容,从多个关键字资料库中选取对应的关键字资料库,其中该关键字资料库定义有至少一字首关键字;比对该字串内容与该至少一字首关键字;当该字串内容对应于该至少一字首关键字其中之一时,依照对应的该字首关键字的定义更新该字串内容;以及当该字串内容不对应于该至少一字首关键字其中任一时,选择性地结束程序,并输出更新的该字串内容。

优选的,在前述字串辨识方法之后,依据更新的该字串内容进行机器学习。本发明关联于一种自然语言处理方法,可有效解决现行物联网架构中关于字串辨识及机器学习所存在的问题。

以上关于本发明内容的说明及以下的实施方式的说明用以示范与解释本发明的精神与原理,并且提供本发明的权利要求范围做更进一步的解释。

附图说明

图1是依据本发明一实施例的字串辨识方法流程图。

符号说明:

s110~s140步骤

具体实施方式:

以下在实施方式中详细叙述本发明的详细特征以及优点,其内容足以使任何熟习相关技艺者了解本发明的技术内容并据以实施,且根据本说明书所公开的内容、权利要求范围及图式,任何熟习相关技艺者可轻易地理解本发明相关的目的及优点。以下的实施例是进一步详细说明本发明的观点,但非以任何观点限制本发明的范畴。

依据本发明一实施例的字串辨识方法如图1所示,有下列步骤,其中下列步骤可以用具有一个处理器与一个储存媒介的计算机装置来执行。如步骤s110,依据字串内容,从多个关键字资料库中选取对应的关键字资料库,其中该关键字资料库定义有至少一字首关键字。步骤s120,比对该字串内容与该至少一字首关键字。步骤s130,当该字串内容对应于该至少一字首关键字其中之一时,依照对应的该字首关键字的定义更新该字串内容。步骤s140,当该字串内容不对应于该至少一字首关键字其中任一时,选择性地结束程序,并输出更新的该字串内容。

在一实施例中,步骤s110是依据该字串的一个或多个起始字元,在该些关键字资料库搜寻对应的一字首关键字,以确定该字串内容对应的该关键字资料库。举例来说,当得到一个字串win2008_xxxr2x64,则依据其起始字元win,判断可能指涉windows,因此是应该搜寻关于微软的产品的关键字资料库。

然而,如果得到的字串是w2008r2x64,而关键字资料库中没有一个关键字是w时,由字根关键字2008及/或字尾关键字r2,寻找有这两个关键字的关键字资料库。因此可以找到微软产品的关键字资料库。并且关键字2008与关键字r2对应到的是跟windows有关的字首,因此计算机可以判断w可能指涉的是windows。因此计算机将w新增为字首关键字,其定义为windows。关于关键字资料库定义方式例如表1所示。

表1

在一实施例中,关键字资料库中的每个字首关键字会有对应的字根关键字,以前述windows的例子来说,字根关键字例如为95、98、me、2000、xp、2008、vista、7、8、10等等。而在步骤s130中,比对字串内容与前述的字根关键字。当该字串内容对应于该至少一字根关键字其中之一时,依照对应的该字根关键字的定义更新该字串内容。以前述例子来说,会判断2008_xxx应该是对应到字根关键字2008,并对应的更新字串内容。当该字串内容不对应于该至少一字根关键字其中任一时,选择性地结束程序,并输出更新的该字串内容。举例来说,一个字串w2007要在微软产品关键字资料库中的windows关键字下就会找不到对应的字根关键字,因此在windows关键字下搜寻的程序可以被终结。此时,计算机装置可以重新判断字元w对应的字首关键字w是指涉的定义是word,因此计算机装置将w2007更新为word2007,并继续进一步的搜寻与更新字串的程序。在自然语言处理技术中,寻找字根关键字、字首关键字、字尾关键字等技术已经相当成熟,在此不加以赘述。

在一实施例中,关键字资料库中的每个字首关键字会有对应的字尾关键字,以前述windows的例子来说,字尾关键字例如为x32、x64、r2等等。而在步骤s130中,比对该字串内容与该至少一字尾关键字。当该字串内容对应于该至少一字尾关键字其中之一时,依照对应的该字尾关键字的定义更新该字串内容。当该字串内容不对应于该至少一字尾关键字其中任一时,选择性地结束程序,并输出更新的该字串内容。其程序类似于字根关键字的处理,因此在此不再赘述。在一实施例中,当搜寻字串中可能的字尾关键字时,是从该字串内容中对应该字首关键字的字元起,比对每一字元是否对应于该至少一字尾关键字其中之一。举例来说,在w2008r2x64这个字串中,当判断w是字首关键字,则往后的2008不是字尾关键字,接着往后寻找r是字尾关键字。

因此,前述的字串辨识方法,其关键字资料库的每一个字首关键字对应于一个或多个字根关键字与一个及/或多个字尾关键字。反之亦然,因此在一实施例中,每个字首关键字的定义值除了本身的定义以外,更包含了对应的字根关键字的定义及/或对应的字尾关键字的定义。同样的,每个字根关键字的定义值除了本身的定义以外,更包含了对应的字首关键字的定义及/或对应的字尾关键字的定义。每个字尾关键字的定义值除了本身的定义以外,更包含了对应的字根关键字的定义及/或对应的字首关键字的定义。从而使得关键字彼此有连结关系,因此能提高关键字搜寻与更新的效率。

具体来说,当计算机装置收集到一个领域的100笔文献资料时,首先可以由操作人员或是计算机装置从100笔文献资料中选取例如20篇文献资料。并由计算机装置或操作人员将这20篇文献的关键字建立起一个关键字资料库,这个关键字资料库定义了一些字首关键字、一些字根关键字或是一些字尾关键字。关键字资料库可能只定义了字首关键字,也可能是只定义了字根关键字、或是字尾关键字。而后当计算机装置读取其他80篇文献,或是后续的相关文献时,可以依照本发明前述实施例所定义的方式,来使得文献的内容更具有一致性,降低计算机要进行机器学习的门槛。此外,当有相关的文献新增进来后,藉由前述的方式也可以扩增关键字资料库,使得本发明所公开的方法更具可实施性。

而依据本发明一实施例的机器学习资料获取方法,包含前述任意一个实施例的字串辨识方法。当得到更新的字串内容后,计算机装置依据更新的该字串内容进行机器学习。

此外,在本发明另一实施例中,计算机装置可以更具有储存媒介中的资料库,藉此计算机得以依据资料库来建立每个使用者的关键字使用。例如某甲习惯用w2003来指涉word2003,而习惯用视窗2000来指涉windows2000,则计算机归纳出某甲使用关键字的习惯并储存于储存媒介中。当某甲对计算机装置提出一个需求,而计算机装置要推荐windows10给某甲的时候,计算机装置对某甲呈现「视窗10」的文字。如此,也能更贴合使用者的使用习惯。

由于字串内容已经依据定义重新更新为统一的规格,因此对于计算机学习来说,字串的离散程度降低,机器学习的门槛也因此降低。

虽然本发明以前述的实施例公开如上,然其并非用以限定本发明。在不脱离本发明的精神和范围内,所为之更动与润饰,均属本发明的专利保护范围。关于本发明所界定的保护范围请参考权利要求范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1