文件分类系统及方法

文档序号：6629493阅读：232来源：国知局

文件分类系统及方法
【专利摘要】一种文件分类系统与方法在此揭露，其中该系统包括储存装置、接收装置以及处理器。储存装置储存至少一辨识音频。接收装置取得一声音文件或一影像文件。处理器将关连于该声音文件或该影像文件的一相关音频与该至少一辨识音频进行比对以产生一处理结果，进而根据该处理结果自动进行该声音文件或该影像文件的分类，以消除人工分类文件麻烦。
【专利说明】文件分类系统及方法

【技术领域】
[0001]本发明是有关于一种分类技术，且特别是有关于一种文件分类系统与文件分类方法。

【背景技术】
[0002]录音或录影技术发展已届一段时日，其中大多数乃针对声音或影像撷取技术方面进行研究改良，较少着墨于录制完成文件的分门别类存放方式。
[0003]一般而言，当录音或录影完成后产生的声音文件或影像文件常存放于相同位置，而且命名规则常使用相似的英文与/或数字组合依序递增作为文件名称；除非使用者自行重新命名，否则难以单就文件名称确定文件内容。经过长时间之后，当文件数目庞大，而且使用者未定期整理的情况下，欲从众多文件中找寻特定文件，实非容易之事。

【发明内容】

[0004]为解决录音或录影时文件未能适当分类的问题，本发明的一方面是提供一种文件分类系统，其包含储存装置、接收装置与处理器。储存装置储存至少一辨识音频，接收装置取得一声音文件或一影像文件。处理器将关连于该声音文件或该影像文件的一相关音频与该至少一辨识音频进行比对以产生一处理结果，进而根据该处理结果自动进行声音文件或影像文件的分类。
[0005]本发明的另一方面是提供一种文件分类方法，其包含以下步骤:(A)储存至少一辨识音频；(B)取得一声音文件或一影像文件；(C)将关连于该声音文件或该影像文件的一相关音频与该至少一辨识音频进行比对以产生一处理结果，进而根据该处理结果自动进行该声音文件或该影像文件的分类。
[0006]综上所述，本发明是以改善文件分类方式出发点，提供了语音归档辨识机制，让文件快速分类，免于繁琐的操作。
[0007]以下将以实施方式对上述的说明作详细的描述，并对本发明的技术方案提供更进一步的解释。

【专利附图】

【附图说明】
[0008]为让本发明的上述和其他目的、特征、优点与实施例能更明显易懂，所附附图的说明如下:
[0009]图1是依照本发明第一实施例的文件分类系统示意图；
[0010]图2是依照本发明第二实施例的文件分类系统示意图；
[0011]图3是依照本发明第三实施例的文件分类系统示意图；
[0012]图4是依照本发明第四实施例的文件分类系统示意图；以及
[0013]图5是依照本发明第五实施例的文件分类方法流程图。

【具体实施方式】
[0014]为了使本发明的叙述更加详尽与完备，可参照附图及以下所述的各种实施例。但所提供的实施例并非用以限制本发明所涵盖的范围；步骤的描述亦非用以限制其执行的顺序，任何由重新组合，所产生具有均等功效的装置，皆为本发明所涵盖的范围。
[0015]请参考图1，其是绘示本发明的第一实施例的文件分类系统100。文件分类系统100包含储存装置130、接收装置140与处理器120。实作上，储存装置130可为硬盘、快闪记忆体或其他储存媒介，接收装置140可为至少一传输端口，其可依据实际需求为有线及/或无线的传输端口，且可依据实际需求为数字及/或模拟传输端口(如:HDM1、USB,3.5mm等等)内建或外接地连接至录音及/或录影装置，处理器120可为中央处理器、微控制器或其他电路。
[0016]在录音或录影之前，使用者(如:演讲者)可先将一段预录的语音作为辨识音频132并存放到储存装置130，由储存装置130储存辨识音频132。于录音或录影完成后，接收装置140接收声音文件或影像文件110，文件分类系统100可提示要求或演讲者选择语音归类后，处理器120将关连于声音文件或该影像文件110的一相关音频与辨识音频132进行比对以产生处理结果122，其中该处理结果122带有建议的分类信息，接着，处理器120根据处理结果122自动进行声音文件或影像文件110的分类。举例来说，若该相关音频与辨识音频132相匹配，这代表声音文件或影像文件110是演讲者本人的录音或录影数据，因此，处理器120自动将声音文件或该影像文件110归类至储存装置130中该演讲者所自订的类别，借此，免于繁琐的手动操作。
[0017]为了对本发明的辨识音频132的收录方式作进一步的阐述，请参照图2，其是绘示本发明的第二实施例的文件分类系统200，图2的文件分类系统200除了增加音频录制装置250以外，其余硬件与图1的文件分类系统100实质上相同。实作上，音频录制装置250可为麦克风或其他收音装置，此外，音频录制装置250亦可依据实际需求与接收装置140所内建或外接的录音装置整合为同一装置。
[0018]在声音文件或影像文件110被录制以前，使用者(如:演讲者)可透过文件分类系统200内建的音频录制装置250预录上述的辨识音频132以作为语音辨识的参考样本，简易方便。于录音或录影完成后，处理器120将关连于声音文件或该影像文件110的相关音频与辨识音频132进行比对以产生处理结果122，进而根据处理结果122自动进行声音文件或影像文件110的分类。
[0019]以下将搭配图3、图4来说明关连于声音文件或该影像文件110的相关音频的各种例子，请先参照图3，其是绘示本发明的第三实施例的文件分类系统300。图3的文件分类系统300除了增加音频撷取装置360以外，其余硬件与图2的文件分类系统200实质上相同。实作上，音频撷取装置360可为音效卡、音频处理芯片或其他类似元件。
[0020]在声音文件或影像文件110被录制完成之后，音频撷取装置360从声音文件或影像文件110中撷取出的待决音频(pending aud1 signal) 362作为关连于声音文件或该影像文件110的相关音频。接着，处理器120比对待决音频362与辨识音频132以产生处理结果122，进而根据处理结果122自动进行声音文件或影像文件110的分类。
[0021]关于具体的分类方式，于一实施例中，在录音或录影之前，演讲者可操作文件分类系统300或外部计算机装置以自订专属的类别334 (如=Windows操作系统的一资料夹)，使储存装置130记录类别334，由处理器120建立该类别334的路径与辨识音频132之间的关联，在声音文件或影像文件110被录制完成之后，处理器120分析及比对待决音频362的声学特征(acoustic feature)与辨识音频132的声学特征，当待决音频362的声学特征与辨识音频132的声学特征相匹配时，处理器120将声音文件或影像文件110归类至类别234。
[0022]或者，于另一实施例中，在声音文件或影像文件110被录制完成之后，处理器120分析及比对待决音频362的语意特征(semantic feature)与辨识音频132的语意特征，当待决音频362的语意特征与辨识音频132的语意特征相匹配时，处理器120将声音文件或影像文件110归类至类别234。
[0023]于文件分类系统300的语音辨识机制中，上述声学特征例如人声与背景音的组成比例，可用以协助判断进行场景辨识或者人声辨识；场景辨识可透过背景音的性质，推测周遭物体、发生的事件；人声辨识则可利用人声的音质特征，如声纹作为比对依据。语意特征例如可透过辨识音频当中的关键字词，或者透过常用词句、名字等。上述的声学特征与语意特征不限于列举范围，凡可作为场景辨识依据的声学特征或语意特征，均应包含在本发明的范围之内。
[0024]除了待决音频362可作为关连于声音文件或该影像文件110的相关音频之外，相关音频的另一例子，请参考图4，其是绘示本发明的第四实施例的文件分类系统400。图4的文件分类系统400的硬件架构实质上与图2的文件分类系统200的硬件架构相同。
[0025]在声音文件或影像文件110被录制完成之后，演讲者念出一段语句作为补充音频452，使音频录制装置250接收补充音频452作为上述关连于声音文件或该影像文件110的相关音频，接着，处理器120比对补充音频452与辨识音频132以产生处理结果122，进而根据处理结果122自动进行声音文件或影像文件110的分类。
[0026]关于具体的分类方式，于一实施例中，在录音或录影之前，演讲者可操作文件分类系统400或外部计算机装置以自订专属的类别434 (如=Windows操作系统的一资料夹)，使储存装置130记录类别434，由处理器120建立该类别434的路径与辨识音频132之间的关联，在声音文件或影像文件110被录制完成之后，处理器120分析及比对补充音频452的声学特征与辨识音频132的声学特征，当补充音频452的声学特征与辨识音频132的声学特征相匹配时，处理器120将声音文件或影像文件110归类至类别434。
[0027]或者，于另一实施例中，在声音文件或影像文件110被录制完成之后，处理器120分析及比对补充音频452的语意特征与辨识音频132的语意特征，当补充音频452的语意特征与辨识音频132的语意特征相匹配时，处理器120将声音文件或影像文件110归类至类别434。
[0028]于文件分类系统400的语音辨识机制中，声学特征例如人声与背景音的组成比例，可用以协助判断进行场景辨识或者人声辨识；场景辨识可透过背景音的性质，推测周遭物体、发生的事件；人声辨识则可利用人声的音质特征，如声纹作为比对依据。语意特征例如可透过辨识音频当中的关键字词，或者透过常用词句、名字等。上述的声学特征与语意特征不限于列举范围，凡可作为场景辨识依据的声学特征或语意特征，均应包含在本发明的范围之内。
[0029]图5是本发明的第五实施例的文件分类方法500的流程图。文件分类方法500可经由一计算机系统来实作，例如前述的文件分类系统100、200、300、400，亦可将部分功能实作为至少一计算机程序，并储存于一计算机可读取的记录媒体中，该至少一计算机程序具有多个指令，这些指令在一计算机上执行时使该计算机执行文件分类方法500。
[0030]如图5所示，文件分类方法500包括多个步骤S502?S506。然熟悉本案的技艺者应了解到，在本实施例中所提及的步骤，除特别叙明其顺序者外，均可依实际需要调整其前后顺序，甚至可同时或部分同时执行。至于实施这些步骤的硬件装置，由于以上实施例已具体揭露，因此不再重复赘述的。
[0031]首先，在录音或录影之前，于步骤S502，预录及储存辨识音频以作为语音辨识的参考样本，该辨识音频可为使用者(如:演讲者)的一段语音。接着，于录音或录影完成后，于步骤S504，接收声音文件或影像文件，系统可提示要求或演讲者选择语音归类，然后，于步骤S506，将关连于声音文件或该影像文件的一相关音频与辨识音频进行比对以产生处理结果，进而根据处理结果自动进行声音文件或影像文件的分类。如此，通过文件分类方法500的语音归档辨识机制，让文件快速分类，免于繁琐的手动操作。
[0032]具体而言，在录音或录影之前，演讲者可操作计算机系统以自订专属的类别(如:Windows操作系统的一资料夹)，于步骤S502，建立该类别的路径与辨识音频之间的关联。于步骤S506中，若关连于声音文件或该影像文件的相关音频与辨识音频相匹配，这代表是演讲者本人的录音或录影，因此，处理器120自动将声音文件或该影像文件110归类至储存装置130中该演讲者所自订的类别。
[0033]上述相关音频有至少两种实作方式，关于第一种方式，于一实施例中，步骤S506从声音文件或影像文件中撷取一待决音频以作为相关音频，分析及比对待决音频的声学特征与至少一辨识音频的声学特征，当待决音频的声学特征与至少一辨识音频的声学特征相匹配时，将声音文件或影像文件归类至该类别。
[0034]或者，于另一实施例中，步骤S506分析及比对待决音频的语意特征与至少一辨识音频的语意特征，当待决音频的语意特征与至少一辨识音频的语意特征相匹配时，将声音文件或影像文件归类至该类别。
[0035]关于相关音频的第二种实作方式，于一实施例中，步骤S506接收一补充音频以作为相关音频，其中的补充音频可以是演讲者在录音或录影完成后念出的一段语句；接着，步骤S506分析及比对至少一辨识音频的声学特征与补充音频的声学特征，当至少一辨识音频的声学特征与补充音频的声学特征相匹配时，将声音文件或影像文件归类至该类别。
[0036]或者，于另一实施例中，步骤S506分析及比对至少一辨识音频的语意特征与补充音频的语意特征，当至少一辨识音频的语意特征与补充音频的语意特征相匹配时，将待决音频归类至该类别。
[0037]上述步骤S506分析及比对的声学特征时,亦可利用音频的频率、频谱(frequencyspectrum)、振幅(amplitude)、相位(phase)、音长(durat1n)、声纹(voice print)或其任意组合，或是经过数学运算的结果、时域转换至频域(time domain to frequency domaintransform)的结果，以作为分析及比对的依据，且均应包含在本发明专利范围之内。进行场景辨识时，可透过辨识周遭的物体，例如不同鞋种发出的脚步声、不同交通工具、不同动物的鸣叫声等；亦可辨识发生的事件，例如风声、雨声、开关门声、不同类型的音乐等；人声辨识可根据不同人说话的音高(pitch)、口音腔调(accent)、节奏(rhythm)、音量(volume)、音色(tone quality)等，以识别不同人物的独特性。或者，使用者可依需求而自行定义声学特征的匹配程度的强弱以及判断条件的顺序，并储存于该储存装置中。凡可作为场景辨识或人声辨识依据的声学特征，均应包含在本发明专利范围之内。
[0038]上述步骤S506于分析的语意特征时，方式包含辨识音频当中的关键字词，例如不同运动的术语、不同场合(演讲、结婚典礼、毕业典礼、演唱会等)的用语可用以进行场景辨识；若为人声辨识则可透过常用词句、姓名、关系用语等。上述匹配程度例示说明如下:上位语(hypernym)和下位语(hyponym)、同义词(synonym)、近似概念、不同语言的翻译词汇、不同语言的姓名或一部分姓名均可定义为匹配程度高，并可依使用者需求而自行定义匹配程度的强弱以及判断条件的顺序，并储存于储存装置中。
[0039]上述的步骤S506可设定为自动依该处理结果进行分类，或者透过建议分类至一类别，让使用者得以确认该处理结果，可视使用需求弹性调整；例示其中一种分类形式为归档至如Windows操作系统的一资料夹内。
[0040]综上所述，本发明得以透过上述的实施例在每次录音或录影后，将文件即时分类至适当类别当中，以解决录音或录影文件在长时间未整理或是文件数目众多的情况下，难以迅速寻找到特定文件的问题，亦免除人工文件分类的麻烦。
[0041]虽然本发明已以实施方式揭露如上，然其并非用以限定本发明，任何熟悉此技艺者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰，因此本发明的保护范围当视权利要求书所界定的范围为准。
【权利要求】
1.一种文件分类系统，其特征在于，包含: 一储存装置，储存至少一辨识音频；一接收装置，取得一声音文件或一影像文件；以及一处理器，将关连于该声音文件或该影像文件的一相关音频与该至少一辨识音频进行比对以产生一处理结果，进而根据该处理结果自动进行该声音文件或该影像文件的分类。
2.根据权利要求1所述的文件分类系统，其特征在于，另包含: 一音频录制装置，在该声音文件或该影像文件被录制以前，预录该至少一辨识音频。
3.根据权利要求2所述的文件分类系统，其特征在于，另包含: 一音频撷取装置，从该声音文件或该影像文件中撷取一待决音频以作为该相关音频。
4.根据权利要求3所述的文件分类系统，其特征在于，其特征在于，该储存装置记录至少一类别，由该处理器建立该至少一类别的路径与该至少一辨识音频之间的关联，在该声音文件或该影像文件被录制完成之后，该处理器分析及比对该待决音频的声学特征与该至少一辨识音频的声学特征，当该待决音频的声学特征与该至少一辨识音频的声学特征相匹配时，该处理器将该声音文件或该影像文件归类至该至少一类别。
5.根据权利要求3所述的文件分类系统，其特征在于，该储存装置记录至少一类别，由该处理器建立该至少一类别的路径与该至少一辨识音频之间的关联，在该声音文件或该影像文件被录制完成之后，该处理器分析及比对该待决音频的语意特征与该至少一辨识音频的语意特征，当该待决音频的语意特征与该至少一辨识音频的语意特征相匹配时，该处理器将该声音文件或该影像文件归类至该至少一类别。
6.根据权利要求1所述的文件分类系统，其特征在于，另包含: 一音频录制装置，在该声音文件或该影像文件被录制完成之后，接收一补充音频以作为该相关首频。
7.根据权利要求6所述的文件分类系统，其特征在于，该储存装置记录至少一类别，由该处理器建立该至少一类别的路径与该至少一辨识音频之间的关联，在该声音文件或该影像文件被录制完成之后，该处理器分析及比对该至少一辨识音频的声学特征与该补充音频的声学特征，当该至少一辨识音频的声学特征与该补充音频的声学特征相匹配时，该处理器将该声音文件或该影像文件归类至该至少一类别。
8.根据权利要求6所述的文件分类系统，其特征在于，该储存装置记录至少一类别，由该处理器建立该至少一类别的路径与该至少一辨识音频之间的关联，在该声音文件或该影像文件被录制完成之后，该处理器分析及比对该至少一辨识音频的语意特征与该补充音频的语意特征，当该至少一辨识音频的语意特征与该补充音频的语意特征相匹配时，该处理器将该声音文件或该影像文件归类至该至少一类别。
9.一种文件分类方法，其特征在于，包含下列步骤: (A)储存至少一辨识音频； (B)取得一声音文件或一影像文件；以及 (C)将关连于该声音文件或该影像文件的一相关音频与该至少一辨识音频进行比对以产生一处理结果，进而根据该处理结果自动进行该声音文件或该影像文件的分类。
10.根据权利要求9所述的文件分类方法，其特征在于，步骤(A)包含: 在该声音文件或该影像文件被录制以前，预录该至少一辨识音频。
11.根据权利要求10所述的文件分类方法，其特征在于，步骤(C)包含: 从该声音文件或该影像文件中撷取一待决音频以作为该相关音频。
12.根据权利要求11所述的文件分类方法，其特征在于，步骤(A)包含:建立至少一类别的路径与该至少一辨识音频之间的关联；步骤(C)另包含:在该声音文件或该影像文件被录制完成之后，分析及比对该待决音频的声学特征与该至少一辨识音频的声学特征，当该待决音频的声学特征与该至少一辨识音频的声学特征相匹配时，将该声音文件或该影像文件归类至该至少一类别。
13.根据权利要求11所述的文件分类方法，其特征在于，步骤(A)包含:建立至少一类别的路径与该至少一辨识音频之间的关联；步骤(C)另包含:在该声音文件或该影像文件被录制完成之后，分析及比对该待决音频的语意特征与该至少一辨识音频的语意特征，当该待决音频的语意特征与该至少一辨识音频的语意特征相匹配时，将该声音文件或该影像文件归类至该至少一类别。
14.根据权利要求9所述的文件分类方法，其特征在于，步骤(C)包含: 在该声音文件或该影像文件被录制完成之后，接收一补充音频以作为该相关音频。
15.根据权利要求14所述的文件分类方法，其特征在于，步骤(A)包含:建立至少一类别的路径与该至少一辨识音频之间的关联；步骤(C)另包含:在该声音文件或该影像文件被录制完成之后，分析及比对该至少一辨识音频的声学特征与该补充音频的声学特征，当该至少一辨识音频的声学特征与该补充音频的声学特征相匹配时，将该声音文件或该影像文件归类至该至少一类别。
16.根据权利要求14所述的文件分类方法，其特征在于，步骤(A)包含:建立至少一类别的路径与该至少一辨识音频之间的关联；步骤(C)另包含:在该声音文件或该影像文件被录制完成之后，分析及比对该至少一辨识音频的语意特征与该补充音频的语意特征，当该至少一辨识音频的语意特征与该补充音频的语意特征相匹配时，将该待决音频归类至该至少一类别。
【文档编号】G06F17/30GK104281682SQ201410524658
【公开日】2015年1月14日申请日期:2014年9月30日优先权日:2014年9月30日
【发明者】苏国英申请人:圆刚科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：苏国英
技术所有人：圆刚科技股份有限公司
我是此专利的发明人

上一篇：将不同的定点二进制数相乘的制作方法
上一篇：一种新研轰炸机的起飞重量计算方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。