技术编号:6598874
提示:您尚未登录,请点 登 陆 后下载,如果您还没有账户请点 注 册 ,登陆完成后,请刷新本页查看技术详细信息。本发明涉及自然语言处理领域的统计语言模型自动抽选语料的方法改进,尤其能提高海量原始语料的抽选速度。背景技术目前,公知的抽选统计语言模型的训练语料的方法是由人工抽选,由自然语言处理方面的专业人士阅读海量的文本语料,从中挑选出他们认为平衡性最好的语料集合,尽可能的过滤噪音。但是,处理超过百兆的文本文件采取人工过滤的方法耗时太久,准确度也并不最优,不能做到语言模型的及时更新,快速反映热点词汇。发明内容为了克服现有的统计语言模型的训练语料抽选耗时久,结果也并不最优...
注意:该技术已申请专利,请尊重研发人员的辛勤研发付出,在未取得专利权人授权前,仅供技术研究参考不得用于商业用途。
该专利适合技术人员进行技术研发参考以及查看自身技术是否侵权,增加技术思路,做技术知识储备,不适合论文引用。
请注意,此类技术没有源代码,用于学习研究技术思路。