处理并过滤计算机文字信息中联系方式的方法和系统的制作方法

文档序号:6578549阅读:244来源:国知局
专利名称:处理并过滤计算机文字信息中联系方式的方法和系统的制作方法
技术领域
本发明涉及处理并过滤计算机文字信息中各种联系方式的方法和系统。
背景技术
在传统的中介机构,如婚姻介绍所、房屋介绍所,征婚者之间,或房 东和求租者之间,他们一开始是不知道对方的联系方式的,只有交了中介 费用后,中介才会告诉他们相互的联系方式,如果征婚者之间,或房东和 求租者之间已经知道对方的联系方式,那么肯定就不会通过中介介绍了, 中介也就失去意义了。
同样在互联网中的中介网站,如,征婚交友网,房屋中介网等中介网 站也存在类似的问题。假如,征婚者之间,或房东和求租者之间不交中介 费用就可以相互交换联系方式,那么中介网站就收不到中介费,这对绝大 多数的中介网站是很不利的。
在目前的绝大多数中介网站中,是允许让免费用户通过文字信息内容 交流,交换联系方式的,所以这样的中介网站就不能通过阻止交换联系方 式而收到中介费。
在现阶段,还没有很好的办法实现,可以让中介网站中的征婚者之间、 房东和求租者之间等通过中介网站相互用文字信息交流,但又不能交换联 系方式。这就是本发明所要解决的问题。

发明内容
本发明的主要目的就是解决上述问题。
本发明是这样实现的,通过计算机程序来处理并过滤中介网站中的某 一用户向另一用户发送的文字信息中的各种联系方式来实现本发明。 各种联系方式包括
(1) 以数字型式的,如手机号码、电话号码,QQ号码等联系方式;
(2) 非数字型式但具有一定格式的,如电子邮箱、网址(URL)等联系方 式;
(3) 非数字型式但没有一定格式的,如联系地址、单位名称、某某网 的网名等联系方式;
(4) 其它间接的联系方式,如无规律性但又有提示性质的内容,通过 此提示内容可间接获得联系方式的等非直接的联系方式。
处理并过滤文字信息内容中的各种联系方式包括以下步骤
1. 把文字信息内容转成容易处理的格式 把繁体中文转成简体中文,把中文全角字母或符号转成英文半角字母 或符号。可以根据实际运用,转成需要的格式。
2. 去除文字信息内容中的各种符号 把各种非文字内容的符号,替换掉,比如替换成空格,多个连续的空 格合并成只剩一个空格。有个别符号可以排除被替换,如符号"@""." 等。此条内容可以根据系统设置,选择要不要处理。
3. 处理并替换数字型式的联系方式
(l)把连续X个以上的阿拉伯数字,替换掉,比如替换成星号(*),星号个数是实际被替换的数字的个数,或用其它文字内容代替 被替换的数字。数字之间若有空格或符号或非数字字符隔开,
两个数字之间的空格或符号或非数字字符在Y个之内,也一起 被替换掉。X可以根据系统设置来定,如X是6; Y也可以根据 系统设置来定,如Y是IO。
如手机号"13912345678",替换成"*********"。
(2) 把连续X个以上的中文小写数字,替换掉,替换方法同(l),如 手机号"一三九一二三四五六七八",替换成"*********"。
(3) 把连续X个以上的中文大写数字,替换掉,替换方法同(l),如
电话号码"零壹零-壹贰叁肆伍陆柒捌",替换成
(4) 把连续X个以上的拼音数字,替换掉,替换方法同(l),如QQ ,^"yi er san si wu liu",罾^贞"*******************w <>
(5) 把连续X个以上的英文数字,替换掉,替换方法同(l),如电话 号码"one two three four five six seven eight", 替换
(6) 把连续X个以上的英文字母代替数字,替换掉,替换方法同(1), 如a-i,分别代替数字1-9, j代替0,如"abcdefghij",替 换成"**********"。
(7) 把连续X个以上的英文月份代替数字,替换掉,替换方法同(1), 如January代替1 , February代替2, October代替0 ,
a January, February, March, April, May, June, July, August, Septeraber, October"或
"Jan, Feb, Mar, Apr, May, Jvm, Jul, Aug, S印,S印t, Oct"替换成 多个星号。
(8) 把连续X个甲乙丙代替数字,替换掉,替换方法同(l),如甲 代表l,乙代表2,癸代表0,"甲乙丙丁戊己庚辛壬癸"替 换成多个星号。
(9) 以上(6)到(8)是比较常见的代替数字的方法,其它类似的代替 数字的方法,也可以用(l)的方法来替换,这里不一一举例。
(10) 以上(1)到(9)的混合或组合数字,也用(l)的方法来替换, 如手机号"139—二三肆伍陆qi eight"替换成多个星号。
(11) 把连续X个以上的中文谐音代替数字,替换掉;是先把中 文转成拼音,按(4)的方法替换,如手机号改成"幺伞酒亿 耳散丝舞留期巴",替换成"*林*林*林"。
(12) 把文字信息中所有包含(1)到(11)或(1)到(11)中的某几条 中所说的数字或代替表示的数字,全部替换成星号(*),或用 其它文字内容来代替被替换的各种格式的数字。
(13) 如果用(12)的话,那么(l)到(ll)就可以不用处理了。 4.处理并替换非数字型式但具有一定格式的联系方式
(1) 处理电子邮箱,并替换,如abc@mail.com,替换成
"***@*****com"。替换原理是根据符号"@"和"."或".com"
域名后缀等来确定的。
(2) 处理网址(URL),并替换,如http:〃丽.loveinhere.com,替换成"*************************" 0 替换原理是根据,
"http:〃" 、 "www" 、 ". " 、".com"等来确定的。 5.处理并替换非数字型式但没有一定格式的联系方式
(1) 替换联系地址 首先要设置一批可以表示是联系地址的组合关键词列表,如地 址,"某某路XX大厦YY层ZZ室"中的"路,层,室"就是一 个组合关键词,先对文字内容搜索"路",然后在"路"后搜 索"层",再在"层"后搜索"室",搜索匹配的结果就是"路 XX大厦YY层ZZ室","路"和"层","层"和"室"之间 的字符间隔可以设定,如分别设置为20, 10个字符。整个文字 信息内容匹配这个组合关键词的话,那就表示是联系地址,不 匹配就表示不是联系地址。
把文字信息内容对所有组合关键词进行搜索,看能不能找到某 个组合关键词,找到的话,那就表示是联系地址,可以仅把"搜 索匹配的结果"替换掉,或把整个文字信息内容替换掉,替换 内容可以是提示性的文字或符号内容。
(2) 替换单位名称 首先要设置一批可以表示是单位名称的组合关键词列表,如单 位名称"我是某某市XX有限公司的张三"中的"市,有限,公
司"就是一个组合关键词,然后处理方法同(l)。
(3) 替换某某网的网名,首先要设置一批可以表示是某某网网名的 组合关键词列表,如"我在某某网的网名是ABCDEDF"中的"网,网名,是"就是一个组合关键词,然后处理方法同(l)。
(4)其它类似的可以表示联系方式的,都可以按照(l)的方法来处 理。
6.处理并替换其它间接的联系方式
其它无规律性但又有提示性质的内容,通过此提示内容可间接获 得联系方式的等非直接联系方式,如,"我的网名就是我的会员 ID号"、"用我的会员号去网上搜索一下就能找到我"、"我叫 李某某,用我名字在网上搜一下就能找到我"等等。 首先要设置一批可以表示是暗示联系方式的关键词或组合关键 词列表,如,"网名"、"会员,号"、"搜,到"等这些是关 键词,然后对文字信息内容进行査找关键词列表中的每一个关键 词或组合关键词,找到的话就表示是间接联系方式;可以根据系 统设置的过滤严格程度,决定要不要把找到的关键词替换掉,或 整个文字信息内容替换掉。
所述的文字信息内容是指计算机能表示出来的字符,包括,ASCII字 符集,中文字符集等各种Unicode字符集。处理并过滤联系方式的计算机 程序可以用,如0++、 C#、 Java等编程语言来实现。
中介网站中的某一用户向另一用户发送的文字信息,中介网站的服务 器接收到文字信息,备份文字信息的原内容,再通过以上所述1到6个步 骤处理并过滤了各种联系方式后,传送给接收者,接收者收到的是被过滤 后的文字信息内容是没有联系方式的。
这样对中介网站来说,即可以让用户私下通过文字信息交流,但用户之间又不能交换联系方式。如果用户升级到高级用户(可以是收费的用户, 也相当于是交了中介费),那发送的文字信息中含有联系方式不会被过滤, 就可以交换联系方式,甚至可以恢复被过滤联系方式的文字信息内容的原 内容。
这样中介网站的用户要知道对方的联系方式,就必须要成为中介网站 的高级会员,对中介网站来说,增加了一种良好的收费模式。


图1是本发明处理并过滤联系方式的系统流程图。
具体实施例方式
下面结合附图对本发明作进一步详细的描述。
如图1所示,把文字信息内容处理并过滤掉各种联系方式要经过图1的
P1到P6这几个步骤,以下举例说明-
例l,发送者发送了一段文字信息如"我想和你交个朋友,我的手 机号是13912345678,中文小写是 一三九一二三四五六七八,中文大 写是壹叁玖壹贰叁肆伍陆柒捌,另一种混合写法是139—二三肆伍陆 qieight,谐音写法幺伞酒亿耳散丝舞留期巴,能告l a你的手機或QQ 號好嗎?",把这段文字信息简称为"Ml"。
经过P1处理后,Ml都转成了简体中文,就变成了"我想和你交个朋
友,我的手机号是13912345678,中文小写是 一三九一二三四五六七
八,中文大写是壹叁玖壹贰叁肆伍陆柒捌,另一种混合写法是139—二三肆伍陆Qieight,谐音写法纟伞酒亿耳散丝舞留期巴,能告诉我你
的手机或QQ号好吗 "
经过P2处理后(假设根据系统设置要处理P2) , Ml去除了各种符号, 就变成了"我想和你交个朋友我的手机号是13912345678中文小写是 一三九一二三四五六七八中文大写是壹叁玖壹贰叁肆伍陆柒捌另一种 混合写法是139—二三肆伍陆qieight谐音写法幺伞酒亿耳散丝舞留期 巴能告诉我你的手机或QQ号好吗"。
经过P3处理后,Ml就替换掉数字型式的联系方式,就变成了"我想 和你交个朋友我的手机号是***********中文小写是***********中 文大写是***********另一种混合写法是****************谐音写法
***********告诉我你的手机或QQ号好吗"。
经过P4到P6处理后,这里的内容同P3处理后是一样的,所以最终结果 就是P3处理后的结果。
例2,如有一段文字信息"我的邮箱是namet loveinhere.com,我 的主页网址是:http:〃爾.loveinhere. com/name/,我的QQ网名是XXX", 把这段文字信息简称为"M2"。
经过P1处理后,M2还是原来的内容,因为这里没有要转换的内容。
这次设定不用处理P2。
经过P3处理后,M2还是原来的内容,因为这里没有任何数字。 经过P4处理后,M2就替换掉非数字型式但具有一定格式的联系方式, 就变成了"我的邮箱是*林*@ *********** com,我的主页网址是:
********林*絲:^*林*****絲*林林,我的QQ网名是XXX" o经过P5处理后,因为内容中含有"网名,是"等组合关键词,所以整 个内容就被替换了,如替换成"由于发送的信息中含有联系方式,所以被 系统替换了。",这时的M2就变成了这个内容。整个内容被替换了,那之 后的步骤就不用处理了。
例3,如有一段文字信息"我叫某某某,你用我的昵称,到百度上 搜索一下,应该就能找到我的联络信息。",把这段文字信息简称为"M3"。 经过P1处理后,M3还是原来的内容,因为这里没有要转换的内容。 这次设定也不用处理P2。
经过P3到P5处理后,M3还是原来的内容,因为这里没有找到各种联系 方式。
经过P6处理后,因为内容中含有"昵称,搜"等组合关键词,所以整 个内容就被替换了,如替换成"由于发送的信息中含有联系方式,所以被 系统替换了。",这时的M3就变成了这个内容。
本发明不局限于上述最佳实施方式,任何人在本发明的启示下都可得 出其他各种形式的产品。但不论在其形状或结构上作任何变化,凡是与本 发明相同或相近似的技术方案,均在其保护范围之内。
权利要求
1.处理并过滤计算机文字信息中联系方式的方法和系统,此系统主要是通过计算机软件技术来实现的,其包括以下步骤1)把文字信息内容转成容易处理的格式;2)去除文字信息内容中的各种符号;3)处理并替换数字型式的联系方式;4)处理并替换非数字型式但具有一定格式的联系方式;5)处理并替换非数字型式但没有一定格式的联系方式;6)处理并替换其它间接的联系方式。
2. 根据权利要求1所述的方法,其特征在于,各种联系方式包括;1) 以数字型式的,如手机号码、电话号码,QQ号码等联系方式;2) 非数字型式但具有一定格式的,如电子邮箱、网址(URL)等联系方式;3) 非数字型式但没有一定格式的,如联系地址、单位名称、某某网的网名等联系方式;4) 其它间接的联系方式,如无规律性但又有提示性质的内容,通过此提示内容可间接获得联系方式的等非直接的联系方式。
3. 根据权利要求l中的l)所述的方法,其特征在于,把文字信息内容转成容易处理的格式主要包括把繁体中文转成简体中文,把中文全角字母或符号转成英文半角字母或符号。可以根据实际运用,转成需要的格式。
4. 根据权利要求1中的2)所述的方法,其特征在于,去除文字信息内容中的各种符号主要包括把各种非文字内容的符号,替换掉,比如替换成空格,多个连续的空格合并成只剩一个空格。有个别符号可以排除被替换,如符号"@""."等。此条内容可以根据系统设置,选择要不要处理。
5. 根据权利要求1中的3)所述的方法,其特征在于,主要包括以下几个(1) 把连续X个以上的阿拉伯数字,替换掉,比如替换成星号(*),星号个数是实际被替换的数字的个数,或用其它文字内容代替被替换的数字。数字之间若有空格或符号或非数字字符隔开,两个数字之间的空格或符号或非数字字符在Y个之内,也一起被替换掉。X可以根据系统设置来定,如X是6; Y也可以根据系统设置来定,如Y是10。如手机号"13912345678",替换^"*********"。(2) 把连续X个以上的中文小写数字,替换掉,替换方法同(l)。(3) 把连续X个以上的中文大写数字,替换掉,替换方法同(l)。(4) 把连续X个以上的拼音数字,替换掉,替换方法同(l)。(5) 把连续X个以上的英文数字,替换掉,替换方法同(l)。(6) 把连续X个以上的英文字母代替数字,替换掉,替换方法同(l)。(7) 把连续X个以上的英文月份代替数字,替换掉,替换方法同(l)。(8) 把连续X个甲乙丙代替数字,替换掉,替换方法同(l)。(9) 以上(6)到(8)是比较常见的代替数字的方法,其它类似的代替数字的方法,也可以用(l)的方法来替换。(10) 以上(1)到(9)的混合或组合数字,也用(l)的方法来替换。(11) 把连续X个以上的中文谐音代替数字,替换掉;是先把中文转成拼音,按(4)的方法替换。(12) 把文字信息中所有包含(l)到(ll)或(l)到(ll)中的某几条中所说的数字或代替表示的数字,全部替换成星号(*),或用其它文字内容来代替被替换的各种格式的数字。(13) 如果用(12)的话,那么(l)到(ll)就可以不用处理了。
6. 根据权利要求1中的4)所述的方法,其特征在于,(1) 处理电子邮箱,并替换,如abc@mail.com,替换成"***@*****com"。替换原理是根据符号"@"和"."或".com"域名后缀等来确定的。(2) 处理网址(URL),并替换,如http:〃ww. loveinhere. com替换成 *氺氺**承*氺氺求承***氺氺承承"o "http-//"、"www" 、 ". " 、",com"等来确定的。
7. 根据权利要求1中的5)所述的方法,其特征在于,(l)替换联系地址首先要设置一批可以表示是联系地址的组合关键词列表,如地址,"某某路XX大厦YY层ZZ室"中的"路,层,室"就是一个组合关键词,先对文字内容搜索"路",然后在"路"后搜索"层",再在"层"后搜索"室",搜索匹配的结果就是"路XX大厦YY层ZZ室","路"和"层","层"和"室"之间的字符间隔可以设定,如分别设置为20, 10个字符。整个文字信息内容匹配这个组合关键词的话,那就表示是联系地址,不匹配就表示不是联系地址。把文字信息内容对所有组合关键词进行搜索,看能不能找到某个组合关键词,找到的话,那就表示是联系地址,可以仅把"搜索匹配的结果"替换掉,或把整个文字信息内容替换掉,替换内容可以是提示性的文字或符号内容。(2) 替换单位名称首先要设置一批可以表示是单位名称的组合关键词列表,如单位名称"我是某某市XX有限公司的张三"中的"市,有限,公司"就是一个组合关键词,然后处理方法同(l)。(3) 替换某某网的网名首先要设置一批可以表示是某某网网名的组合关键词列表,如"我在某某网的网名是ABCDEDF"中的"网,网名,是"就是一个组合关键词,然后处理方法同(l)。(4) 其它类似的可以表示联系方式的,都可以按照U)的方法来处理。
8.根据权利要求1中的6)所述的方法,其特征在于,其它无规律性但又有提示性质的内容,通过此提示内容可间接获得联系方式的等非直接联系方式,如,"我的网名就是我的会员ID号"、"用我的会员号去网上搜索一下就能找到我"、"我叫李某某,用我名字在网上搜一下就能找到我"等等。首先要设置一批可以表示是暗示联系方式的关键词或组合关键词列表,如,"网名"、"会员,号"、"搜,到"等这些是关键词,然后对文字信息内容进行査找关键词列表中的每一个关键词或组合关键词,找到的话就表示是间接联系方式;可以根据系统设置的过滤严格程度,决定要不要把找到的关键词替换掉,或整个文字信息内容替换掉,
全文摘要
本发明公开了处理并过滤计算机文字信息内容中各种联系方式的方法和系统该系统和方法先是把一段文字信息内容,按几个能过滤联系方式的步骤来处理、替换掉各种联系方式,最后这段文字信息内容就没有任何联系方式了。
文档编号G06F17/27GK101599058SQ20091014386
公开日2009年12月9日 申请日期2009年6月1日 优先权日2009年6月1日
发明者杨马起 申请人:杨马起
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1