短信过滤系统

发布时间:2024-05-25 19:41:26 作者:汉语成语

短信过滤系统将黑白名单技术与BalancedWinnow算法相结合,实现对垃圾短信的过滤。采用CHI特征提取算法并对权重计算方法进行改进,同时提出了去除训练样本中野点的想法,通过判定去除野点,减缓在训练过程中出现的抖动现象。实验表明这种改进对于提高训练速度及提高短信过滤的性能均有很好的作用。

概述

手机短信以其短小、迅速、简便、价格低廉等优点成为一种重要的通信和交流方式,受到众多人士的青睐。然而,手机短信与邮件一样存在着垃圾信息问题。

目前,垃圾短信过滤主要有黑名单过滤、关键词过滤和基于文本分类的内容过滤等方式。黑名单过滤和关键词过滤方式能快速过滤垃圾短信,但这两种过滤方式实质是基于规则的过滤,虽然在一定程度上阻挡了一些垃圾短信,但规则的方法需要更多的用户自定义设置,很容易被反过滤。基于文本分类的短信过滤采用常见的分类算法,如朴素贝叶斯、SVM、神经网络等。黎路等人将贝叶斯分类应用到J2ME模拟环境中成功地过滤了中奖短信和祝福短信。浙江大学的金展、范晶等将朴素贝叶斯和支持向量机结合,解决了传统垃圾短信过滤系统短信特征和内容未能得到及时更新而导致过滤性能降低的问题。王忠军将基于朴素贝叶斯短信过滤算法与基于最小风险贝叶斯算法进行了实验分析和比较,结论是基于最小风险的短信过滤算法具有较好的性能。

然而,短信过滤的准确率依赖于其训练样本的数量及质量,这些分类算法需要经过训练学习建立分类器模型,因此在速度上不能很好地满足短信过滤实时性的要求。

应用前景

从现有技术上来说,垃圾短信的过滤在准确率和效率方面仍然不能满足现实需要。

Winnow算法是在1987年由NickLittleSTONe提出并对可行性做了严格证明的线性分类算法。当时的目标是想找到一种时空复杂度仅仅与分类对象相关属性相关的数量呈线性相关的算法。平衡Winnow算法是对基本Winnow算法的一种改进,该算法具有过滤速度快、性能好、支持反馈更新的优点,在信息过滤领域有很好的应用前景,尤其适合于对实时性要求较高的短信过滤系统。

特征提取

特征提取的方法目前也有很多,常用的特征选取方法有:文档频率DF(DocumentFrequency)、信息增益IG(InformationGain)、互信息MI(MutualInformation)、χ2统计等。

将分词后的词作为候选特征,然后使用特征提取算法从中提取出对分类最有用的一些特征,去除对分类贡献不大的候选特征,以降低特征的维数。其中χ2的主要思想是认为词条与类别之间符合χ2分布。χ2统计量的值越高,特征项和类别之间的独立性越小、相关性越强,即特征项对此类别的贡献越大。χ2是一个归一化的值,该方法比其他方法能减少50%左右的词汇,具有分类效果好的优点。本文中采用χ2统计进行特征提取。

但不是简单地令特征项的权重xi=1或0,而是令xi=f(χ2)或0,这里χ2特指特征对应的χ2统计值,对应关系f根据实际情况而定。实验中(n是一个正整数,取n=4)。实验表明比用布尔权重表示效果要好。

1.3文本向量表示目前应用较多的是向量空间模型VSM(VectorSpaceModel),文中用VSM将一条短信表示为(W1,W2,…,Wk,…,Wn)的向量形式。其中:Wk(k=1,2,…,n)为第k个特征的权重,n为选定的特征数。

Winnow分类算法

Winnow算法是二值属性数据集上的线性分类算法。线性分类问题中表示分类界限的超平面等式如下:

w0α0+w1α1+w2α2+…+wkαk=0,其中:α0,α1,…,αk分别是属性的值;w0,w1,…,wk是超平面的权值。如果其值大于0,则预测为类否则为第二类。

Winnow算法是错误驱动型的分类算法,即当出现错分的实例时才更新权值向量。设定两个学习系数α和β(其中α>1,β<1),通过将权值乘以参数α(或β)来分别修改权值。