数据挖掘十大算法介绍&优缺点

ICDM(the IEEE International Conference on Data Mining)200612月,数据挖掘领域的十大经典算法被选中:C4.5,k-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,Naive Bayes,and CART。共有18个算法,其余8个算法为FP-Tree,HITS,BIRCH,GSP,PrefixSpan,?CBA,Finding reduct,gSpan。

特点:

1) 利用信息增益比选择属性,克服了利用信息增益选择属性时选择更多值的属性的不足

2) 在树结构过程中剪枝

3) 能够完成对连续属性的离散处理

4) 能够处理不完整的数据

优点:

1)易于理解

2)复杂度不高

3)准确率较高

4)对缺失值不敏感

5)可以处理不相关的特征数据

缺点:

1)(与CART在树的结构过程中,需要对数据集进行多次顺序扫描和排序,算法效率低下

2)容易过拟合

适用:数值型/标称型

特点:试图在数据中找到自然聚类的中心。假设对象属性来自空间向量,目标是尽量减少每个组内的平均误差总和。

优点:易于实现。

缺点:

1)收敛可能是局部最小值

2)大规模数据集收敛缓慢

适用:数值型。

特点:应用于分类&回归,将向量映射到一个更高维度的空间,在这个空间中建立一个最大的间隔超平面。在分离数据的超平面两侧建立两个平行的超平面。分离超平面最大化了两个平行超平面之间的距离。假设平行超平面之间的距离或差距越大,分类器的总误差就越小。

优点:

1)泛化能力强

2)计算费用不大

3)结果易解释

缺点:

1)对选择参数和核函数敏感

2)原始分类器适用于二分类

适用:数值型&标称型

特点:挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。相关规则属于单维、单层和布尔关联规则。在这里,所有支持度大于最低支持度的项集称为频繁项集,称为频繁项集。

优点:易于实现

缺点:大型数据集速度慢

适用:数值型&标称型

特点:在概率模型中找到最大的参数,其中概率模型依赖于无法观察到的隐藏变量。最大的期望通常用于机器学习和计算机视觉数据收集领域。

PageRank根据网站的外部链接和内部链接的数量和质量来衡量网站的价值。每个到页面的链接都是对页面的投票。链接越多,其他网站就越多。这就是所谓的链接流行——衡量有多少人愿意将他们的网站与你的网站联系起来。

特点:一种迭代算法,针对同一训练训练不同的弱分类器, ** 起床形成一个强大的分类器。该算法本身是通过改变数据分布来实现的。它根据每个样本的分类是否正确,以及上次整体分类的准确性来确定每个样本的权重。将修改后的新数据集发送给下层分类器进行培训,最后将每次培训获得的分类器作为最终决策分类器进行集成。

优点:

1)泛化错误率低

2)易编码

3)可用于各种分类器

4)无参数

缺点:对群点敏感。

适用:数值型&标称型数据

特征:在特征空间中找到样本k最相邻的样本在一个特征空间中的大多数类别也属于这一类别。

优点:

1)精度高

2)对异常值不敏感

3)假设无数据输入

缺点:

1)计算&空间密集型

适用:数值型&标称型

特点:估计参数少,对数据缺失不敏感,算法简单。理论上,误差率最小,但并不总是这样,因为NBC在属性相关性较小的情况下,模型假设属性相互独立,NBC性能最好的模型。

优点:

1)在数据少的情况下仍然有效

2)可处理多类问题

缺点:缺失值敏感

适用:标称数据

特点:分类树/回归树。分类树有两个关键思路——一是递归地划分自变量空间的思路(二元切割法);第二个想法是用验证数据剪枝(预剪、后剪)。回归树-树的建设难度增加,但其分类效果也有所提高。

优点:复杂/非线性数据建模

缺点:结果不易理解

适用:数值型&标称型数据

扫码免费用

源码支持二开

申请免费使用

在线咨询