数据挖掘十大算法介绍&优缺点

ICDM（the IEEE International Conference on Data Mining）200612月，数据挖掘领域的十大经典算法被选中：C4.5,k-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,Naive Bayes,and CART。共有18个算法，其余8个算法为FP-Tree，HITS，BIRCH，GSP，PrefixSpan，?CBA，Finding reduct，gSpan。

特点：

1) 利用信息增益比选择属性，克服了利用信息增益选择属性时选择更多值的属性的不足

2) 在树结构过程中剪枝

3) 能够完成对连续属性的离散处理

4) 能够处理不完整的数据

优点：

1）易于理解

2）复杂度不高

3）准确率较高

4）对缺失值不敏感

5）可以处理不相关的特征数据

缺点：

1）（与CART在树的结构过程中，需要对数据集进行多次顺序扫描和排序，算法效率低下

2）容易过拟合

适用：数值型/标称型

特点：试图在数据中找到自然聚类的中心。假设对象属性来自空间向量，目标是尽量减少每个组内的平均误差总和。

优点：易于实现。

缺点：

1）收敛可能是局部最小值

2）大规模数据集收敛缓慢

适用：数值型。

特点：应用于分类&回归，将向量映射到一个更高维度的空间，在这个空间中建立一个最大的间隔超平面。在分离数据的超平面两侧建立两个平行的超平面。分离超平面最大化了两个平行超平面之间的距离。假设平行超平面之间的距离或差距越大，分类器的总误差就越小。

优点：

1）泛化能力强

2）计算费用不大

3）结果易解释

缺点：

1）对选择参数和核函数敏感

2）原始分类器适用于二分类

适用：数值型&标称型

特点:挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。相关规则属于单维、单层和布尔关联规则。在这里，所有支持度大于最低支持度的项集称为频繁项集，称为频繁项集。

优点：易于实现

缺点:大型数据集速度慢

适用：数值型&标称型

特点：在概率模型中找到最大的参数，其中概率模型依赖于无法观察到的隐藏变量。最大的期望通常用于机器学习和计算机视觉数据收集领域。

PageRank根据网站的外部链接和内部链接的数量和质量来衡量网站的价值。每个到页面的链接都是对页面的投票。链接越多，其他网站就越多。这就是所谓的链接流行——衡量有多少人愿意将他们的网站与你的网站联系起来。

特点：一种迭代算法，针对同一训练训练不同的弱分类器， ** 起床形成一个强大的分类器。该算法本身是通过改变数据分布来实现的。它根据每个样本的分类是否正确，以及上次整体分类的准确性来确定每个样本的权重。将修改后的新数据集发送给下层分类器进行培训，最后将每次培训获得的分类器作为最终决策分类器进行集成。

优点：

1）泛化错误率低

2）易编码

3）可用于各种分类器

4）无参数

缺点：对群点敏感。

适用：数值型&标称型数据

特征：在特征空间中找到样本k最相邻的样本在一个特征空间中的大多数类别也属于这一类别。

优点：

1）精度高

2）对异常值不敏感

3）假设无数据输入

缺点：

1）计算&空间密集型

适用：数值型&标称型

特点:估计参数少，对数据缺失不敏感，算法简单。理论上，误差率最小，但并不总是这样，因为NBC在属性相关性较小的情况下，模型假设属性相互独立，NBC性能最好的模型。

优点：

1）在数据少的情况下仍然有效

2）可处理多类问题

缺点：缺失值敏感

适用：标称数据

特点:分类树/回归树。分类树有两个关键思路——一是递归地划分自变量空间的思路(二元切割法)；第二个想法是用验证数据剪枝(预剪、后剪)。回归树-树的建设难度增加，但其分类效果也有所提高。

优点:复杂/非线性数据建模

缺点：结果不易理解

适用：数值型&标称型数据

上一篇：企业内训平... 下一篇：移领荣获支...