ICDM(the IEEE International Conference on Data Mining)200612月,数据挖掘领域的十大经典算法被选中:C4.5,k-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,Naive Bayes,and CART。共有18个算法,其余8个算法为FP-Tree,HITS,BIRCH,GSP,PrefixSpan,?CBA,Finding reduct,gSpan。
特点:
1) 利用信息增益比选择属性,克服了利用信息增益选择属性时选择更多值的属性的不足
2) 在树结构过程中剪枝
3) 能够完成对连续属性的离散处理
4) 能够处理不完整的数据
优点:
1)易于理解
2)复杂度不高
3)准确率较高
4)对缺失值不敏感
5)可以处理不相关的特征数据
缺点:
1)(与CART在树的结构过程中,需要对数据集进行多次顺序扫描和排序,算法效率低下
2)容易过拟合
适用:数值型/标称型
特点:试图在数据中找到自然聚类的中心。假设对象属性来自空间向量,目标是尽量减少每个组内的平均误差总和。
优点:易于实现。
缺点:
1)收敛可能是局部最小值
2)大规模数据集收敛缓慢
适用:数值型。
特点:应用于分类&回归,将向量映射到一个更高维度的空间,在这个空间中建立一个最大的间隔超平面。在分离数据的超平面两侧建立两个平行的超平面。分离超平面最大化了两个平行超平面之间的距离。假设平行超平面之间的距离或差距越大,分类器的总误差就越小。
优点:
1)泛化能力强
2)计算费用不大
3)结果易解释
缺点:
1)对选择参数和核函数敏感
2)原始分类器适用于二分类
适用:数值型&标称型
特点:挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。相关规则属于单维、单层和布尔关联规则。在这里,所有支持度大于最低支持度的项集称为频繁项集,称为频繁项集。
优点:易于实现
缺点:大型数据集速度慢
适用:数值型&标称型
特点:在概率模型中找到最大的参数,其中概率模型依赖于无法观察到的隐藏变量。最大的期望通常用于机器学习和计算机视觉数据收集领域。
PageRank根据网站的外部链接和内部链接的数量和质量来衡量网站的价值。每个到页面的链接都是对页面的投票。链接越多,其他网站就越多。这就是所谓的链接流行——衡量有多少人愿意将他们的网站与你的网站联系起来。
特点:一种迭代算法,针对同一训练训练不同的弱分类器, ** 起床形成一个强大的分类器。该算法本身是通过改变数据分布来实现的。它根据每个样本的分类是否正确,以及上次整体分类的准确性来确定每个样本的权重。将修改后的新数据集发送给下层分类器进行培训,最后将每次培训获得的分类器作为最终决策分类器进行集成。
优点:
1)泛化错误率低
2)易编码
3)可用于各种分类器
4)无参数
缺点:对群点敏感。
适用:数值型&标称型数据
特征:在特征空间中找到样本k最相邻的样本在一个特征空间中的大多数类别也属于这一类别。
优点:
1)精度高
2)对异常值不敏感
3)假设无数据输入
缺点:
1)计算&空间密集型
适用:数值型&标称型
特点:估计参数少,对数据缺失不敏感,算法简单。理论上,误差率最小,但并不总是这样,因为NBC在属性相关性较小的情况下,模型假设属性相互独立,NBC性能最好的模型。
优点:
1)在数据少的情况下仍然有效
2)可处理多类问题
缺点:缺失值敏感
适用:标称数据
特点:分类树/回归树。分类树有两个关键思路——一是递归地划分自变量空间的思路(二元切割法);第二个想法是用验证数据剪枝(预剪、后剪)。回归树-树的建设难度增加,但其分类效果也有所提高。
优点:复杂/非线性数据建模
缺点:结果不易理解
适用:数值型&标称型数据
扫码咨询与免费使用
申请免费使用