Waiting~G

一起走过的日子

Archive for 十月, 2017

机器学习——常见的算法和分类

without comments

第一种分类;按照标签分类

有监督学习:明确的给出每一个样本属于哪一个类别或者相关标签;常见的算法:分类回归算法

无监督学习:没有标签,不知道分为多少类,也不关心类是什么;常见的是聚类算法,k-means(一个聚类算法通常只需要知道如何计算相似度就可以开始工作了)

半监督学习:基本思想是利用数据分布上的模型假设建立学习器对未标签样例进行标签;强化学习

第二种分类:根据解决问题分类

分类和回归

聚类

标注

第三种分类:根据算法本质分类

生成模型(模糊判断 百分比 概率)    如:贝叶斯

判别模型 (判断属于哪个类型)   如:分类回归

————————————————————————

机器学习常见算法:

分类           c4.5    1993

聚类    K-means     1967

统计学习      svm         1995

关联统计    Apriori (FP-Growth) 1994

统计学习   EM              2000

链接挖掘    PageRank      1998

集装与推进     AdaBoost        1997

分类              KNN              1996

分类               Naive   Bayes        2001(http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html)

分类          CART           1984

 

 

 

 

Written by Skyma

十月 8th, 2017 at 6:51 上午

Posted in 学.机器学习

机器学习——解决问题的框架

without comments

第一步:确认目标 :

根据业务需求,找到相关 数据 ,提取特征工程(特征工程占比 大约在百分之70 )

第二步:模型的训练过程:

首先定义模型,其次定义一个损失函数,最后进行调优( 能做的调成对性能的提升效果不大)

f(w):=eR(w)+sum(L(w,xi,yi))/n
第三步:模型评估

首先进行交叉验证,然后进行效果评估(ROC/AUC)

Written by Skyma

十月 8th, 2017 at 5:57 上午

Posted in 学.机器学习