常(cháng)见的机(jī)器学习算法
诞生于1956年的人工智能,由于受到智能算法(fǎ)、计算速度、存储水平等因素的影响,在六十多年的发展过(guò)程中(zhōng)经历(lì)了(le)多次高潮和(hé)低谷(gǔ)。最近几(jǐ)年(nián),得益于数据量的上涨、运算(suàn)力的提升,特(tè)别是机(jī)器(qì)学习新算法的出现(xiàn),人工智能迎来了(le)大(dà)爆发的时(shí)代。
提到(dào)机器学习这个(gè)词时,有些人(rén)首先想到的可能(néng)是科幻电影里的机器人。事实上,机器学(xué)习是一门多领域交叉学科,涉及(jí)概(gài)率论、统计学、算(suàn)法(fǎ)复(fù)杂度(dù)理论等多门学科。专门研(yán)究计(jì)算机如何模拟(nǐ)或实现(xiàn)人类的学习行为,利用数据或以往的经验,以此优化计(jì)算机程序的(de)性能标准(zhǔn)。
根(gēn)据学习(xí)任务(wù)的不(bú)同,我(wǒ)们可以将机器学习分为监督学习、非监督学(xué)习、强化学(xué)习(xí)三种(zhǒng)类型,而每种(zhǒng)类型又对(duì)应(yīng)着一些算法。
各种算法(fǎ)以(yǐ)及对应的任务类型(xíng)
接下来就简单(dān)介绍几种常用的机器学习算法及(jí)其应用场景,通(tōng)过本篇文章大家可以对机(jī)器学(xué)习的(de)常(cháng)用算法有个常识(shí)性的(de)认识。
一、监督(dū)学习
(1)支持向(xiàng)量机(jī)(Support Vector Machine,SVM):是一类按监督学习方(fāng)式对数据进行二元(yuán)分类的(de)广(guǎng)义线性分类器,其决(jué)策边界是对(duì)学习样本(běn)求解的最大边(biān)距超平面。例如,在纸上有两类(lèi)线(xiàn)性可分的点,支持向量机会寻找一条(tiáo)直线将这两类(lèi)点区分(fèn)开来,并且与(yǔ)这些点的距离都尽可(kě)能远。
优点:泛(fàn)化错误率低,结(jié)果(guǒ)易(yì)解释。
缺点(diǎn):对大规模训(xùn)练样本难以实施(shī),解决多分类问(wèn)题存在困难,对(duì)参数调节(jiē)和核函数的(de)选(xuǎn)择敏感(gǎn)。
应用场景:文本分类、人像(xiàng)识别、医学诊断等(děng)。
(2)决策树(Decision Tree):是一个预测模型(xíng),代(dài)表的是对象(xiàng)属(shǔ)性与对象值(zhí)之间(jiān)的一种映(yìng)射关(guān)系。下图是如何在(zài)决(jué)策树中(zhōng)建模的简单(dān)示(shì)例:
优点:易于(yú)理解和(hé)解释,可以可视化分析,容易(yì)提取出规则;能够处理不相关的特征。
缺点:对缺失数据处理比较困难。
应用场景:在决策过程应用较(jiào)多。
(3)朴(pǔ)素贝叶斯分类(Naive Bayesian classification):对于(yú)给出的待分类项,求解此项出现的条件下各(gè)个类别出现的概率,哪个最大,就认为此待(dài)分类(lèi)属于哪个类别。贝叶斯(sī)公式(shì)为:p(A|B)= p(B|A)*p(A/p(B),其中(zhōng)P(A|B)表示后验概率(lǜ),P(B|A)是似然值,P(A)是(shì)类别的先验概率,P(B)代表预测器的先验概率。
优点:在数据较(jiào)少的情况下仍(réng)然有效,可(kě)以(yǐ)处理多类别问题。
缺点:对输入(rù)数据的准备方式较为敏感。
应用(yòng)场景:文本分类(lèi)、人脸识别、欺诈检测。
(4)k-近邻算法(fǎ)(K-Nearest Neighbor,KNN):是一(yī)种基(jī)于实例的学习,采用测量不(bú)同特(tè)征值之间的距(jù)离方法进行分(fèn)类。其基本(běn)思路是:给定一个训练样本集,然后输入没有标签(qiān)的新(xīn)数(shù)据,将新数据的每个特(tè)征与样本集中数(shù)据对应(yīng)的特征进行比较,找到最邻(lín)近的k个(通常是不(bú)大于20的整数)实例,这k个实例的多数属于某个(gè)类,就把该输入实例分类到(dào)这个类中。
优(yōu)点:简单、易于(yú)理解(jiě)、易于实现,无(wú)需估计参数(shù)。此外,与朴(pǔ)素贝叶斯之类(lèi)的算(suàn)法比,无数据输入假定、准确度高、对(duì)异常(cháng)数据值不敏(mǐn)感(gǎn)。
缺(quē)点(diǎn):对于训练数据依赖(lài)程度比(bǐ)较大,并且缺少训练阶段,无法应对多样本(běn)。
应用场景:字(zì)符识别、文(wén)本分(fèn)类、图像识别等(děng)领(lǐng)域。
二、非监督学习
(1)主成分(fèn)分析(xī)(Principal Component Analysis,PCA):是一种统计方法(fǎ)。其主要思想是将n维特征映射到(dào)k维(wéi)上,这k维(wéi)是全新的正交特征也被称为主成分(fèn),是在原有(yǒu)n维特(tè)征的基础上重新构造出来的k维(wéi)特征。
优点:降低数据的复(fù)杂性,识别最重要(yào)的多个(gè)特征。
缺点:主成分各(gè)个特征(zhēng)维度(dù)的(de)含义具有一(yī)定的模(mó)糊性(xìng),不如原始样(yàng)本特征的解释(shì)性强;有可能损失有用的信(xìn)息。
应用场景:语音(yīn)、图像、通信的分析处理。
(2)奇异值分解(Singular Value Decomposition,SVD):可以将一个比(bǐ)较复杂的矩(jǔ)阵用更小更(gèng)简单的几个(gè)子矩阵的相乘(chéng)来表示,这(zhè)些小(xiǎo)矩阵描述的(de)是矩阵的重要的特性。
优点:简化数据,去除噪声点,提高(gāo)算法的结(jié)果。
缺点:数据的转换可能难以理解。
应用(yòng)场(chǎng)景:推荐系统、图片压缩等。
(3)K-均值聚类(lèi)(K-Means):是一(yī)种迭代求解的聚类(lèi)分析(xī)算法,采用距离(lí)作(zuò)为(wéi)相似性(xìng)指标。其工作流程是(shì)随机确(què)定K个对(duì)象作为(wéi)初始的聚类中心(xīn),然后计算每(měi)个对象与各(gè)个(gè)种(zhǒng)子聚类中(zhōng)心之(zhī)间的距离,把每个(gè)对象(xiàng)分配给距离(lí)它最近的聚类中心(xīn)。
优点:算法简单容易实现。
缺点:可能收(shōu)敛(liǎn)到局部(bù)最小值,在大(dà)规模数据集上收敛较慢。
应用(yòng)场景(jǐng):图像处理、数据分(fèn)析(xī)以及市场研究等。
三、强化(huà)学习
Q-learning:是一个基(jī)于值的强化学习算法,它根据动作值函数(shù)评估(gū)应该选择哪(nǎ)个动作,这(zhè)个函数(shù)决定了(le)处于某一个特定状态以及在该(gāi)状态下采取(qǔ)特定(dìng)动作的奖励期望值。
优(yōu)点:可以接收更广的数据范围(wéi)。
缺点:缺乏通用性。
应用(yòng)场景:游戏开发。
以上就是文(wén)章的全部(bù)内容,相信大家对(duì)常用的机器(qì)学习算法应该有了大致的了解(jiě)。
现如今,我们越(yuè)来(lái)越多地看到机器学习(xí)算法为人类带来的实际价值,如它(tā)们提供了关键的洞察力和信息来报告战略决策。可以肯定的是,随着机(jī)器学习越来越流行,未来还将出现越(yuè)来越(yuè)多(duō)能(néng)很好地(dì)处理任务的算法(fǎ)。