
计算机
在这个几乎所有手动任务都已自动化的世界里,手动的概念正悄然改变。如今存在多种机器学习算法,部分算法能助力
计算机下棋、做手术,使其更智能、更具个性化。我们身处技术持续进步的时代,从多年来计算的发展情况看,就能预测未来之事。这场革命一个非常突出的特征就是计算工具与技术的民主化。过去5年里,数据科学家运用先进技术无缝构建出复杂的数据处理机器,其成果令人惊叹。在这个充满活力的时代,人们设计出众多不同类型的机器学习算法以解决现实世界中的复杂难题。机器学习算法具有自动化的特性,能自我修正并逐步改进。在深入探究大家应该了解的十大机器学习算法之前,先来认识下不同类型的机器学习算法及其分类方法。十大流行的机器学习算法有哪些?监督学习,英文为Supervised Learning。监督学习算法依靠标记数据来训练,即输入数据带有正确输出的标记。其目的在于掌握输入到输出的映射关系,进而预测新数据的输出。常见的监督学习算法有:2. 无监督学习(Unsupervised Learning)。无监督学习算法适用于无标记响应的数据集,目的是推断数据点中的自然结构,常见技术包括:3. 增强学习。强化学习算法致力于学习作出一系列决策。此算法要在不确定且可能复杂的环境里达成目标。在强化学习里,代理依照行动策略做决策,并且从行动结果的奖惩
中学习。这些类别对最常见的机器学习算法类型作了广泛概述。每种算法各有优势与理想用例,在某些任务上更适用。线性回归,英文为Linear Regression。要明白线性回归是如何工作的,就好比要将随机的原木按重量递增排序。可麻烦的是没法称量每根原木。只能通过查看原木的高度和周长(进行视觉分析),利用这些可见参数的组合来推测其重量从而排序。这便是机器学习里的线性回归。在此期间,把独立变量与因变量拟合成一条线,从而构建二者关系。此线为回归线,可用线性方程Y = a * X + b来表示。在这个等式里:Y为因变量。一、斜率。自变量为X。b为截距。系数a和b是将数据点与回归线距离平方差之和最小化得出的。2. 逻辑回归(Logistic Regression)。逻辑回归可依据一组独立变量对离散值(常为0/1这类二进制值)进行估计。它把数据拟合到逻辑函数以预测事件概率,这一方法就被叫做逻辑回归。以下这些方法常被用于助力改进逻辑回归模型:3. 决策树(Decision Tree)。机器学习里的决策树算法是当下极流行的算法。它属于监督学习算法,可用于问题分类。在对分类和连续因变量分类时成效显著。此算法依据最重要的属性或独立变量,把总体分成两个及以上的同质集。4. 支持向量机(SVM)算法。SVM算法属于分类算法。把原始数据绘成n维空间中的点(n为特征数量),再将各特征值对应特定坐标,这样便于数据分类。有一条被称为分类器的线,可用来拆分数据并绘制到图形上。5. 朴素贝叶斯算法(N
AIve Bayes A
LGorithm)。朴素贝叶斯分类器假定在某一类里,某个特征的存在与其他特征的存在互不相关。即便这些特征实际相互关联,该分类器在计算特定结果概率时,也会对所有属性独立考量。朴素贝叶斯模型构建起来容易,适合海量数据集。它很简单,而且大家都知道,其表现有时甚至比高度复杂的分类方法还好。6. K - 最近邻(KNN)算法。此算法能应用于分类与回归问题。在数据科学领域,它更多地被用于解决分类问题。该算法较为简单,会存储所有可用案例,通过对k个邻居进行多数投票来给新案例分类,再将案例归入与其最相似的类,距离函数负责此项测量。将KNN与现实生活作比较,就能轻松理解它。就像要了解某人的信息,去和他(她)的朋友、同事交谈是很有意义的。选择K最近邻算法之前需要考虑哪些事项?
有一种无监督学习算法可解决聚类问题。数据集会被分成特定数量(设为K)的簇,簇内数据点同质,且与其他簇的数据相异。K - means是怎样形成簇的?K - means算法会给每个簇选定k个被称为质心的点。每个数据点与最近质心构成一个簇,共形成K个簇。它基于现有簇成员来创建新的质心。以这些新质心能确定各数据点最近距离,重复该过程直至质心不再改变。8. 随机森林算法(Random Forest ALGorithm)。随机森林是决策树的集合。对于新对象的分类,会依据其属性让每棵树进行分类,这些树再为类别投票,森林选取在所有树中得票最多的分类。每棵树的种植与生长情况如下:若训练集里案例数是N,就随机选N个案例作样本,此样本会成为生长树的训练集。若存在M个输入变量,就指定一个远小于M的数字m。于是在每个节点处,都会从M个变量里随机选取m个变量,再用这m个变量上的最佳分割来分割节点,且此过程中m的值始终不变。每棵树都自由生长,未经过修剪。9. 降维算法,英文为Dimensionality Reduction ALGorithms。当今,企业、政府机构与研究组织都在存储和分析海量数据。身为数据科学家,您清楚原始数据蕴含诸多信息,难点在于识别重要模式与变量。降维算法(像决策树、因子分析、缺失值比、随机森林等)能助您发现相关细节。
10. 梯度提升算法与AdaBoosting算法。梯度提升算法与AdaBoosting算法都属于提升算法。它们被用于处理海量数据,进而实现高精度的预测。提升算法是一种集成学习算法,其通过综合多个基础估计器的预测能力来增强稳健性。简单来说,它把多个较弱或者一般的预测器组合起来,构建成一个强大的预测器。在Kaggle、AV Hackathon、CrowdAnalytix等数据科学竞赛里,这些提升算法一直有着不错的表现。它们是如今最受青睐的机器学习算法。配合Python和R代码使用,就能得到准确结果。若你是数据科学家或者机器学习爱好者,就能利用这些技术构建功能性的机器学习项目。监督学习、无监督学习和强化学习是最流行的机器学习算法类型,而这三种技术被用于10种常见机器学习算法列表中。

中学
结论若想在机器学习领域开启事业,那就即刻行动吧。这个领域处于发展之中,对机器学习工具的范畴了解得越早,就越能早日为复杂工作问题给出解决方案。而要是您在该领域经验丰富且想让自己的职业生涯更进一步,那就得深入掌握
Python、TensorFlow深度学习算法、自然语言处理、语音识别、
计算机视觉以及强化学习等知识。