人工智能十大盛行算法

发布时间:2022-02-22 09:25:49 | 作者:环球体育靠谱吗


  机器学习是该职业的一个立异且重要的范畴。咱们为机器学习程序挑选的算法类型,取决于咱们想要完成的方针。

  现在,机器学习有许多算法。因而,如此多的算法,或许关于初学者来说,是适当不堪重负的。今日,咱们将扼要介绍 10 种最盛行的机器学习算法,这样你就能够习惯这个激动人心的机器学习国际了!

  线性回归(Linear Regression)或许是最盛行的机器学习算法。线性回归便是要找一条直线,并且让这条直线尽或许地拟合散点图中的数据点。它企图经过将直线方程与该数据拟合来表明自变量(x 值)和数值成果(y 值)。然后就能够用这条线来猜测未来的值!

  这种算法最常用的技能是最小二乘法(Least of squares)。这个办法计算出最佳拟合线,以使得与直线上每个数据点的垂直间隔最小。总间隔是一切数据点的垂直间隔(绿线)的平方和。其思维是经过最小化这个平方差错或间隔来拟合模型。

  逻辑回归(Logistic regression)与线性回归相似,但它是用于输出为二进制的状况(即,当成果只能有两个或许的值)。对终究输出的猜测是一个非线性的 S 型函数,称为 logistic function, g。

  这个逻辑函数将中心成果值映射到成果变量 Y,其值规模从 0 到 1。然后,这些值能够解释为 Y 呈现的概率。S 型逻辑函数的性质使得逻辑回归更适合用于分类使命。

  在这一算法中,练习模型经过学习树表明(Tree representation)的决议计划规矩来学习猜测方针变量的值。树是由具有相应特点的节点组成的。

  在每个节点上,咱们依据可用的特征问询有关数据的问题。左右分支代表或许的答案。终究节点(即叶节点)对应于一个猜测值。

  朴素贝叶斯(Naive Bayes)是依据贝叶斯定理。它丈量每个类的概率,每个类的条件概率给出 x 的值。这个算法用于分类问题,得到一个二进制“是 / 非”的成果。看看下面的方程式。

  支撑向量机(Support Vector Machine,SVM)是一种用于分类问题的监督算法。支撑向量机企图在数据点之间制作两条线,它们之间的边距最大。为此,咱们将数据项制作为 n 维空间中的点,其间,n 是输入特征的数量。在此根底上,支撑向量机找到一个最优鸿沟,称为超平面(Hyperplane),它经过类标签将或许的输出进行最佳别离。

  超平面与最近的类点之间的间隔称为边距。最优超平面具有最大的鸿沟,能够对点进行分类,从而使最近的数据点与这两个类之间的间隔最大化。

  例如,H1 没有将这两个类分隔。但 H2 有,不过只要很小的边距。而 H3 以最大的边距将它们分隔了。

  K- 最近邻算法(K-Nearest Neighbors,KNN)十分简略。KNN 经过在整个练习会集查找 K 个最相似的实例,即 K 个街坊,并为一切这些 K 个实例分配一个公共输出变量,来对目标进行分类。

  K 的挑选很要害:较小的值或许会得到很多的噪声和不精确的成果,而较大的值是不可行的。它最常用于分类,但也适用于回归问题。

  用于评价实例之间相似性的间隔能够是欧几里得间隔(Euclidean distance)、曼哈顿间隔(Manhattan distance)或明氏间隔(Minkowski distance)。欧几里得间隔是两点之间的一般直线间隔。它实际上是点坐标之差平方和的平方根。

  该算法依据每个数据点的特征,将每个数据点迭代地分配给 K 个组中的一个组。它为每个 K- 聚类(称为质心)挑选 K 个点。依据相似度,将新的数据点添加到具有最近质心的聚类中。这个进程一向继续到质心中止改变停止。

  随机森林(Random Forest)是一种十分盛行的集成机器学习算法。这个算法的基本思维是,许多人的定见要比个人的定见更精确。在随机森林中,咱们运用决议计划树集成(拜见决议计划树)。

  为了对新目标进行分类,咱们从每个决议计划树中进行投票,并结合成果,然后依据大都投票做出终究决议。

  因为咱们今日能够捕获的数据量之大,机器学习问题变得愈加杂乱。这就意味着练习极端缓慢,并且很难找到一个好的处理方案。这一问题,一般被称为“维数灾祸”(Curse of dimensionality)。

  降维(Dimensionality reduction)企图在不丢掉最重要信息的状况下,经过将特定的特征组合成更高层次的特征来处理这个问题。主成分剖析(Principal Component Analysis,PCA)是最盛行的降维技能。

  主成分剖析经过将数据集压缩到低维线或超平面 / 子空间来下降数据集的维数。这尽或许地保留了原始数据的明显特征。

  人工神经网络(Artificial Neural Networks,ANN)能够处理大型杂乱的机器学习使命。神经网络本质上是一组带有权值的边和节点组成的相互衔接的层,称为神经元。在输入层和输出层之间,咱们能够刺进多个躲藏层。人工神经网络运用了两个躲藏层。除此之外,还需要处理深度学习。

  人工神经网络的作业原理与大脑的结构相似。一组神经元被赋予一个随机权重,以确认神经元怎么处理输入数据。经过对输入数据练习神经网络来学习输入和输出之间的联系。在练习阶段,体系能够拜访正确的答案。

  每个圆形节点表明一个人工神经元,箭头表明从一个人工神经元的输出到另一个人工神经元的输入的衔接。

  接下来是什么?现在,你现已了解了最盛行的机器学习算法的根底介绍。你现已准备好学习更为杂乱的概念,乃至能够经过深化的着手实践来完成它们。假如你想了解怎么完成这些算法,能够参阅 Educative 出品的 Grokking Data Science 课程,该课程将这些激动人心的理论应用于明晰、实在的应用程序。