1. 监督学习与无监督学习


1. 监督学习与无监督学习

1. 监督学习

1. 分类算法

  • 逻辑回归:用于处理二分类问题,通过构建逻辑函数将线性回归的结果映射到 0 到 1 之间,从而表示属于某一类别的概率。
  • 支持向量机:通过寻找一个最优超平面来将不同类别的数据点分隔开,在处理线性可分和非线性可分问题上都有很好的表现。
  • 决策树:基于树结构进行决策,每个内部节点是一个属性上的测试,分支是测试输出,叶节点是类别,易于理解和解释。
  • K 近邻算法:对于新的样本点,根据其与训练集中 K 个最近邻样本点的类别来进行分类,是一种基于实例的学习方法。
  • 朴素贝叶斯:基于贝叶斯定理,假设特征之间相互独立,计算给定样本属于每个类别的概率,选择概率最高的类别作为预测结果,常用于文本分类等领域。

2. 回归算法

  • 线性回归:假设输入特征和输出变量之间存在线性关系,通过最小化均方误差来确定线性模型的参数,是最基本的回归算法。
  • 多项式回归:将线性回归中的特征进行多项式扩展,能够处理输入特征和输出变量之间的非线性关系。
  • 岭回归:在线性回归的基础上,通过引入 L2 正则化项来防止模型过拟合,提高模型的泛化能力。
  • Lasso 回归:与岭回归类似,不过采用 L1 正则化项,能够产生稀疏的模型,即一些特征的系数会被压缩为 0,从而起到特征选择的作用。

2. 无监督学习

1. 聚类算法

  • K-Means 聚类:将数据点划分为 K 个簇,通过不断迭代更新簇中心,使得每个数据点到其所属簇中心的距离之和最小。
  • DBSCAN 密度聚类:基于数据点的密度,将密度相连的数据点划分为一个簇,能够发现任意形状的簇,并且能够识别出数据集中的噪声点。
  • 层次聚类:分为凝聚式、分裂式两种,前者是从每个数据点作为一个单独的簇开始,不断合并相似的簇;后者则是从所有数据点都在一个簇开始,逐步分裂成更小的簇。

2. 降维算法

  • 主成分分析(PCA):通过线性变换将原始数据转换到一组新的正交基上,使得数据的方差在这些基上得到最大程度的保留,从而实现数据的降维。
  • 奇异值分解(SVD):将矩阵分解为三个矩阵的乘积,其中包含了矩阵的奇异值和奇异向量,通过保留较大的奇异值对应的部分来实现降维,在推荐系统等领域有广泛应用。
  • 局部线性嵌入(LLE):是一种非线性降维方法,它通过保持数据点之间的局部线性关系来将高维数据映射到低维空间,能够更好地保留数据的局部几何结构。

3. 异常检测

  • 基于统计的方法:假设数据服从某种概率分布,通过计算数据点的概率密度来判断是否为异常点,如基于高斯分布的异常检测。
  • 基于聚类的方法:将数据进行聚类,把远离其他簇或者处于低密度区域的数据点视为异常点。
  • 基于深度学习的方法:如使用自编码器等模型,学习正常数据的特征表示,对于重建误差较大的数据点认为是异常点。

4. 主题模型

  • 潜在狄利克雷分配(LDA):是一种文档主题生成模型,假设文档由多个主题混合而成,每个主题由一组单词的概率分布表示,通过对大量文档的学习,发现文档集合中的潜在主题结构。

0 条评论

发表评论

暂无评论,欢迎发表您的观点!