无监督学习,无监督学习是一种机器学习算法,它为数据集带来秩序,使数据有意义。无监督机器学习算法是根据非结构化数据的相似性和数据集中不同的模式对数据进行分组。“无监督”一词指的是该算法不像监督学习算法那样具有指导意义。
有效地利用信息是任何一种商业运作的基本要求之一。在某种程度上,产生的数据量超出了简单的处理能力。这就是机器学习算法发挥作用的地方。
然而,在这一切发生之前——信息需要被探索和理解。简而言之,这就是无监督机器学习的目的。
在本文中,我们将重点介绍无监督ML及其实际应用程序。
无监督ML算法是如何工作的?
无监督算法是在未经事先训练的情况下处理数据的——它是一个函数,在处理可以处理的数据时完成它的工作。在某种程度上,这是留给他自己的安排,按照他认为合适的方式来解决问题。
无监督算法处理无标记数据。它的目的是探索。如果监督机器学习在明确定义的规则下工作,那么非监督学习就是在结果未知的情况下工作,因此需要在过程中进行定义。
无监督机器学习算法被用于:
- 探索信息的结构,发现不同的模式;
- 提取有价值的见解;
- 将这一点落实到其运作中,以提高决策过程的效率
换句话说,它描述了信息——通过它的深度,并确定它到底是什么。
为了实现这一目标,无监督学习应用了两种主要技术——聚类和降维。
聚类——数据的探索
“聚类”是一个术语,用来描述对数据的探索,将相似的信息分组。这个过程有几个步骤:
- 定义构成每个集群需求的凭据。然后将凭据与处理后的数据进行匹配,从而形成集群。
- 根据数据集的共同特性将数据集分解为特定的组(称为集群)。
聚类技术简单而有效。它们需要一些高强度的工作,但往往能让我们对数据有一些有价值的见解。
集群已在各行业中广泛应用多年:
- 生物学-用于遗传和物种分组;
- 医学影像-区分不同种类的组织;
- 市场调查-根据某些属性区分不同的客户群
- 推荐系统-给你更好的亚马逊购买建议或Netflix电影匹配。
降维——使数据易于消化
简而言之,降维就是从混沌中提取相关信息或去除不必要信息的过程。
原始数据通常带有一层厚厚的数据噪声,它可以是任何东西——丢失的值、错误的数据、混乱的位,或者一些与原因无关的东西。正因为如此,在您开始挖掘见解之前,您需要首先清理数据。降维就是这样做的。
从技术角度看,降维是在一定程度上保留数据结构相关部分的同时降低数据复杂度的过程。
7个无监督机器学习的真实生活例子
聚类-数据挖掘
k均值聚类算法是无监督机器学习的核心算法。该算法定义了数据集中出现的特性,并使用公共元素将某些位分组到集群中。
因此,k-means聚类是数据挖掘操作中不可或缺的工具。它也用于:
- 受众细分
- 客户角色的调查
- 异常检测(例如,检测bot活动)
- 模式识别(图像分组,音频抄录)
- 库存管理(按转换活动或可用性)
Hidden Markov Model-模式识别,自然语言处理,数据分析
另一个无监督机器学习的例子是隐马尔可夫模型。它是比较精细的ML算法之一——静态模型,它分析数据的特征并对其进行分组。
隐马尔可夫模型是简单马尔可夫链的一种变体,它包含对数据状态的观察,这增加了对数据的另一个视角,为算法提供了更多的参考点。
隐马尔可夫模型在现实生活中的应用还包括:
- 光学字符识别(包括手写识别)
- 语音识别和合成(用于会话用户界面)
- 文本分类(带有词性标注)
- 文本翻译
隐马尔可夫模型也用于数据分析操作。在该领域中,HMM用于集群目的。它发现数据集中对象之间的关联,并探索其结构。通常,HMM用于声音或视频信息源。
DBSCAN集群-客户服务个性化,推荐引擎
DBSCAN聚类又称基于密度的带噪声应用空间聚类是聚类的另一种方法。它通常用于以下活动的数据争吵和数据挖掘:
- 探索信息的结构
- 查找数据中的公共元素
- 从数据中预测趋势
总的来说,DBSCAN操作是这样的:
- 该算法对相互接近的数据点进行分组。
- 然后根据公开的共性对数据进行排序。
DBSCAN算法应用于以下领域:
- 有针对性的广告内容库存管理
- 客户服务个性化
- 推荐引擎
主成分分析(PCA) -数据分析可视化/欺诈检测
PCA是一种用于数据可视化的降维算法。这是一个甜蜜和简单的算法,它的工作和不乱。在大多数情况下是最好的选择。
PCA本质上是一种线性特征提取工具。它线性映射低维空间的数据。
PCA将输入特性组合在一起,以一种收集数据最重要部分的方式,同时去掉不相关的部分。
作为一个可视化工具- PCA是有用的显示鸟瞰操作。它可以是一个很好的工具的例子:
- 显示网站流量的动态起伏。
- 根据特定的标准将目标受众细分
t-SNE 数据分析可视化
t-SNE又称t分布随机邻接嵌入,是数据可视化的另一种常用算法。
t-SNE利用降维将高维数据转化为低维空间。换句话说,显示数据集的精华。
整个过程是这样的:
- 该算法计算了高维空间中点的相似性概率。
- 然后它在相应的低维空间中做同样的事情。
- 然后,该算法将高维空间和低维空间的条件概率差减到最小,以获得低维空间中数据点的最优表示。
因此,t-SNE非常适合可视化具有许多移动部件和不断变化的特征的更复杂的数据类型。例如,t-SNE对:
- 基因组可视化在基因组学中的应用
- 医疗测试分类(例如血液测试或手术统计摘要)
- 复杂的受众细分(包含非常详细的片段和重叠元素)
奇异值分解(SVD) -推荐系统
奇异值分解是一种用于探索和解释的降维算法。
它是一种突出数据集中信息的重要特征,并将其置于进一步操作的前端和中心的算法。例如,什么样的衬衫和鞋子最适合那些破旧的vantablack Levi ‘s牛仔裤。
简而言之,它可以锐化边缘,将圆形变成紧密贴合的正方形。在某种程度上,SVD正在重新利用相关的信息元素来适应特定的原因。
SVD可以使用:
- 要从数据集中提取某些类型的信息(例如,提取位于佛罗里达州坦帕市的每个用户的信息)。
- 为推荐引擎系统中的特定用户提供建议。
- 在实时竞价过程中,为特定的受众群体策划广告库存。
关联规则-预测分析
关联规则是无监督机器学习的基础算法之一。
它是一系列旨在揭示对象之间关系的技术。这为各种各样的预测提供了坚实的基础,并为计算某些事件相对于其他事件的转折的概率提供了坚实的基础。
虽然关联规则几乎可以应用于任何地方,但是描述它们具体在做什么的最佳方法是通过与ecommerce相关的示例。
关联规则算法主要有三种度量方法:
- 支持度量通过事务在其中出现的比例来显示项目的受欢迎程度。
- 置信度表示在购买A项之后购买B项的相似性。
- 升力测量也显示了在A项购买后B项被购买的相似性。然而,它增加了方程中B项的需求率。
结论
在特定市场获得竞争优势的秘诀是有效地利用数据。无监督机器学习算法帮助您分割数据,以研究目标受众的偏好,或了解特定病毒对特定抗生素的反应。
现实生活中的应用程序比比皆是,我们的数据科学家、工程师和架构师可以帮助您定义您的期望,并为您的业务创建定制的ML解决方案。