聚类(clustering)是一项机器学习任务,用于寻找类似对象并将他们分成不同的组(这些组称做“聚类”(cluster))。聚类与其它机器学习方法的不同之处在于聚类是自动进行的。事实上,我们可以说它是监督学习的对立面。
尼日利亚多样化的观众有着多样化的音乐品味。使用从 Spotify 上抓取的数据(受到本文的启发),让我们看看尼日利亚流行的一些音乐。这个数据集包括关于各种歌曲的舞蹈性、声学、响度、言语、流行度和活力的分数。从这些数据中发现一些模式(pattern)会是很有趣的事情!
Marcela Laskoski 在 Unsplash 上的照片
在本系列课程中,您将发现使用聚类技术分析数据的新方法。当数据集缺少标签的时候,聚类特别有用。如果它有标签,那么分类技术(比如您在前面的课程中所学的那些)可能会更有用。但是如果要对未标记的数据进行分组,聚类是发现模式的好方法。
这里有一些有用的低代码工具可以帮助您了解如何使用聚类模型。尝试 Azure ML for this task
这些课程由 Jen Looper 在 🎶 上撰写,并由 Rishit Dagli 和 Muhammad Sakib Khan Inan 进行了有帮助的评审。
尼日利亚歌曲数据集 来自 Kaggle 抓取的 Spotify 数据。
一些帮助创造了这节课程的 K-Means 例子包括:虹膜探索(iris exploration),介绍性的笔记(introductory notebook),和 假设非政府组织的例子(hypothetical NGO example)。
Copyright© 2013-2020
All Rights Reserved 京ICP备2023019179号-8