当前位置: 首页>> 舆情简评 >>正文

机器学习算法-k均值聚类

2020-02-26 10:44 作者:蚁坊软件研究院 浏览次数:4784 标签: 深度学习算法
"速读全网"舆情,了解传播路径,把握发展态势——点击试用鹰眼速读网全网舆情监测分析系统

k均值聚类算法,是一种无监督算法,该算法的主要作用是将相似的样本自动归到一个类别中。所谓的无监督算法,就是输入样本没有对应的输出或标签,而聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个簇。k均值聚类简单易懂而且非常有效,但是确定合理的k值和k个初始类簇中心点对于聚类效果的好坏有很大的影响。

0 k均值聚类算法的主要学习内容

1)基本原理

2)k的选择及初始质心

3)k均值的优缺点

1  k均值聚类的基本原理

1.1  k均值聚类算法描述

k均值聚类算法中的一种,其中k表示类别数,是一种通过均值对数据点进行聚类的算法。适用于大样本,但需要事先指定分为k个类。

原理:从n个数据对象任意选择k个对象作为初始聚类中心,对剩余的其他对象,则根据它们与k个聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;再计算每个所获的新的聚类中心(该聚类中所有对象的均值);不断重复这一过程,知道标准测度函数开始收敛为止。

k均值聚类的特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。

1.2 k均值算法步骤

2 k值和初始质心的选取

2.1 k值的选取

对于一个给定没有分类的数据集,最后具体应该分为多少类,这确实时一个让人头痛的问题。要使k均值最后分类结果最好,也就是要使k均值最小化,是要最小化所有的数据点与其所关联的聚类中心点之间的距离之和,因此,我们可以设计k均值的代价函数为:

而k值在这里取到了重要作用。据统计发现k值的增加,其数据的代价损失是不断变小,如图,我们发现在k=3时,代价函数随着k值变化的幅度显著降低,在k>3之后所带来的作用也没有特别明显,所以我们可以选择k=3作为我们的聚类数目。

但实际应用中,k值的变换规律都不是和上图一样存在突变点,即拐点。那么这时,k值的选择主要还是根据经验以及利用k均值聚类的目的来决定。

2.2聚类中心的初始化

一般,在实际应用中,我们都是采取随机产生k个点作为初始的聚类中心,其原因是,简单快捷。

但k个初始化的质心的位置选择对最后的聚类结果和运行时间都有很大的影响,因此需要选择合适的k个质心。如果仅仅是完全随机的选择,有可能导致算法收敛很慢。k-means++算法就是对k均值随机初始化质心方法的优化。

k-means++算法对于初始化质心的优化策略也很简单,如下:

k均值聚类算法举例说明:

以下是一组用户的年龄数据

我们将K值定义为2对用户进行聚类,并随机选择16和22作为两个类别的初始质心。

计算距离并划分数据

我们以图的形式展示聚类的过程,在这组年龄数据中,我们选择16和22作为两个类别的初始质心,并通过计算所有用户的年龄值与初始质心的距离对用户进行第一次分类。

通过计算每个用户年龄分别与两个初始质心的距离,这里我们以黑色实心圆点表示两者距离较大,如表2.2.3,第一个数据15,到初始初始质心点16的距离为1,到第二个初始质心22的距离为7,相比之下,15与16的距离更近,近的距离以空心圆点标记。因此15这个年龄被划分到质心点为16的一组中,如果年龄数据点到两个初始质心的距离相等时,可任意划分到这两组中,例如,数据19到16和22的距离都为3,在这里,我们将它划分到了22中。

上表,我们按欧式距离最小,即相似程度最高对数据分为组后,分别计算分组中数据的均值,得分别为15.33和36.25,并以这两个均值作为新的质心。用新的质心代替原有的初始质心,迭代计算每个年龄数据点到新质心的距离,直到新的质心和上一次的质心相同为止。

表2.2.4,以年龄数据点到新质心的距离值完成分组后,计算两组的均值,为18.56和45.9,年龄数据点22到18.56的距离为3.44,到45.9的距离为23.9。因此年龄数据点22分配到质心为18.56的分组中。

这两个均值与上一次的质心结果不一样,故又用新得到的均值代替原来的质心。在新的质心下,计算数据点到新质心的距离,并对比数据点到两个新质心的距离,选择较小的距离值来确定数据点的分组。

表2.2.5,计算出的新的均值为19.50和47.89,与原来的均值不同,故将新均值代替原有均值作为现在的质心。

算法停止条件

开始计算的第一步,我们就说迭代计算每个数据到新质心的距离,直到新质心和原质心相同,算法就结束。使用上一步分组得到的均值19.5和47.89作为新质心,并计算年龄数据点到新质心的距离,以下计算结果。

使用质心为19.50和47.89进行数据分组,并计算每组的均值作为新的质心,从表2.2.6可知,这里的均值和原质心相等,也就是说新质心与原质心相同,都是19.50和47.89。这时算法停止计算,年龄数据点被划分为两类,对应取值区间为15-28和35-65.这就是k均值聚类的一个全过程。

3 k均值聚类的总结

3.1 k均值聚类的优点

1)原理简单,容易实现

2)可解释性较强

3)聚类效果较优

3.2 k均值聚类的缺点:

1)K值很难确定

2)对噪音和异常点敏感

3)需样本存在均值(限定数据种类)

4)采用迭代方法,得到的结果很有可能是局部最优

5)对于非凸数据集或类别规模差异太大的数据效果不好

4 k均值聚类的应用场景

1)股票k线聚类

2)商业银行客户分类

3)葡萄酒分级

4)高新技术信用评级

参考文献

[1] https://www.cnblogs.com/zhzhang/p/5437778.html

[2] https://blog.csdn.net/stayfoolish_fan/article/details/51888717

[3] https://blog.51cto.com/janwool/2058124

[4] https://blog.csdn.net/qq_42828404/article/details/81906809

[5] https://blog.csdn.net/Dhane/article/details/86661208

[6] https://www.cnblogs.com/bourneli/p/3645049.html


(部分文字、图片来自网络,如涉及侵权,请及时与我们联系,我们会在第一时间删除或处理侵权内容。电话:4006770986  邮箱:zhangming [at]eefung.com  负责人:张明)

热门文章 换一换
文章推荐换一换
舆情监测关注问题换一换
舆情监测公司排名 舆情分析 舆情管理 舆情监测系统 全网舆情监测系统 舆情监测 舆论 舆情监测平台 互联网舆情监测 舆情监控系统 舆情监测服务平台 热点舆情 网络舆情分析报告 舆论聚焦 中山大学张鹏 超强台风山竹 个人所得税起征点 微博传播分析 网红直播 手机舆情监测 做好舆情监控 舆情监测报价 网络热点事件 舆情搜索 舆情预警系统 近期舆情 舆情报告 舆情 免费舆情软件 舆情监测方案 舆情监测解决方案 舆情是什么意思 网络舆情监测 舆情案例分析 专业舆情监测 媒体舆情监测 药品安全事件 长春长生疫苗事件 洁洁良 乐清女孩 新浪微舆情 网络舆情分析报告 2019网络舆情事件 山东寿光水灾 社会舆情 舆情监测哪家好 舆情监测方法 舆情监测报价 新浪舆情 手机舆情监测 近期舆情 网红直播 舆情事件 免费舆情监测软件 社会舆情 网络舆情监测系统 舆情监测报告 舆情监测软件 网络舆情监测公司 互联网舆情监测系统 舆情监测分析 舆情监控前几大公司 网络舆情监控软件 网络舆情监控系统 舆情监控是什么意思 免费舆情监控 互联网舆情监控系统 网络舆情分析 舆情 政务舆情 什么是舆情 新华网舆情在线 舆情监控系统 互联网舆情分析 社区舆情信息 网络舆情信息 网络舆情分析系统 网络舆情管理 人民舆情监控 军犬网络舆情监控系统 舆情监控 涉警舆情 鹰击 鹰眼舆情
标签云 换一换
信息挖掘 舆情信息收集 地方舆情 属地舆情监测 如何网络舆情 舆情监测 政务舆情 舆情舆论汇总 新闻舆情 民生舆情 社会舆情 市场监管 舆情周报 近期舆情 舆情事件 涉警舆情 网络舆情监测系统 网络舆情监测 涉法舆情 检察舆情 互联网舆情监测平台 网络热点事件 社会舆论热点 舆情汇总 教育舆情 医疗舆情 金融舆情 金融监督管理局 财经金融舆情监测 行业舆情 互联网舆情监测 舆情监测方案 危机公关 新媒体舆情 政府舆情 政府舆情监测 开源情报工具 舆情系统 舆情告警 突发公共事件 应急舆情 假期舆情 灾害舆情 应急管理 舆情报告 舆情分析 旅游舆情 景区舆情 智慧城市 交通舆情 舆情管理 舆情预警 舆论监测 舆情案例 免费大数据平台有哪些 数据分析软件有哪些 数据监测 舆情查询 网信办信息汇总 舆情研究 舆情平台 短视频 视频舆情监测 舆情监测哪家好 热点监测 舆情热点事件 舆情研判 舆情风险 网络舆情 消费舆情 舆情监测系统 网络舆情网 舆情监测报价 农村舆情 乡镇舆情 舆论风险防范 税务舆情 舆情处置 学校舆情 校园舆情 互联网舆情监测系统 互联网舆情 舆情监测解决方案 全网舆情监测 舆情风险监测 舆情数据分析 舆情监测预警 生态环境舆情 舆情搜索 负面舆情 消防救援舆情 政策舆情 舆情案例分析 地震舆情 娱乐舆情 高校舆情 谣言传播 电力舆情 明星舆情 辖区舆情监测 新媒体舆情监测 疫情舆情 自媒体舆情监测 舆情监控前几大公司 社交新全媒体监测系统工具平台公司 网络综合治理 舆情分析研判 法治舆情 司法舆情 法院舆情 网红舆情 23年舆情报告 网络舆情分析系统 舆情应对 老年人保护舆情 医院舆情 网络安全 公安舆情监测分析 公安类舆情 网络意识形态 网络舆情治理 网上舆情 网红直播 在线舆情监测 能源舆情 舆情信息分析 妇女儿童舆情 涉毒舆情 科技舆情 鹰眼速读网 鹰击早发现 食品舆情 监狱舆情舆论 互联网舆情监测系统哪家好 大数据分析工具 企业舆情 大数据舆情监测 舆情传播 做好舆情监控 安全生产 网络社会热点舆情分析系统 政府舆情监测系统 2023年舆情分析报告 互联网舆情分析 大数据舆情分析 媒体舆情 媒体舆论 网络在线教学舆情 烟草舆情舆论 会议舆情 大数据舆情 网络舆论监测 舆情监测方法 舆情预警系统 媒体监测 环境舆情 公共事件舆情 舆情态势 舆论态势 舆论趋势 农业舆情 新闻舆论阵地管理 自媒体传播 自媒体乱象 女权舆论 性别矛盾 民族宗教舆情 宗教舆情 网络传播规律 银行舆情 舆情治理 互联网舆情治理 2022年舆情报告 未成年人舆情 舆情引导 舆情日报 两会舆情 审计局 舆情回应 舆论失焦 政法舆情 网络实名制 舆情监督 奥运会 涉稳舆情 疫情搜索大数据 铁路舆情 舆论知识点 新闻传播理论 新疆棉花 社会情绪指数 正面舆情 网络暴力 社会性死亡 辟谣 涉犬舆情 事件过程 鹰眼舆情 鹰击 清博大数据舆情 蚁坊 舆情格式 疫情舆情分析报告 舆情监测软件排名 抗疫英雄事迹舆情 虚假新闻 什么是舆情 2020年舆情报告 2020年舆情 社交媒体舆情 舆论监测软件 深度学习算法 机器学习 抗击疫情 疫情舆情分析 舆论分析 舆情公关 虐童事件 免费舆情监测软件 反转新闻 网红 微舆情 微博传播分析 舆情监测工具 传播路径分析 手机舆情监测 新浪舆情 新华舆情 2019网络热词 网络流行语 在线监测软件 百度舆情监测 企业危机管理 315 网络舆情危机 网络舆情监测公司 中国食品药品安全舆情事件案例 互联网舆情监控系统 舆情是什么意思 德云社 网络舆论分析 大数据舆情监测案例 网络热词 社会事件舆情分析 微博数据分析 高考舆情 舆情监测公司 2019舆情热点 舆情监测软件 犯罪舆情 股票舆情 月度舆情分析 消防舆情 航空舆情 微信舆情监测 民航舆情 人物舆情 公益舆情 感动中国 舆情监测平台 影视舆情 舆论监督 2019舆情 2018舆情事件盘点 2018舆情报告 舆情监测服务商 免费舆情监测系统 雾霾舆情 蚁坊软件 港澳台舆情 涉军舆情 拆迁舆情 舆情反转 反腐舆情 海外舆情 信息惠民 体育舆情 强拆舆情 舆情指数 环保舆情