当前位置: 首页>> 舆情简评 >>正文

机器学习算法实践-k近邻算法

2020-03-02 14:36 作者:蚁坊软件研究院 浏览次数:4788 标签: 深度学习算法
"速读全网"舆情,了解传播路径,把握发展态势——点击试用鹰眼速读网全网舆情监测分析系统

K近邻法(KNN)是一种基本的分类方法,它的输入为实例的特征向量,对应于特征空间中的点,输出为实例的类别,可以取多类。实际上是利用训练数据集对特征向量空间进行划分,并作为其分类的模型。

0 k近邻算法的主要学习内容

1)k近邻算法

2)k值的选择

3)距离度量

4)分类决策规则

1 k近邻算法

k=1时,这个算法称为最近邻算法,对于输入的实例点(特征向量)x,最近邻法将训练数据集中与x最近邻点的类作为x的类。k近邻法没有显式的学习过程。

2 k近邻模型

2.1 距离度量[1]

特征空间中两个实例点的距离是两个实例点相似程度的反映,k近邻模型的特征空间一般是n维实数向量空间Rn,使用的距离是欧式距离,但也可以是其他距离。如更一般的Lp距离

例[1]:

2.2 k值的选择

k值的选择会对k近邻法的结果产生重大影响。

如果选择较小的k值,就相当于用较少的实例在进行预测,“学习”的近似误差会减小,因为只有与输入实例距离较近的训练实例才会对预测结果起作用,不足在于“学习”的估计误差会增大,会对近邻的实例点非常敏感,如果近邻的实例点恰巧是噪声,分类预测就会出错,而且k值较小就意味着整体模型会比较复杂,容易发生过拟合。

如果选择较大的k值,就相当于用较多的训练实例来进行预测,虽减少了学习的估计误差,但学习的近似误差会增大,与输入实例较远的不相似的实例也会对预测起作用,使预测发生错误,这时的整体模型变得简单。

如果k=N,那么无论输入实例是什么,都将简单地预测它属于在训练实例中最多的类,这时,模型过于简单,完全忽略训练实例中的大量有用信息,是不可取的。

在应用中,k值一般取一个比较小的数值,通常采用交叉验证法来选取最优的k值。经验规则:k一般低于训练样本数的平方根[2]。

2.3 分类决策规则[1]

k近邻算法的分类决策规则往往是多数表决(少数服从多数),即由输入实例的k个近邻的训练实例中多数类决定输入实例的类。

表示方法:

3 k近邻法的实现

3.1 kd树

实现k近邻算法时,我们主要考虑的问题是如何对训练集进行k近邻搜索,这点在特征空间的维数高,训练数据容量大时尤其必要。为提高k近邻搜索的效率,可以考虑使用特殊的结构存储训练数据,以减少计算距离次数。kd树就有这一作用,kd树是一个二叉树。

例:

3.2 搜索kd树

如图:

kd树适用于训练实例数大于空间维数时的k近邻搜索,当空间维数接近训练实例数时,它的效率会迅速下降,几乎接近线性扫描。

例:

给定一个如图的kd树,根结点为A,其子结点为B,C等,树上共存储7个实例点;另一个输入目标实例点S,求S的最近邻。

解:

首先在kd树中找到包含点S的叶结点D,以点D作为近似最近邻,真正最近邻一定在以点S为中心通过点D的圆的内部,然后返回结点D的父结点B,在结点B的另一个子结点F的区域内搜索最近邻,结果F的区域与圆不相交,不可能有最近邻点,继续返回上一级父结点A,在结点A的另一个结点C的区域内搜索最近邻,结点C的区域与圆相交,该区域在园内的实例点有点E,点E比点D更近,成为新的最近邻近似。最后得到点E是点S的最近邻。

4 k近邻法的总结

4.1 k近邻法的优点

1.简单,易于理解,易于实现,无参数估计,无需训练

2.对异常值不敏感

3.适合对稀有事件进行分类

4.适合样本容量比较大的分类问题

5.适合多分类问题研究,效果有时比支持向量机要好

4.2 k近邻法的缺点

1.懒惰算法,对测试样本分类时的计算量大,内存开销大,评分慢。

2.可解释性不强,无法给出如决策树那样的规则

3.对于小样本的分类问题,会产生误分。

5 k近邻法的应用

1.KNN约会配对

2.K近邻房价评估

3.蛋白质功能检测中的应用

4.网页分类

参考文献

[1] 李航,《统计学习方法》

[2] 常用数据挖掘算法总结及python实现

[3] https://blog.csdn.net/hhy518518/article/details/52840152

[4] https://blog.csdn.net/qq_15258623/article/details/80286230

[5]https://www.docin.com/p-1285931544.html


(部分文字、图片来自网络,如涉及侵权,请及时与我们联系,我们会在第一时间删除或处理侵权内容。电话:4006770986  邮箱:zhangming [at]eefung.com  负责人:张明)

热门文章 换一换
文章推荐换一换
舆情监测关注问题换一换
舆情监测公司排名 舆情分析 舆情管理 舆情监测系统 全网舆情监测系统 舆情监测 舆论 舆情监测平台 互联网舆情监测 舆情监控系统 舆情监测服务平台 热点舆情 网络舆情分析报告 舆论聚焦 中山大学张鹏 超强台风山竹 个人所得税起征点 微博传播分析 网红直播 手机舆情监测 做好舆情监控 舆情监测报价 网络热点事件 舆情搜索 舆情预警系统 近期舆情 舆情报告 舆情 免费舆情软件 舆情监测方案 舆情监测解决方案 舆情是什么意思 网络舆情监测 舆情案例分析 专业舆情监测 媒体舆情监测 药品安全事件 长春长生疫苗事件 洁洁良 乐清女孩 新浪微舆情 网络舆情分析报告 2019网络舆情事件 山东寿光水灾 社会舆情 舆情监测哪家好 舆情监测方法 舆情监测报价 新浪舆情 手机舆情监测 近期舆情 网红直播 舆情事件 免费舆情监测软件 社会舆情 网络舆情监测系统 舆情监测报告 舆情监测软件 网络舆情监测公司 互联网舆情监测系统 舆情监测分析 舆情监控前几大公司 网络舆情监控软件 网络舆情监控系统 舆情监控是什么意思 免费舆情监控 互联网舆情监控系统 网络舆情分析 舆情 政务舆情 什么是舆情 新华网舆情在线 舆情监控系统 互联网舆情分析 社区舆情信息 网络舆情信息 网络舆情分析系统 网络舆情管理 人民舆情监控 军犬网络舆情监控系统 舆情监控 涉警舆情 鹰击 鹰眼舆情
标签云 换一换
行业舆情 互联网舆情分析 互联网舆情监测平台 地方舆情 消费舆情 短视频 视频舆情监测 全网舆情监测 舆情平台 舆情监测软件排名 舆情治理 网络舆情治理 舆情预警 舆情监测平台 舆情态势 舆论态势 舆情事件 舆情查询 农业舆情 农村舆情 属地舆情监测 民生舆情 老年人保护舆情 社会事件舆情分析 舆情报告 舆情分析 网络舆情监测 舆情热点事件 旅游舆情 舆情风险 舆论风险防范 舆情风险监测 舆论监测软件 舆情系统 在线监测软件 舆情监测软件 新闻舆情 学校舆情 高校舆情 舆情汇总 网络舆论监测 教育舆情 妇女儿童舆情 网红直播 中国食品药品安全舆情事件案例 医疗舆情 网络热点事件 校园舆情 数据监测 舆情信息分析 舆情数据分析 政务舆情 舆情舆论汇总 突发公共事件 舆情周报 近期舆情 舆情研判 市场监管 AI舆情服务 舆情服务 大数据舆情 网络安全 蚁坊软件 社会舆情 舆情应对 舆情回应 舆情监测 舆情信息收集 网上舆情 安全生产 食品舆情 信息挖掘 舆情搜索 疫情舆情 涉稳舆情 公共事件舆情 社会舆论热点 航空舆情 开源情报工具 舆情监测报价 网络传播规律 舆情传播 传播路径分析 政府舆情 网络舆情监测系统 涉法舆情 检察舆情 涉警舆情 景区舆情 网络舆情分析系统 医院舆情 蚁坊 抗击疫情 疫情舆情分析 人工智能 舆情管理 社交媒体舆情 舆论监测 网络舆情 谣言传播 金融舆情 金融监督管理局 热点监测 财经金融舆情监测 舆情监测解决方案 舆情监测方案 应急舆情 网络社会热点舆情分析系统 灾害舆情 应急管理 舆情监测系统 免费舆情监测软件 免费大数据平台有哪些 互联网舆情监测系统哪家好 互联网舆情监测 2023年舆情分析报告 电力舆情 高考舆情 互联网舆情 网络综合治理 舆情研究 网络信息生态治理 政府舆情监测 舆情监测服务商 铁路舆情 舆情分析研判 交通舆情 辖区舆情监测 舆情服务商 如何网络舆情 能源舆情 企业舆情 政策舆情 危机公关 新媒体舆情 舆情告警 假期舆情 智慧城市 舆情案例 数据分析软件有哪些 网信办信息汇总 舆情监测哪家好 网络舆情网 乡镇舆情 税务舆情 舆情处置 互联网舆情监测系统 舆情监测预警 生态环境舆情 负面舆情 消防救援舆情 舆情案例分析 地震舆情 娱乐舆情 明星舆情 新媒体舆情监测 自媒体舆情监测 舆情监控前几大公司 社交新全媒体监测系统工具平台公司 法治舆情 司法舆情 法院舆情 网红舆情 23年舆情报告 公安舆情监测分析 公安类舆情 网络意识形态 在线舆情监测 涉毒舆情 科技舆情 鹰眼速读网 鹰击早发现 监狱舆情舆论 大数据分析工具 大数据舆情监测 做好舆情监控 政府舆情监测系统 大数据舆情分析 媒体舆情 媒体舆论 网络在线教学舆情 烟草舆情舆论 会议舆情 舆情监测方法 舆情预警系统 媒体监测 环境舆情 2024年报告 舆情专报 AI舆情监测服务 AI舆情监测服务平台 次生舆情 大数据服务平台 舆情分析服务 舆论反应 信息战 舆论战 舆论趋势 新闻舆论阵地管理 自媒体传播 自媒体乱象 女权舆论 性别矛盾 民族宗教舆情 宗教舆情 银行舆情 互联网舆情治理 2022年舆情报告 未成年人舆情 舆情引导 舆情日报 两会舆情 审计局 舆论失焦 政法舆情 网络实名制 舆情监督 奥运会 疫情搜索大数据 舆论知识点 新闻传播理论 新疆棉花 社会情绪指数 正面舆情 网络暴力 社会性死亡 辟谣 涉犬舆情 事件过程 鹰眼舆情 鹰击 清博大数据舆情 舆情格式 疫情舆情分析报告 抗疫英雄事迹舆情 虚假新闻 什么是舆情 2020年舆情报告 2020年舆情 深度学习算法 机器学习 舆论分析 舆情公关 虐童事件 反转新闻 网红 微舆情 微博传播分析 舆情监测工具 手机舆情监测 新浪舆情 新华舆情 2019网络热词 网络流行语 百度舆情监测 企业危机管理 315 网络舆情危机 网络舆情监测公司 互联网舆情监控系统 舆情是什么意思 德云社 网络舆论分析 大数据舆情监测案例 网络热词 微博数据分析 舆情监测公司 2019舆情热点 犯罪舆情 股票舆情 月度舆情分析 消防舆情 微信舆情监测 民航舆情 人物舆情 公益舆情 感动中国 影视舆情 舆论监督 2019舆情 2018舆情事件盘点 2018舆情报告 免费舆情监测系统 雾霾舆情 港澳台舆情 涉军舆情 拆迁舆情 舆情反转 反腐舆情 海外舆情 信息惠民 体育舆情 强拆舆情 舆情指数 环保舆情