KNN算法实现
创始人
2024-02-08 10:33:39

目录

实验目标

案例内容介绍

实验步骤

1、导入实验所需的sklearn包,导入numpy,进行矩阵计算

2、提供简单的数据结构进行后续的KNN算法验证

3、KNN算法的内容

4、调用KNN算法

5、训练数据

6、预测结果,可以查看分类结果

实验目标

  1. 了解KNN算法的基本思想;
  2. 能够使用SKlearn实现KNN算法。

案例内容介绍

KNN是通过测量不同特征值之间的距离进行分类。它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

实验步骤

1、导入实验所需的sklearn包,导入numpy,进行矩阵计算

# 从sklearn 导入KNeighborsClassifier方法
from sklearn.neighbors import KNeighborsClassifier
import numpy as np

2、提供简单的数据结构进行后续的KNN算法验证

X = np.array([[1, 1], [1, 1.5], [2, 2.5], [2.5, 3], [1.5, 1], [3, 2.5]])
y = ['A', 'A', 'B', 'B', 'A', 'B']

3、KNN算法的内容

根据sklearn提供的包,创建knn算法对象

n_neighbors=5

int 型参数 knn算法中指定以最近的几个最近邻样本具有投票权,默认参数为5

algrithm='auto'

str参数 即内部采用什么算法实现。有以下几种选择参数:

'ball_tree':球树、'kd_tree':kd树、'brute':暴力搜索、'auto':自动根据数据的类型和结构选择合适的算法。

默认情况下是‘auto’。暴力搜索就不用说了大家都知道。具体前两种树型 数据结构哪种好视情况而定。KD树是对依次对K维坐标轴,以中值切分构造 的树,每一个节点是一个超矩形,在维数小于20时效率最高。

ball tree 是为了克服KD树高维失效而发明的,其构造过程是以质心C和半径r分割样本空间,每一个节点是一个超球体。一般低维数据用 kd_tree速度快,用ball_tree相对较慢。超过20维之后的高维数据,用kd_tree效果反而不佳,而ball_tree效果要好,具体构造过程及优劣势的理论大家有兴趣可以去具体学习。

4、调用KNN算法

model = KNeighborsClassifier(n_neighbors=4, algorithm='ball_tree')

5、训练数据

"""
fit 就是训练模型
fit()                     
训练函数,它是最主要的函数。接收参数只有1个,就是训练数据集,
每一行是一个样本,每一列是一个属性。它返回对象本身,即只是修
改对象内部属性,因此直接调用就可以了,后面用该对象的预测函数
取预测自然及用到了这个训练的结果。其实该函数并不是
KNeighborsClassifier这个类的方法,
而是它的父类SupervisedIntegerMixin继承下来的方法。
"""
model.fit(X, y)

6、预测结果,可以查看分类结果

# 预测
print(model.predict([[1.75, 1.75]]))  # 输出分类结果
print(model.predict_proba([[1.75, 1.75]]))  # 返回预测属于某标签的概率
print(model.score(X, y))  # 输出模型训练结果

相关内容

热门资讯

绿金新闻 | 中国人民银行拓展...   Hehson财经ESG评级中心提供包括资讯、报告、培训、咨询等在内的14项ESG服务,助力上市公...
“上班死气沉沉,下班魅力四射”... (来源:百姓关注) 大家都在问
芝加哥联储主席力挺鲍威尔 警告... 美国芝加哥联储主席古尔斯比周四表示,近期针对美联储及主席鲍威尔的攻击令人担忧,若削弱央行独立性,可能...
天津解除预警!应急响应终止! (来源:天津日报)转自:天津日报据“天津生态环境”微信公众号,根据空气质量会商结果,1月15日晚起,...
抖音电商年度报告:购买国货的用... 1月15日,抖音电商发布《2025抖音电商发展数据报告》。报告显示,2024年8月至2025年8月,...