机器学习框架sklearn之转换器和估计器
创始人
2024-06-02 18:31:52

转换器

Scikit-learn (sklearn) 是一个用于机器学习的Python库。其中两个重要的概念是转换器(transformer)和估计器(estimator),它们是scikit-learn库中的两个核心概念。

转换器是将数据集从一种形式转换为另一种形式的工具。例如,将原始数据进行标准化处理,将文本数据转换为数值特征等。在sklearn中,转换器类的名称以Transformer结尾。转换器通常有一个fit_transform()方法,可以在训练集上拟合模型并将其应用于测试集。

做的特征工程的步骤?

  • 1.实例化(实例化是一个转换器类(Transformer))
  • 2.调用fit_tranformer(对于文档建立分类词频矩阵)

我们把特征工程的接口称之为转换器,其中转换器调用有这么几种形式:

  • fit_transform
  • fit
  • transform

常见的转换器:

  • StandardScaler:用于标准化数值特征。
  • OneHotEncoder:用于将分类变量转换为数值特征。
  • CountVectorizer:用于将文本数据转换为数值特征。
  • PCA:用于将高维数据集降低维度。

估计器

在sklearn中,估计器(estimator)是一个重要角色,是一类实现了算法的API。
估计器是一种从数据集中学习模型的工具。估计器的任务是使用拟合模型对新数据进行预测。在sklearn中,估计器类的名称以Estimator结尾。估计器有两个基本方法,fit()方法和predict()方法。fit()方法在训练集上训练模型,而predict()方法用于在新数据上进行预测。

需要注意的是,某些转换器也可以作为估计器使用,这意味着它们可以使用fit()方法在训练集上拟合模型,并使用predict()方法对新数据进行预测。这些转换器估计器也被称为“带监督的转换器”。

  • 用于分类的估计器

    • sklearn.neighbors k-近邻算法
    • sklearn.native_bayes 贝叶斯
    • sklearn.linear_model.LogisticRegression 逻辑回归
    • sklearn.tree 决策树与随机森林
  • 用于回归估计器

    • sklearn.linear_model.LinearRegression 线性回归
    • sklearn.linear_model.Ridge 岭回归
  • 用于无监督学习的估计器

    • sklearn.cluster.KMeans 聚类

    估计器工作流程

    1.实例化一个estimator类

    2.estimator.fit(x_train,y_train) 计算

    ​ ----调用完毕,模型生成

    3.模型评估

    ​ 1)直接比对真实值和预测值

    ​ y_predict = estimator.predict(x_test)

    ​ y_test == y_predict

    ​ 2) 计算准确率

    ​ accuracy = estimator.score(x_test,y_test)

相关内容

热门资讯

杭州银行行长张精科任职资格获监... 中访网数据  杭州银行股份有限公司(证券代码:600926,证券简称:杭州银行)今日公告,公司收到国...
伊朗外长回应美总统“不要报复”... 本文转自【央视新闻客户端】;总台记者获悉,当地时间3月1日,伊朗外交部长阿拉格齐在接受媒体采访时,就...
美军称在打击伊朗导弹设施时使用... 转自:财联社【美军称在打击伊朗导弹设施时使用B-2隐形轰炸机】财联社3月2日电,美国中央司令部当地时...
阿布扎比和迪拜股市3月2日至3...   阿联酋资本市场管理局通过电子邮件发表声明说,阿布扎比证券交易所和迪拜金融市场3月2日至3日关闭。...
主要产油国宣布4月增产 转自:成都日报锦观主要产油国宣布4月增产 据新华社维也纳3月1日电(记者 孟凡宇) 石油输出国...