Python scikit-learn 模块：学习路径

Travis Tang

2024-07-20

Python scikit-learn 模块：学习路径

scikit-learn 是一个用于数据挖掘和数据分析的 Python 模块，构建于 NumPy、SciPy 和 Matplotlib 之上。它被广泛用于机器学习任务，如分类、回归和聚类。scikit-learn 提供了简单易用的接口，使得从数据预处理到模型评估的整个机器学习流程都变得直观且高效。此模块适配 Python 版本为 3.6 及以上。

应用场景

scikit-learn 主要用于解决各种机器学习问题，以下是一些常见的应用场景：

分类：如垃圾邮件检测、图片识别等。
回归：如房价预测、股票价格预测等。
聚类：如客户细分、市场分析等。
降维：通过数据降维技术简化数据集，为可视化和后续分析提供便利。
模型选择和评估：在不同模型之间进行比较，选出最佳模型。

安装说明

scikit-learn 不是 Python 的默认模块，但可以通过 Python 的包管理工具 pip 进行安装。以下是安装命令：

1	pip install scikit-learn

用法举例

1. 分类示例

from sklearn.datasets import load_iris  # 导入 iris 数据集
from sklearn.model_selection import train_test_split  # 导入数据集拆分工具
from sklearn.ensemble import RandomForestClassifier  # 导入随机森林分类器
from sklearn.metrics import accuracy_score  # 导入准确率评估工具

# 加载数据集
iris = load_iris()  # 获取 iris 数据集
X = iris.data  # 特征（特征矩阵）
y = iris.target  # 标签（目标值）

# 拆分数据为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  # 80% 训练，20% 测试

# 创建并训练随机森林分类器
model = RandomForestClassifier()  # 实例化一个随机森林分类器
model.fit(X_train, y_train)  # 用训练集拟合模型

# 预测测试集
y_pred = model.predict(X_test)  # 使用训练好的模型对测试集进行预测

# 评估模型
accuracy = accuracy_score(y_test, y_pred)  # 计算测试集预测的准确率
print(f"模型的准确率是：{accuracy:.2f}")  # 输出准确率

在这个例子中，我们使用 scikit-learn 中的随机森林模型对 iris 数据集进行分类，并输出模型的准确性。

2. 回归示例

from sklearn.datasets import load_boston  # 导入波士顿房价数据集
from sklearn.model_selection import train_test_split  # 导入数据集拆分工具
from sklearn.linear_model import LinearRegression  # 导入线性回归模型
from sklearn.metrics import mean_squared_error  # 导入均方误差评估工具

# 加载数据集
boston = load_boston()  # 获取波士顿房价数据集
X = boston.data  # 特征矩阵
y = boston.target  # 目标值（房价）

# 拆分数据为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  # 80% 训练，20% 测试

# 创建并训练线性回归模型
model = LinearRegression()  # 实例化线性回归模型
model.fit(X_train, y_train)  # 用训练集拟合模型

# 进行预测
y_pred = model.predict(X_test)  # 预测测试集的房价

# 评估模型
mse = mean_squared_error(y_test, y_pred)  # 计算均方误差
print(f"模型的均方误差为：{mse:.2f}")  # 输出均方误差

在这个例子中，我们通过线性回归模型预测波士顿地区的房价，并使用均方误差评估模型效果。

3. 聚类示例

from sklearn.datasets import load_wine  # 导入葡萄酒数据集
from sklearn.cluster import KMeans  # 导入 KMeans 聚类算法
import matplotlib.pyplot as plt  # 导入绘图工具

# 加载数据集
wine = load_wine()  # 获取葡萄酒数据集
X = wine.data  # 特征矩阵

# 创建 KMeans 聚类模型
model = KMeans(n_clusters=3)  # 设定聚类数量为3
model.fit(X)  # 使用数据集拟合模型

# 预测聚类结果
y_kmeans = model.predict(X)  # 对数据进行聚类

# 可视化聚类结果
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, cmap='viridis')  # 选择前两个特征进行可视化
plt.title("KMeans 聚类结果")  # 添加标题
plt.xlabel("特征 1")  # 添加X轴标签
plt.ylabel("特征 2")  # 添加Y轴标签
plt.show()  # 显示图形

在此示例中，我们利用 KMeans 聚类算法对葡萄酒的数据进行聚类，并通过散点图展示聚类效果。

我强烈建议大家关注本人的博客全糖冲击博客，因为我的博客集合了所有关于 Python 标准库的使用教程，方便您进行查询和学习。无论您是新手还是专家，都能从中找到实用的资源。关注我的博客，您将获得最新的技术动态，提升自己的技能水平，享受学习的乐趣。