统计机器学习——线性回归与分类
1. 引言
统计机器学习是数据科学中一门重要的学科,它结合了统计学和机器学习的思想,用来从数据中提取知识和信息。它广泛应用于预测、分析和模式识别等领域。线性回归和分类是统计机器学习中的两大基础方法,它们在许多实际应用场景中扮演着重要的角色。本篇文章将系统地介绍线性回归和分类的基本概念、模型建立、方法推导以及应用实例。
1.1 线性回归
线性回归是最基本的回归方法之一,它通过寻找自变量(输入特征)与因变量(输出)之间的线性关系来进行预测。它的目标是通过最小化误差来找到最佳的线性模型,从而对未知数据进行预测。
1.2 分类问题
分类问题属于监督学习的一种,旨在将输入的样本分类到不同的类别中。分类模型通过学习已标记数据的类别信息,从而实现对新样本的预测。常见的分类模型包括逻辑回归、支持向量机(SVM)、决策树、K最近邻(KNN)等。
2. 线性回归
2.1 线性回归模型的基本假设
线性回归模型假设输出变量 与输入变量 之间存在线性关系。这个关系可以表示为:
其中, 是模型的参数, 是输入特征, 是误差项,假设其服从正态分布,且具有零均值和常方差。
2.2 最小二乘法
线性回归的主要任务是通过找到最佳的参数 ,使得模型的预测值与真实值之间的误差最小。最常用的优化方法是最小二乘法(OLS,Ordinary Least Squares)。
最小二乘法的目标是最小化以下目标函数:
其中, 是第 个样本的真实标签, 是模型预测值, 是样本数。
2.3 线性回归的评估指标
为了评估线性回归模型的预测效果,我们通常使用以下几个评估指标:
- 均方误差(MSE,Mean Squared Error):衡量预测值与真实值之间差异的平方和的平均值。
- 决定系数():表示模型对数据变异的解释能力, 的值在 0 到 1 之间,越接近 1 表示模型的拟合程度越好。
2.4 线性回归的假设检验
在回归分析中,我们还需要检验模型参数的显著性。常用的假设检验方法有:
- t检验:用来检验回归系数是否显著不为零。
- F检验:用来检验模型是否整体显著。
2.5 线性回归的应用案例
假设我们有一组房地产数据,包含了房屋的面积、卧室数量、位置等特征,并且每个房屋都有一个销售价格。我们可以通过线性回归来建立一个预测模型,预测给定房屋的销售价格。
案例1:房价预测
假设我们有以下数据集:
面积(平方米) | 卧室数量 | 位置评分 | 销售价格(万元) |
---|---|---|---|
100 | 3 | 8 | 250 |
120 | 4 | 7 | 280 |
80 | 2 | 9 | 230 |
150 | 5 | 6 | 350 |
在这个案例中,目标是通过面积、卧室数量和位置评分预测房屋的销售价格。使用线性回归模型,可以构建如下方程:
通过训练模型,我们可以得到回归系数,从而进行价格预测。
2.6 线性回归的局限性
尽管线性回归是一种非常有效且简单的回归方法,但它也有一些局限性:
- 线性假设:线性回归要求因变量与自变量之间存在线性关系,这在实际问题中并不总是成立。
- 多重共线性:当输入特征之间存在高度相关性时,可能会导致回归模型的不稳定性。
- 异常值敏感性:线性回归对异常值非常敏感,异常值可能会对模型的拟合产生较大影响。
3. 分类模型
3.1 分类问题的定义
在分类问题中,目标是根据一组特征将数据点划分到不同的类别中。分类算法根据训练数据中的标签信息(类别)进行学习,并且根据学习到的规律对新样本进行分类。
分类任务可以是二分类或多分类问题。二分类问题中只有两种类别(例如,垃圾邮件与非垃圾邮件),而多分类问题中有多个类别(例如,不同种类的水果)。
3.2 逻辑回归
逻辑回归是一种广泛应用于二分类问题的分类方法。尽管名字中包含“回归”,但它是一种分类算法。逻辑回归模型的输出是一个概率值,表示样本属于某一类别的概率。
逻辑回归模型的假设形式为:
其中, 表示样本属于类别 1 的概率, 是模型的参数, 是输入特征。
3.3 逻辑回归的训练与评估
与线性回归类似,逻辑回归的训练目标是找到最优的模型参数。为了使得模型的预测最为准确,我们通常使用最大似然估计(MLE)来估计模型参数。
模型训练的目标是最大化似然函数:
通过对数似然函数进行最大化,我们可以获得最优的参数。
3.4 逻辑回归的评估指标
逻辑回归模型的评估指标包括:
- 准确率:预测正确的样本数占总样本数的比例。
- 精确率与召回率:精确率表示正类样本中被正确预测为正类的比例,召回率表示所有正类样本中被正确预测为正类的比例。
- F1-score:精确率和召回率的调和平均值,用于衡量模型在精确率和召回率之间的综合表现。
3.5 逻辑回归的应用案例
假设我们要建立一个电子邮件垃圾分类模型。训练数据包括电子邮件的特征,如邮件长度、是否包含特定关键词(如“免费”)等,标签为邮件是否为垃圾邮件。
案例2:垃圾邮件分类
我们收集了一些电子邮件数据,特征包括:
邮件长度 | 包含“免费”关键词 | 标签(垃圾邮件) |
---|---|---|
500 | 是 | 是 |
1200 | 否 | 否 |
300 | 是 | 是 |
1500 | 否 | 否 |
使用逻辑回归模型,我们可以预测给定的新邮件是否为垃圾邮件。模型的输出是一个概率值,如果概率大于 0.5,则分类为垃圾邮件。