机器学习的定义、分类和方法要素

机器学习：是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。

研究对象是数据，从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，又回到对数据的分析与预测中去。
基本假设：同类数据具有一定的统计规律性。
方法：1、给定的、有限的、用于学习的训练数据出发；2、模型——属于某个函数的集合，称为假设空间（hypothesis space）；3、从假设空间中选取一个最优模型，使它对已知的训练数据及未知的测试数据（test data）在给定的评价准则下有最优的预测

监督学习（Supervised Learning）

定义：从标注数据中学习预测模型的机器学习问题

标注数据表示输入输出的对应关系
预测模型对给定的输入产生相应的输出
输入到输出的映射的统计规律
标注的数据集往往是人工给出的，所以叫监督学习利用训练数据集学习一个模型，再用模型对测试样本集进行预测，因此分为学习系统和预测系统。数据：
输入/特征：随机变量𝑋；每个具体的输入是一个实例（instance）,取值为特征向量𝑥
输出：随机变量𝑌；每个具体的输出是一个标签（label）,取值为特征向量𝑦
样本点：输入-输出对$(𝑥_𝑖，𝑦_𝑖)$
训练数据：学习模型使用的输入-输出集合
测试数据：模型需要预测的输入-输出集合
独立同分布假设输入变量与输出变量均为连续变量的预测问题称为回归问题输出变量为有限个离散变量的预测问题称为分类问题输入变量与输出变量均为变量序列的预测问题称为标注问题模型：输入到输出的映射，这一映射由来表示
假设空间：模型属于由输入空间到输出空间的映射的集合；假设空间的确定意味着学习的范围的确定
模型类别：概率模型或非概率模型
概率模型：条件概率分布$𝑃(𝑌|𝑋)$
非概率模型表示：决策函数$𝑌=𝑓(𝑋)$
对具体的输入进行相应的输出预测时，写作$𝑃(𝑦|𝑥) $$或$$𝑦=𝑓(𝑥)$
一般用参数化的模型$𝑃(𝑌|𝑋;𝜃)$和$𝑌=𝑓(𝑋;𝜃)$ 策略：按照什么样的准则学习或选择最优的模型 损失函数:度量模型一次预测的好坏 ![[Pasted image 20260302150437.png]] 期望损失：损失函数的期望（理论上模型关于联合分布$𝑃(𝑋,𝑌)$的平均意义下的损失），但由于联合分布未知，因此无法计算…… $$R_{exp}(f)=E_P[L(Y,f(X))]=\int_{x*y}L(y,f(x))P(x,y)dx dy$$ 经验损失：损失函数在训练集上的平均（模型$𝑓(𝑥)$关于训练数据集的平均损失） $$R_{emp}(f)=\frac{1}{N}\sum\limits_{i=1}^NL(y_i,f(x_i))$$ 当样本容量𝑁趋于无穷时，$𝑅_{emp}(𝑓)$趋于$𝑅_{exp}(𝑓)$,用经验损失估计期望损失 因此： 经验风险最小化：认为经验损失最小的模型是最优的模型求解最优化的问题： $$\min\limits_{f\in F}\frac{1}{N}\sum\limits_{i=1}^NL(y_i,f(x_i))$$
当样本容量足够大时，经验损失最小化能保证有很好的学习效果，在现实中被广泛采用
当样本容量很小时，经验损失最小化未必好，会产生“过拟合”（over-fitting）现象 结构风险最小化：是为了防止过拟合而提出来的策略，加入用正则项（regularization）近似期望损失函数；$J(f)$为模型的复杂度，权衡经验风险和模型复杂度，希望同时小。求解最优化问题： $$\min\limits_{f\in F}\frac{1}{N}\sum\limits_{i=1}^NL(y_i,f(x_i))+\lambda J(f)$$ 评估：目的：学到的模型不仅对已知数据而且对未知数据都能有很好的预测能力。 训练误差：训练好的模型$𝑌=𝑓(𝑋;\hat{𝜃})$关于训练数据集的平均损失 $$R_{emp}(\hat{f})=\frac{1}{N}\sum\limits_{i=1}^NL(y_i,\hat f(x_i))$$ 测试误差：是模型$𝑌=𝑓(𝑋;\hat{𝜃})$关于测试数据集的平均损失 $$e_{test}=\frac{1}{N'}\sum\limits_{i=1}^{N'}L(y_i,\hat f(x_i))$$
训练误差的大小对判断给定的问题是不是一个容易学习的问题是有意义的，但本质上不重要
测试误差反映了学习方法对未知的测试数据集的预测能力，是学习中的重要概念。希望测试误差小
通常将学习方法对未知数据的预测能力称为泛化能力

选择：过拟合：一味追求提高对训练数据的预测能力，所选模型复杂度则往往会比真模型更高欠拟合：一味追求降低模型复杂度，会损失对训练数据以及测试数据的预测能力模型选择旨在避免过拟合和欠拟合 ![[Pasted image 20260302153906.png]]

无监督学习（Unsupervised Learning）

定义: 是指从无标注数据中学习预测模型的机器学习问题

无标注数据是自然得到的数据
预测模型表示数据的类别、转换或概率
本质是学习学习数据中的统计规律或潜在结构
模型可以实现对数据的聚类、降维或概率估计

数据: 相对于监督学习而言，输出变成了隐藏随机变量𝑍，组成希望找到的隐含结构空间，取值为隐含向量𝑧

模型：输入到隐含变量的映射；$𝑃(𝑍|𝑋)$、$𝑃(𝑋|𝑍)$或$𝑍=𝑓(𝑋)$

线性回归

最小二乘线性回归

线性回归：假定输入输出变量间的函数关系$𝑦=𝑓(𝑥;𝜃)$是线性的。本质上是参数$𝜽$的线性函数 数据：

输入向量$x=(x^{(1)},x^{(2)},x^{(3)},…,x^{(p)})^T$
输出标量（可也拓展为向量）$y$
数据集｛$(x_1,y_1),(x_2,y_2),…,(x_N,y_N)$｝模型:
$$y = \theta_0 + \theta_1 x^{(1)} + \theta_2 x^{(2)} + \dots + \theta_p x^{(p)}$$

$$y = \theta_0 + \sum_{j=1}^p \theta_j x^{(j)}$$

$$y = x^T \theta$$
增广的输入向量$\boldsymbol{x} = (1, x^{(1)}, x^{(2)}, \dots, x^{(p)})^T$
$\boldsymbol{\theta} = (\theta_0, \theta_1, \dots, \theta_p)^T$是待学习的参数向量，𝑝+1行1列
模型是参数$𝜽$的线性函数，确定了线性函数组成的假设空间

策略:
最常用的损失函数是平方损失$L(y, f(x)) = (y - f(x))^2 = (y - x^T \theta)^2$
对应的经验风险(训练集上的平均损失)：$T = {(x_1, y_1), (x_2, y_2), \dots, (x_N, y_N)},\quad R_{\text{emp}}(f) = \frac{1}{N} \sum_{i=1}^N L(y_i, f(x_i))$
RSS（残差平方和）
$$RSS(\theta) = \sum_{i=1}^N (y_i - f(x_i))^2 = \sum_{i=1}^N (y_i - x_i^T \theta)^2$$
经验风险的设置并没有假设线性模型的有效性，仅仅是目标寻找数据的最佳线性拟合。
将所有数据表示成矩阵：$y = (y_1, y_2, \dots, y_i)^T$
$$X =\begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1p} \\ 1 & x_{21} & x_{22} & \dots & x_{2p} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n1} & x_{n2} & \dots & x_{np} \end{pmatrix}=(x_1, x_2, \dots, x_N)^T$$
$\theta=(\theta_0,\theta_1,\theta_2,\dots,\theta_p)^T$

则 $RSS(\theta) = (\boldsymbol{y} - X\theta)^T (\boldsymbol{y} - X\theta)$

算法：

直接对$RSS(\theta) = (\boldsymbol{y} - X\theta)^T (\boldsymbol{y} - X\theta)$式对$\theta$求一阶导为0有，解得最小值成立$\frac{\partial RSS}{\partial \theta} = -2X^T(\boldsymbol{y} - X\theta)=0$为：

$$X^T(\boldsymbol{y} - X\theta) = 0 \Rightarrow X^T X\theta = X^T \boldsymbol{y} \Rightarrow \hat{\theta} = (X^T X)^{-1} X^T y$$

解出$\hat{\theta}$后即可对新的向量$x_{new}$进行预测：$\hat{y}=x_{new}^T\hat{\theta}$

对于式子：$X^T X\theta = X^T \boldsymbol{y}$是一个关于$\theta$的线性方程组，若方程组的个数少于参数的数目，则$\theta$有无穷个解；方程组的个数为样本点数目$N$，参数的数目为$p+1$
$N<p+1$时$X^TX$不可逆，发生过拟合，可通过减少输入的数目（特征选择）或者正则化来处理

模型：

输入输出写为随机变量：$Y=X\theta+\epsilon$，其中噪声$\epsilon$的均值为0，方差为$\sigma^2$，当噪声服从正态分布时，有$\epsilon \sim N(0, \sigma^2)$

人工智能与机器学习

机器学习的定义、分类和方法要素

监督学习（Supervised Learning）

无监督学习（Unsupervised Learning）

线性回归

最小二乘线性回归

岭回归