设距离为欧式距离,将K值设置为1-10,求取测试数据的预测

2023-10-05 16:36:01美洲杯017

设距离为欧式距离,将K值设置为1-10,求取测试数据的预测
导读：你就求呗，对不同的K值，分别算一下预测精度不就好了。这是让你了解K值的不同对预测的影响。K值的选取：K是一个自定义的常量，是KNN算法中一个非常重要的参数。K值的选取会影响待分类样本的分类结果，会影响算法的偏差与方差。偏差：模型输出值与真

你就求呗，对不同的K值，分别算一下预测精度不就好了。这是让你了解K值的不同对预测的影响。

K值的选取：K是一个自定义的常量，是KNN算法中一个非常重要的参数。K值的选取会影响待分类样本的分类结果，会影响算法的偏差与方差。

偏差：模型输出值与真实值之间的差异。偏差越高，则数据越容易欠拟合(Underfitting)，未能充分利用数据中的有效信息。

方差：对数据微小改变的敏感程度。假如有一组同一类的样本，并且这些样本的特征之间只有微小差异，用训练好的模型进行预测并求得方差。理想情况下，我们应该得到的方差为0，因为我们预料我们的模型能很好处理这些微小的变化；但现实中存在很多噪声(即存在不同类别的样本，其特征向量差异很小)，即使是特征差异很小的同一类样本也可能达到不同类别的结果。而方差实际上就是衡量对噪声的敏感程度。方差越高，越容易过拟合(Overfiiting)，对噪声越敏感。

K值较小：就相当于用较小的领域中的训练实例进行预测，“学习”近似误差会减小， K值的减小就意味着整体模型变得复杂，容易发生过拟合，即增大了方差；

K值较大：就相当于用较大领域中的训练实例进行预测，其优点是可以减少学习的估计误差，但缺点是学习的近似误差会增大。这时候，与输入实例较远（不相似的）训练实例也会对预测器作用，使预测发生错误，且K值的增大就意味着整体的模型变得简单。k很大，那么可以减少干扰数据的影响，但是此时就导致了系统性偏差（K值太小会造成过度拟合），比如如果取k为总的训练数据数，那么每次投票肯定都是训练数据中多的类别胜利。显然训练数据的系统性偏差会影响结果。

通常情况下，我们需要对 k 经过多种尝试，来决定到底使用多大的 k 来作为最终参数。k通常会在3～10直接取值，或者是k等于训练数据的平方根。比如15个数据，可能会取k=4。

在实际应用中，一般采用交叉验证法（简单来说，就是一部分样本做训练集，一部分做测试集）来选择更优的K值。

1，原始数据不平稳，不能建立VAR模型，只能建立VEC模型。 2，运用VAR模型或者VEC模型，一般都要做格兰杰检验，不然得不出有效的实证分析信息。 3，顺序：单位根-平稳-VAR-格兰杰；单位根-不平稳-协整-VEC-格兰杰 4，二阶差分协整应该还是用原始

在应用协方差矩阵计算一元线性回归模型中，我们通常考虑两个变量：自变量（或预测变量）X和因变量（或响应变量）Y。

最小二乘法是一种优化技术，用于找到使预测值和实际值之间的平方和最小的β值。

方差：

方差是衡量变量波动程度的量，用σ²表示。β的方差可以计算为：

Var(β) = (1/n) (Σ(x_i - μ_x)² Σ(y_i - μ_y)² - (Σ(x_i y_i) - n μ_x μ_y)²) / (Σ(x_i² - μ_x²) Σ(y_i² - μ_y²))

其中，n是样本数量，μ_x和μ_y分别是X和Y的均值，x_i和y_i是第i个样本的X和Y值。

协方差：

协方差衡量两个变量的总体误差。在我们的模型中，我们关注的是β和ε的协方差以及β和X的协方差。

Cov(β, ε) = 0，因为β和ε没有直接的关系。