View on GitHub

我的博客

杂七杂八啥都有

新生开学了

吃饭要抓紧了

晚上没法去操场跑步了

我们知晓整体的存在，但整体（Population）不可知，我们只能拿到样本（Sample）

人工智能的测试集与样本集的效果不同

Sample Mean：线性的
- 能够反映出现的最多的量
Sample Median：能够反映分布
可以通过两者推断出分布：
- 正倾斜 $\hat{x} < \overline{x}$
- 负倾斜 $\hat{x} > \overline{x}$
- 对称分布 $\hat{x} = \overline{x}$

对于100个样本数据，修正25%可以：

定义 $s^2 = \frac{\sum (x_i - \overline{x})}{n - 1} = \frac{S_{xx}}{n - 1}$

定义 $s = \sqrt{s^2}$

Q1：为什么选择平方而不是绝对值？
Q2：为什么选择 n - 1 而不是 n？

A2：因为有时候选择 n - 1 能够更加符合总体方差

$\sigma ^{2} = \sum_{i = 1}^N (x_{i} - \mu)^{2} / N$

另一种表示方法：$s^2 = \frac{\sum (x_i - \overline{x})}{n-1} = \frac{S_{xx}}{n-1}$

可以通过这个公式推导出一种更方便计算的公式：$S_{xx} = \sum(x_i - \overline{x})^2 = \sum x{_i}{^2} - \frac{(\sum x_i)^2}{n}$

特点：可以描述

Fourth
$f_x = upper fourth - lower fourth \text{，上 1/4 的数据 - 下 1/4 的数据}$