概率
NOTE
数学定义的工具色彩更重,直观的定义往往是这种更宽松定义的推论
概率是集合函数,规定了一系列性质,方便在上面做代数运算
定义:
- 可列可加性: 定义是最小的规则集合,可以推出更多我们能自然理解的规则:
- :
- :
- :
本质上概率就是说我可以用这个函数建立起一套代数系统,方便我对事件做可能性的量化计算。至于怎么建模可能性,和这些个定义和运算方法目前无关,因此才产生了频率和贝叶斯的观点。
条件概率
满足概率定义,因为:
-
-
-
所以适用于概率的恒等式也都适用于条件概率
-
乘法公式:
- 条件概率的条件概率:把新条件与到已有条件里:,因为
- 将看作,则有
-
全概率公式:有一组假设 是A的分割,即的和事件为A且互斥,则有:
贝叶斯定理
A: 肺癌,B:吸烟。现在发现肺癌里吸烟的人很多。
- 如果所有肺癌的人都吸烟、所有人都吸烟,那么吸烟一定导致肺癌?
- 如果所有肺癌的人都吸烟,但是吸烟的并不是所有人,那么吸烟得肺癌率被放大
- 如果肺癌的人吸烟比例不比人群中吸烟的人高,那么吸烟得肺癌率不比普通人的肺癌率高
患病 阳性
比如
- 患病(A)率为
- 患病阳性(TPR)率为
- 不患病阴性率(TNR)为
那么根据全概率公式
阳性率为 但实际上阳性下患病率也就 ,因此TPR、TNR双高并不代表PPV就高,
在样本比较均衡的时候,TPR、TNR高就意味着PPV、NPV双高
| 正 | 负 | |
|---|---|---|
| 正 | 99 | 1 |
| 负 | 1 | 999 |
但是当正负样本的分布极不均衡时:
| 正 | 负 | |
|---|---|---|
| 正 | 99 | 100 |
| 负 | 1 | 99900 |
因此如果TPR/FPR不够大,稍微放大一下负样本的数量就会让PPV变小了。
所以阳性下患病率
而阴性下非患病率被放大了 ,患病率下降至 。FNR低于
但是如果复查,检查的FNR、TPR不会变,但是人群变成了阳过一次的人群了,因此
- P、N:例子的正负两面
- T、N:正确判断、错误判断
- TP、TN:正确判断的正例、负例数量
- FP、FN:判断为P/N,但判断错误(F),实际为N/P
- P = TP + FN,N = TN + FP
- 看真实分类里的预测准确率:
- TPR (sensitivity敏感性)、TNR(specificity特异性):TP/P(正确判断的正例占所有正例的比例),TN/N
- FPR假阳率、FNR假阴率:FP/N,FN/P
- 看预测分类里的准确率:
- PPV、NPV:TP/(TP+FP) , TN/(TN+FP)
- FD(discovery)R, FO(omission)R:FP/(TP+FP) (Precision), FN/(TN+FN)
- 看全体:accuracy 准确度
Note
真假{T,F} 预测{P,N} 除以 {阳预测,阴预测,阳样本,阴样本}
Note
- 真阳占正样本的比例是真阳率TPR,衡量模型敏感性;预测错误的比例是假阴率FNR,是犯第二类(β)取伪错误的比例
- 真阴占负样本的比例是真阴率TNR,说明模型的特异性,是犯第一类(α)弃真错误的比例
- 真阳占阳预测的比例是正预测值PPR,真阴占阴预测的比例是负预测值NPR
- 假阳占阳预测的比例是错误发现率,假阴占阴预测的比例是错误遗漏率
独立
概念源于条件概率,但是不以条件概率定义。
- 正式定义:
- 推论:
- 独立了后,也独立,因为:
- 所以 也独立
所有结合条件概率定义的公式也同样在新增条件的条件概率上成立
条件独立
正式定义: 直观定义:,新增条件对我没影响 由于形式上的一致性(条件概率的条件概率定义,条件概率满足概率公式),所有普通独立性的推论也对条件独立成立。
古典概率模型
给问题找一个可能性均匀的样本空间,然后用比例来代表事件的概率。这种概率也满足基本概率定义,因此也能用上面讨论的概率的一系列结论。
随机变量,概率质量函数,概率密度函数
因为不是所有问题都可以简单地找一个可能性均匀的样本空间来建模,特别是样本空间有无穷样本点的时候。所以需要能够表示可能性不均匀的样本空间。
比如说身高,古典概型只能用数人头的方法来统计,搞出来的结果就是离散的,依问题而定的,不精确的。但是用随机变量+分布模型就能加一些预设来描述”背后真正的分布“,而且由于放到数轴上了,就可以沿用很多以往的代数成果。
又因为用事件作为概率函数输入太麻烦了不好用实函数的工具,因此搞了个映射把样本点映射到数轴,然后用一个随机变量作为输入,创建一个函数给这些数字赋予概率,用数轴上的“和”来计算被选中区间代表的事件的概率——数轴离散的时候是实数代数加法,数轴为实数轴的时候用积分。
实际上还是用集合表示的事件,但集合的表示已经变成了用随机变量的取值范围描述,而概率值的计算变成了用”求和公式“(离散求代数和、连续求积分)计算。概率值的计算仍然满足概率定义,计算出的概率就仍然可以应用上面讨论的所有概率。