Skip to content

Commit

Permalink
end of the vacation
Browse files Browse the repository at this point in the history
  • Loading branch information
SmirkCao committed Feb 13, 2019
1 parent b0ff871 commit 9a35fe8
Show file tree
Hide file tree
Showing 5 changed files with 83 additions and 8 deletions.
37 changes: 29 additions & 8 deletions CH06/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -43,7 +43,11 @@

- 关于NB和LR的对比,Ng也有一篇文章[^2]

- 平方误差经过Sigmoid之后得到的是非凸函数.
- 平方误差经过Sigmoid之后得到的是非凸函数

- 书中LR篇幅不大, 注意这样一句,`在逻辑斯谛回归模型中,输出Y=1的对数几率是输入x的线性函数。或者说,输出Y=1的对数几率是由输入x的线性函数表示的模型,及逻辑斯谛回归模型。`

- LR 和 Maxent什么关系?有人说明了这两个是等价的。另外也有说在NLP里LR叫做Maxent。Maxent更多的是从信息的角度来分析这个算法。

## 模型

Expand Down Expand Up @@ -133,6 +137,17 @@ $$
\prod_{i=1}^NP(y_i|x_i,W)
$$

使用对数似然会更简单, 上面连乘的形式会转换成求和的形式。对数函数为单调递增函数, 最大化对数似然等价于最大化似然函数。
$$
\begin{aligned}
\log \prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}&=\sum_{i=1}^Ny_i\log(\pi(x_i))+(1-y_i)\log(1-\pi(x_i))\\
&=\sum_{i=1}^Ny_i\log(\frac{\pi(x_i)}{1-\pi(x_i)})+\log(1-\pi(x_i))\\
&=\sum_{i=1}^Ny_i(w\cdot x_i)-\log(1+\exp(w\cdot x_i))
\end{aligned}
$$
TODO: Update Deviance



#### 多项逻辑斯谛回归

Expand Down Expand Up @@ -259,7 +274,7 @@ $h(x)=-\log_2{p(x)}$, 符号保证了非负性. 低概率事件对应了高的

1. **概率** $\sum _{i=1}^{n}{p_i=1}$ $p \in [0,1]$

1. ****$Ent(D) \in [0, \log_2{|\mathcal Y|}]$, 熵可以大于1. 熵是传输一个随机变量状态值所需的比特位下界(信息论角度的理解)
1. ****$Ent(D) \in [0, \log_2{|\mathcal Y|}]$, 熵可以大于1. 熵是传输一个随机变量状态值所需的比特位**下界**(信息论角度的理解)

1. **信息熵**是度量样本集合纯度最常用的一种指标.

Expand Down Expand Up @@ -301,7 +316,7 @@ $h(x)=-\log_2{p(x)}$, 符号保证了非负性. 低概率事件对应了高的
一般的, 熵$H(Y)$与条件熵$H(Y|X)$之差称为互信息. 注意一下, 这里[第五章](../CH5/README.md)中用到了$H(D, A)$ 可以对应理解下.

1. Feature Selection
1. Feature Correlation, 刻画的是相互之间的关系. 相关性主要刻画线性, 互信息刻画非线性
1. Feature Correlation, 刻画的是相互之间的关系**相关性主要刻画线性互信息刻画非线性**

1. **信息增益**

Expand All @@ -317,7 +332,7 @@ $h(x)=-\log_2{p(x)}$, 符号保证了非负性. 低概率事件对应了高的

相对熵(Relative Entropy)描述差异性, 从分布的角度描述差异性, 可用于度量两个概率分布之间的差异.

KL散度不是一个度量,
KL散度不是一个度量, 度量要满足交换性。

KL散度满足非负性.

Expand All @@ -341,7 +356,7 @@ $h(x)=-\log_2{p(x)}$, 符号保证了非负性. 低概率事件对应了高的
$$
I(x,y)=H(X)-H(x|y)=H(y)-H(y|x)
$$
可以把互信息看成由于知道$y$值而造成的$x$的不确定性的减小(反之亦然). *这个就是信息增益那部分的解释.*
可以把互信息看成由于知道$y$值而造成的$x$的不确定性的减小(反之亦然). *这个就是信息增益那部分的解释.*

1. **交叉熵**

Expand Down Expand Up @@ -381,7 +396,9 @@ $h(x)=-\log_2{p(x)}$, 符号保证了非负性. 低概率事件对应了高的
书中关于这部分的总结如下:**满足约束条件下求等概率的方法估计概率分布**

关于最大熵原理有很多直观容易理解的解释, 比如Berger的例子, 比如吴军老师数学之美中的例子. 最大熵原理很常****, 很多原理我们都一直在用, 只是没有上升到理论的高度.
关于最大熵原理有很多直观容易理解的解释, 比如Berger的例子, 比如吴军老师数学之美中的例子.

最大熵原理很常****, 很多原理我们都一直在用, 只是没有上升到理论的高度.

等概率表示了对事实的无知, 因为没有更多的信息, 这种判断是合理的.

Expand Down Expand Up @@ -624,20 +641,24 @@ L_{\widetilde {P}}(P_w)&=\sum \limits_{x,y}\widetilde {P}(x,y)\log{P}(y|x)\\
$$

1. 逻辑斯谛回归模型与朴素贝叶斯的关系

1. 逻辑斯谛回归模型与AdaBoost的关系



1. 逻辑斯谛回归模型与核函数的关系

### 其他

课后习题的第一个题目提到了指数族(Exponential family)分布, 这个概念在PRML中有单独的章节进行阐述.

感觉大部分的算法实现, 其实都是在刷权重, 另外, **其实算法能跑起来, 能预测, 并不能说明算法实现的正确的.**
感觉大部分的算法实现, 其实都是在刷权重, 另外, **其实算法能跑起来, 能预测, 并不能说明算法实现的正确的.** 但是其实这种情况也比较常见, 有的时候没有条件去创造一个专门的工具来解决问题的时候,或者没有更好的工具解决问题的时候, 我们会选择能解决部分问题,或者能解决问题的工具来**对付**

## 代码实现

关于代码实现, 网上看似众多的版本,应该基本上都源自最早15年的一份GIS的程序.

无论怎样,这些代码的实现, 都会有助于对Maxent的理解.推荐后面参考文献[1]
无论怎样,这些代码的实现, 都会有助于对Maxent的理解推荐后面参考文献[1]

李航老师在本章的参考文献中(1, 2)是Berger的文章.

Expand Down
13 changes: 13 additions & 0 deletions CH07/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -499,7 +499,20 @@ TODO:

### 对比二次规划求解工具和SMO

## 习题

### 7.3

线性支持向量机还可以定义成以下形式:
$$
\begin{aligned}
\min_{w,b,\xi}\ &\frac{1}{2}||w||^2+C\sum_{i=1}^{N}\xi_i^2\\
s.t.\ &y_i(w\cdot x_i+b)\ge1-\xi_i, i=1,2,\cdots,N\\
&\xi_i\ge 0, i=1,2,\cdots,N
\end{aligned}
$$

求其对偶形式。

## 参考

Expand Down
14 changes: 14 additions & 0 deletions CH08/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -174,6 +174,10 @@ m=3

## AdaBoost 误差分析

这部分可以看下张潼老师的论文。其中提到这样一句, `The basic idea is to minimize a convex upper bound of the classification error function I(p,y).`

这样就自然的过度到了后面的AdaBoost的另外一种解释, 指数损失。

## AdaBoost 算法的解释

加法模型, 指数损失, 前向分步, 二分类。
Expand Down Expand Up @@ -329,6 +333,16 @@ AdaBoost这个方法, 比较迷人的地方就在于训练数据集误差率

关于AdaBoost的间隔理论, Schapire在1998年提出之后,受到过质疑,周志华老师在这个问题上给出了解释,并说明了当间隔分布无法继续提升的时候, 过拟合终将发生。

### AdaBoost与LR的关系

第一次提到AdaBoost和LR 的关系是本书参考文献[6], 给出了Boosting和LR损失函数之间的关系, 但是里面用到的损失小二乘。

本书的参考文献[9],从Bregman散度的角度解释AdaBoost和LR的关系。

文献[9]中有说明,LR的特征对应了AdaBoost中的弱分类器,或者是基分类器,分类器对应了hypotheses。



## 习题

### 8.2
Expand Down
6 changes: 6 additions & 0 deletions Refs/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -34,7 +34,13 @@

## CH08 提升方法

9. Schapire, 2004

这个文章里面说明了AdaBoost和LR的关系。

LR中的feature对应了AdaBoost中的weak或者base hypotheses

文献中还有包含了多分类问题, 一提到多分类, 有OvO, OvR,但是AdaBoost的多分类形式有好多版本, 跨度两三年。所以, 讲讲道理容易,和具体的实现还是有差异的。

## CH09 EM算法及其推广

Expand Down
21 changes: 21 additions & 0 deletions glossary_index.md
Original file line number Diff line number Diff line change
Expand Up @@ -12,6 +12,8 @@

$P_{34}$,在感知机中第一次提到

$P_{119}$,讲核函数的时候也有用到



### 凸优化
Expand Down Expand Up @@ -54,6 +56,17 @@ $P_{40}, P_{37}​$

这个函数在不同的教材上有不同的表示方式,比如在<深度学习>中表示为$\mathbf 1_{condition}$

另外, 张潼老师在IBM时候的文章,定义的和书中不是太一样, 注意体会之间的差异。
$$
I(f(x),y)=\begin{cases}
&1\ if\ yf(x)<0,\\
&1\ if\ f(x)=0\ and\ y=-1,\\
&0\ otherwise
\end{cases}
$$

指示函数还有一种表示空心方括号,这个在LaTeX里面要用个包来引用, 不写了。在AdaBoost参考文献[9]中用了这样的表达。

### $L_p$距离

$P_{38}$
Expand Down Expand Up @@ -131,6 +144,12 @@ $P_{159}$

$P_{15}$

### 代理损失函数

$P_{115}$



## Timeline

1. First pattern recognition althgrithm; Fisher; 1936
Expand All @@ -146,6 +165,8 @@ $P_{15}$
1. AdaBoost; Freund, Schapire; 1995
1. SVM: Regression; Drucker; 1996
1. SMO; Platt; 1998
1. Margin Theory; Schapire; 1998
1. Boosted Tree; Friedman; 2000
1. CRF; Lafferty; 2001

## Definition, Theory, Algorithm
Expand Down

0 comments on commit 9a35fe8

Please sign in to comment.