why deep

type
status
date
slug
summary
tags
category
icon
password
参见图片,当模型比较大,也就是在optimization的时候可以选择的function比较多,可以使损失比较低,但是代价是实际的训练效果会比较差,是远低于预期的。反过来当模型没有那么大的时候,损失比较高,但是实际的训练效果会更接近,这就造成了一个进退两难的场面,也就是模型小,上限高但是难以训练,模型大,上限低但是容易实现,这里的模型大小实际上是模型参数在“宽度”(fat)层面的规模,就是一层神经网络中的模型规模,由此,可以引申出神经网络中“深度”的概念,也就是为什么需要deep learning。
notion image
以之前预测课程人数的的函数为例子,在一个hidden layer中,只要有足够多的sigmoid函数或者relu函数就可以完全的表示出实际课程人数的函数,so,why we want deep network,not fat network?道理很简单,deep network的表现优于fat network。
以一层network为例:
$$ a_1=\left\{ \begin{array}{c} -x+0.5 \left( x\leqslant 0.5 \right)\\ x-0.5 \left( x>0.5 \right)\\ \end{array} \right. $$
当network有两层时,
notion image
当network有更多层时,
notion image
只要拥有k层,就可以实现2的k次方的线段,而如果是shallow的模型,则需要2的k次方个neuron才能实现,
notion image
 
Prev
考研作息规划
Next
写给正在焦虑的你(三个月上岸武安)
Loading...
Catalog