auto-encoder | wendy’s blog

type

status

slug

date

summary

category

icon

password

auto-encoder是早于self-supervised learning这种不需要标注的数据集的任务的概念，两张图片，经过encoder和decoder之后生成一张新的图片，如果新的图片与原来的图片很接近，那么可以认为encoder-decoder很好的理解了图片的特征。但是只能完成重建这个过程是不能够运用到实际的下游任务上面的，需要经过微调才能适用于下游任务。

经过encoder得到的vector可以被称为（embedding，representation，code…），它是一个低维的特征，old feature是一个高维的特征，这个降维的过程叫做dimension reduction。

以图片举例，为什么一个低维特征可以还原出一个高维特征呢？虽然图片可能是n*m*k…个维度的数据，但是只有特定的几个特征才是一张图片的特征，比如如果有一个3*3的图片特征，理论上来说有9种变化的可能性，但是实际上可能只有其中的4种才能构成一张图片，而让encoder-decoder学会理解图片的特征就是deep learning要做的事情。

denosing auto-encoder的概念，输入给encoder的是经过noise的图片，而decoder的目标是还原没有noise的图片。

这跟bert其实类似，用户的输入会加上masking类似于noise，bert类似于encoder，中间的降维输出相当于embeding，后面的linear相当于decoder，最后输出的结果是还原没有加上masking的输入。

关于bert为什么需要还原用户的输入，bert是谷歌搜索引擎的灵魂，考虑一个场景：用户输入的某个字拼写错误，传统的搜索引擎无法规避掉这个问题，而bert可以通过上下文的理解还原出正确的输入。类似的，bert也可以做上下文的提示。

feature的disentangle

disentangle字面的意思就是将纠缠的feature分开，例如一段输入的音频，它的feature既包含这段音频的内容也包含这段音频说话者的特征，但是经过encoder得到的vector并不知道哪些维代表内容哪些维代表语者特征，disentangle的目的就是将这些纠缠的特征分开，让vector知道哪些维度代表哪些特征。

如果使用supervised learning的方法进行声音转换（参考柯南的领结变声器），就需要成对的声音，比如AB都朗读相同的音频。

feature disentangle实现了特征的分离，在这个例子中，假设vector的前一部分（绿色）代表说话的内容，后一部分（黄色）代表语者的特征，那么将B的内容和A的语者特征结合丢进decoder，就可以得到用A的音色朗读B的音频效果。