auto-encoder
type
status
date
slug
summary
tags
category
icon
password
auto-encoder是早于self-supervised learning这种不需要标注的数据集的任务的概念,两张图片,经过encoder和decoder之后生成一张新的图片,如果新的图片与原来的图片很接近,那么可以认为encoder-decoder很好的理解了图片的特征。但是只能完成重建这个过程是不能够运用到实际的下游任务上面的,需要经过微调才能适用于下游任务。
经过encoder得到的vector可以被称为(embedding,representation,code…),它是一个低维的特征,old feature是一个高维的特征,这个降维的过程叫做dimension reduction。
以图片举例,为什么一个低维特征可以还原出一个高维特征呢?
虽然图片可能是n*m*k…个维度的数据,但是只有特定的几个特征才是一张图片的特征,比如如果有一个3*3的图片特征,理论上来说有9种变化的可能性,但是实际上可能只有其中的4种才能构成一张图片,而让encoder-decoder学会理解图片的特征就是deep learning要做的事情。
denosing auto-encoder的概念,输入给encoder的是经过noise的图片,而decoder的目标是还原没有noise的图片。
这跟bert其实类似,用户的输入会加上masking类似于noise,bert类似于encoder,中间的降维输出相当于embeding,后面的linear相当于decoder,最后输出的结果是还原没有加上masking的输入。
关于bert为什么需要还原用户的输入,bert是谷歌搜索引擎的灵魂,考虑一个场景:用户输入的某个字拼写错误,传统的搜索引擎无法规避掉这个问题,而bert可以通过上下文的理解还原出正确的输入。类似的,bert也可以做上下文的提示。
feature的disentangle
disentangle字面的意思就是将纠缠的feature分开,例如一段输入的音频,它的feature既包含这段音频的内容也包含这段音频说话者的特征,但是经过encoder得到的vector并不知道哪些维代表内容哪些维代表语者特征,disentangle的目的就是将这些纠缠的特征分开,让vector知道哪些维度代表哪些特征。
如果使用supervised learning的方法进行声音转换(参考柯南的领结变声器),就需要成对的声音,比如AB都朗读相同的音频。
feature disentangle实现了特征的分离,在这个例子中,假设vector的前一部分(绿色)代表说话的内容,后一部分(黄色)代表语者的特征,那么将B的内容和A的语者特征结合丢进decoder,就可以得到用A的音色朗读B的音频效果。
Prev
explainable machine learning
Next
考研作息规划
Loading...