他可能的意思是,网络的深度和时间维度在本质上并无太大区别,只是在实际应用中赋予了不同的名称。因此,一层的LSTM可以类比为多层且参数共享的ResNet。反过来讲,如果把ResNet横向来看,每个时间维度上的token则是通过残差输入来提供的。如果我们认同网络深度和时间维度在本质上没有根本差异,那么接下来就可以考虑如何将ResNet改造成类似RNN层的结构。例如,让ResNet具备多输入多输出的特性。多输出的概念相对容易理解,即在网络的不同深度抽取不同输出头,这在模型设计尤其是目标检测网络中已经较为常见。至于多输入,则可以通过调整输入的分辨率,将其插入到不同网络深度中。这些不同大小的输入可以采用不同的数据增强方法,并通过对输入序列进行shuffle,产生不同数据的效果,从而加速训练过程。我并不确定他的具体理解是否如此,因为没有观看相关视频,以上纯属猜测。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号