
Uber
这个观点我始终不认可。同意这个观点就认可Schmidh
Uber为ResNet的创始人。他是注意力机制的开创者,也是生成对抗网络的奠基人。实际上,LSTM网络深度长期受限,难以超越三层。由于训练不了深层LSTM这不正是k
AIming所解决的关键问题吗?大家可能都注意到了,LSTM中的长期记忆与token级别的跳跃连接有相似之处,这种关联在某种程度上揭示了两者在处理序列信息时的共通性。那是通过门控机制实现的。历史信息需要遗忘多少,通过门控来决定。新的数据需要进行多少的筛选和整合。这个概念相当经典,未涉及残差的观念与思维。在回答问题前,我没听过
伊利亚的演讲。回答之后我听了,确认我没误解他的意思。
此外,我认为这个演讲中最值得探讨的正是这一点。大脑与身体的那张幻灯片,伊利亚究竟想传达什么信息?