通常而言,数据驱动(data driven)并不一定得是无模型(model free)的。就像自适应控制、系统辨识这些,都能被称为数据驱动。要是想强调无模型的话,往往要说直接数据驱动(direct data driven)。当下一种很主流的方法是基于Willems' Fundamental Lemma(真忍不住吐槽这个名字,也不知道是谁起的,感觉这个引理一点都不基本)。依我个人的理解,就是把过去的输入输出数据存到一个数据库里,然后在做控制的时候进行拼接(在某种意义上,离线RL也类似,不过线性系统可以直接做线性组合,一般的系统不行,所以拼接的方式受限更多)。从本质上讲,线性系统的冲击响应就是对系统的完整描述(在实际当中,用的不是一段无限长的冲击响应,而是多段较短的轨迹),所以这也没什么难以理解的。ETH(瑞士联邦理工学院)在这方面有一系列的研究成果(DeePC)。
讲真的,我觉得这类方法有点像是为了无模型而刻意追求无模型。首先得说说怎么理解模型,折腾出来的这个数据库算不算模型?实际上在DeePC论文里把这个叫做非参数模型(non - parametric model)。另外,各种各样模型学习的方法有很多,像系统辨识、时间序列预测之类的,而且也有很多人在研究这些。为什么一定要避开这么多已有的成果?而且一般来说,模型就意味着压缩,但是这种方法对数据完全没有压缩,处理噪声之类的就会非常麻烦。比如说像DeePC这种,在实时控制的时候要处理数据降噪,而且每个时刻都得处理数据降噪,这就相当于把ABCD模型换成了一个有噪声的大数据库(非参数模型),计算复杂度是个很大的问题。(从计算的角度来看,或许走离线RL那种方式比较好,从某种角度来说,策略网络也实现了对噪声数据的离线处理,但是搞控制的人似乎很难接受这种方式)。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号