我觉得这东西就是Expandable Segments,它的驱动和runtime从cuda10.2就开始有支持了,这已经是很早之前的事了。PyTorch早在2023年3月就开始开发这个东西了,最早的一个PR是这样的。GMLake是在六个月之前才创建的仓库,相关论文也是到2024年1月才挂到arxiv上。这个功能其实很不错,通过环境变量就能开启,在超大tensor也就是Long Context场景下,优化效果达到了预期。毕竟要是遗漏匹配一个tensor,就会损失很大一块内存。最后我想说,国内对这个的宣传都这么夸张吗?我感觉有点像是碰瓷了。还有,写这篇论文的时候有没有参考PyTorch,哈哈。欢迎来反驳我,我也希望自己能相信它真的是遥遥领先啊!
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号