site stats
DeepSeek“开源周”正式启动,首个开源的代码库为 FlashMLA——针对英伟达Hopper架构GPU优化的高效MLA解码内核,专为处理可变长度序列而设计。支持BF16数据类型、分页KV缓存(块大小64),提供高性能计算与内存吞吐。在H800 GPU上实现内存带宽3000 GB/s(内存密集型场景)和计算算力580
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多