面向泛在智能的边缘计算系统优化

Research Direction

面向泛在智能的边缘计算系统优化

近年来，随着移动设备、物联网终端与智能边缘设备的快速普及，越来越多的计算任务正从传统云中心下沉至靠近用户侧的边缘环境中执行。本方向聚焦于通过计算调度与系统优化构建高效的边缘智能系统，研究内容涵盖端侧大模型推理加速、边缘计算系统中的在线工作流调度，以及面向AI工作流的算网资源协同编排等，旨在为边缘环境中的智能计算任务提供高效、可靠且具有理论性能保证的计算服务。

研究一：端侧MoE大模型推理加速系统

近年来，混合专家模型（Mixture-of-Experts, MoE）因其在表示能力与计算效率之间的良好平衡，成为大模型架构的重要发展方向。然而，MoE模型包含大量专家参数，导致其在端侧设备上运行时面临显著的内存占用、参数加载与数据搬运开销。现有推理优化方法如量化、剪枝等虽然能够减小模型体积，但可能引入精度损失、模型行为变化或潜在安全风险；而基于卸载或CPU-GPU混合执行的系统通常与移动端和边缘端共享内存架构不完全匹配，难以在资源受限设备上实现稳定的低时延推理。因此，如何在完全保持模型能力与算法行为不变的前提下，实现端侧MoE大模型的高效推理，是边缘智能系统中的重要挑战。

针对端侧MoE大模型推理中的内存瓶颈与参数加载开销问题，我们设计了基于无损压缩与缓存调度联合优化的推理加速系统。该系统首先对BF16模型权重进行比特级结构分析，提取低熵指数位并进行分块无损压缩与异步加载，在不改变模型参数语义的前提下降低I/O传输总量，并将专家参数加载过程转化为可由CPU多核并行加速的异构计算工作流。进一步地，我们提出压缩态抽象，实现对端侧内存资源的精细化控制与缓存池划分，并将专家张量获取过程抽象为DAG调度问题，设计流水线化的最优调度策略以协调解压缩、数据搬运与GPU计算过程。同时，我们利用Memory Coalescing技术开发高效CUDA Kernel，实现张量比特恢复过程的GPU并行执行。该系统在NVIDIA Jetson AGX Orin平台上进行实现与评估，在完全保持模型行为不变的前提下，显著降低了MoE模型推理的首字延迟、字间延迟与整体推理时延，并在批处理任务上大幅提升了系统吞吐量。

研究二：边缘网络中异构并行计算的在线调度算法

在资源受限的分布式边缘网络中，端用户通常通过计算卸载的方式将本地任务提交至邻近边缘节点执行，从而降低终端侧计算压力并获得低时延服务。然而，在实际边缘系统中，计算请求往往以在线方式到达，系统需要在未来信息未知的情况下做出不可逆的任务接入、信道分配、节点指派与资源分配决策。同时，边缘设备的计算、通信与存储资源高度受限，不同任务又可能具有不同的资源需求、异构并行加速特性与硬时延约束。尤其对于增强现实、工业自动控制等时延敏感型应用，任务传输与计算过程共同决定端到端服务时延，而无线网络干扰、节点负载变化与计算资源分配之间的耦合进一步增加了系统决策难度。

针对上述问题，我们研究了硬时延约束下边缘网络中广义并行计算任务的在线调度问题，以最大化满足时延约束任务的累计服务收益为目标，设计了具有理论性能保证的在线调度算法。该算法基于任务资源需求特征与节点负载状态，构造与当前资源占用率耦合的阈值函数，在线指导任务的信道分配、节点部署与任务指派，在局部信息下实现负载均衡的调度决策。进一步地，我们通过约束降维方法将计算与通信耦合问题进行分解，利用任务剩余处理时间与异构并行加速曲线设计高效的动态计算资源分配算法，从而根据任务到达、执行与完成状态实时调整系统资源分配。我们从理论上给出了算法在最坏情况下的竞争比界，证明了所提算法在在线不确定环境中的鲁棒性，并通过数值仿真验证了其在SLO满足率与系统累计收益方面的性能优势。

研究三： Serverless边缘计算的一体化资源编排框架

Serverless计算是一种新兴的云计算范式，其通过将应用开发者的业务逻辑与底层资源管理解耦，大幅降低了应用开发和部署成本，并依托容器与虚拟化技术实现弹性扩缩容和按需调用。随着工业物联网、大规模数据分析、实时智能服务与大语言模型应用的发展，将Serverless计算能力扩展至网络边缘，有望充分利用边缘侧分布式计算、存储与通信资源，为时延敏感型服务提供更加灵活和高效的运行环境。然而，边缘网络中的Serverless计算面临函数冷启动开销高、函数执行时间随机性强、请求到达模式不可预测、网络拓扑复杂以及带宽资源受限等挑战。网络路由、容器部署、函数缓存与函数调度之间存在强耦合关系，使得单独优化某一环节难以保障端到端服务质量。

针对边缘网络中的Serverless函数服务，我们提出了端到端的在线一体化编排框架，对服务路由、函数调度、容器部署与缓存管理进行联合优化。对于大规模数据交互与随机函数执行时间场景，我们基于在线原始-对偶理论设计了服务级路由与计算资源的联合调度算法，并在随机函数执行时间模型下动态调整函数调度序列，以提高时延约束满足概率。针对函数冷启动与热调用排队之间的权衡，我们基于排队理论构建容器服务模型，设计网络拓扑与并发度感知的动态容器缓存、部署与驱逐策略。理论方面，我们通过构造对抗性实例证明了该类优化问题的困难性结论，并在静态实例上证明了所提算法的竞争比界。实验方面，我们基于Microsoft Azure函数调用数据集进行系统仿真，并与先进算法进行对比，验证了所提框架在SLO满足率与系统性能方面的优势。