《中国科学基金》202502期专题“智能算网的基础理论与核心技术”系列文章

专题一:双清论坛“智能算网的基础理论与核心技术” 除了卷首语,共有7篇专家文章( 链接打开如下图可查看PDF),跟我研究有关的应该有3篇,在此重点看一下里面所引用的文献。

背景介绍:“智能算网的基础理论与核心技术”是国家自然科学基金委第371期双清论坛(what is 双清?),2024年8月16-17在北京召开。本次论坛围绕“智能算网可重构计算““智能算网资源智能优配““智能算网系统可信安全“和“智能算网典型应用验证“四个议题,安排了6个主旨报告和11个专题报告。与会专家在讨论交流中一致认为,本次论坛密切结合学科发展前沿,探讨了智能算网在可重构计算、智能优配和安全可信方面的基础机理与核心技术,凝练和提出了领域驱需关注和解决的核心基础科学问题。

以下三篇排序是我认为的写的质量从高到低

算力网络调度基础理论与关键技术现状及展望(唐卓 等)

ref 年份 单位 产品 思想
9 2021 UC Berkeley Anna键值存储系统 异步合并保持一致性;无协调的 Actor 模型、基于格(Lattice)的合并机制、多级一致性模型和分布式哈希表实现弹性扩展与一致性控制
12 2017 iKayak 调度中间件 多目标优化;细粒度、动态、感知上下文的资源管理而非固定资源配置;在线自学习模糊模型预测 Reduce 任务的剩余执行时间;
18 2024 苏莱曼尼大学 算法 区域感知,选举“集群头”(自组织、自适应和可扩展性);“合并-分裂”联盟博弈策略(自组织)
23 2018 华盛顿州立大学 混合片上网络架构
31 2011 UC Berkeley Apache Mesos框架 “机制与策略分离”;如何避免“饿死”小任务;Master的状态可以从Slave和Framework中重建(分布式重建)“不要存储你能计算出来的东西”;
33 2016 IBM 集中到分布;利用边缘设备形成分布式资源池;在边缘进行数据过滤、聚合、预处理;D2D通信绕过核心网;远程可信;

值得一提的是ref31(Apache Mesos)不涉及跨云,文章写的不准确。

智能算力网络研究中的重大挑战与核心技术(李克秋 等)

ref 年份 单位 产品 思想
6 2015 Google 集群管理基座Brog 先筛选符合约束的机器,再通过评分选择最优机器;减少资源碎片;等价类调度,对相同资源需求和约束的任务只调度一次;不完全遍历所有机器,而是随机选择一部分进行评估;用户申请的资源(limit)往往高于实际使用量(usage),Borg 通过资源预估(reservation),将未使用的资源“回收”给低优先级任务使用;BCL 是 Borg 的声明式配置语言​
24 2018 UC Berkeley 分布式执行引擎Ray,胶水 AI 任务可以容忍部分失败,允许使用廉价资源;面向动态、异构、细粒度任务的设计(而spark是粗粒度的)​
28 2020 芝加哥大学 funcx 抽象泄露是不可避免的,还有其他障碍使得将应用程序分解为函数变得困难,容器化并不总能提供完全可移植的代码;​
29 2020 UC Berkeley SkyPilot跨云代理 -​
31 2017 国防科大 云际计算JointCloud Peer Cooperation Mechanism; 将应用状态与平台状态解耦;跨广域网的在线迁移;JCCE 基于区块链作为全局信息枢纽,提供资源和服务目录;

什么是“抽象泄漏定律”?——任何试图隐藏复杂性的抽象,在某些情况下都会无法完全掩盖底层的细节,这些底层细节会“泄漏”出来,迫使使用者去理解它们。例子,汽车抽象泄漏:开车的抽象是“踩油门就走,踩刹车就停”,但当在冰面上打滑时,防抱死系统、牵引力控制等底层细节就泄漏了,你不得不关心它们。例子2,编程语言泄漏:Python是高级语言,但内存管理、全局解释器锁等底层细节会泄漏,影响程序性能。

ref29不是SkyPilot那篇,是sky的白皮书,但文章内容写的是SkyPilot

云际计算的理论基础可追溯到ivce(2006),其核心机制是网络资源的按需聚合和自组织协作。引入 “virtual commonwealth” 的概念,一个“commonwealth” 只关心某一类特定的资源。1)从试图掌握所有资源信息到基于本地信息按需聚合资源的转变;2)从传统集中控制管理所有资源到分布式自主互联网资源之间自主协作共享和综合利用资源的转变。

智能算网的基础理论与核心技术(高文 等)

ref 年份 单位 产品 思想
36 2017 机器学习算法 主动预测用户行为​
40 2019 元国军等人 软件定义光网络​

一些摘录:

算网一体阶段,构建形成一体化的新型信息基础设施,实现新型生产要素的全国统筹调度

tell story 的时候可以讲,新一代基础设施啦,统筹调度啦。

当前任务映射研究中考虑的场景主要为传统广域网、云计算或者边缘计算场景,以满足带宽、实验、服务质量、功耗、负载等要求为目标,对算力、I/O设备、存储等资源进行调度。

然而,现有方法未充分挖掘算力、算法与数据间的耦合关系,导致任务映射策略难以通过三者联动进一步优化,制约了用户实际需求的精准满足。算力网络的任务映射研究应当通过将算法与数据纳入任务调度的范畴,在用户需求的多样性能够得到进一步提升的同时,更好地应对复杂的网络环境并保证服务质量。

当前:主要是算力(CPU/GPU等)、I/O设备(网络接口等)、存储资源(内存/磁盘)。关注的是物理或虚拟资源的分配。

但是算力、算法、数据三者之间是紧密联系的。接收一个任务进行mapping,要考虑这个任务本身的性质(算法+数据)。所以有人做“意图网络”。

将算法(任务本身的计算逻辑/模型)和数据(任务处理的对象及其位置) 也纳入任务调度/映射的决策范畴。不再只盯着“资源”,还要看“要做什么(算法)”和“做的东西在哪(数据)”。

通过对海量网络资源进行深度挖掘和精准分析,构建资源需求图,配置基础设施节点和链路以满足业务需求,为优化决策提供有力支持。

本文解决的问题:在InP的角度,看到了MNO与SP之间的SLA,怎样分配资源来满足。

┌──────────────────────────────────────────────────┐
│ InP(基础设施提供商):基站、光纤、数据中心的拥有者   │
└──────────────────────────────────────────────────┘
                ↓ 租用资源 ↓
┌────────────────────────────────────────────────────┐
│ MNO(移动网络运营商):从InP租用资源,创建管理网络切片 │
└────────────────────────────────────────────────────┘
                ↕ 签订SLA ↕
┌───────────────────────────────────────────────────┐
│ SP(服务提供商):面向最终用户,如提供视频会议服务    │
└───────────────────────────────────────────────────┘

留存:一作有主页记录网络研究相关的会议/期刊/工具。

关键词的规范:任务匹配 -> 任务映射(mapping)

(完,本文5.28创建,10.22整理完成)

除此外,此专题还有《实物互联网中的感联一体化关键技术、挑战与发展建议》(刘譞哲 等)、《面向天地一体化算力网的类脑智能计算研究现状与展望》、《迈向泛在智能: 端侧大语言模型现状与展望》、《面向多模态网络的威胁防御技术》。