梅宏院士:大数据技术的四大挑战与十大趋势



来源:《大数据》

杂志

日前,中科院院士梅宏联合多位专家,发布最新论文《大数据技术前瞻》。

世界主要国家高度重视大数据发展,我国也将发展大数据作为国家战略。党的二十大报告指出数字技术与实体经济深度融合具有重大意义。

在大数据应用需求的驱动下,计算技术体系正面临重构,从“以计算为中心”向“以数据为中心”转型。在新的计算技术体系下,一些基础理论和核心技术问题亟待破解,新型大数据系统技术成为重要发展方向,同时面临以下四大挑战。以及提出新型大数据系统技术发展的十大趋势。

一、新型大数据系统技术的四大挑战


挑战一:如何构建以数据为中心的计算体系。

全球大数据规模增长快速。2020年全球新增数据规模为64ZB(1ZB=1024*1024*1024TB),是2016年的400%,预计2035年新增数据将高达2140ZB,数据量呈现指数级增长。随着数字经济的发展和数字化转型的深入,愈来愈多的数据资源正以数据要素的形态独立存在,并参与数字经济活动的全过程。因此需要构建以数据为中心的新型计算体系,以适应新的应用环境。如何组织和管理超大规模的数据要素已经成为一项难题,如大数据管理面临着数据跨域访问带来的各种问题、系统规模持续增大带来的可用性下降、维护大规模数据带来的成本和能耗持续增高等严峻挑战。


挑战二:如何满足大数据高效处理的需求。

数据规模呈指数级增长,数据动态倾斜、稀疏关联、应用复杂,传统大数据处理架构处理成本高、时效性差,如何满足规模海量、格式复杂、需求多变的大数据高效处理需求是大数据处理面临的重要挑战。


挑战三:如何实现多源异构大数据的可解释性分析。

随着数据量持续地爆炸式增长和各类应用的不断拓展与深化,基于深度学习的主流方法因其仅关注单源单模态数据且模型只知其然不知其所以然的特性,已无法满足发展需求。如何打破数据多源异构造成的隔阂,融合多域甚至全域数据中蕴含的知识,实现分析结果的可解释,从而提升其可用性,是当前大数据分析面临的主要挑战。


挑战四:如何形成系统化大数据治理框架与关键技术。

针对大数据应用过程中的对数据汇聚融合、质量保障、开放流通、标准化和生态系统建设的需求,大数据治理技术逐渐成为发展热点。然而当前系统化的大数据治理框架尚未形成,开放共享、质量评估、价值预测等关键技术远未成熟,这成为制约大数据发展的主要瓶颈。


二、大数据技术十大未来发展趋势


趋势一:数据与应用进一步分离,实现数据要素化。

数据一开始是依附于具体应用的。数据库技术的出现使得数据与应用实现了第一次分离。数据存储在数据库中,不再依赖具体的应用而存在。数据要素化的需求将推动数据与应用进一步分离,数据不再依赖于具体的业务场景,数据以独立的形态存在于数据库中,并通过数据服务为不同的业务场景提供服务。例如,人口数据库可以为全部的涉及人口信息的业务场景提供服务。


趋势二:数联网成为数字化时代的新型信息基础设施。

将形成一套完整的数联网基础软件理论、系统软件架构、关键技术体系,包括:针对数联网软件以数据为中心的特点,需要从复杂网络和复杂系统等复杂性理论出发,研究数联网软件的结构组成、行为模式和外在性质;针对数联网软件的数据传存算一体化需求,需要采用数据互操作技术和软件定义思想,研究数联网软件运行机理、体系结构与关键机制;针对数联网软件跨层级、跨地域、跨系统运行带来的可靠性、可用性、安全性等质量挑战,需要以数据驱动为手段,研究数联网环境下保障服务质量与保护质量的原理、机制与方法。


趋势三:从单域到跨域数据管理,促进数据要素的共享与协同。

以数据为中心的计算的核心目标是数据价值的最大化,关键要打破“数据孤岛”,实现数据要素的高效共享与协同。传统数据管理局限在单一企业、业务、数据中心等内部,未来大数据管理将从传统的单域模式发展到跨域模式,跨越空间域、管辖域和信任域。但跨空间域会造成网络时延较高且不稳定;跨管辖域会造成数据与应用异构,数据管理复杂度大大提升;跨信任域则要求具备容忍各类恶意错误的能力。跨域带来的这些变化将为大数据技术带来新的机遇和挑战。


趋势四:大数据管理与处理系统体系结构异构化日趋明显。

体系结构创新进入“黄金十年”,围绕不同数据处理特征的新型加速器(GPU、TPU、APU等各种xPU)层出不穷,存储器件快速发展,高速固态硬盘(solid state disk,SSD)、新型非易失内存、新型计算网络等成为大数据处理系统的重要硬件配置,计算与存储的融合趋势明显。为了最大限度地发挥数据管理能力,大数据管理系统在存储、网络、计算等硬件上最大化挖掘新型硬件的处理能力。在处理上针对不同数据处理需求,配置不同计算与存储硬件成为大数据处理系统的主流架构。数据驱动的计算架构快速发展,以数据流为中心的系统结构成为重要的系统设计理念。


趋势五:扩展性优先设计到性能优先设计。

数据规模急剧增长,大数据处理需求越来越走向深度价值挖掘,数据处理计算愈发密集,数据管理与处理的成本成为大数据管理与处理系统的重要考量因素,传统“扩展性优先”的大数据处理系统设计将会被“以性能优先”的系统设计代替。Spark、Flink等系统在大数据处理生态系统中的占有率明显体现了这一趋势,图计算(图加速器、图计算框架等)、深度学习框架(Tensorflow、PyTorch等)等领域专用大数据处理系统的崛起也是这一系统设计理念在技术生态上的表现。智能化数据管理、近似计算等新兴管理和处理方法成为性能优先设计的重要技术手段。


趋势六:近数处理成为突破大数据处理系统性能瓶颈的重要途径。

存算一体类体系结构技术快速发展,新型SSD等新型存储赢家功能愈发丰富,分布式计算系统边缘能力迅速发展。以上3种体系结构技术发展为大数据近数处理提供了良好的发展契机。近数处理体现在“存储上移”(如在GPU、现场可编程门阵列(fieldprogrammable gate array,FPGA)等计算设备上集成HBM)、“算力下沉”(如在DRAM内存或者SSD存储设备上集成处理能力)、“分布扩展”(如在云、边、端分布式处理数据,降低数据处理中心压力)3个方面。


趋势七:从单域单模态分析到多域多模态融合,实现广谱关联计算。

传统大数据分析技术大多仅聚焦于单一来源、单一模态的数据,而实际应用中往往要对来自不同来源、不同模态(如文本、图像、音视频等)的数据进行联合分析,从而实现不同来源与不同模态数据之间的信息互补。此外,诸多领域的大数据具有重要的时空属性,当前研究对这类信息的利用还不够充分。因此,探究能够跨模态关联、跨时空关联的广谱关联技术是大数据分析处理的一个重要趋势。


趋势八:从聚焦关联到探究因果,实现分析结果可解释。

如何让大数据分析模型更加稳定且具有可解释性,从而使其分析结果对于用户而言变得更加可信、更加可用最好还能具备一定的可回溯性,是大数据分析面临的巨大挑战。虽然因果推断与可解释性分析技术取得了一定进展,但总体来说尚处于起步阶段,离实际应用还有很长一段距离。因此,从关联到因果也是未来大数据分析技术的重要研究方向。


趋势九:高能效大数据技术是可持续发展的关键。

全球大数据量的持续高速增长,以及“碳达峰、碳中和”目标的提出,要求大数据技术栈必须走低碳高效、可持续发展的路线。例如云数据管理系统以资源共享、节能高效为主要特点,将是未来大数据管理的主要基础形态;在云数据管理基础上的全国一体化高能效大数据管理,由于算力和数据要素的大规模调度与流通,可以进一步成为未来大数据管理的主要方向,形成低碳发展新格局。


趋势十:大数据标准规范和以开源社区为核心的软硬件生态系统将成为发展的重点。

随着大数据在各个领域应用的迅速普及,标准化需求将不断增长,与大数据流动融合、质量评估,以及与行业、领域应用密切相关的大数据标准将成为发展重点。开源社区在大数据软硬件生态建设中的地位不断加强,对开源社区的主导权争夺将成为各国技术、产品和市场竞争的重点。


作者

梅宏 杜小勇 金海 程学旗 柴云鹏 石宣化 靳小龙 王亚沙 刘驰



END


# 小贴士 #

    2023年公需科目在线直播课程报名将于2月15日10点开始。