首页 > 滚动 > > 正文
世界热文:认清军事大数据个性化特征
2023-05-16 05:48:44 解放军报

要点提示


(资料图片)

●离开了标签数据,大数据处理系统就会出现数据找不到、读不懂、不可信等问题,使系统成为单向流入却不流出的“数据湖”,使数据分析人员陷入数据沼泽中。

●在军事活动中,通常面临复杂的战场环境,从多源信息感知、目标识别到火力打击的过程中,每一个环节都可能产生大量的异常数据,导致数据传输难、信息交互难和共享风险高,更容易形成客观上的“数据孤岛”。

当前,大数据和人工智能技术正加速向军事领域渗透,深刻改变着未来战争的制胜机理、力量结构和作战方式。一般认为,大数据主要具有四个方面的典型特征,即大量、多样、高速和价值。与我们通常接触的互联网大数据相比,由于军事活动所具有的博弈对抗性、环境复杂性、信息不完整性等特点,决定了军事大数据技术推广应用的特殊性。只有系统深入把握军事大数据的共性和个性特征,才能使大数据技术稳步融入联合作战和部队建设的相关任务中,为军事创新实践带来新的动能。

博弈对抗性导致标签数据构建难

标签数据,是根据业务场景需求从底层基础元数据加工而来的。通过对底层基础数据信息项的业务化封装,得到高度精练的特征标识,用于差异化管理与决策。作为数据资源的一种组织形式,标签数据通常由标签体系和标签值组成,是能够直接为业务所用并产生业务价值的数据,是大数据价值链路中关键的关键。以互联网大数据为例,移动用户在使用互联网APP的过程中,首先是标签数据的使用者,同时也在向APP不断提供关于个人的标签数据,俗称“打标签”。通过这些个性化标签数据,大数据系统可以精准提取APP用户的消费习惯、阅读爱好等信息,进而助力APP实现“千人千面”的个性化搜索、推荐等功能。由此可见,互联网大数据的特征之一是标签数据规模大,离开了大规模的标签数据,大数据算法就无法从结构化、非结构化或者半结构化数据中提取有用信息。

当前,随着侦察情报、无线电通信等技术的发展,军事大数据呈爆发性增长。军事大数据处理系统在获取海量数据的同时,却无法同步获得标签化数据。尤其是军事活动的博弈对抗性,使欺骗伪装现象普遍存在,导致真假数据错综交织,就更加难以校验标签数据的准确性了。对大数据处理系统而言,相关机器学习算法需要大量标注样本去训练模型,而“打标签”工作量大、专业性强、成本极高。离开了标签数据,大数据处理系统就会出现数据找不到、读不懂、不可信等问题,使系统成为单向流入却不流出的“数据湖”,使数据分析人员陷入数据沼泽中;而一旦“打标签”出现错误,错误信息将在大数据处理系统中实现“闭环”运行,后果不堪设想。

因此,标签数据构建难是军事大数据系统面临的挑战之一,也是区别于互联网大数据最典型的特征之一。大数据蓬勃发展的领域,都与业务场景紧密耦合,需要精选应用领域,科学构筑一套完善的标签数据综合治理机制,确保关键数据资源有清晰的业务管理责任,作业人员有规范的流程和指导,才能建立有效的数据治理环境,标签数据的质量和安全得到保障,军事大数据的价值才能真正发挥出来。

环境复杂性导致异常数据比例高

数据质量是大数据系统数据价值得以发挥的前提。随着数据类型、数据来源的不断丰富以及数据量的飞速增长,大数据系统面临的数据质量问题显著增加。数据质量往往是多种因素综合作用的结果,会导致出现大量异常数据。异常数据通常指的是不满足数据标准、不符合业务实质的客观存在的数据,如人员的单位信息错误、设备的型号信息错误等。数据在底层数据库多数是以二维表格的形式存储,每个数据格存储一个数据值,若想从众多数据中识别出异常数据,解决数据质量问题,需要从机制、流程、工具等多个方面发力,通过数据质量规则给数据打上标签,主要包括完整性、及时性、准确性、一致性、唯一性、有效性等,才能使数据满足应用的可信程度。

当前,数据作为一种新的战斗力生成要素,在获取战场优势的过程中起着越来越重要的作用。在军事活动中,通常面临复杂的战场环境,由“传感器”到“武器端”可能跨越陆、海、空、电磁、网络等多个域,往往有很长的业务链路,涉及很多专业领域、很多装备类型,从多源信息感知、目标识别到火力打击的过程中,关联关系复杂,每一个环节都可能产生大量的异常数据,其比例远远高于互联网大数据系统,导致数据传输难、信息交互难和共享风险高,更容易形成客观上的“数据孤岛”。

因此,数据治理是数字化转型的关键环节之一。在大数据的时代背景下,无论是社会生活还是军事领域,都需要积极探索数字化转型。军事大数据异常数据比例高的问题,会给数据校准、算法迭代等提出一系列新问题,需要聚焦特定业务场景、聚焦业务流程中产生异常数据的根本原因,针对具体作战任务、装备运用等,制定数据采集标准规范、完善数据质量规则,实施定制化、精细化数据治理,逐步打破“数据孤岛”,确保源头数据准确,从而带动促进各业务领域数据共享,保障整体数据安全,为探索军事领域的数字化转型之路提供高质量的数据基础。

信息不完整性导致数据处理模型泛化难

从大数据处理的角度看,大数据时代最大的转变是放弃对因果关系的探究,取而代之的是更加关注相关关系。数据模型是从数据视角对现实世界特征的抽象,根据业务需求抽取信息的主要特征,反映业务信息之间的关联关系。数据模型不仅能比较真实地模拟业务场景,同时也是对重要业务模式和规则的固化。数据驱动的机器学习和深度学习获得的是样本空间的特征、表征,大量的背景常识是隐藏且模糊的,很难在样本数据中体现。由此,数据模型并不理解数据中的语义知识,导致数据模型缺乏推理和抽象能力,对于未见数据模型的泛化能力差。

目前,在大数据领域广泛应用的深度学习和强化学习方法,本质上还是数据驱动的算法,通过观察寻找规律,依据已有数据模型对海量样本数据大规模训练,寻求相关关系,在揭示事务本质规律方面存在固有局限性。战场态势错综复杂,情况千变万化,争夺战场主动权的斗争对快速反应要求高,没有统一的模式可以遵循,如果只重相关不重因果,很可能会深度陷入“战争迷雾”之中。因此,如何将大数据技术与因果推理有机融合起来,透视数据关系,认清数据本质,是军事大数据应用面临的一大挑战。

因此,智能化战争时代无人系统、自主武器等广泛应用,不仅会改变传统作战模式,也将引入新的复杂性。大数据提供了一种认识复杂系统的新模式、新方法和新手段,尽管海量数据和大规模分布式计算在语音识别、图像识别、自动驾驶等民用领域的应用取得了巨大成功,但在军事领域仍然存在诸多制约因素。迫切需要紧密结合军事大数据广泛存在的信息不完整性、异常数据比例高、标签数据构建难等个性化特征,通过针对性地优化数据处理模型、完善各专业领域标签体系,强化数据流驱动硬件与算法深度融合,突破传统武器装备、指挥控制系统等在时间、空间、存储等方面的限制,以更有效的方式从大数据中提取高价值的信息,实现数据实时、按需、在线等目标,逐步破解制约军事大数据领域共享效率、服务作战效能、互操作水平和快速处理能力等方面的瓶颈问题,力求在瞬息万变的战场环境中,获得比对手更快的判断力、决策力和行动力。

(作者单位:国防科技大学)(王 海 李柔刚)

x 广告