数据驱动的网络入侵:最新趋势
最近动态
图9展示了2010 - 2020年数据驱动NID方法的研究兴趣趋势。
通过研究过去十年关于NID的文献,可以发现自2010年以来,人们就对大数据研究产生了浓厚的兴趣。这种兴趣可以归因于2010年以来互联网上的大量数据,正如文章第2节所述,这些数据在过去十年中持续增长。2019年是关于大数据的文章最多的一年,研究人员继续研究并行处理技术和增量学习方法来处理大量数据。2010年,也有人致力于解决小数据的挑战。虽然数据量很大,但是不同攻击类型的数据是缺乏的,如在数据集中展示了攻击类型的分解和熵分析。一般来说,网络入侵攻击类型的缺乏、小数据的挑战来自于入侵发生的典型时间框架较短。小型数据问题是在2010年代初首次被研究的,特别是元学习。自2017年以来,针对噪声数据挑战,作者对网络入侵数据集中的噪声观测与其他观测进行了更广泛的研究。虽然处理噪声数据的论文不多,但处理噪声数据的解决方案已经很好地建立起来了,例如缩放特征或使用基于密度的特征选择。
2010年至2015年期间的大多数研究都是围绕大数据进行工作的方法,而数据太少。自此,大数据处理成为网络入侵检测领域的研究热点。然而,由于当今数据库环境的不断变化,针对动态数据问题的研究也随之兴起。由于标记数据的缺乏,越来越多的研究提出了半监督学习模型。然而,有一个研究领域还没有得到太多关注,那就是真实世界的网络数据。2010年和2011年看到了一些用于数据收集的网络蜜罐仿真,直到最近的2020年,LITNET数据集才制作并发布,作为第一个真实世界的网络入侵数据集之一。
未来趋势
现实世界的数据收集:最初,通过使用蜜罐模拟真实的网络环境,利用合成的(IXIA)数据来吸引攻击者,从而获得真实世界的网络入侵数据。然而,在沙箱网络环境中,由于可能存在不正确的网络攻击模型和行为,模拟数据的拟合和测试价值可能不如在真实网络上收集的数据。目前将模型应用于网络入侵研究中存在的问题是,该分类中有46篇论文使用KDD Cup 1999作为模型的评估数据集。因为它是合成的,所以在流量模式中存在偏差,这是真实世界的流量所不具备的。LITNET数据集于2020年在立陶宛的一个网络上收集,覆盖了立陶宛四个主要城市的节点,这是第一个为研究人员提供的长期(10个月)的真实世界网络入侵数据集。该数据集向现实世界网络攻击迈出了一步。真实性和可用性是当前网络入侵数据集应该努力实现的两个重要领域,这将是研究人员有兴趣创建新的真实世界数据集的未来目标。正常网络流量和攻击的时效性和现实性是前面图中词向量分析所证实的问题。反过来,网络入侵研究需要进一步收集真实网络中的真实攻击数据。
基于标签的实时流量:尽管网络流量可能由网络安全专家手动标记,但真实世界的网络流量很容易增长到数百万。格数据集从2016年开始,使用用于数据收集的蜜罐系统的日志文件标记。通常,专家可能是负责标记流量数据的人,而其他数据集,如2020年的LITNET,则不太清楚如何标记发生。自2000年代末以来,对训练数据进行标记一直是基于异常的入侵检测的一个障碍。过于小心地标记流量可能会违反隐私政策,因此检测模型往往会在数据被标记时进行更新,并且在离线学习中仍然会发生人工标记。为了处理输入到入侵检测模型中的新标记数据,需要进一步发展自适应模型或增量模型,如Constantinides等人提出的基于SVM的在线增量神经网络模型。未来的研究重点在于设计更具适应性的检测模型,开发高效流量数据标注的范式和技术
消费者网络入侵。具体到在真实世界的网络中收集数据,由于家庭等消费者网络不具备与企业网络相同的安全资源,因此在家庭网络上收集数据缺乏数据集。最近,Patel等人通过收集基本流量特征(如数据包大小、源端口和目的端口)并分析特征熵来处理自然熵,以检测家庭网络中的异常。在消费者网络中进一步收集数据还有待观察,但这是未来研究的一条可行途径。
将异常检测扩展到云环境。除了利用云计算加速模型收敛和减少异常检测时间外,探索云环境下的网络入侵还没有被深入研究。Aldribi等人设计了一个基于统计分析的基于hypervisor的云网络入侵检测系统,但是更复杂的攻击方法还没有实现,因为Aldribi等人已经注意到所收集的流量数据中明显的规律模式。现在云环境的另一个特点是数据不断变化。由于云上存储着大量的数据,为云上的动态数据开发机器学习应该是未来的研究步骤。Sethi等人将深度q学习强化模型应用于云,该模型可适应变化的数据。虽然已经有一些工作试图将机器学习结合到云中的动态数据上,但这在研究方面仍处于初期阶段,有进一步研究的潜力。将边缘计算应用于包含大量网络数据的云计算环境,通过使数据存储和计算更接近需要的位置来加快检测时间,是未来几年的一个潜在研究方向
机器学习的可扩展性和性能改进。大数据机器学习模型中的并行性可以帮助研究人员改进基于异常的入侵检测方法。目前重点是使用CUDA的基于特征的技术。NID数据和流量正在迅速变化,处理动态数据的一种自然方法是使用增量学习增量地处理数据。最近,Constantinides等人专注于增量机器学习模型的可扩展性。为了处理与新数据增长相适应的增量自组织神经网络的增长,使用了参数n,以便任何在欧氏距离中最接近超过n个输入向量(超过n个“wins”)的节点将“胜”传递给具有超过n个“wins”的节点。网络中的老化参数还会删除未更新的节点,以保持一个可管理的大小。随着可扩展性研究的缺乏,未来,研究人员应该继续研究使增量机器学习模型在巨大的数据增长下更具可扩展性的方法。
结论
当网络资源被滥用时,网络入侵检测已经存在了二十多年。虽然大多数数据驱动的网络入侵系统还没有被集成由于基于异常的入侵检测系统存在高误报率,研究人员不断提高异常检测的准确率和性能,使其能够检测新型网络攻击。该文介绍了一种基于数据驱动的网络入侵检测方法的一般分类法,并对该分类法中常用的公开数据集进行了检验。鉴于随着时间推移的研究趋势,需要未来研究的领域是网络大数据、流式和变化的数据,以及真实世界的网络数据收集和可用性。针对分类法中指定的其他挑战,已经实现了许多解决方案,但仍然缺乏真实的网络数据,特别是消费者网络数据,这可能限制了使用真实网络流量数据在模拟网络环境中模型性能的准确性。对网络入侵检测的研究背景、常用数据集、重要研究领域的分类和未来发展方向进行了全面的综述。
版权归原作者 Chahot 所有, 如有侵权,请联系我们删除。