模型交付
对于一个网络安全
领域的任务,机器学习或深度学习算法的选择是一件耗时很长的任务,模型选定后的调优过程也需要大量的时间成本。目前大多学术论文中的研究不会涉及算法在
真实场景交付的问题。由于算法模型的分类结果依赖收集到和标定好的数据集合,在实际应
用场景下,数据分布的变化、数据复杂度的提升等因素可能会导致大部分实验室
中表现良好的模型面临失效的困境。真实场景数据大部分情况下无法直接获取用于模型训练,因此在模
型训练阶段不能和本地环境中的数据做大量的融合适配,无法基于本地环境的特性去标定整
个模型和检测点的指标,通常训练阶段会采用合成数据来扩展数据集或者使用迁移学习的方
法来提升模型的普适性等,但是在真实的环境中还是会存在各种问题。例如,人工智能
算法在加密流量领域的应用,当算法模型在实验室封闭数据集上得到高检测率和低误报率的效果
后,在真实场景下仍然会因为环境流量的复杂导致误报率较高,并且,在此场景下对于大部
分现场安服和分析人员来说,他们并不具备对加密流量的验证能力,即验证一条加密流量所
需要的成本非常高,导致用户使用相关安全分析模型的意愿降低。
因此,网络安全领域一方面需要提高安全分析模型的开发效率和上线速率,另一方面也
需要保证安全分析模型离开实验室环境到真实环境中后依旧是有效的。安全分析模型在上线
之前应该部署于多个真实环境的实验中以发现实验室环境和单一真实环境中发现不了的问
SecXOps 安全智能分析技术白皮书
题。此外,在安全分析模型交付期间,需要考虑真实场景中数据的时间特性、空间特性、运
行时间和存储限制,以及如何与其他流程完成工程化的结合以实现业务目标。例如,在加密
流量分析模型的实际应用中,需要结合加密流量实际场景研判的角度,将安全分析模型作为
整个加密流量判别的一个环节,通过整个流程中其他模型关联的联合验证,以宏观的角度完
成加密流量的研判
SecXOps 安全智能分析技术白皮书
GB-T 20273-2019 信息安全技术 数据库管理系统安全技术要求
下一篇:算法模型总结:哈希