一些阶段性的看法:
- 大数据,大在两个方面: 数量 和 维度
- 单单数量大,不算真正的大数据,数据简单,特征简单,量的问题可以通过硬件资源的堆叠和各种优化算法的提升来解决
- 维度的爆炸,带来的问题是数据特征难以被人把握,特定数据对应的特征的组合更隐蔽,更难以被人发现,需要更深入的专家知识和经验
- 机器学习是为了应对维度的爆炸,顺带要搞定数据量的大,单单因为数据量大就上机器学习是错误的
- 机器学习是黑箱,只能告诉我们是什么,而不能告知为什么,网络安全是非黑即白,必须要有为什么,有天然的矛盾存在
- 情况0: 机器学习学习正常,作为数据过滤通道,而不是异常检测方式
- 情况1: 机器学习解决大数据中初筛的功能,作为前置探测存在,产出各种可疑数据,但不是结果数据,后续还是有专家验证
- 情况2:机器学习只作用在特定场景,产出有专家验证的可控的漏报误报,直接产出最终结果
- 对信息安全行业整体而言,当前的壁垒还没到大数据,信息采集监控还没做好,基础做的差的很远,机器学习PR需求强于实际需求
- 对信息安全特定方向而言,机器学习已经开始发挥作用
- 机器学习应用到网络安全大数据的关键点: 去噪 & 可验证。去噪好坏体现工程难度,决定后续工程难度,决定最终产出;验证是落地的必须环节。没法去噪,可以小步試错;没法验证,不要做
- 机器学习,一方面解决的是人对大数据的无力,另一方面解决的是专家的知识壁垒。有些行业的专家要小心了