大数据，机器学习，网络安全

一些阶段性的看法：

大数据，大在两个方面: 数量和维度
单单数量大，不算真正的大数据，数据简单，特征简单，量的问题可以通过硬件资源的堆叠和各种优化算法的提升来解决
维度的爆炸，带来的问题是数据特征难以被人把握，特定数据对应的特征的组合更隐蔽，更难以被人发现，需要更深入的专家知识和经验
机器学习是为了应对维度的爆炸，顺带要搞定数据量的大，单单因为数据量大就上机器学习是错误的
机器学习是黑箱，只能告诉我们是什么，而不能告知为什么，网络安全是非黑即白，必须要有为什么，有天然的矛盾存在
情况0: 机器学习学习正常，作为数据过滤通道，而不是异常检测方式
情况1: 机器学习解决大数据中初筛的功能，作为前置探测存在，产出各种可疑数据，但不是结果数据，后续还是有专家验证
情况2：机器学习只作用在特定场景，产出有专家验证的可控的漏报误报，直接产出最终结果
对信息安全行业整体而言，当前的壁垒还没到大数据，信息采集监控还没做好，基础做的差的很远，机器学习PR需求强于实际需求
对信息安全特定方向而言，机器学习已经开始发挥作用
机器学习应用到网络安全大数据的关键点：去噪 & 可验证。去噪好坏体现工程难度，决定后续工程难度，决定最终产出；验证是落地的必须环节。没法去噪，可以小步試错；没法验证，不要做
机器学习，一方面解决的是人对大数据的无力，另一方面解决的是专家的知识壁垒。有些行业的专家要小心了