从情感分析到威胁情报
作者 fiisio | 发布于 2016-07-06
情感分析 威胁情报 机器学习 数据分析

      这些想法在前半年做毕业设计的时候就有了一些,毕业设计是做自然语言处理的情感分析,主要是挖掘文本和语句特征做出情感分类和判断以及舆情分析,这就很类似于目前做的威胁情报和响应。对应关系:

      无论是自然语言处理的情感分析还是网络安全的威胁情报,都是基于已有的数据,这其中包括已有的基础数据(例如情感词汇/语法特征或病毒漏洞库/病毒特征/病毒行为),也包括已有的分类数据(情感语料库/病毒库/漏洞库)来甄别或者判断未知数据的属性,是什么情感极性或是不是病毒或漏洞。威胁情报吹的再高,到头来获取的还是这些基础数据。数据存储本身没有技术含量,最重要的部分还是在关联分析和机器解读以及情报决策上。所以归根到底是分类问题,使用决策算法是解决的方法。

      这其中最重要的我觉得是漏洞和病毒的特征建模和挖掘,这是态势感知的基础和标准,也是威胁情报的关键。如何获取漏洞特征,如何挖掘病毒行为,并建立与病毒或漏洞类型相关的模型是我们需要思考的。同时我觉得就像情感分析的结果一样,威胁情报的结果也不应该是确定的,在情感分析结果描述中,尤其是多分类情感,我们通常会得出某一个语料是某一类情感极性的概率是多少,并不会直接说属于某一类,所以我们的威胁情报结果也不应该直接归为某一类,一方面是防止模型的偏差导致感知结果错误,相反,给用户多种结果展示,不同结果概率不同,让用户去了解威胁的类型;另一方面这对于不断精确我们的威胁评价模型也相当有意义。 提高对真正威胁的响应速度,缩短损失发生的窗口期,排除大量无效告警是我们作为数据研发人员需要重点做的,这些工作我觉得主要在于以下几点:

  • 1,威胁情报数据完善度。一方面是我们掌握的漏洞库和病毒库,另一方面也要做好和其他安全公司做到资源共享,即现在很热的情报共享策略。
  • 2,威胁情报评价模型的准确度。利用数据分析和数学建模依托大数据平台和海量的数据基础,得到最佳的威胁评价模型对于威胁的准确度是至关重要的。
  • 3,威胁情报数据的收集。数据探测器的定位,如何减少数据冗余,同时也不会影响数据的完整性是我们需要考虑的。
  • 4,数据的检索和存储能力。海量数据的产生对于检索和存储是首要的问题,如何设计平台架构,如何承受大量的连接,如何优化存储和兼顾搜索速度与准确度?
  • 5,响应平台的可扩展性和模糊化。对于一个平台而言,最重要的是扩展与分离,需求和功能会不断增加,模块化和组件的形式将功能独立开来,对于版本的迭代和平台的平滑升级至关重要。前后端分离,功能分离,组件化,主副模块独立等等。