访谈|数据流动时代 大数据风险如何管控?

作者:sapphire, 星期二, 四月 9, 2019
来源:https://www.aqniu.com/news-views/46357.html

大数据时代,数据从被保护资产上升到生产资料,数据只有流动才能实现更大的价值,这一理念已经成为共识。但数据在流动中会面临更多的风险,既有数据泄露的所有者权益损失的风险,也包含了对其他方如个人隐私侵犯和影响国家安全的风险。对应的,这种流动的数据环境对数据安全的体系提出了新的要求,很难再用传统的系统安全保护体系:通过静态的隔离保护措施来控制数据在流动中的风险。如何看待和解决数据流动带来的安全挑战?安全牛近日采访了数据安全创新企业全知科技的创始人,方兴。

方兴    网络ID:FlashSky

知名网络安全专家,历任启明星辰ADLAB副经理、EEYE高级研究员、微软全球特聘安全专家、翰海源CEO、阿里巴巴资深安全专家。2003年世界首发MS03-026漏洞细节,利用该漏洞的冲击波蠕虫引发了全球安全体系变革,2004年世界第一个发布了WINDOWS内核溢出远程利用的技术,同时是最早的漏洞自动化挖掘研究者,第一个BLUEHAT的中国演讲者,被《WINDOWS利用技术的过去现在和将来》列为影响了WINDOWS安全技术发展进程里的唯一中国人。连续创业者,2010年和王伟联合创立翰海源,专注APT领域,2015年翰海源被阿里巴巴全资收购,2017年创立了数据安全公司全知科技,主攻数据安全。

安全牛:近两年数据安全无疑已经成为业界非常关注的技术领域,你认为是什么导致了数据安全的大热呢?

方兴:在公司发展定位的思考中,我逐步认知到数据安全的视角正在发生着很大的转变,本质原因是大数据和AI技术的发展,在改变着数据和信息这二者之间的关系。为此我曾经请教过很多专家 “信息和数据到底是什么关系”,经典的回答一般都是 “数据是信息的载体”。我们传统的数据安全以这个认知为基础,保护数据这个载体的安全,就是保护着信息安全。但当今的 “人工智能-AI” 和 “大数据” 技术,则在变革着数据仅仅只是信息载体的这一定位。

在情报学中,对数据和信息之间的关系的理论定义如下。

1)数据位于最底层,它是对事物客观的描述或被抽象出来的数字。

2)信息依赖于对数据的解读,同样的数据不同的解读会产生出不同的信息。

3)知识则是信息之间的结构关系,人们通过对信息的归纳、演绎和总结来发现信息之间的关系,形成知识。

4)通过利用知识和信息进行关联和推理,可以获得一些被掩藏,但对发现者有重要意义可以指导其行动和决策的信息,也就是情报。

在传统的信息系统中,机器更多是提供信息的传输和存储、数值的计算、执行事务的逻辑流程,辅助人类对信息进行加工的工具。而对数据的解读、对知识的归纳总结、对情报的关联推理则是人的工作界面,知识和情报会再以信息的方式存储在系统中再次被人使用。

但AI和大数据技术正在重构这四者的关系,AI的本质是从大量的数据中,通过机器学习、把一种统计概率转换成同决策概率相关以指导行动决策的知识。而大数据技术,是通过寻找信息之间的相关关系,来获得知识和推理情报。当前组织的数字化过程,是组织通过业务线上化来实现对更多数据的获取,以便利用大数据和AI技术,将数据转化为可以智能指导企业业务行动和决策的知识和情报。在这个以数据为核心重构业务的过程中,信息系统的性质和地位也在发生变化,从信息处理的辅助工具,而逐步演变成生产并使用企业业务知识和情报的生产体系,数据则从单纯的信息载体这一角色演变为生产过程里的生产资料。这个转变带来了很多新的数据安全问题。

安全牛:这个视角下的数据安全和传统视角下的数据安全有什么区别?

方兴:这个视角下的数据安全,是需要考虑三个不同维度的风险。一个是资产安全维度,如何保护数据现在的价值不受损失。对资产而言的最大价值即今天的价值,因此资产维度安全天然有减少资产被使用的场景以控制风险的倾向。

第二个是生产效率维度。生产效率是站在未来的价值增值的视角,为了减少今天的价值,可能导致未来更大的损失.某种意义上,对一个组织而言,不发展是更大的风险,因此需要牺牲一定的资产维度的安全作为妥协。

第三个维度是社会安全维度,生产过程和输出的产物,都有一定的社会属性,可能带来对社会的危害或损失,如隐私问题、国家安全问题。

我们看到三个维度之间是存在冲突的,无法同时将三个维度的安全都做到极致。一个维度的极致安全,可能意味着另一个维度的极致风险,比如要想把安全和隐私都做到极致,可能就需要放弃对数据的使用。因此就意味着某种意义上,数据风险是不可避免,而需要通过动态的风险感知体将三个维度的风控控制在一个最佳的平衡,并通过可溯源体系不断迭代改进自己的最佳实践。

安全牛:其实这是一种方法论,最终目的是要维持这三个维度的平衡。那由此推出的风控体系,该如何落地呢?

方兴:我们同样给出了一套方法体系来印证它,这套方法体系基于几个前提:

首先我提出一个“负信任”的概念。现在大家都在提零信任,零信任体系是我信任我赋权的主体对象,但我无法信任当前登录的这个用户就是我相信的那个主体,因此我需要结合很多维度的信息来识别对象,比如结合登录设备指纹,用户的登录方式,同时根据登录场景和工作需求给与用户最小化的授权,并在以后各自变化中持续验证这个主体对象。

而 “负信任” 是因为在生产过程中,从效率很成本角度,我们很难将生产交给完全可信的主体对象去完成,很多时候我们必须依赖不那么可信的人来完成我们生产的过程,也就是我必须给予不可信任的对象权限去完成生产,我确定了你是你,但我还是无法相信你,我又不得不用你,因此要以一种“监工”的身份,对主体对象的行为遵从性进行监督,同时还要观察数据对象的各自状态变化来确认安全状态。

第二是风险的不可避免性。如果我们接受风险的不可消除性,就必须从风险不同阶段形成层次化的手段来控制风险,风险阶段可分为风险的诱因(脆弱点)、风险事件、风险影响和追溯改进四个环节。敏感数据的暴露面就是一种风险诱因;有人绕过边界企图盗取信息,这是事件;数据是否丢失,丢失了多少,对客户和业务带来多大的问题,这是风险的影响;最后对事件的追责和溯源调查,准确找到风险各个环节的问题进行改进。

以上四个阶段分别按照发生顺序去解决问题,每个阶段只能尽量减少风险,但是不可能完全消除风险,原来的安全工作尽量在诱因和事件这两个层面上减少风险。但在生产场景中,会存在明知风险却不得不放其进入的情况,就需要在风险的影响和追溯这两个环节进行把控风险。

风控体系实际落地时,可以分为七个步骤,我们叫RPCMART模型:

第一步:规范,梳理数据的资产,对敏感数据资产进行定级,并依据级别确定数据资产对应的保护、控制规范。

脱敏,最典型且可以被固化的安全措施。脱敏实际上是放弃了一些生产效率和可用性,通过活动换来资产,采取固化的安全措施可以做到一定程度的预防。

第二步:预防性保护,和P2DR里的保护基本一个含义,在一些有数据透出的边界上进行提前的保护措施。

第三步:控制,确保人接触数据的行为,以及数据资产相关的状态,符合规范。一般而言,控制是业务层面的事情,需要对应的场景业务方主动实施。

第四步:监测,传统安全体系的检测更多偏向对威胁行为和载体的检测。而这里的监测,更偏向内部授权主体的行为、保护/控制对象的状态进行监测。

第五步:分析,结合各个数据流动环节的监测的信息,对数据资产的规范策略,全局分析数据风险态势,发现高危的数据风险事件。

第六步:响应,针对数据风险事件进行响应,如通过保护和控制手段进行紧急处理,同时启动相关的调查。

第七步:溯源改进,它有两个角度,一个是对人的,称之为追责。另一个是事件发生过程的路径和关键原因溯源,找到引起风险事件的关键环节。并针对这些关键环节进行过程改进。

总结一下,数据的核心价值在于流动过程中参与分析与运算带来的增值,而非仅仅当前已有的信息价值。但数据的流动不仅仅是物理层的载体传输的风险,更在于数据在不同组织、主体和业务之间的逻辑流动带来的风险,因此很难用传统的信息安全手段解决。所以全知科技更注重的是对数据在流动过程中的数据风险治理和数据风险监测,在兼顾数据资产安全、数据生产效率,以及数据合规风险三者的同时,建设数据流动风险的防治体系,目前给客户提供有应用数据风险防治、数据资产风险管理、大数据平台管控等多个方案。

安全牛:实际上,API安全、UEBA和DLP同样也在各自的维度上解决数据流动带来的风险,这与全知的解决方案又有哪些不同呢?

方兴:API安全,UEBA,DLP关注的角度有较大的差异。API安全的核心是关注数据流动”管道”的安全,通过API网关做好接口的版本,身份认证,权限等管理,它主要是针对接口本身而不是针对数据。UEBA核心关注的是数据”操作主体”的安全,通过对账号,IP等主体的行为进行建模分析,发现行为异常。DLP更多是从数据的”去向”来关注数据的安全,由于对数据本体和数据来源认知的缺失,使得DLP的可运营性较差。以上三种技术均存在不同程度的缺失,而全知的方案以”数据本体”为中心,将上述三者的能力关联融合形成更完善的数据安全方案,对数据流动的”数据本体”,”管道”,”操作主体”,”去向”进行风险监测。

比如通过对数据本体流动的追踪,我们可以关注到各自异常的流向,如在某银行数据流向的分析中,我们发现有大量的数据流向其中一台未知设备,最后调查结果发现这是一台打印机。没有部署我们的产品之前,用户并不知道这些敏感数据会通过打印方式出去,而且这台打印机也没有做任何的防护手段。

安全牛:具体到应用场景有哪些呢?

方兴:我们一个产品是应用数据安全产品、应用层数据安全是一个被大家忽略的点,但应用层数据安全有非常大的问题,比如针对阿里这样互联网平台,应用层是数据泄露最核心的场景,在应用层有很多数据泄露的模式,如:

1)爬虫:这是最有效和最广泛的手段,数据有关联性,一些我们觉得不重要的数据,在黑灰产手里可能成为很重要的桥接数据。比如利用用户对商品的评论数据来关联用户的订单;利用商家的注册ID序号来关联商家的新手程度来实施诈骗。

2)木马植入:针对特定行业应用,如酒店入住系统、电商客服系统。开发只针对特定应用进行篡改劫持数据的木马,因为不修改系统文件,传统杀毒软件无法查杀。然后再通过人肉(如应聘)定向植入。

3)收买内鬼:收买可接触客户数据的基层员工窃取数据。黑市上一条热数据(如交易5分钟之内的订单数据,诈骗成功率最高)可卖16元,很多基层人员难以抵挡这种诱惑。

这些应用层搞数据的手段,成本低,难防范,以我们的经验,互联网企业80%的个人信息泄露是在应用层产生的,阿里花了很大的力气来建设应用层的数据安全体系,但很多企业目前还没认识到应用层的数据风险。

全知天权(应用数据安全产品)是适用于拥有大量敏感数据或个人数据、但又需要业务员工在工作中使用这些数据的场景,比如银行、证券、医疗、电商等,他主要提供事前的涉敏接口发现和管理,事中的数据流向追踪和数据异常风险事件的发现,以及事后的数据泄露事件的快速调查和溯源能力。

另一个产品是大数据4A管控平台和大数据安全审计,帮助组织建立大数据平台统一管理能力,实现细粒度权限控制,统一认证体系,动态脱敏,多维度行为画像,适合于大数据平台广泛被分析和业务BI使用的场景。

还有数据地图产品。数据地图是围绕数据资产的识别、数据资产的分类分级,以及数据资产的状态分析,企业可以更好的形成统一的数据安全策略,并针对满足GDPR和《个人信息安全规范》的要求,为企业开展数据资产的主体授权分析、个人数据的处理流程梳理提供了支持,方便企业快速做好隐私安全。近期的一个数据地图使用案例是一家旅游网站的合规。客户在数据资产识别后,可以根据数据的表结构相似性分析,多个库表之间的权限分析,发现安全风险点,比如未脱敏数据核查、权限核查等。

即使是通过粗粒度的分类分级,也能够通过安全策略的一致性检查和映射带来价值,这样可以让客户更有做好数据分类分级这种基础性工作的驱动力。

在不断接触客户的过程中,我们发现用户认知度其实是和数据的使用度相关的。此外,我们认为未来医疗行业对于这部分的需求会快速成长起来。因为医疗行业为了实现医疗数据的互联互通,很多数据流动的风险在开始产生。比如在实现数据共享时的医院A、B,医院A会直接将Agent装在医院B的核心系统上面取用数据。

安全牛:数据是在不断地被消化、处理,产生增值服务,进一步产生更多的数据,从而形成数据回流,全知是在数据使用流动场景中构建一体化风控体系,对吧?那结合你的从业经验和对行业的理解,谈一谈你对公司的未来规划吧。

方兴:我认为一般而言,企业发展主要分为四个阶段:

1. 流寇:没有主线产品,只有想法、方向。

2. 乡勇:推出主线产品,成为某个单项产品的领头羊;就像拥有了一个据点,但须抵住各方的压力。

3. 正规军:具备几个主线产品;相当于割据了一小块地盘,生存不是问题但如何壮大是问题。

4. 集团军:成为一线玩家、甚至国际级玩家,需要围绕多个主线产品形成整个体系的解决方案商,强调数据安全整个领域的市场占比。

对于全知的未来规划,目标肯定是要做到更大。而要做到更大,首先公司拥有的产品和团队是最重要、最宝贵的资产,这一点上公司一定会非常重视。再者,正确的方向才能保证未来的发展,我们作为初创公司,能有幸参与到数字化时代的发展,也从另一个角度洞见了数字化时代的数据安全发展的脉搏,希望我们能随这个趋势的发展,引领数字化时代的数据安全。

业务流程中会产生数据,被记录、被算法处理后形成决策,反过来又指导业务的进行,这是一个数据流动反馈闭环的正向循环。但是,与此同时数据的流动也带来了基础性、人为性或合规性的风险。数据流动风险防治是大数据领域的关键,利用大数据技术解决此类问题拥有十分广阔的发展前景,但也面临着许多困难与难题。对于初创公司而言,即是机遇也是挑战。