e-works数字化企业网  »  文章频道  »  基础信息化  »  企业上云

如何发现云存储中的个人数据

2021/11/17    来源:e-works    作者:新睿编译      
关键字:云存储  云计算  个人数据  
云计算提供商通常提供数据丢失防护(DLP)服务来保护用户数据,而用户可以调整这些服务以通过不同的云计算功能和架构检测其个人数据。

       数据丢失防护工具通常用于发现和监控云中的个人数据,但它们的有效性和成本如何?

       遵循隐私数据法规使企业在工作中有点麻烦,需要让每个人都重新思考他们如何存储可以归类为“个人”的客户数据。问题是,哪些数据可以归类为个人数据,这取决于它是否与其他数据配对。这意味着具有个人潜力的数据几乎可以在任何地方出现。

       由于世界上大部分国家和地区现在都在运营或正在寻求将其所有数据运营转移到云中,因此它正在成为个人数据的主要存储场所。

为什么需要在云中查找个人数据

       在任何存储设施中,都会有大量数据,例如在硬盘上存储的历史数据,那么多久清理一次?如果企业的业务可能出于合规性原因了解个人数据在哪里,需要浏览历史数据以查看其中是否包含个人数据。

       需要注意的是:数据可以是文本形式,无论是结构化数据还是非结构化数据,就像它可以是PDF或JPG格式一样。

       因此,数据泄露的可能性越来越大,例如第三方意外访问企业的数据或其他方式,或者监管机构的审计,已经带来了人们对使用和存储个人数据进行分类和设置规则的责任。幸运的是,如果使用的是谷歌云、Azure或AWS S3等云计算服务,则可以使用一些工具来查找和分类数据,可以使用它们来改进个人数据实践。

       然而,它们并不像看起来那么简单。

个人数据和云计算基础知识

       大多数云计算提供商提供数据丢失防护(DLP)服务,旨在通过监视、检测和阻止对使用中、移动中和静止中的敏感数据的访问来检测和防止数据泄露或丢失。由于数据丢失防护(DLP)能够检测数据,因此可以对其进行调整以检测个人数据。为此,需要编写一些云计算函数、设置输出并绘制一些模式。

       编写函数时,需要注意输入所有可能的要扫描的文件格式,如果添加任何新的文件格式,需要更新云函数。如果遗漏了某些文件类型(需要记住的是云计算可以存储所有文件类型),那么该函数将会跳过它们。这里的问题是,如果创建函数来扫描太多文件格式,那么该函数将变得太大。基本上会通过额外的逻辑增加更多的复杂性,并将功能扩展到更像是完整服务的最初意图之外。

       解决这个问题的一种方法是仅接受来自客户的某些文件格式的个人数据。好消息是,无论使用的是AWS、Azure还是谷歌云,在云中设置个人数据监控的方式都非常相似。

       首先,需要通过数据丢失防护(DLP)推送云存储中的文件。获取这一结果并将其放在特定的指标存储中,然后通过Data Studio(在AWS云平台上称为Quicksight)将其转换为模式。

       设置

       由于使用了以上有关如何为谷歌云设置个人数据监控的图片,可以了解一下它是如何完成的。需要进行全面扫描以分析保存在那里的数据。这是一个漫长而复杂的过程:如果有多种类型的存储格式,其中包含大量数据,则扫描所需的时间将达到数百小时。

       而且,分析通过数据丢失防护(DLP)的数据的价格是按量计算的,推送的数据越多,成本就越高。由于分析存储和查找PII会增加额外的请求,因此吞吐量问题可能会加剧这种情况。用户可以根据自己的预算,这可能需要限制请求的数量。

       谷歌公司为用户提供了一组降低成本的最佳实践,例如:将用户的云计算功能设置为仅扫描已更新或更改的数据。尽管如此,这也有其自身的问题:假设对一个大文件进行了小改动;将扫描整个文件,而不仅仅是更改。其输入可以是PDF、Word、图片或文字等,而数据格式不同,则很难识别里面是否有个人资料。对于图片来说尤其如此,因为图片质量需要足够好才能识别数据。

       用户可以在谷歌云的Github上找到用于分析数据存储的函数代码示例。

       对于新文件或数据,需要使用单独的函数对其进行分析。函数执行的触发器是新文件上传到存储或文件更新时。

       启动文件扫描并为BigQuery或其他地方设置发布输出。

       (1)文件上传或更新

       (2)云函数被触发

       (3)云计算功能检查个人数据文件

       (4)结果发布到另一个存储

       接下来,用户需要对其拥有的数据进行分类,而分类拆分取决于希望如何拆分数据。不同的人会分析不同分类的个人数据。在云中创建所有资源后,需要编写云函数。

       用户可以在谷歌云的Github上找到云函数代码的示例。

       部署

       根据用户拥有的环境数量,部署可能会很困难。如果只有单一存储设施和环境,这将相对容易,但是如果有多个存储设施,则会出现问题。例如,如果使用Demo、Beta和生产环境:需要在Demo环境中编写函数,检查它们,测试它们,然后在Beta和Prod中做同样的事情。这在多个系统中非常耗时,可能需要DevOps工程师的帮助。

       如果不同的云计算提供商有不同的存储设施,那么对于不同的文件类型服务,用户将拥有不同的存储。可能拥有跨不同存储空间的用户活动、用户付款等存储空间。这里的困难在于需要知道如何跨所有系统启动生产。

       接下来,用户需要对其拥有的数据进行分类。

如何对数据进行分类

       所有个人数据都有自己的特定类型作为被检测的标志。谷歌公司提供了完整的数据类型列表。用户可以在谷歌云的Github上找到用于分析数据存储的函数代码示例。

       用户通常会使用DataStudio、PowerBI或其他工具来可视化数据。但对数据进行分类的主要目的是确定其拥有的内容,并了解持有的不同类型数据的敏感程度。

       可以通过让安全分析师对其进行审查来了解数据的敏感程度。这将增加成本,因为分析师需要仔细检查BigQuery表及其指标,以监控分类类型并评估其为个人数据的可能性。分析师通常必须为数据被标记为个人时发生的情况编写脚本。

       以下看一个例子:

       输入

       例如,收到一封电子邮件,然后将其作为文本文档放置在存储中:

       请使用以下信息更新记录:
       电子邮件地址:example.name@example.com
       国家提供商标识符:1245319599
       驾照:AC333991

       输出

 

输出

       在上图中,将扫描的输出设置为发现的信息类型、它是个人数据的可能性以及可疑个人数据在文本中的位置(文本中的字符)。这里需要注意的是,信息类型是预设的并且无法添加。其次,会注意到可能性分类不是二元选择:这意味着存在误解的空间,用户实际上需要分析它是否是个人数据。

       获得这些指标后,它们将发布到BigQuery;然后可以在数据工作室中可视化数据。可以在此处为其拥有的文档中包含的不同类型的个人数据添加一个表格:例如,50%的文档具有电子邮件和驾驶执照。

使用数据丢失防护(DLP)进行数据检测的问题

       人们可能已经注意到,在云中使用数据丢失防护(DLP)来监控个人数据会带来一些问题。

       (1)很困难

       实际上,构建一个能够捕获和分类用户需要的所有内容的高效系统非常困难。需要让一些人参与进来,比如程序员来编写函数,DevOps工程师来部署资源,以及系统分析师来构建它。更多的人参与意味着额外的复杂性。

       (2)很脆弱

       如果用户设法设置了所有内容,然后意识到其想要更改某些内容,那么将有工作要做。向云平台中添加任何组件都会影响它们之间的严格依赖关系,从而增加整个系统的复杂性和脆弱性。如果想添加新的数据存储或数据源也是如此:它会增加开发的复杂性。

       (3)价格昂贵

       这个解决方案的成本似乎很低,但当考虑到所涉及的工作时间时,成本很快就会飙升。此外,数据丢失防护(DLP)系统根据流经它们的数据量以及功能的工作收费,与发现的个人数据量无关。

结语

       最终,用户要寻找的结果可能无法实现,因为其确定的商店可能不是个人数据所在的唯一地方。要真正了解其所有数据在哪里,用户必须进行深度扫描,但这是成本昂贵并且耗时的。这确实使没有配略去隐私团队的大型企业无法接触到它们。

       另一件事是,查找和分类数据不是一个一次性的过程,而是一个持续的过程。这意味着它应该简单且用户友好,而上述数据丢失防护(DLP)方法则不然。

责任编辑:程玥
本文为e-works原创投稿文章,未经e-works书面许可,任何人不得复制、转载、摘编等任何方式进行使用。如已是e-works授权合作伙伴,应在授权范围内使用。e-works内容合作伙伴申请热线:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐