数据安全在互联网世界就是一个笑话(1)
资讯
2024-01-31
221
#实话实说#
80.26亿,这是滴滴被处罚的数额,我相信,当滴滴公司的主要负责人收到国家网信办的处罚通知书的时候,他一定会想起几年前滴滴美国加州研究院发布的关于中国各部委加班出行规律报告的那个下午。
而这件事也给大家敲响了数据隐私保护的警钟。
那么什么是大数据呢?在开始之前,我们首先了解一下大数据的一些特征。
如图所示,大数据有四个特征,简称4V,其中,多样,高速这两个特点没什么可介绍的,我们着重谈一谈大量和价值这两个特点。
首先是大量,请看这张图:
这张图是2021年全球各大组织的数据量统计图,为了方便对比,纵坐标取的是对数。
1个字节(Byte)等于8位二进制。位(bit):存放一位二进制数,即0或1,为最小的存储单位,8个二进制位为一个字节单位。一个英文字母(不分大小写)占一个字节的空间,一个中文汉字占两个字节的空间。我们平常所说的ip地址,比如192.168.1.1这个地址就是4个字节,32位。(ipv4协议下)根据图示所示数据,2021 年用户每天在 YouTube 上上传的视频时长为 72 万小时。假设平均大小为 1 GB(标准清晰度),2021年 YouTube 的数据大小约为 263 pB。
右上角的LHC (大型强子对撞机)是所属于欧洲核子研究组织CERN的粒子加速器与对撞机,在LHC中存在在四个主要实验其中的每一个实验里,每秒产生大约 24 亿次粒子碰撞,每次碰撞可以提供约 100 MB 数据,因此预计年产原始数据量约为 40k EB(=10亿千兆字节)。
所以,产生数据量最大的不是什么4k视频,而是科研机构,他的数据量大到不可想象。但是根据目前的技术和预算,存储 40k EB 数据是不可能的。在如此大量的数据中心,实际上只有一部分数据有意义,因此没有必要记录所有数据。记录的数据量也降低到了每天大约 1 pB,上一次的真实数据只采集了 160 pB,模拟数据 240 pB。
这就是大数据的另一个特征价值。
并不是所有的数据都是有价值的,就跟我们生活中一样,我们接收到的数据流有些是信息,有些是噪音,而且根据传播学的理论,我们生活里接触到的大部分都是噪音。同时也有一个基本的辩证法,对你来说是噪音的,对别人来说可能是信息,比如,你工作一天回到家,刚打开电视,就听到楼上一对夫妻又因为孩子纸尿裤的事情吵架了,对你来说这是噪音,但是对于一个销售高品质纸尿裤的人来说,这就是信息了。从对话这件简单的事上可以挖掘很多有价值的信息,谁又能确认对话里面包含的关键字不会被你手机里的app收集呢?有可能这一对夫妻刚吵完架打开淘宝就会收到关于纸尿裤的推送。古人说隔墙有耳,随着互联网的发展,这双耳朵已经不在墙后了,而就在我们身边,我们的眼前。
#文章首发挑战赛#
#实话实说#
本站涵盖的内容、图片、视频等数据系网络收集,部分未能与原作者取得联系。若涉及版权问题,请联系我们删除!联系邮箱:ynstorm@foxmail.com 谢谢支持!
#实话实说#
80.26亿,这是滴滴被处罚的数额,我相信,当滴滴公司的主要负责人收到国家网信办的处罚通知书的时候,他一定会想起几年前滴滴美国加州研究院发布的关于中国各部委加班出行规律报告的那个下午。
而这件事也给大家敲响了数据隐私保护的警钟。
那么什么是大数据呢?在开始之前,我们首先了解一下大数据的一些特征。
如图所示,大数据有四个特征,简称4V,其中,多样,高速这两个特点没什么可介绍的,我们着重谈一谈大量和价值这两个特点。
首先是大量,请看这张图:
这张图是2021年全球各大组织的数据量统计图,为了方便对比,纵坐标取的是对数。
1个字节(Byte)等于8位二进制。位(bit):存放一位二进制数,即0或1,为最小的存储单位,8个二进制位为一个字节单位。一个英文字母(不分大小写)占一个字节的空间,一个中文汉字占两个字节的空间。我们平常所说的ip地址,比如192.168.1.1这个地址就是4个字节,32位。(ipv4协议下)根据图示所示数据,2021 年用户每天在 YouTube 上上传的视频时长为 72 万小时。假设平均大小为 1 GB(标准清晰度),2021年 YouTube 的数据大小约为 263 pB。
右上角的LHC (大型强子对撞机)是所属于欧洲核子研究组织CERN的粒子加速器与对撞机,在LHC中存在在四个主要实验其中的每一个实验里,每秒产生大约 24 亿次粒子碰撞,每次碰撞可以提供约 100 MB 数据,因此预计年产原始数据量约为 40k EB(=10亿千兆字节)。
所以,产生数据量最大的不是什么4k视频,而是科研机构,他的数据量大到不可想象。但是根据目前的技术和预算,存储 40k EB 数据是不可能的。在如此大量的数据中心,实际上只有一部分数据有意义,因此没有必要记录所有数据。记录的数据量也降低到了每天大约 1 pB,上一次的真实数据只采集了 160 pB,模拟数据 240 pB。
这就是大数据的另一个特征价值。
并不是所有的数据都是有价值的,就跟我们生活中一样,我们接收到的数据流有些是信息,有些是噪音,而且根据传播学的理论,我们生活里接触到的大部分都是噪音。同时也有一个基本的辩证法,对你来说是噪音的,对别人来说可能是信息,比如,你工作一天回到家,刚打开电视,就听到楼上一对夫妻又因为孩子纸尿裤的事情吵架了,对你来说这是噪音,但是对于一个销售高品质纸尿裤的人来说,这就是信息了。从对话这件简单的事上可以挖掘很多有价值的信息,谁又能确认对话里面包含的关键字不会被你手机里的app收集呢?有可能这一对夫妻刚吵完架打开淘宝就会收到关于纸尿裤的推送。古人说隔墙有耳,随着互联网的发展,这双耳朵已经不在墙后了,而就在我们身边,我们的眼前。
#文章首发挑战赛#
#实话实说#
本站涵盖的内容、图片、视频等数据系网络收集,部分未能与原作者取得联系。若涉及版权问题,请联系我们删除!联系邮箱:ynstorm@foxmail.com 谢谢支持!