科普| 冷数据在IPFS上可能会丢失?_ING:Tesseract

首先,我们先对数据进行一个简单的了解,数据分为冷数据、热数据,难道数据也有温度吗?

从字面意思来简单的说,热数据就是访问多的数据,门庭若市十分热闹。冷数据就是基本上没什么客人访问,门庭冷落车马稀。

热数据:是需要被计算节点频繁访问的在线类数据。

冷数据:是对于离线类不经常访问的数据,比如企业备份数据、业务与操作日志数据与统计数据。

两个不同的访问频次,就导致了在数据库搭建的目的各自不同,有一句话简单明了:热数据就近计算,冷数据集中存储。

国务院:推进科普与区块链技术深度融合:为贯彻落实党中央、国务院关于科普和科学素质建设的重要部署,依据《中华人民共和国科学技术进步法》、《中华人民共和国科学技术普及法》制定《全民科学素质行动规划纲要(2021-2035年)》,其中要求实施智慧科普建设工程。推进科普与区块链等技术深度融合,强化需求感知、用户分层、情景应用理念,推动传播方式、组织动员、运营服务等创新升级,加强“科普中国”建设,强化科普信息落地应用,与智慧教育、智慧城市、智慧社区等深度融合。(新华社)[2021/7/10 0:40:52]

那在IPFS网络中丢失冷门数据的可能性大么?

IMF今日发布的加密货币科普视频实为两年前旧闻,且存在诸多疏漏:国际货币基金组织IMF今日在推特上发布了一条关于加密货币的科普视频,这段时长两分钟的视频最初发布于2018年6月。该视频称加密货币是“货币进化的下一步”,但没有特别提到DLT、区块链,甚至是代币名称等术语。BTC、XRP和ETH只出现在说明加密交易的图形中。尽管这段视频到目前为止已经获得了超过13.7万的点击量和2900个赞,但来自加密社区的许多反应都是批评的,他们指出了信息中的漏洞和似乎具有误导性的措辞。

Reddit用户nanooverbtc称:“他们犯了很多错误,比如把私钥称为密码。”该视频也没有讨论挖矿或加密货币供应。Kraken策略师Pierre Rochard等知名人士表示:“可证明的稀缺性是比特币有趣的原因,你忘了提这一点。”(Cointelegraph)[2020/8/24]

数据资源丢失的问题是所有的存储方式最为在意的一个痛点,在传统的数据中心一般是通过两个方式来保证数据不会出现丢失。

人大附中物理老师李永乐科普拜占庭将军问题和区块链:5月14日,人大附中物理老师、科普视频网红李永乐在其公众号发布视频《拜占庭将军问题是什么?区块链如何防范恶意节点?》。李永乐老师在视频中对拜占庭将军问题和区块链进行了讲解,他表示,拜占庭将军问题本质上指的是,在分布式计算机网络中,如果存在故障和恶意节点,是否能够保持正常节点的网络一致性问题。在近40年的时间里,人们提出了许多方案解决这一问题,称为拜占庭容错法。例如兰波特自己提出了口头协议、书面协议法,后来有人提出了实用拜占庭容错PBFT算法,在2008年,中本聪发明比特币后,人们又设想了通过区块链的方法解决这一问题。区块链通过算力证明来保持账本的一致性,也就是必须计算数学题,才能得到记账的权力,其他人对这个记账结果进行验证,如果是对的,就认可你的结果。与拜占庭问题比起来,就增加了叛徒的成本。[2020/5/14]

一、提升数据存储的安全性

动态 | 人民日报官方微博科普区块链 强调区块链不等于比特币:人民日报官方微博今早发表9图科普区块链。其中涉及区块链的特点有:1、安全;2、不可篡改;3、可访问;4、无第三方。区块链对未来的影响:1、不需繁琐个人证明;2、看病避免反复检查;3、旅行消费更加便捷;4、交易无需第三方。同时强调,区块链不等于比特币。比特币只是区块链技术的一种应用,区块链还有医疗卫生、食品安全、版权保护等诸多应用领域。[2019/10/28]

更稳定的服务器(如Dell的730xd,740xd),一台的成本超过五万(不算硬盘),双电源,双路CPU。

更好的硬盘,如企业级的氦气盘,成本在单T上是普通家用级硬盘的2-3倍。Raid5/Raid50,可以通过奇偶校验恢复出已经损坏的硬盘的数据。

双电厂的独立电源,防止一个电厂故障,有足够的冗余。

UPS电源,防止电力故障,甚至级别较高的机房会采用柴油发电机保证电力在12小时之后仍然不中断。

二、多存几遍

这个就好理解了,一份真正重要的冷门数据企业不会只存在云端,可能公司电脑里有几份,公司服务器有几份,各大云端上又有几份。如此,它们同时丢失的可能性就很小了。

由此我们可以看出,在传统的存储领域,如果要想一个数据不丢失,代价是非常大的,而这样的代价体现在:如果想要降低数据丢失可能性,可能要花费几十倍甚至上百倍的费用才能保障,同时数据在传统的存储方式上存的越多,安全性也会指数级地降低。这也就是为何IPFS将要革新传统存储的根本。

对于冷门数据而言,IPFS在存储上究竟有哪些好处呢?

在IPFS中,采用的是Erasurecoding的模式,即M+N的模式,M是原文件的份数,N是备份的份数。IPFS会将文件切割发到不同的矿工手里,防止局部网络的瘫痪,对全局文件安全性的影响。

而IPFS存储最大的好处是在于两个:

1、文件备份不会对整体安全性降低

这一点其实非常好理解,在传统的存储上,你的银行卡密码在家存了一份,在公司存了一份,即便你忘记,也有找回来的可能性,但同时被坏人看到的可能性也会随之增加。而IPFS不一样,无论你存多少份,你的数据安全性始终是不变的,都经过加密后传输在IPFS节点网络上。

2、数据安全性随着N增加,价格却保持稳定

N是备份数,在IPFS这样节点故障事件相互独立的概率模型之中,N的增加会极大地降低出故障的概率。

假如你有一个文件,按照IPFS的分发机制最少会分给7个人,而这个文件不大但却很重要,我们于是将文件存了10遍,于是就有了70个节点来存储。假如每个节点发生永久性损失的概率是1%(这个仅仅是电力非永久损失的大致概率,实际永久损失的概率比这个低得多),那么文件丢失的概率是多少呢?

P=1-(1-0.01^10)^7=-7*10^(-20)

这个概率有多小呢?

相当于一个人一次性连续中了两个500万彩票!!

如果你认为数据不是很重要,只存了3-5份,丢失的概率也要远远低于把它存在中心化服务器上的。

刚才只是一个小小的数学模型。现实中,分布式存储会再进一步降低数据丢失的概率,例如更加合理的数据切割;通过识别找到更低丢失概率的节点组合;更加偏好长寿节点,通过激励与惩罚降低恶性节点的比例;通过建设更多的节点降低单位存储的成本。总之有两个原则是永远不变的,N数越大越难丢失,随着N的增加,安全性并没有任何损失。

由此,我们IPFS实现了数据更廉价的存储,更强的安全性与更稳的抗丢失能力。

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

金智博客

MATICLBank上线GLEEC的公告_GLE:CBANK币

尊敬的LBank用户: LBank将于2020年4月8日16:00上线GLEEC,具体如下:交易对:GLEEC/BTC开启充值时间:2020年4月7日16:00(UTC8)国务院:推进科普与区块.

[0:0ms0-4:782ms