全球算力大会丨经常掉算力怎么办?Filecoin算力救援计划看过来

什么是Filcoin算力救援计划?为什么要进行算力救援?如何进行救援?

4月17日,“超算·融合,2021全球区块链算力大会”在四川成都正式开幕。本届大会由巴比特、链节点、币印联合主办,吴说区块链协办,算力360总冠名。

在冰河实验室组织的主题为“Filecoin算力救援计划”的圆桌论坛上,嘉宾们深入剖析了Filecoin在算力稳定性方面存在的问题并探讨了多种行业解决方案。本场圆桌的主持人为冰河分布式存储实验室秘书长张晓航,参与讨论的嘉宾有雅典娜云池CIO邓小超、上海储迅信息技术有限公司CTO&联合创始人冷波、四川川西数据产业有限公司常务副总经理曾治富 、中科曙光存储公司副总裁张新凤、RRMine算力安全委员会委员鞠裔。


以下是论坛讨论内容,由巴比特整理:


什么是掉算力?什么原因导致的?


主持人:我第一个问题想问技术大牛冷总,掉算力是一个什么样的概念?为什么会发生掉算力事件?惩罚机制又是怎么样的?

冷波:掉算力从定义上来讲就是一个Filecoin节点的有效算力从多变少的过程。比如我的算力从1PB突然变成500TB了,算力变少了,就是掉算力。这样带来的直接问题就是收益变少,因为Filecoin的预期收益是和有效算力成正比的,就是算力越大预期收益越高,算力变少了预期收益就会变低。除此之外还有额外的惩罚,这个惩罚措施是非常严格的,惩罚的损失比减少的预期收益要多很多。

引起掉算力的直接原因就是没有在规定时间内提供施工证明,即没有提供对应数据的施工证明。为什么没有提交消息?原因多种多样,比如有一些链的原因,链拥堵导致消息一直发不出去。也有网络的原因,比如网络断掉了肯定发不出去,更多的是稳定性的原因,比如存储的原因,有的数据在规定时间之内无法返回。可能这个数据本身是对的,但是一旦读出来时间比较长就超时了。如果数据有错误,比如硬盘出现不可逆转的错误,而且没有冗余数据无法提交证明,也会惩罚掉算力。所以引起掉算力的原因多种多样。

掉算力又会引发一些后果:第一,掉的算力这部分的收益在一天之内肯定会减少。第二,掉算力会有一个惩罚,这个惩罚机制比较复杂。现在规定是这样,如果是整个都没有提交,第一天暂时不给惩罚,主要就是避免这种链拥堵导致的情况,可能不是矿工本身的问题。但是如果连续两天没有提交,第二天开始每天都会扣(fil)。大概扣的数目是部分预期算力的3点几倍,这个额度还是比较多的。但是如果数据提交了,有部分错误上去,第一次出错也会扣Fil,所以综合起来讲还是很复杂。如果连续14天都没有提交相关的证明,系统链就认为这个没有办法救回来了,就相当于自动销毁掉了。这个时候质押的部分也会被扣掉。这就是为什么会出现余额变成负的情况,因为前面惩罚扣掉大量费用,进一步导致质押也被扣掉,所以变成负数。

邓小超:刚才冷总分享了掉算力的机制和原因。掉算力的原因确实有很多,比如大一点就是机房整体掉电,肯定掉算力。还有就是机房断了光线,会造成读取数据不能返回,掉算力。通俗总结一下,掉算力的情况可以分为以下三类:一类是硬件故障,一类是软件故障,还有一类是人为故障。如果在做证明的时候出现的是链拥堵或者是服务器程序崩溃,这是软件内的故障。如果是服务器宕机或者网络中断,这样是硬件的故障。如果是工程师操作不当,这肯定是人为的故障。这种故障不可避免,但是可以通过前期的基础设施建设、项目规划以及一些运营规范进行规避。


如何避免发生掉算力的情况?发生了又该如何救援?


主持人:我们关注到,昨天就出现了新疆比特币矿场,因为停电的事件造成了大量算力大幅下降。类似的事情如果发生在Filecoin上面,我们在算力救援计划中具体能够提供或者得到哪些服务?

邓小超:救援只是一个后路,对于我们来讲更重要是防范。不管是前期基础设施调研还是到后面的项目规划、安全运营保障都需要做好这一块。我们目前建立了管理类、安全运营类的安全体系。通过安全体系去规避一些机房断网的问题以及操作人员操作失误的问题。做好这种安全体系建设后,救援就只是一种演练。我们会通过两种方式进行数据的救援。第一种是基于存储底层的救援,第二种是算力重建一次的救援。所以从我的角度来讲还是优先于安全体系的防范,救援还是在后面。(主持人:这个防范具体涉及到哪一些东西?)比如基础建设方面,首先关注数据中心,数据中心的电路是必须两路接入。网络也要关注,对于机房来讲,现在的数据中心基本上都是接入双运营商的IDC专线,所以断网可能性也基本排除。在运营安全事故方面,我们与一些安全机构合作,通过防火墙、运营安全审计等方式把这种风险降到最低,每个人每个角色只能处理相关的事情,不能越权处理不该处理的事情。

张新凤:我们一直坚持的原则也是防范于未然,所有的工作都要做在事前。事前工作做到位了,出现数据丢失的概率会大大降低。如果我们前期没有做任何防护措施,一旦数据丢失,从存储层面来说能修复的概率是非常低的。这个也是我20多年的工作经验,看到很多惨痛的经历。具体到IPFS领域,刚才听冷总大概介绍了一下,关于惩罚的机制。我大概算了一下,如果算力丢失,即便在14天之内能修复过来,这个惩罚的成本也已经超过了存储系统的构建成本。大家如果要进入到IPFS领域,建议在选择存储系统时一定要选用高可靠的企业级存储。给大家分享一下我们在这个领域的经验。

首先要做的工作是存储系统的选型。应用平台上关键部件是不是冗余的,存储系统有没有单一故障点,这个是在一定程度防止物理故障。软件层面来说有没有比较灵活实用的成熟的数据冗余机制,让用户无论是多少规模都可以灵活选择数据保障措施。对于数据逻辑错误,比如说人为误删除,包括黑客攻击、病毒感染带来的逻辑错误也要有技术可以防范。

具体实施的时候也有很多问题,如存储网络怎么设计,既能有一个比较好的性价比,还能保持比较好的冗余度,存储访问层面怎么和应用配合,达到一个比较好的性能等等。

在投入运营后,也需要定期对存储系统做体检和巡检,这也是我们强烈建议的。一周之内至少检查一下这么多套系统是否有硬件故障,IO负载有没有异常情况,空间利用率是不是能支撑未来业务的增长等。

我相信通过这样一些机制之后,再出现掉算力的情况概率应该非常小。

冷波:我从算法角度讲一下怎么避免掉算力,掉了怎么救援。大概分几个方面,第一个方面是安全方面,即防止黑客,防止非法操作。我们有一些严格的安全管控,如非常重要的钱包不要进机房,防止随意操作随意导入,有任何非法操作都会马上告警。这个层面来讲会防止别人异常控制钱包,如果别人把钱包盗走了算力也会掉。第一个方面最重要的就是安全性。

第二个方面是系统稳定性,一般来讲是通过冗余的方式让系统各个软件来稳定,可以防止单个硬盘或者单个节点损坏,数据还能读取。除此之外做施工证明这些都是需要做冗余,任何的硬件总是会有问题,出了故障不可能不做证明,证明必须马上完成。所以有其他服务接管过来,系统可以继续跑。包括网络链路、各种链通过冗余方式,通过类似互联网架构的高可用性方式,让它更可靠。可能在Filecoin刚开始最早挖矿的时候,很多人觉得这个冗余措施会带来很多额外的成本,但是现在高可用性的冗余方式已经是一个标配了。无论出现什么情况都会有另外的机器和节点把这个服务接上持续跑。

第三个方面,如果真的出现了不可抗力怎么办,比如机房出问题,无法访问了,网络链路都断掉了。所有的惩罚都是程序代码自动完成,没有提交证明就会惩罚。如果长时间数据因为异常原因被毁掉了,没有办法把硬盘数据恢复出来怎么办?从算法上面来说有一个措施,可以在异地利用算法对部分数据进行重新生成,生成之后也可以继续加以证明,能够在一定程度甚至全部把这个算力恢复。当然这个恢复过程相对来说比较复杂,可能在节点初始化建设的时候需要考虑这种冗余措施,这是针对Filecoin业务的灾备方案,也是我们目前实施的还不错的方案。未来肯定会成为主流。主要还是Fil的价格太高了,它带来的预期收入不止几百万,这也给研发和运维的工程师带来巨大压力,大家在想各种各样的方式变得更稳定,不出问题,出了问题可以想到各种方案解决。

最后还要建立一个完善的监控系统,无论出现什么问题都可以及时告警。因为总有一些问题是无法预先知道的,遇到问题都要第一时间分析,人为再判断,通过这个工程师团队集中精力解决。基本上都能够第一时间把这种掉算力的问题处理掉。

目前来看大节点跑起来还是比较稳定的,没有节点说从来不掉算力,但是基本上可以保障只要投入研发和运维力量的团队,基本上稳定程度还是非常好的。

主持人:川西数据产业园也是中国西部最大的大数据中心。可以分享一下Filecoin掉算力方面,从IDC角度来说,有哪些应对措施呢?

曾治富:Filecoin和比特币在惩罚力度和机制有非常大的不同。我们现在可以看到很多Filecoin在数据中心选址时,一般都是选的高规格高标准的数据中心。传统做比特币挖矿在选址时是在一些小水电厂旁边放一个机房就可以放进去,这样的可靠性和稳定性都非常差。如果Filecoin选址在那样的环境,肯定会受到很多惩罚。现在的川西数据在建设大数据产业园时就采用了高标准高规格的要求来进行建设。机房完全按照A级机房的建设标准进行设计和建设,所有的IDC相关的配电网络、监控控制的这些系统都有冗余,任何一个设备或系统故障都不会影响整个机房的正常运行。

在IDC这个领域里面,有一些比较关键的保障要素。比如第一个就是电,我们现在电的接入完全是由国网提供的双回路。第二是提供了可以持续全网数据满载运行30分钟的后备的UPS保障,会在五分钟之内启动配套的柴油发电机组,在用电安全层面可以力保我们数据安全。

另外就是网络,现在很多数据中心只能做到单网接入,我们现在已经把包括电信联通移动在内的国家级国电网络完全接入。第一是方便用户的选择,第二是通过各运营商相互的线路冗余,确保在任何情况下算力都不会掉线。

还有一个层面就是数据中心的运行维护。我们在团队建设上面投入非常大,从外部引进了很多专业的工程师,并加以不断培养。我们在按照国家的标准化运维管理模式提供一站式运维保障服务,能够保证应急事件的及时处理。其实保障方面不仅仅是IDC在做,包括平台支撑层面和应用层面也要相互协调,形成一个整体,这样才能保证整个产业生态的不断发展。

主持人:鞠总,RRMine作为大体量的算力管理平台,为什么会参与到Filecoin的算力救援计划当中呢?    

鞠裔:因为现在Filecoin正在磅礴的发展中,如果我们都能在关键时候加入到救援计划当中来,更有利于整个行业长期有力的良好发展。矿工在整个挖矿生态环境中是非常重要的环节,我们也是从客户的角度出发,以客户为本,然后更好提供服务。同时站在客户的角度,为客户考虑更多的安全性的问题,比如在算力出现波动之前,会跟一些技术专家进行研究,做出提前的预警,然后给出相应的减少客户损耗的方案,然后平衡它算力的产出。从长远的角度来讲,RRMine会站在更高的高度,舍弃一些小的东西,为行业更好的发展,将算力安全的革命进行到底。

写评论,请先登录