观点 | 通过 EVM 代码默克尔化缩减见证数据大小_区块链:NEAR

作者:SinaMahmoodi

翻译&校对:IANLIU&阿剑

来源:以太坊爱好者

摘要:区块中每发生一次合约调用,无状态客户端都需要完整的合约代码作为区块见证的一部分,而传输合约代码占用无状态客户端带宽的比例,高居其带宽开销的第二位。

人们认为,代码默克尔化方法能够优化带宽开销。本文解释了如何将代码拆分为“块”,默克尔化这些chunk,并只在交易需要的情况下传递这些chunk。实验证明,基于目前的主网情况,我们能看到合约代码传输的开销节省了40%~60%。

巨大的无状态区块

代码默克尔化的概念已经被提出好一阵子了,一开始主要用于代码去重,但其他用途还未被很好地探索。现在它重新进入大众视线,却是因为另一个目的——用于降低无状态客户端所需要的带宽开销。如果你想知道无状态客户端为什么出现,我推荐这篇总结,或是AlexeyAkhunov的推文,里面还附上了他的实验数据。为求简短扼要,我不会深入整个无状态客户端模型的细节,仅提供相关细节的简要总结。

在无状态模式下,节点可以依赖其他节点来取得区块内容并使用相关默克尔证明加以验证,而不必自己存储所有区块状态——这会给网络带宽带来巨大的性能提升。AlexeyAkhunov和turbo-geth团队一直在研究,希望能确定已经产出的主网区块的区块见证大小。下图是对最近50000个区块的测量结果:红线追踪每个无状态区块需要发送的合约代码量。如果以太坊从当前的hexary字典树结构转为二进制trie,则见证数据所包含的哈希值数据大小约能减小3倍,这时候合约代码量就成为构成见证大小的第一大头了。

观点:拥有CBDC的央行将取代华尔街的美元代理银行:金色财经报道,Pozsar认为,拥有CBDC的央行将扮演新角色,充当本国进出口公司的清算代理人,然后使用CBDC直接与外国同行进行结算。通过这种方式,它们将取代华尔街的美元代理银行,例如摩根大通和花旗银行。结果是各国不再需要那么多美元。

这一趋势是由贸易密集型中型经济体推动的,这些经济体在全球美元的供需中发挥着巨大作用。拥有贸易顺差的净出口国将积累更少的美元,因此向全球外汇市场供应的美元也将减少。存在贸易逆差的进口商对以前用于支付商品的美元的需求将会减少。[2023/7/8 22:24:57]

-图表显示最近50000个主网区块的无状态区块见证大小变化,经过窗口=128个区块的移动平均计算-

不要发送整段代码

我们假设,其实每笔交易只会调用部分的合约代码,所以我们的目标就是拆分这些代码块,每次交易只发送需要的chunk的区块见证。如果这种假设合理,而且每笔交易真的只用到一小部分字节码,那么区块见证的合约代码部分就能大大的减小。

观点:NEAR协议抢先实施EIP-1559 但效果可能适得其反:开放性网络平台NEAR Protocol (NEAR)已于近日迎来主网。该网络目标是与以太坊竞争,争夺智能合约开发者。与此同时,NEAR也采用了EIP-1559提案,而根据加密货币研究员Hasu的分析表明,NEAR所采用的设计可能存在严重的错误,这会导致市场有强烈的动机来规避其目前的机制,从而产生适得其反的效果。EIP-1559大大改变了当前以太坊的费用模型,其带来了很多实质性的好处,其中之一是使用户更容易预测费用,几乎完全消除了出价过高的情况。乍一看,NEAR完全是复制了以太坊的EIP-1559。

例如,以太坊中每个区块的最大费用变化为12.5%,区块时间大约为12-13秒,而在NEAR中,每秒区块时间的最大变化为1%。但再细看,NEAR所实施的EIP-1559有两个大的不同:1.用户无法在协议中打赏(激励)区块生产者;2.它向智能合约支付基础费用的30%。综合考虑,NEAR的解决方案不仅不能改善结果,反而会使结果变得更糟。通过禁止向区块生产者支付费用,NEAR的解决方案会鼓励形成一个交易优先权的“黑市”。通过向应用开发者增加一个强制租金,其只会强迫应用向用户退款,甚至可能在此过程中破坏它的EIP-1559。(Deribit Insights)[2020/10/20]

为了更好地理解,想象我们正在部署一份新的合约,我们需要传递代码和并确定basicblock有两种特性:

观点:金融机构应开展区块链金融领域应用标准制定,引导区块链有序推广:10月11日消息,近年来,区块链通过创造信任来创造价值,为解决现阶段金融领域资产与交易信息真实性验证难、信用评估成本高、普惠金融服务难落地等痛点提供了新思路。除了供应链金融,区块链技术在金融领域的应用还体现在贸易融资、资金管理、支付清算、数字资产等领域。业内人士表示,目前,区块链技术发展较快,但同时面临着标准体系有待完善、隐私保护与数据共享矛盾凸显、性能效率存在局限性、链内外协同不够等问题。还有专家指出,金融机构应根据行业特色,立足实际应用,配合行业主管部门开展区块链在金融领域的应用标准制定工作,引导金融领域中区块链的有序推广,进一步提高不同业务领域的规模化应用水平和推广效率。中国银行业协会首席经济学家巴曙松表示,新兴科技在金融机构逐步应用,导致传统监管技术手段难以满足现有的监管需求。因此还应大力发展监管科技,关注如何利用区块链等新技术来强化金融监管。(新华社北京)[2020/10/11]

-字节码的basicblocks-

观点:S2F模型显示比特币可能在2021年年中达到7万美元:加密货币评级机构韦氏评级(Weiss Ratings)分析师Bruce Ng和Juan M. Villaverde表示,S2F模型现在显示,比特币价格可能在2021年年中达到7万美元。“虽然基于与Weiss加密货币周期模型不同的方法,但S2F模型在加密世界广受尊重。现在看来,在未来12个月左右的时间里,比特币将出现强劲反弹。”黄金目前的S2F为62,而比特币的S2F为56,这意味着比特币在避险投资方面可能会与黄金相媲美。

两位分析师表示,宏观经济因素也有利于BTC,美联储在过去13周里印刷2.9万亿美元的新纸币。当投资者对纸币失去信心时,有可能转向投资比特币。另外,机构资金大量流入比特币。对冲基金巨头Paul Tudor Jones投资2.1亿美元BTC。灰度比特币信托基金继续以比BTC铸造速度更快的速度购买。而风险资本家Andreessen Horowitz最近推出5.15亿美元的新基金,用于投资加密网络和业务。(The Daily Hodl)[2020/7/10]

Basicblock要么从索引0开始,要么从?JUMPDEST?开始——这么做能保证每个无状态客户端都能安全地进行JUMPDEST分析。

观点:黄金稳定币具有潜力,但黄金ETF不会很快消失:德克萨斯大学奥斯汀分校金融学教授John Griffin认为黄金支持的代币有潜力。“一个被审计并完全由美元或黄金支持的稳定币可能是很好的价值存储方式。但交易员已经拥有流动性相当高的黄金ETF,因此不清楚稳定币是否会更好,除非它被广泛采用,经过全面审计,交易成本更低。”Blockchain.com研究主管Garrick Hileman认为,黄金ETF不会很快消失,它们确实比黄金支持的代币有一些优势,比如流动性更大以及与监管机构的合作。与此同时,黄金ETF不容易作为一种货币用于日常全球交易,不能全天候交易,也不能作为可编程加密货币操作,例如不能集成到智能合约借贷平台中。(Cointelegraph)[2020/5/10]

每个basicblock都无法更改控制流。因此,我们可以确定一旦开始执行代码,只会存在两种情况:正确执行结束,或是gas耗尽。虽然还没有和其他方案进行比较,我们先假设这么执行是相对更有效率的。

出于效率考量,我们合并相邻块,直到每个代码块都至少有128字节为止。接着以第一个字节作为key,将这些合并后的代码块插进Trie。最后,客户端将此Trie的根作为该合约账户的新记录存储下来。如下图所示,记录代码的Trie会成为状态树的子树。

-代码默克尔化之后,会成为状态树的子树。为了简化,上图我用了二进制树,同时树的路径也不准确,不能完整表示真实的key-

为了测试部署的合约,我们试着发起一笔调用该合约的交易。矿工会执行这笔交易,并标记执行过程中触及的每个chunk。当要发布区块的时候,矿工会将合约状态的证明,以及触及哪些代码chunk的turboproof证明,一起打包在区块内。

-交易所触及的所有chunk和验证codeRoot所需的哈希值,都会以turboproof证明的形式发送出去-

收到这个区块后,无状态客户端就能验证合约是否属于区块状态的一部分,也能验证合约的余额、nonce、状态根、codeRoot等其他参数。这些信息足以让客户端从chunk中重构部分字节码,同时清空其他不需要的chunk。因为chunk算法的设计,所以客户端知道所有的chunk都是从?JUMPDEST?开始,因此能够安全地进行jump操作。

-我们可以通过turboproof重构字节码;对于交易不需要的chunk则设为0-

实验

为了验证,我们编写了一份测试原型,该原型可以从Geth客户端的RPC端口获取主网的区块和过去的状态,然后模拟执行交易。每当执行过程中遇到新的合约,就将合约拆分为多个chunk,并标记执行交易时触及的chunk。当区块中的交易全部执行完毕后,会为所触及的chunk生成证明——turboproof。

接着重置状态,用turboproof重构出来的代码,替换掉原本的合约代码,然后再次执行刚才的交易。为了检查执行的正确性,我们比较前后两次消耗的gas量和区块的bloom过滤器。

对最近的50个区块执行此过程,我们可以看到合约代码量减少了40%~60%。

提醒:上图的数据结果似乎令人充满希望,但请记住,我们还需要成千上万个区块中的数据,才能得出令人信服的实验结论;目前原型处于早期阶段,一切结论都还为时尚早!

后续发展

你应该还记得,每个代码块的最小长度是可设置的参数,修改这个参数会在截然不同的两个方面影响见证的大小。假设我们将参数设为32字节,则chunk的粒度变得更小,要传递的代码量也就变得更少。但是这样一来,Trie的深度就必须增加;换句话说,为了生成chunks的证明,我们需要进行更多次哈希运算。

所以下一步,我们将会深入分析——究竟要将区块最小长度设为多少,才能获得最优解。当然不论如何,只要将hexary字典树结构二进制Trie,我们就能减少3/4的哈希运算,从而降低见证数据的大小。

在测试原型中,我们将合约代码拆分为basicblock;而可选的代码拆分算法当然有很多,有的简单有的复杂。最简单的一种就是拆分为固定大小的chunk,从目前来看,这种方法只会有push和jumpdest分析的问题。

更进一步地说,如果我们任意设置字节码的最小值,则客户端在收到chunk之后,可能会因为?PUSH?操作或任何多字节码的操作,而碰上?JUMPDEST(0x5b)?报错的情况。如下图所示,有完整代码的客户端会发现这里的jump操作是非法的,因为?0x5b?属于?PUSH1?的操作数,执行到这里应该终止。但如果客户端只收到chunks#6和#8,而没有收到#7,则他会跳到位置41继续执行,就产生了对同一份合约代码的不同解释。后面我们会扼要地说明怎么在任意设置字节码的情况下,避免这种错误。

为了解决这个问题,MartinHolstSwende建议向每个chunk添加一个元数据,该元数据记录了有多少个chunk的首字节是push操作;然后,验证者就能在jumpdest分析过程中跳过那些字节。Alexey正在探索的另一种方法是“不允许在EVM中进行动态跳转操作”,这使我们只需在部署合约时做一次静态的跳转分析,而不需要在每次执行代码时进行。AlexBeregszaszi建议使用合约控制流程图,以更好地规范默克尔化流程;与之类似,ChristianReitweissner提出了一种执行证明方法,从合约的控制流程图创建默克尔DAG。我不会在本文中评价这些想法,希望之后能披露更多信息。

最终结果可能表明,不同的chunk拆分算法之间的效率提升可以忽略不计,这么一来选择的算法就越简单越好。而好消息是,基于早期数据实验,我们至少有一种算法可以显著减少无状态区块中需要传输的代码量。

本文着重讨论如何默克尔化EVM字节码,但总体思路并不局限于EVM。实际上,Ewasm团队的其他成员也在尝试默克尔化Wasm代码,也遇到了相应的挑战。这些挑战主要是因为Wasm代码由多个部分组成,并且在执行之前需要经过严格的验证——这意味着重构的字节码也必须通过验证。

敬请期待后续更多信息!

原文链接:?https://medium.com/ewasm/evm-bytecode-merklization-2a8366ab0c90

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

金智博客

[0:0ms0-8:117ms