@levinzhang
2019-02-22T22:55:36.000000Z
字数 4259
阅读 577
本文分析了当前以太坊基础设施所面临的问题,讨论了如何借助Kubernetes和Docker实现可靠的事件跟踪,以及容器化技术的优势。
本文最初发表于Hacker Noon博客,经原作者Carlo Las Marias授权由InfoQ中文站翻译分享。
学习Solidity并编写智能合约相对来讲是比较容易的,但是我们发现更加困难的技术挑战在于设计安全、可扩展和简洁的DApp后端基础设施。与传统的应用不同,DApp依赖于区块链的状态,而该状态有内在不确定性,DApp所使用的以太坊组件相对比较新,而且处于活跃的开发状态中。
对于在以太坊上开发DApp的人来说,最早得到的教训之一就是在智能合约中记录事件是报告状态变更和跟踪行为的有效方式。事件是在区块链上发布的并且可以重播,而从技术上讲它们并不适合存储在昂贵的区块状态中(即内存和存储),对于区块链数据的“存储”来说,这是一种节省成本的有效方案。同时,事件是实时发布的,允许实时发现和报告所进行的操作。
不过,对于DApp开发者来说,在早期可能发现的另外一个潜在教训就是事件监控是不可靠的:事件只有能够被DApp在需要的时候探测到,它才有用处。如果你需要实时数据,但是事件发现延迟了,或者完全丢掉了事件,那么这可能会造成糟糕的用户体验或DApp的完全失败。
我们的解决方案:DApp开发人员如果需要可靠的事件跟踪的话,那么应该考虑将Kubernetes/Docker添加到他们的工具集中。尽管这些技术有一定的学习曲线,但是很好地解决了目前以太坊生态系统中的一些特定问题,这些主要是由可靠性所导致的。
在CryptoBaskets,我们在以太坊基础设施和可靠性方面开展了大量的实验和研究,以支撑我们的产品。除了运行本地节点之外,我们还使用过不同的云厂商来托管节点,如AWS、Google Cloud和Digital Ocean。我们搭建了节点监控器,它能够跟踪节点的性能和可靠性,如示例截图所示。
因为我们的项目需要尽可能接近实时的事件跟踪,所以必须解决当前以太坊基础设施的问题:
watch()
监视实时事件可能会丢掉事件:节点在同步的时候经常会出现延迟,会落后几个块。造成这一点的主要原因在于硬盘驱动的读取/写入速度。花费一定的成本换成高速的SSD驱动是一种可行的缓解方案,但是以太坊主网的数据库超过了100GB,云托管的账单会随之暴涨。除此之外,这还没有解决peer节点数量下降的问题。如果你的节点出现了延迟并且在同步追赶的话,那么我们发现这样会错失实时的事件。一个能容错的以太坊事件监视方案应该能够探测到故障、进行分类,然后像什么事情都没有发生那样继续运行。如下是我们的设计:
我们最终形成的架构如下所示,在下面的内容中将会讨论各个组件:
对我们的应用来讲,使用docker的收益在于能够很容易地添加需要访问区块链的服务,我们只需要启动新的能够连接parity实例即可。每个容器是独立运行的,所以变更、功能添加和升级都可以在不影响其他已有容器/服务的情况下完成。
在上面的样例中,我们只有三个连接parity数据的容器:1)节点监视器;2)针对App 1的事件监视器;3)针对App 2的事件监视器。但是,我们可以很容易地在需求变化的时候添加更多的容器。
在管理多个节点集群(以太坊客户端以及它们所连接的服务)时,很快就会变得非常复杂和混乱。这些服务不仅会互相连接和依赖,更新和管理配置、管理secret(比如API key)都需要进行协同,并且会带来潜在的安全漏洞。除此之外,在规模不断增大的系统中,监控服务器和服务的故障并重启出现故障的容器都会变得很有挑战性。而这就是Kubernetes能够发挥作用的地方了,它处理了所有的这些问题。
如下是我们发现最有用的特性:
通过Stateful Set实现的Persistent Volumes:docker容器本质特点就是短暂存活的。对于以太坊节点同步功能来说,在节点出现故障并重启的时候,我们并不想要同步一个超过100GB的数据库。Kubernetes能够允许我们创建Persistent
Volumes,它是一个聚合数据存储,会维护其数据和状态。如果你的以太坊节点重启的话,它会重新连接至Persistent
Volume,并从上次停止的位置开始恢复其数据。
安全性:使用Kubernetes secret是存储API key和其他敏感数据的一种很整洁的方法。敏感数据只有在secret创建的时候会被暴露,一旦secret创建完成,它就会进行加密。secret可以作为volume挂载到任何需要访问它的容器上。而原始的、非加密的数据则没有必要进行共享了。
IPC连接增加了安全性和访问控制:服务进行集群化并提供对共享volume的访问功能(比如Persistent Volume)之后,需要连接parity的服务可以借助集群的文件系统以IPC(inter-process communication,进程间通信)的方式进行访问。这种方式会防止对以太坊客户端的未授权访问,从而增加安全性。默认情况下,大多数开发人员会使用RPC(remote procedure call,远程方法调用)连接web3 provider,这会通过互联网发起web3.httpProvider()
HTTP连接。与IPC连接不同,RPC连接可能会对公众或互联网开放,这样会带来未授权用户发现并连接你的RPC web3 provider的风险,从而会导致你的客户端出现过载。在最糟糕的情况下,有人会在互联网上通过RPC web3使用不经意破解的账号发送事务。
存活状态和就绪状态的探针:Kubernetes允许我们创建监视器,这种监视器能够将出现故障或未就绪的pod进行重启或从服务中清理出去。例如,我们可以使用就绪状态的探针,防止以太坊客户端在完全同步之前就接受任何传入的请求。
实时、滚动式更新/无停机:在为已存活的应用部署更新时,kubernetes会在销毁旧的已有pod之前创建新的pod。在新的pod创建和准备好之前(等待就绪状态的探针),已有的pod会继续提供服务。只有当更新的pod准备就绪并能够提供的时候,旧的pod才会销毁。
尽管Parity之前有过失误(参见Multi-Sig漏洞和库的漏洞),但Parity的一项成就就是创建了一个稳定的以太坊客户端(我们暂时先忽略共识漏洞)。尽管大多数开发人员在开始会使用以太坊的Go实现“Geth”,但是稍微使用Google或stack exchange搜索一下就会发现很多Geth同步相关的令人沮丧的问题。在实践中,我们发现Geth节点需要耗费更多的时间来进行同步,通常要比Parity节点更慢(在上面的节点监控仪表盘中,你甚至可以看到这一点)。另一方面,我们发现Parity节点会从头开始同步并且在几个小时到一天的时间内可用。
作为相对比较新的技术,像Parity和Geth这样的以太坊客户端技术在不断更新和改善,这也是我们为何维护两种类型节点的原因。
去中心化的应用的前景很光明,但是考虑到它们的技术栈的重要性,大量的后端工作是必要的,以便在响应性和可靠性方面达到像集中式web和移动应用程序一样的效果。幸运的是,我们发现了一种严谨的架构设计方法使这一切能够得以实现。