在最近的大会演讲中,经常有人问我:区块链数据分析最大的挑战是什么?我的回答只有一个字:去匿名化。我坚信识别不同类型的参与者并了解他们的行为是释放区块链分析潜力的核心挑战。我们花了相当多的时间来考虑这个问题,以确定不与数字货币运动的道德相冲突的正确界限。在本文中,我想进一步探讨这一思路。市场上大部分区块链的架构都依赖于匿名或伪匿名机制来保护其节点的隐私并实现去中心化。数据混淆机制可以将加密的资产交易数据记录在一个公共账本上,供所有人访问,但也使得这些数据的分析变得异常困难。如果没有参与者的身份识别,就很难理解区块链数据集并分析出有意义的结果,区块链分析也只能徘徊在初级阶段。然而,重要的是要明白,去匿名化区块链数据集并不是要知道分类帐中每个地址的真实身份,这是一个基本上不可扩展的方向。相反,我们可以识别和了解区块链中已知参与者的行为,如交易所、场外柜台、矿工等构成区块链生态系统的核心成员。并非所有地址都是平等的网络指标是区块链分析中普遍存在的指标,并且清楚地展示了去匿名化的力量。地址数量是最常见的误导性指标,因为并非所有地址都同等重要。一个交易创建的用于临时转账的地址,显然不能与另一个长期持有资产的钱包地址相提并论。同样,像Binance这样的交易所的热钱包必须使用相同的方法和指标与我个人的钱包进行不同的分析。平等对待所有地址的匿名性必然会导致有限的解释和经常误导性的结论。匿名与可解释性匿名或伪匿名身份是可扩展的去中心化架构的关键要素之一,但它也使得从区块链数据集中获取有价值的信息变得极其困难。理解这种观点的一种方法是将匿名性视为区块链分析可解释性的一个反因素。区块链数据集中匿名性和可解释性之间的摩擦相对较小。区块链数据集的匿名性越高,从中获取有意义的信息就越困难。参与者的身份提供了他们行为的背景,而背景是可解释性的关键组成部分。去匿名化与标签化比你是谁更重要。去匿名化区块链数据集并不涉及了解每个参与者的真实身份。不仅试图了解每个用户的真实身份是一项艰巨的任务,而且还可能使分析难以扩展到一定范围之外。相反,我们可以尝试了解参与者的关键特征,使我们的分析在某种程度上具有可解释性。因此,与其明确识别每个地址的真实身份,不如给地址贴上标签,或者附加一些描述性的元数据,使其行为具有一定的语境。在大规模数据中,标注往往比个体识别更有效。了解区块链生态系统中特定个体??的行为当然可以进行更个性化的分析,但从宏观层面了解行为趋势相对有限。因此,去匿名化的挑战更多的是地址关键属性的标记,而不是区块链地址中个人真实身份的识别。我们如何实现这一目标?机器学习是解毒剂。区块链标签化或去匿名化的思路,让区块链更好地分析生态系统中已知参与者的行为模式和特征。直观上我们可以考虑创建一些规则来分析区块链生态中的不同成员,例如:如果一个地址持有大量的比特币地址并且一次执行100笔交易,那么这就是一个交易所地址......虽然非常有吸引力,但是基于规则的方法将很快无法提供有用的信息。部分原因如下:既有知识的完整性:基于规则的分类假设我们对如何识别区块链生态系统中的不同参与者有足够的了解。这显然是一个错误的假设。不断变化:区块链解决方案的架构总是在不断发展,这对任何嵌入式法规都是一个挑战。特征属性的数量:创建一个有两个或三个参数的规则很容易,但是试图创建一个有几十个甚至上百个参数的规则就没那么简单了。要识别像交易所或场外交易柜台这样的地址,需要大量的特征。因此,我们不能使用预设规则。我们需要一种可以从区块链数据集中学习模式的机制,以自动推断出有意义的规则,以便我们可以标记相关参与者。从概念上讲,这是一个经典的机器学习问题。从机器学习的角度来看,我们应该考虑从两个主要途径解决去匿名化挑战:无监督学习:无监督学习侧重于学习给定数据集中存在的模式并识别相关分组。在区块链数据集的背景下,无监督学习模型可用于根据地址的特征将地址匹配到不同的组中并标记这些组。监督学习:监督学习方法可以使用现有知识来学习给定数据集中的新特征。在区块链上下文中,可以使用监督学习方法基于现有的交换地址数据集训练模型以识别新的交换地址。区块链数据集的去匿名化或标记很少仅通过监督学习或仅通过无监督学习来完成,更多情况下需要结合使用这两种方法。机器学习模型可以有效地学习区块链生态系统中特定参与者的特征,并利用这些特征来理解他们的行为。在使用区块链ETL工具将区块链原始数据加载到数据库或大数据分析平台后,将注释层引入区块链数据集是更有价值的区块链数据分析的关键挑战。这些标签提供了更好的上下文,并使区块链分析模型具有更好的可解释性。但即使我们拥有机器学习等强大的工具,去匿名化仍然是分析和理解区块链生态系统道路上不可忽视的一大障碍。
