当前位置: 首页 > 科技观察

如何利用机器学习识别加密项目中的风险?

时间:2023-03-18 23:54:20 科技观察

加密货币和监管的必要性加密货币是一种存在于数字世界中的交换媒介(另一种支付形式),它依靠密码学来确保交易安全。加密货币背后的技术允许用户直接向他人汇款,而无需通过银行等第三方。为了进行这些交易,用户需要设置一个数字钱包,而无需提供身份证号码或信用评分等个人详细信息,从而允许用户伪匿名。对于普通的加密货币用户来说,这种匿名性可以让他们高枕无忧,因为他们的个人信息或交易数据不会被黑客窃取。但是,这种交易匿名性的提高也容易被不法分子利用,进行洗钱、恐怖融资等违法活动。这种非法活动给区块链钱包用户和加密货币实体都造成了巨大损失。虽然金融行动特别工作组(FATF)等监管机构在监管这些实体时引入了标准化指南,但由于每天任务中发生的大量加密货币实体和交易,监控加密货币空间具有挑战性。解决方案因此,人们有兴趣利用新闻网站或社交媒体平台等开源信息来识别可能的安全漏洞或非法活动。我们(新加坡国立大学的一个学生团队)与LynxAnalytics合作,致力于开发一种自动化工具来抓取开源信息,预测每篇新闻文章的风险评分,并标记有风险的文章。该工具将集成到Cylynx平台(https://www.cylynx.io/)中,该平台由LynxAnalytics开发,旨在帮助监管机构使用各种信息源监控区块链活动。开源信息的数据采集我们确定了3类开源数据,它们可以提供有价值的信息来帮助检测加密货币空间中的可疑活动。这些类别是:传统新闻站点,例如Google新闻,它们将报告重大黑客事件。特定于加密货币的新闻网站,例如Cryptonews和Cointelegraph,更有可能报道有关较小实体和较小安全事件的新闻。Twitter和Reddit等社交媒体网站是加密货币所有者可以在官方发布黑客新闻之前发布有关黑客攻击的网站。检索文章和社交媒体帖子的内容,然后构建情绪分析模型。该模型将风险活动的概率分配给文章中提到的实体。情感分析模型我们试验了四种不同的自然语言处理工具进行情感分析,即VADER、Word2Vec、fastText和BERT模型。在通过选定的关键指标(召回率、精度和F1)评估这些模型后,RoBERTa模型(BERT的一个变体)表现最佳,并被选为最终模型。RoBERTa模型处理新闻文章(标题和摘录)或社交媒体帖子的文本,并为特定文本分配风险评分。由于此文本在数据收集过程中已被标记为实体,因此我们现在拥有加密实体的相关风险指标。在后面的阶段,我们结合多个文本的风险评分来给出一个实体的总体风险评分。RoBERTa最初是一个使用神经网络结构构建的情感分析模型。我们用标记的风险评分映射最后一层以适应风险评分环境。为了提高模型对未来文本数据的通用性,我们进行了几种文本处理方法,即替换实体、删除url和替换哈希。然后,我们使用这个表现最佳的模型进行风险评分。风险评分每篇文章现在都有关联的来源(新闻/reddit/twitter)、风险概率以及文章被转发、分享或转发的次数。为了将这些风险概率转换为加密货币实体的单一风险评分,我们首先将文章的概率值缩放为0到100的范围,并获得每个来源的加权平均值,结合文章的风险评分和计数。加权平均值用于为计数较高的文章赋予更大的权重,因为分享数很可能表明文章的相关性或重要性。在计算出每个来源的风险评分后,我们对每个来源的风险评分进行加权和求和,以获得具有以下公式的综合评分:传统新闻来源被赋予更高的权重,因为它们更有可能报告重大新闻个人用户黑客攻击事件)。解决方案的有效性我们在2020年1月1日至2020年10月30日期间在174个加密货币实体的列表上测试了我们的解决方案,并将结果与??该时间段内已知的黑客案例进行了比较。我们发现我们的风险评分方法表现良好,在37起已知的黑客攻击案例中识别出了32起。我们还分析了我们的解决方案对单个实体的有效性。下图显示了币安从2020年1月1日到2020年10月30日的风险评分。红色虚线代表已知的黑客案例。从图中我们观察到,我们的解决方案报告了五分之四的已知黑客的风险评分增加。还有几个峰值与已知的黑客案例不一致。然而,这并不构成主要问题,因为对于我们的模型来说,识别尽可能多的黑客并减少身份不明的黑客的数量更为重要。有趣的发现在风险评分过程中,我们注意到与较小实体相比,较大实体的风险评分往往具有较大比例的误报记录。这是因为大实体被谈论得更多,因此有更多的负面帖子和虚假谣言,导致更高的不准确率。另一个值得强调的有趣趋势是,围绕黑客攻击通常有几个明显的高峰。这是由于不同数据源的反应时间不同。社交媒体网站Twitter和Reddit通常是最先看到高风险事件激增的网站,因为用户会发布他们观察到的异常情况,例如某个实体的网站在没有事先通知用户的情况下宕机。官方消息一般在官宣之后才发布。局限性我们发现我们的解决方案有两个潜在的局限性,第一个是需要不断地维护收集器。网站设计可能会随着时间的推移而改变,这些网站的抓取工具也需要更新,以确保仍然可以检索到相关信息以用于风险评分目的。第二个限制是验证一篇文章是否已被正确标记为加密货币实体具有挑战性。例如,一篇报告Bancor可疑活动的文章也可能会提到Binance的不相关事件。我们的解决方案会将新闻错误地标记为两个实体,将Binance错误地标记为风险,即使它不是文本中的关键主题。然而,这并不是一个主要的限制,因为我们只使用新闻文章的标题和摘录来进行风险评分,通常只包含文章的关键信息。结论我们的项目允许监管机构轻松挖掘开源信息,以更好地识别加密货币领域发生的风险事件。我们提供了一个分析文章和预测风险分数的语言模型,以及基于实体和源信息聚合这些分数的方法。这些方法都被编织到一个端到端运行的自动化管道中。将该项目集成到Cylynx平台将补充其现有功能,并为监管机构识别高风险加密货币实体提供巨大帮助。