当前位置: 首页 > 科技观察

俄版百度44.7G源码泄露!遭前员工背刺,涉及搜索地图打车电商等所有主要服务

时间:2023-03-13 16:58:33 科技观察

俄文版百度44.7G源码泄露!被前员工背锅,涉及搜索、地图、打车、电商等各大服务俄罗斯最大科技巨头这次遇到大麻烦:44.7GB源代码泄露到网上什么概念?就是这家叫Yandex的公司,几乎所有主流服务的源代码都被挖出来了……要知道,在俄罗斯,Yandex不仅是一个搜索引擎,还可以帮助俄罗斯人购物、打车、订A送餐、租车等一系列生活服务一应俱全。简单来说,大致相当于俄语版的百度+淘宝+美团+滴滴。这么大的事件,自然引起了全世界网友的关注。不过就在大家猜测这到底是哪个黑客写的时候,Yandex的说法有点让人震惊:我们没有被黑,而是被前员工卖了……44.7GB的源代码被泄露了,代码被扒出来了具体来说,先泄露链接出现在黑客论坛上。据泄密者称,44.7GB的Yandex代码库包含该公司截至2022年7月的所有源代码,反垃圾邮件规则除外。泄露的代码信息量有多大?看看网友们如火如荼地扒出来的细节……Yandex并不是以搜索引擎起家的。它通常被称为“俄罗斯版百度”/“俄罗斯版谷歌”。我们以搜索引擎部分的代码为例。一位名叫AlexBuraks的老人深入研究了Yandex搜索引擎的排名规则,并开玩笑说它对理解GoogleSEO(搜索引擎优化)有很多有用的信息。毕竟Yandex和Google的搜索结果有70%的匹配度,很多人认为他们的搜索技术使用了和Google一样的模型:PageRank、BERT等(掌握了Yandex的规则不等于了解背景谷歌排名算法,手动狗头)目前已经有大量人前来围观,甚至AlexBuraks的这篇帖子在谷歌搜索“yandex”中排名第8。有趣的是,Yandex排名第一的因素是PageRank。Buraks还直接列出了Yandex的10个排名因素:(1)链接创建时间;(2)流量和有机流量的百分比;(3)URL中的数字不利于排名;(4)URL中的斜杠不利于排名;(5)PageRank=0负面情绪过多;(6)主机可靠性;(7)《维基百科》还单独列出了一个因素;(8)用户行为:点击率、跳出率等;(9)文件期限和最后更新日期;(10)所有查询域名的平均排名……当然,这只是其中的一部分,Buraks表示,后续会继续分析。除了AlexBuraks,还有很多营销高手深挖Yandex的排名因素,有的甚至详细梳理出了完整的1900+排名因素。值得一提的是,Yandex搜索引擎的一些“潜规则”也在各路高手的爬码过程中被摆上台面。例如,加拿大黑客AubreyCottle发现Yandex在代码中容忍种族歧视。有网友在代码中发现,在Yandex的广告中,普通广告和色情广告是分开计算的。官方声明:不是被黑,是前雇员泄露的。在这件事发生后不久,一份详细的泄露文件目录被整理出来放在了GitHub上。作者是一位名叫ArseniyShestakov的软件工程师。根据他的评估,这些源代码确实触及了Yandex的所有主要服务。包括:搜索引擎和索引机器人地图服务AI语音助手打车服务广告服务邮件服务存储服务(类似百度网盘)电子商务服务(类似淘宝)旅游服务云服务还包括在线协同办公、支付、数据分析、ETC。。但是,泄露的内容不包括用户数据等敏感信息。ArseniyShestakov总结了几个关键细节:泄露的主要是git存储库中的源代码,不包括git历史。所有文件追溯到2022年2月24日。大部分软件都没有预编译,只有少数例外少数例外,没有预训练的机器学习模型△Yandex办公楼事件闹大到Yandex官方无法'坐不住了,赶紧发表声明说:其实我们不是被黑了,而是我们的前员工出卖了我们!Yandex没有被黑。我们发现了从公共领域的内部存储库中泄露的代码片段,但它们的内容与Yandex当前使用的代码版本不同。存储库是用于存储和使用代码的工具。大多数公司都以这种方式使用代码。代码库不存储个人用户数据。我们正在进行内部调查,尚未发现此事件对用户数据或平台性能造成任何威胁。Yandex对此深信不疑,但外部专业人士却有不同的看法。据bleepingcomputer消息,前Yandex技术专家GrigoryBakunov对此事进行了回应。他认为,此次代码泄露不会对用户的隐私或安全构成直接风险,也不会直接威胁到Yandex的专有技术。不过,部分文件仍可能暴露正在运行的服务,比如“blacklist.txt”,巴库诺夫还表示:虽然泄露的部分不涉及敏感数据,但黑客利用代码中的安全漏洞只是时间问题;(BTW)虽然Yandex官方回应称泄露的代码与公司工作服务中目前使用的代码不同,但相似度可能高达90%。泄露代码目录:https://gist.github.com/ArseniyShestakov/53a80e3214601aa20d1075872a1ea989