俄羅斯第一大科技巨頭,,這回遇上了大麻煩:
44.7GB源代碼,全被泄露到了網(wǎng)上,。
什么概念,?
就是這家名為Yandex的公司,,幾乎所有主要服務(wù)的源代碼都被挖了個(gè)底掉……
要知道,,在俄羅斯,,Yandex不僅干著搜索引擎的活兒,,還把俄國(guó)老百姓購(gòu)物,、打車(chē),、訂外賣(mài)、租車(chē)這一連串生活服務(wù)都給包圓了,。
簡(jiǎn)單來(lái)說(shuō),,約等于俄版百度+淘寶+美團(tuán)+滴滴,。
這么大個(gè)事兒,,自然引起了全世界網(wǎng)友的圍觀。
但就在眾人紛紛猜測(cè)這又是哪家黑客手筆之際,,Yandex的聲明卻有些令人大跌眼鏡:
我們沒(méi)有被黑,,就是被前員工給賣(mài)了……
44.7GB源代碼遭泄露,,代碼被扒了個(gè)底朝天
具體來(lái)說(shuō),泄密鏈接最早出現(xiàn)在了一個(gè)黑客論壇上,。
泄密者稱,這份44.7GB的Yandex代碼庫(kù),,包含該公司2022年7月以前,除反垃圾郵件規(guī)則之外的所有源代碼,。
這些被泄露出來(lái)的代碼信息量到底有多大,?
看看網(wǎng)友們熱火朝天扒出來(lái)的細(xì)節(jié)就知道了……
Yandex不是以搜索引擎起家,常被稱作“俄版百度”/“俄版谷歌”嘛,,那就先以搜索引擎部分的代碼為例,。
一位名叫Alex Buraks的老哥就深扒了下Yandex搜索引擎的排名規(guī)則,還戲稱這對(duì)理解谷歌SEO(搜索引擎優(yōu)化)有很多有用的信息,。
畢竟Yandex和谷歌的搜索結(jié)果有70%的匹配度,,不少人認(rèn)為其搜索技術(shù)用的就是谷歌同款:如PageRank、BERT等,。
(掌握了Yandex的規(guī)則不就相當(dāng)于透了谷歌排名算法的家底,,手動(dòng)狗頭)
目前已經(jīng)有大批吃瓜群眾來(lái)圍觀,,甚至Alex Buraks的這條線程曾在谷歌搜索“yandex”中排名第8,。
有趣的是,,在Yandex的排名因素中,,排在第一個(gè)的就是PageRank,。
Buraks還直接列出了Yandex的10個(gè)排名因素:
(1)鏈接的創(chuàng)建時(shí)間,;(2)流量和有機(jī)流量的百分比,;(3)URL中的數(shù)字不利于排名,;(4)URL中的斜杠不利于排名,;(5)負(fù)面情緒過(guò)重的PageRank=0,;(6)主機(jī)可靠性,;(7)“維基百科”還單獨(dú)列了一個(gè)因素;(8)用戶行為:點(diǎn)擊率,,跳出率等,;(9)文件年齡與上次更新日期,;(10)所有查詢域名的平均位置……
當(dāng)然這還只是其中的一部分,,Buraks表示后續(xù)還會(huì)繼續(xù)分析,。
除了Alex Buraks,也有不少營(yíng)銷(xiāo)大師深扒了Yandex的排名因素,,甚至有人都詳細(xì)整理出了完整的1900+個(gè)排名因素,。
值得一提的是,在各路大神扒代碼的過(guò)程中,,Yandex搜索引擎的一些“潛規(guī)則”也被擺上了臺(tái)面,。
就比如說(shuō)加拿大黑客Aubrey Cottle就在代碼中發(fā)現(xiàn)了Yandex是容忍種族歧視的。
還有網(wǎng)友在代碼中發(fā)現(xiàn),,Yandex的廣告投放中,,普通廣告和色情廣告是分開(kāi)計(jì)算的,。
官方聲明:沒(méi)有被黑,是前員工泄密
這事兒一出,,很快還有一份詳細(xì)的泄密文件目錄被整理出來(lái)放在了GitHub上,。
作者是一位名叫Arseniy Shestakov的軟件工程師,。據(jù)他評(píng)估,,這些源代碼確實(shí)涉及了Yandex的所有主要服務(wù),。
包括:
搜索引擎和索引機(jī)器人
地圖服務(wù)
AI語(yǔ)音助手
打車(chē)服務(wù)
廣告服務(wù)
郵件服務(wù)
存儲(chǔ)服務(wù)(類似百度網(wǎng)盤(pán))
電商服務(wù)(類似淘寶)
旅游服務(wù)
云服務(wù)
還包括在線協(xié)同辦公、支付,、數(shù)據(jù)分析等等業(yè)務(wù),。
不過(guò),,泄露內(nèi)容并不包括用戶數(shù)據(jù)等敏感信息,。
Arseniy Shestakov總結(jié)了幾個(gè)關(guān)鍵細(xì)節(jié):
泄露出來(lái)的主要是git存儲(chǔ)庫(kù)里的源代碼,,不包含git歷史記錄
所有文件日期均可追溯至2022年2月24日
大部分軟件都沒(méi)有預(yù)先編譯好,只有少數(shù)例外
除了一些例外,,沒(méi)有預(yù)先訓(xùn)練好的機(jī)器學(xué)習(xí)模型
△Yandex辦公樓
事情鬧得這么大,Yandex官方也坐不住了,,很快發(fā)表聲明表示:其實(shí)我們并沒(méi)有被黑,是前員工出賣(mài)了我們,!
Yandex沒(méi)有被黑,。我們?cè)诠差I(lǐng)域發(fā)現(xiàn)了泄露自內(nèi)部存儲(chǔ)庫(kù)的代碼片段,,但其內(nèi)容與Yandex當(dāng)前使用的代碼版本并不相同,。
存儲(chǔ)庫(kù)是用來(lái)存儲(chǔ)和處理代碼的工具。大多數(shù)公司都采用這種方式來(lái)使用代碼,。
代碼庫(kù)并未存儲(chǔ)個(gè)人用戶數(shù)據(jù)。
我們正在進(jìn)行內(nèi)部調(diào)查,,但并沒(méi)有發(fā)現(xiàn)該事件給用戶數(shù)據(jù)和平臺(tái)性能帶來(lái)了任何威脅,。
Yandex倒是信誓旦旦,,但外部的專業(yè)人士卻有不同看法,。
據(jù)bleepingcomputer消息,,前Yandex技術(shù)專家Grigory Bakunov對(duì)此事做出了回應(yīng),。
他認(rèn)為,,這次代碼泄露確實(shí)不會(huì)對(duì)用戶的隱私或安全構(gòu)成直接風(fēng)險(xiǎn),也不會(huì)直接威脅到Y(jié)andex的專有技術(shù),。
不過(guò)一些文件仍可能會(huì)暴露正在運(yùn)行的服務(wù),,比如說(shuō)“blacklist.txt”,,Bakunov還稱:
盡管泄密的部分不涉及敏感數(shù)據(jù),但黑客針對(duì)性利用代碼中的安全漏洞,,只是時(shí)間問(wèn)題,;
(BTW)雖然Yandex官方回應(yīng)泄露的代碼與公司工作服務(wù)中使用的當(dāng)前代碼不同,,但相似度可能高達(dá)90%。
文章出處:量子位