摘要:對(duì)手們加筑越來越高的內(nèi)容壁壘,字節(jié)跳動(dòng)對(duì)內(nèi)容的焦慮似乎更強(qiáng)烈。
當(dāng)看到字節(jié)跳動(dòng)要做全網(wǎng)搜索的新聞時(shí),王東一點(diǎn)都不感到驚訝。因?yàn)樵缭陬^條搜索正式上線半個(gè)多月前,王東所在公司的網(wǎng)站就飽受一個(gè)名為“bytespider”爬蟲的侵?jǐn)_。
王東在一家第三方信息評(píng)估平臺(tái)做SEO(搜索引擎優(yōu)化),今年7月份,他突然發(fā)現(xiàn)公司的網(wǎng)站經(jīng)常性打不開,網(wǎng)頁加載極其緩慢,有時(shí)甚至直接癱瘓。經(jīng)過一系列排查后,王東在服務(wù)器日志上發(fā)現(xiàn)了bytespider爬蟲的痕跡。
王東發(fā)現(xiàn)該爬蟲抓取的頻率每天達(dá)幾百萬次,高則上千萬次,服務(wù)器帶寬負(fù)載飆至100%,而且該爬蟲在抓取時(shí)完全不遵守網(wǎng)站的robots協(xié)議。順著該爬蟲的IP地址查詢,王東和團(tuán)隊(duì)證實(shí),該爬蟲就是字節(jié)跳動(dòng)的搜索爬蟲。
苦主并非只有王東,他在CSDN、V2EX等技術(shù)論壇了解到,遭受該爬蟲暴力抓取的還有很多人,很多用戶直接表示“太頻繁”“不殺不行”“直接封殺”。魏立超在一家互聯(lián)網(wǎng)社區(qū)平臺(tái)工作,同樣遭受bytespider的暴力抓取,他也曾嘗試過在網(wǎng)絡(luò)上求助。10月24日,類似的事情經(jīng)過微博大V的曝光,一時(shí)引起互聯(lián)網(wǎng)技術(shù)圈子的熱議。
但令魏立超感到心寒的是,網(wǎng)上卻流傳著一種“弱者活該”的說法——“能被頭條搜索引擎抓取應(yīng)該覺得榮幸才是,說明你們內(nèi)容有價(jià)值”,“今日頭條是在免費(fèi)給你們做性能測試,如果你們網(wǎng)站隨便被搜索引擎抓死,那技術(shù)可以下崗了”。
因?yàn)椴豢捌鋽_,給公司帶來重大損失,無奈之下,像王東、魏立超這樣的網(wǎng)站主們都只好封禁了該爬蟲IP所有頻段。
對(duì)此,字節(jié)跳動(dòng)回應(yīng)稱,“網(wǎng)絡(luò)報(bào)道不實(shí),目前頭條搜索設(shè)有反饋機(jī)制,網(wǎng)站因?yàn)榕老x受到影響,可以直接通過郵件反饋處理?!?/p>
從字節(jié)跳動(dòng)開始做搜索之后,網(wǎng)絡(luò)上就一直有網(wǎng)站主們抱怨其爬蟲抓取過于暴力的聲音,到今年10月末,小網(wǎng)站主的抱怨達(dá)到高峰,至今余波未平。
野蠻爬蟲
爬蟲是網(wǎng)絡(luò)爬蟲的一種簡稱,它是一種按照一定規(guī)則自動(dòng)地抓取萬維網(wǎng)信息的程序或腳本,定時(shí)并按照一定的頻率把互聯(lián)網(wǎng)上的內(nèi)容爬下來,匯總存儲(chǔ)到自己的服務(wù)器上,以方便用戶搜索。
通常來講,在互聯(lián)網(wǎng)技術(shù)圈,數(shù)據(jù)抓取是一件很正常的事情。通過爬蟲抓取網(wǎng)站內(nèi)容是搜索引擎進(jìn)行數(shù)據(jù)積累的必要前提。此外,一些數(shù)據(jù)分析、數(shù)據(jù)采集的功能也依賴爬蟲技術(shù)實(shí)現(xiàn)。
但爬蟲抓取也有一些江湖規(guī)則或君子協(xié)定,比如robots協(xié)議。robots協(xié)議由網(wǎng)站主自行設(shè)置,網(wǎng)站會(huì)規(guī)定爬蟲引擎哪些內(nèi)容數(shù)據(jù)可以抓取,哪些禁止抓取,尤其是涉及到用戶數(shù)據(jù)等隱私信息的。
但是王東發(fā)現(xiàn)bytespider的特征是不遵守robots協(xié)議,且抓取頻次太高。從技術(shù)社區(qū)了解到,爬蟲就是對(duì)服務(wù)器的內(nèi)容進(jìn)行訪問的過程,任何訪問都會(huì)占用服務(wù)器的響應(yīng)資源,一旦瞬間訪問壓力超過程度,就會(huì)對(duì)網(wǎng)站的穩(wěn)定性造成影響。為了維護(hù)整個(gè)互聯(lián)網(wǎng)生態(tài),爬蟲的所有者會(huì)通過一定的策略來控制爬蟲訪問的速度和總量。
所以,有技術(shù)人員認(rèn)為,“應(yīng)該是字節(jié)跳動(dòng)本身在控制爬蟲抓取的頻次上出了問題?!?/p>
其實(shí),對(duì)于像王東這樣做SEO的人來說,其主要工作目標(biāo)就是希望自己家網(wǎng)站能在主流搜索引擎的搜索結(jié)果中排在前面的位置?!皩?duì)于像百度、搜狗、360等搜索引擎的規(guī)范抓取和收錄我是非常歡迎的,但是bytespider卻直接讓網(wǎng)站癱瘓了,這也導(dǎo)致網(wǎng)站流量在那段時(shí)間也掉了不少。”
令王東們頭疼的是,字節(jié)跳動(dòng)的搜索引擎既沒給他們帶來多少新流量,反倒還給公司帶來很多損失,并且影響了正常的用戶訪問。
王東們想知道,為什么字節(jié)跳動(dòng)沒能控制好爬蟲的抓取頻次?
行業(yè)資深人士分析認(rèn)為大致有兩種可能。一種可能是字節(jié)跳動(dòng)為了短期快速擴(kuò)充自身搜索規(guī)模而主觀進(jìn)行的惡意抓?。涣硪环N可能是目前字節(jié)跳動(dòng)的搜索爬蟲策略不夠完善,客觀結(jié)果上導(dǎo)致的抓取過量。
“考慮到在今日頭條剛開始發(fā)展的時(shí)候,他們抓取內(nèi)容的時(shí)候完全無視版權(quán)和內(nèi)容方的抗議,也不排除是主觀行為,但我覺得字節(jié)跳動(dòng)現(xiàn)在已經(jīng)是很大的企業(yè),應(yīng)該不至于主觀這么干?!鄙鲜鲂袠I(yè)資深人士如此推斷。
也有另一位互聯(lián)網(wǎng)行業(yè)資深人士認(rèn)為,“這事兒沒那么復(fù)雜,就是具體干活兒的團(tuán)隊(duì)太糙,項(xiàng)目著急上線,根本來不及做動(dòng)態(tài)調(diào)整的邏輯算法,主觀作惡的可能性較小?!?/p>
但不管主觀出發(fā)點(diǎn)如何,字節(jié)跳動(dòng)為了快速發(fā)展搜索而派出爬蟲四處暴力抓取,并不遵守既定規(guī)則,已經(jīng)給中小網(wǎng)站主們?cè)斐闪丝陀^的損失和困擾。
對(duì)于網(wǎng)絡(luò)上流傳的“弱者活該”的說法。技術(shù)人員顯然不認(rèn)同。
他認(rèn)為,“把問題推給小網(wǎng)站自身抗風(fēng)險(xiǎn)能力不強(qiáng)太偏頗了,這種規(guī)模的爬蟲抓取頻次不在小網(wǎng)站正常的考量范圍內(nèi),大的站點(diǎn)對(duì)于搜索引擎爬蟲的過激抓取肯定會(huì)有很好的應(yīng)對(duì)策略,畢竟有那么多做技術(shù)的,但很多小的站點(diǎn)很可能沒有專門的技術(shù)人員,只是租用了服務(wù)器,采用了一些開源的建站方案,不具備應(yīng)對(duì)能力也很正常。”
而有小網(wǎng)站主抱怨字節(jié)跳動(dòng)的爬蟲“一上午對(duì)網(wǎng)站發(fā)出46萬次請(qǐng)求”,上述技術(shù)人員認(rèn)為:“以個(gè)人的經(jīng)驗(yàn)來說,這個(gè)請(qǐng)求頻次肯定是過高了,至于是不是惡意的不能確定。網(wǎng)站都癱瘓了,肯定是不幸了?!?/p>
內(nèi)容戰(zhàn)爭
今年8月10日,字節(jié)跳動(dòng)正式上線了網(wǎng)頁版通用搜索,爬蟲抓取是搜索引擎效果實(shí)現(xiàn)中的重要一環(huán)。
對(duì)于每進(jìn)入一個(gè)新領(lǐng)域,字節(jié)跳動(dòng)都有一套慣用的打法,要么直接花錢收購該領(lǐng)域的公司,要么把該領(lǐng)域的專業(yè)人才挖過來。比如在2017年11月收購中國企業(yè)打造的海外音樂短視頻平臺(tái)musical.ly,增強(qiáng)自己的短視頻業(yè)務(wù);在2019年5月,收購教育培訓(xùn)平臺(tái)清北網(wǎng)校,增強(qiáng)自己的在線教育業(yè)務(wù),等等。
事實(shí)上,字節(jié)跳動(dòng)早就布局搜索領(lǐng)域。早在2014年,在百度負(fù)責(zé)搜索框架的百度網(wǎng)頁搜索部技術(shù)副總監(jiān)楊震原就被張一鳴挖入今日頭條,在頭條曾主導(dǎo)廣告和推薦兩大核心系統(tǒng)升級(jí)。
此外,原百度搜索部主任架構(gòu)師朱文佳、原百度美國深度學(xué)習(xí)實(shí)驗(yàn)室少帥科學(xué)家李磊等百度重要人才均被張一鳴挖入今日頭條。今年3月,字節(jié)跳動(dòng)挖來了前360搜索產(chǎn)品負(fù)責(zé)人,開啟搜索商業(yè)化。
此外,為了拓展搜索內(nèi)容,字節(jié)跳動(dòng)也在通過收購來完善自己的內(nèi)容庫,比如全資收購互動(dòng)百科。截止到8月27日,互動(dòng)百科已經(jīng)在董事、經(jīng)理、監(jiān)事;投資人;法定代表人三個(gè)方面進(jìn)行了全面變更,原來的創(chuàng)始團(tuán)隊(duì)全部退出,目前已經(jīng)被字節(jié)跳動(dòng)全資控股。
雖然在人才和技術(shù)上早有準(zhǔn)備,但是對(duì)于搜索業(yè)務(wù)而言,搜索引擎這個(gè)生態(tài)的建立不是一朝一夕可以完成的,百度、搜狗已經(jīng)經(jīng)歷了多年的發(fā)展積累。而搜索的內(nèi)容庫是搜索技術(shù)施展拳腳的前提,否則搜索引擎就是無源之水。為了獲取盡可能多的內(nèi)容,可能是字節(jié)跳動(dòng)采取暴力抓取的原因之一。
甚至,為了抓取到更多內(nèi)容,往往就“越界”,字節(jié)跳動(dòng)還因此惹上了官司。今年4月,百度就曾因搜索一紙?jiān)V狀將字節(jié)跳動(dòng)告至北京市海淀區(qū)人民法院。
百度方面稱,今日頭條大量竊取百度“TOP1”搜索產(chǎn)品結(jié)果,百度要求字節(jié)跳動(dòng)立即停止侵權(quán),賠償相關(guān)經(jīng)濟(jì)損失及合理支出共計(jì)人民幣9000萬元,并連續(xù)30天在其APP及網(wǎng)站首頁道歉。除民事起訴外,百度也同時(shí)向法院提交了行為禁止保全申請(qǐng)書。
百度為媒體提供的公開案例中顯示,在字節(jié)跳動(dòng)旗下今日頭條APP中搜索“1立方厘米水等于多少升”問題時(shí),其首條展示的搜索結(jié)果中被嵌入了“抄自百度”的字眼,而該字眼則是百度為防止TOP1搜索結(jié)果被抄襲預(yù)先打下的防偽標(biāo)記。
有趣的是,同一天字節(jié)跳動(dòng)方面也發(fā)表聲明表示,百度未經(jīng)抖音授權(quán),在其開發(fā)運(yùn)營的“簡單搜索”APP的熱榜板塊設(shè)置了抖音專欄,從抖音竊取視頻,百度又通過技術(shù)手段將抖音的水印抹去。抖音要求百度立即停止侵權(quán),賠償9000萬元,并在百度首頁連續(xù)道歉30天。
因?yàn)樽止?jié)跳動(dòng)與百度在商業(yè)模式和業(yè)務(wù)邏輯的相近,雙方均是通過流量換取廣告商業(yè)營收,在過去的數(shù)年中,百度被視為最有可能被字節(jié)跳動(dòng)顛覆的公司。
雙方的戰(zhàn)爭一觸即發(fā)。為了迎戰(zhàn),百度方面,馬東敏親自負(fù)責(zé)的百度戰(zhàn)略投資部在今年開始頻繁出擊,先后投資了有贊、凱叔講故事、七貓小說、知乎、果殼等眾多內(nèi)容服務(wù)類項(xiàng)目,背后的戰(zhàn)略意圖便在于豐富內(nèi)容信息流。
以知乎為例,知乎全站問答將以智能小程序的形式接入百度APP中。以搜索起家的百度宣布將著力打造“搜索+信息流”兩大流量引擎和“百家號(hào)+智能小程序”兩大生態(tài),構(gòu)筑起壁壘。
一位互聯(lián)網(wǎng)TMT領(lǐng)域投資人表示,“百度的清醒和出擊讓字節(jié)跳動(dòng)在內(nèi)容獲取上變得越來越困難。
此外,字節(jié)跳動(dòng)的四處出擊,也引起了其他互聯(lián)網(wǎng)巨頭的重視,騰訊就要求抖音禁播王者榮耀等騰訊系游戲的視頻。行業(yè)里的一些內(nèi)容社區(qū)等等都把字節(jié)跳動(dòng)視作競爭對(duì)手,并不會(huì)輕易為其開放內(nèi)容?!?/p>
面對(duì)對(duì)手們加筑的越來越高的內(nèi)容壁壘,字節(jié)跳動(dòng)對(duì)內(nèi)容的焦慮似乎更強(qiáng)烈,直接反映在了搜索爬蟲凌厲的抓取上。
其實(shí),從某種程度上,如今像王東等網(wǎng)站主們的遭遇,也正如2015年左右今日頭條APP興起之時(shí),各大內(nèi)容版權(quán)方們的遭遇。
當(dāng)時(shí),今日頭條為了獲取內(nèi)容,拓展信息分發(fā)市場,甚至沒有先獲取內(nèi)容版權(quán)方轉(zhuǎn)載和分發(fā)的許可,就大量抓取內(nèi)容版權(quán)方的內(nèi)容,因此,多次因版權(quán)問題被告至法庭,引發(fā)了無數(shù)的版權(quán)糾紛。
當(dāng)字節(jié)跳動(dòng)切入全網(wǎng)搜索時(shí),在內(nèi)容抓取上,歷史似乎重演。
不能停止的增長
在如今的互聯(lián)網(wǎng)江湖,不僅百度,其他任何巨頭都不敢小覷字節(jié)跳動(dòng)和張一鳴。
從2012年成立至今的7年間,張一鳴率領(lǐng)今日頭條在移動(dòng)端圖文信息市場立足后,又成功推出抖音短視頻應(yīng)用,截至2019年7月,抖音的DAU(日活躍用戶)已經(jīng)達(dá)到3.2億。
依托今日頭條、抖音兩個(gè)流量池,字節(jié)跳動(dòng)不斷把觸角延伸至社交、游戲、電商、教育等各個(gè)領(lǐng)域,旗下所有產(chǎn)品在全球范圍內(nèi)的DAU已達(dá)到7億,月活超過15億。字節(jié)跳動(dòng)正在各個(gè)領(lǐng)域沖擊著原有的互聯(lián)網(wǎng)巨頭的城池。
7年間,字節(jié)跳動(dòng)的員工數(shù)也已經(jīng)突破5萬。在過往的媒體報(bào)道中,字節(jié)跳動(dòng)被形容為一個(gè)APP工廠,通過技術(shù)、獲客、商業(yè)化變現(xiàn)這三大核心部門構(gòu)成的流水線,不斷將成功的產(chǎn)品經(jīng)驗(yàn)在各個(gè)領(lǐng)域復(fù)制,再進(jìn)行AB測試,快速迭代。
在字節(jié)跳動(dòng)快速擴(kuò)張的過程中,因?yàn)槭侄晤H為凌厲,讓外界一度議論紛紛。
在給外界壓力的同時(shí),激進(jìn)的打法也在內(nèi)部產(chǎn)生了影響,“字節(jié)跳動(dòng)內(nèi)部快速迭代,高速增長目標(biāo)的企業(yè)文化也難免會(huì)給員工帶來高壓力,而高壓力則可能導(dǎo)致操之過急或者動(dòng)作變形,即便張一鳴并不想這么做。”一位接近字節(jié)跳動(dòng)的人士說。
該人士繼續(xù)解釋,“2019年字節(jié)跳動(dòng)的營收目標(biāo)是至少1000億,壓力非常大。今日頭條主APP的增長基本停滯了,今日頭條正在艱難度過1.2億DAU的增長瓶頸期,抖音及其海外版Tik Tok成為重要的增長引擎。但海外市場并不像中國一樣,多語言,多文化背景,監(jiān)管政策多樣復(fù)雜,充滿不確定性?!?/p>
11月4日消息,路透社援引不具名知情人士報(bào)道稱,美國政府已經(jīng)就字節(jié)跳動(dòng)對(duì)該國社交媒體應(yīng)用musical.ly的收購啟動(dòng)了國家安全調(diào)查。美國外國投資委員會(huì)(CFIUS)已經(jīng)開始審查此次收購,該委員會(huì)負(fù)責(zé)審查外國收購的交易是否構(gòu)成潛在的國家安全風(fēng)險(xiǎn)。與此同時(shí),F(xiàn)acebook正對(duì)其加大警惕,并將之列為競爭對(duì)手。
此外,據(jù)《晚點(diǎn)LatePost》報(bào)道,在字節(jié)跳動(dòng)內(nèi)部舉行的6~7月CEO面對(duì)面會(huì)上,張一鳴說,“如果沒有搜索場景的拓展和優(yōu)質(zhì)內(nèi)容,今日頭條的增長空間可能只剩下4000萬DAU。”
為了維持字節(jié)跳動(dòng)的增長勢頭,搜索引擎作為一種被驗(yàn)證過的、成熟健康的商業(yè)模式,成為今日頭條拓展商業(yè)增長的重要業(yè)務(wù)之一。
國內(nèi)的搜索市場上主要有百度、360搜索、搜狗搜索三大玩家,其中根據(jù)StatCounter Global Stats的統(tǒng)計(jì)數(shù)據(jù),截止到2019年7月份,百度占據(jù)了中國搜索引擎全平臺(tái)市場的76.42%份額。字節(jié)跳動(dòng)打造的全網(wǎng)搜索,會(huì)在多大程度上影響搜索市場的份額變化,還是個(gè)未知數(shù)。
搜索和智能推薦都是獲取信息的方式,對(duì)用戶來說,搜索的成本高,但內(nèi)容精度也高;推薦的成本低,內(nèi)容精度也相對(duì)不高。為了滿足用戶準(zhǔn)確獲取信息以及廣告主精準(zhǔn)投放的需求,獲取更多用戶和商業(yè)變現(xiàn)機(jī)會(huì),兩種模式正在加速融合。
“搜索+信息流兩者結(jié)合是目前看來比較好的方式,目前百度和字節(jié)跳動(dòng)都從不同的起點(diǎn)出發(fā)趕往這個(gè)終點(diǎn)。但從搜索到信息流,和從信息流到搜索,這兩者的難度不太一樣,后者更難一些,搜索太復(fù)雜了。”一位行業(yè)資深人士表示。
雖然搜索引擎成敗的影響因素眾多,但很顯然,現(xiàn)在字節(jié)跳動(dòng)搜索爬蟲的頻繁爬取和不遵守行業(yè)規(guī)則,已經(jīng)給很多網(wǎng)站主們都造成了不太好的印象。
目前,字節(jié)跳動(dòng)的搜索爬蟲bytespider還躺在魏立超的黑名單中,短期內(nèi)并不會(huì)解封。他希望字節(jié)跳動(dòng)能夠遵循市場規(guī)律和準(zhǔn)則做事,一起保護(hù)好網(wǎng)站內(nèi)容的生態(tài)。
但面對(duì)字節(jié)跳動(dòng)可能帶來的潛在流量誘惑,也并非人人都立場堅(jiān)定。王東表示,“封字節(jié)跳動(dòng)的IP是萬不得已,什么時(shí)候解封,只能看搜索引擎市場份額變化?!?/p>
請(qǐng)登錄以參與評(píng)論
現(xiàn)在登錄