為促進搜索內(nèi)容生態(tài)健康發(fā)展,保障用戶的瀏覽體驗,搜狗搜索將于6月17日推出石破算法,。該算法旨在對包含惡劣采集行為的鏈接、網(wǎng)站進行識別,,根據(jù)網(wǎng)站作弊程度落實相應的清洗打壓措施,。惡劣采集標準解讀與示例如下,煩請合作方自查并于算法上線前完成全面整改,。
1. 內(nèi)容邏輯混亂:采集不同文章進行拼湊或相同文章的重復片段堆疊成一篇文章,,文章前后無邏輯關系,致使用戶理解困難,;
圖1.1 正文內(nèi)無相關關系
圖1.2 內(nèi)容重復堆疊
2. 內(nèi)容結構混亂:采集后未進行編輯導致的文章排版混亂,、無關信息冗雜、功能丟失等問題,,難以為用戶提供有效信息,;
圖2.1 缺少問答結構
3. 網(wǎng)站由大量采集內(nèi)容構成:網(wǎng)站缺少原創(chuàng)/獨有內(nèi)容,即多為批量采集并未進行編輯整理的內(nèi)容,,整體內(nèi)容質(zhì)量較低 ,;
圖3.1 相同采集內(nèi)容反復應用
圖3.2 批量生成文章配圖
4. 跨領域采集:網(wǎng)站采集大量與主要經(jīng)營領域無關內(nèi)容用以獲取流量的行為也會被判定為惡劣采集;