【威海seo】在網站中的用戶標簽有什么作用？

2018-07-26 14:52

　　在網站中的推薦系統有兩大基石他們分別是用戶標簽和內容分析。在內容分析中會涉及到一些有關機器學習的方面，兩者相較而言，用戶標簽這一項目的難度更大。

　　在今日頭條的網站中我們常用到的用戶標簽主要有用戶比較想知道的主題亦或是極為重要的關鍵詞等等。對于用戶的性別信息我們可以從第三方社交賬號中得到。而用戶的年齡信息主要是從模型中預測，主要是根據用戶閱讀的時間和機型來預測。經常訪問的地點主要是由用戶自己授權網站訪問得到的

　　當然在網站中最簡單最基礎的用戶標簽就是用戶瀏覽過后的內容標簽。主要分為三個方面：第一方面就是能夠過濾噪音，網站通過用戶停留的時間的長短來過濾標題黨。第二方面就是熱點懲罰，對于網站中一些極受用戶歡迎的文章，用戶會在上面留言，但不乏一些不好的留言，而這樣就會遭到懲罰。譬如降權處理等等。第三方面就是時間衰減，隨著年齡的增長，用戶的興趣也會發生一些改變，所以網站的策略就更偏向于新的用戶。現在隨著用戶動作的增加時間久的一些權重影響力就會降低。第四方面就是懲罰展現，如果有那么一篇文章是推薦給用戶的但卻沒有人點擊，那么與之相關的權重就會遭受懲罰。

　　要知道用戶標簽找出的大都是一些簡單的關鍵詞，例如今日頭條它的用戶標簽第一版就是批量計算框架，在這個系統中它的流程相較其他而言就更簡單些。

　　但問題在于，隨著用戶高速增長，興趣模型種類和其他批量處理任務都在增加，涉及到的計算量太大。2014年，批量處理任務幾百萬用戶標簽更新的Hadoop任務，當天完成已經開始勉強。集群計算資源緊張很容易影響其它工作，集中寫入分布式存儲系統的壓力也開始增大，并且用戶興趣標簽更新延遲越來越高。

　　面對這些挑戰。2014年底今日頭條上線了用戶標簽Storm集群流式計算系統。改成流式之后，只要有用戶動作更新就更新標簽，CPU代價比較小，可以節省80%的CPU時間，大大降低了計算資源開銷。同時，只需幾十臺機器就可以支撐每天數千萬用戶的興趣模型更新，并且特征更新速度非常快，基本可以做到準實時。這套系統從上線一直使用至今。

　　當然，我們也發現并非所有用戶標簽都需要流式系統。像用戶的性別、年齡、常駐地點這些信息，不需要實時重復計算，就仍然保留daily更新。

　　四、評估分析

　　上面介紹了推薦系統的整體架構，那么如何評估推薦效果好不好?

　　有一句我認為非常有智慧的話，“一個事情沒法評估就沒法優化”。對推薦系統也是一樣。

　　事實上，很多因素都會影響推薦效果。比如侯選集合變化，召回模塊的改進或增加，推薦特征的增加，模型架構的改進在，算法參數的優化等等，不一一舉例。評估的意義就在于，很多優化最終可能是負向效果，并不是優化上線后效果就會改進。

　　全面的評估推薦系統，需要完備的評估體系、強大的實驗平臺以及易用的經驗分析工具。所謂完備的體系就是并非單一指標衡量，不能只看點擊率或者停留時長等，需要綜合評估。過去幾年我們一直在嘗試，能不能綜合盡可能多的指標合成唯一的評估指標，但仍在探索中。目前，我們上線還是要由各業務比較資深的同學組成評審委員會深入討論后決定。

　　很多公司算法做的不好，并非是工程師能力不夠，而是需要一個強大的實驗平臺，還有便捷的實驗分析工具，可以智能分析數據指標的置信度。

　　一個良好的評估體系建立需要遵循幾個原則，首先是兼顧短期指標與長期指標。我在之前公司負責電商方向的時候觀察到，很多策略調整短期內用戶覺得新鮮，但是長期看其實沒有任何助益。

　　其次，要兼顧用戶指標和生態指標。今日頭條作為內容分創作平臺，既要為內容創作者提供價值，讓他更有尊嚴的創作，也有義務滿足用戶，這兩者要平衡。還有廣告主利益也要考慮，這是多方博弈和平衡的過程。

　　另外，要注意協同效應的影響。實驗中嚴格的流量隔離很難做到，要注意外部效應。

　　強大的實驗平臺非常直接的優點是，當同時在線的實驗比較多時，可以由平臺自動分配流量，無需人工溝通，并且實驗結束流量立即回收，提高管理效率。這能幫助公司降低分析成本，加快算法迭代效應，使整個系統的算法優化工作能夠快速往前推進。

　　這是頭條A/BTest實驗系統的基本原理。首先我們會做在離線狀態下做好用戶分桶，然后線上分配實驗流量，將桶里用戶打上標簽，分給實驗組。舉個例子，開一個10%流量的實驗，兩個實驗組各5%，一個5%是基線，策略和線上大盤一樣，另外一個是新的策略。

　　實驗過程中用戶動作會被搜集，基本上是準實時，每小時都可以看到。但因為小時數據有波動，通常是以天為時間節點來看。動作搜集后會有日志處理、分布式統計、寫入數據庫，非常便捷。

　　在這個系統下工程師只需要設置流量需求、實驗時間、定義特殊過濾條件，自定義實驗組ID。系統可以自動生成：實驗數據對比、實驗數據置信度、實驗結論總結以及實驗優化建議。

　　當然，只有實驗平臺是遠遠不夠的。線上實驗平臺只能通過數據指標變化推測用戶體驗的變化，但數據指標和用戶體驗存在差異，很多指標不能完全量化。很多改進仍然要通過人工分析，重大改進需要人工評估二次確認。

　　五、內容安全

　　最后要介紹今日頭條在內容安全上的一些舉措。頭條現在已經是國內最大的內容創作與分發憑條，必須越來越重視社會責任和行業領導者的責任。如果1%的推薦內容出現問題，就會產生較大的影響。

　　因此頭條從創立伊始就把內容安全放在公司最高優先級隊列。成立之初，已經專門設有審核團隊負責內容安全。當時研發所有客戶端、后端、算法的同學一共才不到40人，頭條非常重視內容審核。

　　現在，今日頭條的內容主要來源于兩部分，一是具有成熟內容生產能力的PGC平臺

　　一是UGC用戶內容，如問答、用戶評論、微頭條。這兩部分內容需要通過統一的審核機制。如果是數量相對少的PGC內容，會直接進行風險審核，沒有問題會大范圍推薦。UGC內容需要經過一個風險模型的過濾，有問題的會進入二次風險審核。審核通過后，內容會被真正進行推薦。這時如果收到一定量以上的評論或者舉報負向反饋，還會再回到復審環節，有問題直接下架。整個機制相對而言比較健全，作為行業領先者，在內容安全上，今日頭條一直用最高的標準要求自己。

　　分享內容識別技術主要鑒黃模型，謾罵模型以及低俗模型。今日頭條的低俗模型通過深度學習算法訓練，樣本庫非常大，圖片、文本同時分析。這部分模型更注重召回率，準確率甚至可以犧牲一些。謾罵模型的樣本庫同樣超過百萬，召回率高達95%+，準確率80%+。如果用戶經常出言不諱或者不當的評論，我們有一些懲罰機制。

　　泛低質識別涉及的情況非常多，像假新聞、黑稿、題文不符、標題黨、內容質量低等等，這部分內容由機器理解是非常難的，需要大量反饋信息，包括其他樣本信息比對。目前低質模型的準確率和召回率都不是特別高，還需要結合人工復審，將閾值提高。目前最終的召回已達到95%，這部分其實還有非常多的工作可以做。頭條人工智能實驗室李航老師目前也在和密歇根大學共建科研項目，設立謠言識別平臺。