2014年底,中國互聯網電視的機頂盒終端和電視機終端累計用戶數已經超過了一億。可見,互聯網電視每天都要產生大量的用戶數據信息,這些海量數據,規模大小不一,也毫無數據結構可言,在沒有經過分析、處理、挖掘之前,基本上就僅僅只是一些規模很大的、毫無利用價值的零散數據。但由於互聯網電視具有雙向互動的天然優勢,可以採集到用戶所有的使用情況記錄,這些代表了“群體智慧”的數據記錄又可以在播控平台進行大數據處理分析,從而實現大數據的最終目標——“進行判斷和預測”,並從中獲取價值,成為互聯網電視運營決策的根本。
互聯網電視運營分析體系的大數據技術實現系統設計,就是通過研究、探討如何建立基於大數據的互聯網電視運營分析體系,和用戶之間建立起實時、有效的互動與溝通,通過該平台來收集所有用戶的相關信息和數據,再據此分析用戶的喜好,然后依照分析結果為用戶提供更適合的內容產品、更精准的營銷與廣告信息。該體系還可以進一步地精確把握用戶群體和個體網絡行為模式,探索個人化、個性化、精確化和智能化地進行廣告推送和服務推廣的方法,創造出比現有廣告和產品推廣形式性價比高數倍甚至數十倍的全新商業模式。
根據上述需求,需要結合大數據應用開發的流程,分步驟探討每一步的具體技術細節,即按照功能規劃、數據採集處理、數據分析和成果應用等四個步驟,來設計基於大數據的互聯網電視運營分析體系。
核心功能規劃
互聯網電視運營分析體系,可以通過與運營商業務平台的終端和服務端系統對接的方式,獲取“用戶行為數據”和“內容標簽信息”,並建立用戶肖像,構建“用戶—時間—標簽”的多維數據矩陣,將用戶在互動域的使用行為進行量化並映射到增值業務域,為其業務營銷提供精准的數據支撐。
概括地說,互聯網電視運營分析體系的主要功能就是實現運營支撐,包括頻道/視頻內容分析、視頻熱點內容挖掘、用戶觀看行為重現、視頻播放碼率優化、視頻廣告體驗優化、用戶操作體驗優化等。從對大數據的剖析角度而言,主要是針對運營分析體系的電視(TV)、視頻(Video)和流(Streaming)等三類數據來源,如圖1所示。
如果對互聯網電視的大數據分析功能進行分類的話,可以從四類功能來規劃。
統計收視情況。在擁有完整樣本的互聯網電視大數據分析平台上,可以詳細地記錄和分析統計出電視節目播出平台上各個欄目、各個頻道的點播、直播及回看的收視率。然后按照用戶的開機情況、用戶在線時長、用戶平均收視時長等信息數據,能夠統計具體到居住小區的用戶收視情況。
分析用戶行為。憑借追蹤用戶行為的功能,實現點播節目和直播頻道收視率的實時統計,每隔三秒鐘進行數據刷新,還支持按年、月、周、日來分析實時收視率的歷史數據。相應的,也可以按照用戶訪問頁面的行為記錄,提供路徑分析,提升節目的訂閱率,優化電子節目指南(EPG),簡化電視的互動操作。
支持節目決策。通過平台的分析數據,可以幫助電視台各個頻道來建立數學模型,指導節目決策、制作、編排、引進,更准確地滿足用戶需求,同時也能夠提升電視台節目的收視率。
提供個性化服務。從用戶的角度而言,做好大數據運營分析系統的首要條件,是更為准確地了解和響應用戶的需求,實現EPG的個性化服務、精准推送、推薦相關節目內容,並能夠依照用戶的變化規律及活躍表現程度,添加各類相應活動,進行用戶挽留等服務,從而達到優化用戶體驗的目的,使得用戶獲得更佳的服務,不再錯過想要觀看的精彩節目,精准對位營銷優質的節目內容。最終,為電視台等播出機構建設一個節目內容“從產品到商品”的優良市場渠道。
數據採集與處理
互聯網電視運營商的大數據主要來自於兩部分:一部分來自網絡,這一類數據稱為過程數據,如用戶的開關機行為數據、位置移動數據、上網行為數據等。另一部分來自業務支撐系統,這一類數據稱為業務數據,如用戶的個人信息數據、電視收看數據、繳費數據、消費數據等。這些數據種類繁多,難以一一詳述,本文僅以與用戶行為相關的數據為例,來闡述如何進行數據採集與處理。
這些用戶行為數據採用基於HBase的分布式數據庫。HBase數據庫屬於Apache Hadoop體系,能進行大型數據的實時、隨機讀寫訪問。與以往的RDB(Relation Data Base)比較,HBase具有擴展靈活、支持大批量數據、低成本等優勢。
數據採集。在運營分析體系中,每個互聯網電視終端都對應了一個用戶,該用戶都有唯一的用戶標識(UserID)﹔用戶從終端網絡的接口來使用並訪問各類業務服務,在終端系統上,用戶的各種行為信息都會上傳到系統平台(Open Api)中,系統平台處理完數據后再入庫,然后為運營分析系統提供單個用戶或批量用戶的查詢工作,如圖2所示。
數據結構。HBase中的數據表有體量大(一個數據表能夠記錄上百萬列和上億行數據)、面向列(可以控制面向列/族的存儲權限,並能單獨檢索列)、設計稀疏(對於null類型的空列,並不佔用存儲空間。因此,表可以設計得非常稀疏)等特點。
表1 流媒體播放日志示例數據
表1現在顯示的是某一時段的模擬數據,內容為互聯網電視流媒體的播放信息日志,這些數據都是在普通的數據表中進行記錄的。平台剛開始的日志用系統記錄的數據來表示,行為序號是人為來定義的,列序號是人工生成的列標識ID。在某一天內,同一個行為日志的列序號是唯一的。
HBase非常適合存儲非結構化數據。而將普通數據表(表1)中的數據記錄導入到HBase表(表2)中,就涉及到HBase表該如何構造和設計的問題。本文通過設計一系列的反轉規則來實現數據的導入。由反轉用戶序號、用戶發生行為的時間、用戶行為序號組成RowKey(RowKey是一段二進制碼流,HBase中就是按照RowKey來檢索的),轉換后HBase表中的數據如表2所示。
數據處理。HBase對MapReduce API進行了擴展,方便MapReduce任務讀寫HTable數據。MapReduce提供了一個編程模型,將磁盤讀寫問題進行抽象。MapReduce將數據抽象成並演變成為對一個數據集(key/value對組成的集合)的計算。這個計算是由Map和Reduce兩部分所完成的,也就是將數據抽象成為Map和Reduce兩個對外的接口。
數據分析與挖掘方法
採集和處理了相關數據后,就需要運用數據分析與挖掘方法,為運營商提供更多潛在且有價值的信息,應對外部競爭壓力,提高自身運營效率和服務水平,提高決策的科學性。本文選取幾類典型應用的數據挖掘分析如下。
電視收視率。每間隔一分鐘對收視率進行收集,得到測試數據,然后基於時間序列來進行分析,並以貝葉斯、決策樹等分類算法,對互聯網電視收視率進行科學預測,挖掘出不同類型客戶群的收視特點,發現節目之間的關聯性。
用戶群細分。按照用戶相似度計算准則,建立互聯網電視用戶群的細分模型,了解不同客戶的收視需求、收視習慣、收視能力等。根據客戶的性別、年齡、職業、教育程度等屬性,利用聚類算法CLARANS(Clustering Large Application based upon RANdomized Search,基於隨機搜索的聚類大型應用)、CLIQUE算法、ID3決策樹和客戶相似度的計算公式實現客戶細分算法,找出不同客戶群體的特征,區分“高價值”和“低價值”的客戶群,從而針對不同客戶群制定營銷策略。
用戶消費行為分析。採用FP-growth算法進行關聯規則挖掘,可以發現套餐、節目之間的某種聯系,從而挖掘出互聯網電視用戶的使用和消費習慣,為有線運營商設計用戶訂購節目的消費套餐和市場促銷策略提供數據決策支持。
視頻點播推薦。推薦算法主要有:基於物品的協同過濾推薦算法(通過挖掘一個已經存在的用戶社區過去已經發生的行為或意見,預測當前系統中的用戶最可能喜歡或感興趣的物品)、基於內容的推薦算法(根據推薦物品的屬性,發現物品的相關性,然后基於用戶以往的喜好記錄,推薦給用戶相似的物品)、混合推薦算法(一起使用幾種推薦算法,並且通過一種具體的混合機制聚集,輸出這些推薦算法的結果)和K最近鄰算法(為每個物品尋找K個與其最相似的物品,並推薦給用戶)等。
成果應用——運營分析體系架構設計
基於前面的設計與開發流程,採用金字塔模型來實現互聯網電視的大數據分析體系的架構設計。該金字塔模型分為七個層面,如圖3所示。
圖3 互聯網電視大數據分析的金字塔模型
數據基礎平台層。數據基礎平台層的目標就是建立所有互聯網電視用戶數據的記錄,實現全方位了解某用戶使用習慣和愛好的目的。數據基礎平台層的搭建有三大關鍵:一是確定用戶唯一ID﹔二是有效的解決數據孤島問題﹔三是解決數據有效管理和計算的問題。
業務運營監控層。業務運營監控層主要目的是幫助運營商監控業務運營情況的健康度,快速發現問題並定位問題原因。業務運營監控層的工作有兩大關鍵:一是梳理數據體系﹔二是打造數據異動監控產品。
用戶洞察/體驗優化層。該層不僅使用結構化數據來優化和觀測,也使用非結構化數據(如視頻、文本等)來優化和觀測。結構化數據主要是通過各類用戶行為模型來分析,非結構化數據則主要由監測各類社交媒體(如微信、QQ、微博、論壇等)和運營商客戶服務系統的記錄來優化和觀測。
精細化運營和營銷層。第四層的首要目標是使用大數據來促使互聯網電視運營商實施精細化運營和市場營銷。實現精細化運營和營銷有6個方面的關鍵舉措:構建基於用戶的數據提取和運營工具﹔構建基於大數據的CRM系統﹔構建基於大數據的營銷活動數據挖掘體系﹔推廣渠道質量監控和防作弊﹔通過數據挖掘的手段進行客戶生命周期管理﹔客戶個性化推薦。
業務市場傳播層。這一層主要是希望通過直觀、生動、可視化信息來配合業務推廣傳播,主要有兩種實現方式:一是使用令人印象深刻、鮮活生動的圖表,二是提供形象化、可視化加工過的數據信息產品。
業務經營分析層和戰略分析層。這兩個層面更多的是傳統的經營分析、戰略分析層面的理論,互聯網電視運營商在這兩個層面都有自我特色:一是其數據來源可以取自大數據,並且數據的更新非常快,快到可以實現按小時級、分鐘級的更新速度,反觀傳統的經營分析、戰略分析最多是按月份來研究分析的。另一大優勢在於大數據的數據來源更加多元化,包括對非結構化數據進行觀測和深入分析挖掘。
融合了大數據的互聯網電視運營分析體系,能實時研究用戶的偏好,向用戶提供個性化、智能化、多樣化的收視服務,提升使用體驗,同時能給有關的行業研究機構提供准確的用戶偏好分析。
媒體也能夠獲取全時段的節目收視數據信息,為節目的策劃、設計、編排、調整等提供依據,提升節目品質,促進內容創新。廣告商也能按照分析數據,及時調整廣告的投放策略,避免重復性投放,提升廣告投放精准度。
同時,運營分析系統還能夠為政府和行業機構提供決策支持,自動生成專業化的輿論及宣傳效果評價、輿情力度、輿情導向及動態輿情變化等多維數據報告。
總之,用心做好互聯網電視,才是最終的目標!
(作者孔彬中國人民大學新聞學院博士研究生、國家新聞出版廣電總局廣播電視規劃院信息研究所運營總監﹔匡文波系中國人民大學新聞學院博士生導師)
【本文系《傳媒》雜志供稿】