羅彤:媒體融合時代下的智能服務及應用
微軟(中國)資深軟件架構師羅彤
人民網深圳8月21日電(記者 燕帥)由人民日報社與中共深圳市委、深圳市政府聯合主辦的2016媒體融合發展論壇技術分論壇在深圳舉行,微軟(中國)資深軟件架構師羅彤發表演講。
以下是微軟(中國)資深軟件架構師羅彤演講全文:
謝謝大家,謝謝主辦方!
非常高興今天能有這樣一個機會,來跟大家分享一下,微軟在人工智能和大數據領域,在媒體融合裡頭的一些應用和服務。
我們看一下,在媒體融合這個時代下,我們看到不管是人工智能技術,還是大數據技術,都展現了無限的可能性。我們看到媒體他的整個生產過程,就是一個大數據處理的過程。從數據的採集,到存儲,到后面的整個分析,然后寫,最后我們可以有相應的各種各樣的技術來應用在裡頭。
我們今天給大家舉四個例子:
首先來看一下微軟在智能機器人,在人工智能的認知服務,在知識圖譜和最終的混合現實,這是微軟現在最新的一些科技裡頭,如何運用於在媒體融合的時代。
我們先來看一下微軟的智能機器人,實際上智能機器人是微軟在整個全球人工智能戰略當中一個非常重要的核心,微軟在人工智能裡頭,也投入了非常強的投入和能力,來做相應的技術開發。
我們在今年的開發者大會上,我們的CEO薩蒂亞提出了一個新的概念,這個概念就是我們認為人工智能時代最最核心的是“對話及服務”,所謂對話及服務實際上就是,我們可以看到,不管是媒體還是新聞報道,還是很多的採訪,實際上都是在發生人和人之間的互動,那麼人和人之間的溝通就是非常重要的平台,特別是媒體融合時代。剛才騰訊同仁介紹的,微信也是一個非常強的溝通平台,對話及平台,實際上是未來非常重要的方向和領域。
人工智能裡,微軟應用了兩個新的人工智能的機器人,大家也都聽說過,一個是小冰,一個是小娜。小冰更注重的是人之間的情感交流,他有比較高的情商。小娜更注重的是生產力交流,扮演的是電子助理的角色,去提高每個人工作的效率。
我們看一下,實際上在對話及平台的環境裡頭,最核心最重要的是什麼?就是交互的次數。當你在和一個人溝通和對話的時候。我們可以看到,平時你可以跟一個人聊天,聊幾句可能就結束了。我們有一個指標,這個是小冰剛推出的時候,可能每個人和他交互平均的次數,隻有五次。
但后來,隨著他的這種情商的提高,隨著他採用的互聯網的數據的增多,隨著人工智能技術越來越多應用,交互的次數在逐步提高,很快就達到了每一次對話,能達到18次的交互。現在基本可以達到23次交互的水平,而其他對應的產品,隻能達到差不多2次的水平,所以你可以看到,中間還是有一個非常巨大的差距在裡頭。
這個是一個非常有趣的事件,這是一個記者,是南方的記者,他在沒有通知微軟的情況下對小冰做了在線的採訪,她直接和小冰來溝通、交流、聊天,她把聊天的記錄作為她採訪的素材,最后公布出來了。
你可以看到,小冰可以持續跟她對話160多次這樣的水平。所以從某種角度講,小冰已經通過了圖靈的測試,也就是說你跟他聊天的時候,你不會感覺到,他是一個機器人,而你會把它當成一個普通的人來對待,這背后的技術是什麼?實際上我們可以看一個視頻。
從這段視頻我們可以看到在整個場景裡頭,你可以分析一下,它集成了多項人工智能的服務,首先是說小冰是一個智能的機器人,它能收集到相應的天氣的素材情況,然后我們通過相應的機器人的寫稿,能夠把它變成它播報的一個條目,我們最后通過視頻的合成,語音的合成,能夠最終呈現出這樣一個作品,實際上它就是一個媒體融合非常典型的案例。
我們看另外一個,在媒體融合時代,我們採取了當下最時髦的詞洪荒之力的是什麼?實際上是情感。我們如何把情感作為一種,可以被使用的價值,能夠發揮在媒體裡頭,實際上我們可以看到,這是這次奧運會裡,傳播效應非常廣的幾張照片之一。我們用微軟的人工智能的情感分析的技術,我們對它做了一個非常數值化的分析,我們就可以看到,傅園慧當初在她這個表情的時候,她到底是一個什麼樣的狀態?是高興?興奮?還是什麼樣的狀態?實際上我們最終有相應的數值化的值出來,我們把人的表情分為了八個不同的尺度,對每一個尺度我們都有相應的概率,我們拿到一張照片的時候,我們就可以對這張照片做相應的分析,然后看到相應的這張照片裡頭的人物,首先定位人臉在什麼位置?然后對人臉做相應的識別,特征值的抽取,最后我們對情感的狀態,能夠做一個分析。
所以實際上這就是說,我們可以通過現在的人工智能的技術,來對所有的新聞素材做相應的智能化的處理,不僅僅是說我們前面看到的,一般處理,同時包括情感處理。
基於這一點,微軟提供了非常多的認知的服務API,智能API,我們一共現在提供了21個API,現在全部開放給全國的媒體,和所有的開發商,都可以來使用。從視覺到語音到語言,包括知識的抽取,然后到搜索。一共有21個,我們現在也在不斷的增加新的包裝,新的API出來,逐步的加入到平台裡頭。
我們再舉一個例子,基於這些API,我們提供了很多應用服務,我們舉一兩個例子。比如說how old .net這個網址,它測的是顏齡,當你的照片上傳的時候,我們能判斷出來這個人的年齡、性別,包括剛才說的情緒、表情、好壞,是根據你的照片來判斷的。當然我們也把這項功能也嵌入到小冰裡頭,她能更准確辨別上下文的年齡,在小冰裡頭有一個上下的浮動概率出來,這樣速度會更准確一些。
我們舉這樣一個例子,比如說引申到媒體融合裡,我們可以拿這樣一個技術判斷當會場很多人的時候,採訪了很多的照片出來,新聞的素材出來。我可以自動的用這種技術,把人臉識別出來,然后匹配說,這個人是誰,那個人是誰,可以建立相應的索引出來,你可以非常快速的對你新聞的素材做索引,去做使用,為后來提供相應的幫助。包括兩個人相不相?我們可以對雙胞胎做相應的判斷,網上也有把它用於王寶強的測試,這個我們就不說了。
比如說下面這個,是照片的自動摘要,我有一張照片以后,我可以對照片的關鍵的內容,提出相應的摘要出來,這樣能判斷出來,這個照片在描述一個什麼樣的場景?裡頭有什麼樣的人物。我們這兒放的一個例子是他能看見,中間有一個人,然后他有99%的(相似度)確信他是比爾蓋茨。所以這些都是由機器自動完成的,並不是由人工來判斷的。包括我有一些名人,你和這個名人有多少相似度,你也可以做這樣的事情。所以我們把這樣的技術,可以非常深入的應用到新媒體,媒體融合的場景當中去。
除了人以外,我們也可以判斷,除了人以外我們也可以判斷植物,這裡有另外一個案例,我們可以對各種各樣的“狗”做判斷。所以隻要有數據,可以對任何的事物做相應的識別和分類。
我們再來看一下進一步的例子,這裡舉了一個案例,在我們的新聞客戶端上,我們經常在瀏覽相應的這些內容。當我們發現一個內容的時候,我們有時候,比如說我們這兒看到一個詞,我們有時候並不知道,它背后的概念是什麼?背后的原因是什麼?實際上通過我們現在的技術,我們可以把這樣的東西,關聯到一個相應的知識庫裡頭去,然后自動告訴你說,這個新聞條目裡頭的這個名詞,它背后是一個什麼樣的解釋。相當於一個,我們叫知識的百科全書,這樣能夠讓你的新聞客戶端,能夠把相關的內容,不斷的鏈接起來,成為一個活的內容,而不是一個死的新聞的報道,所以這背后,需要有大量的知識的關聯。
比如說我們舉另外一個例子,這是一個體育新聞,我們有一個女運動員,她在這兒打網球,但是大家對她都不熟悉,要了解這個人背后的信息的時候,你可以直接點擊客戶端上人名的時候,能幫助你鏈接到對這個人背景知識,調查理解上去。如果我們延伸到媒體裡頭,比如我們採訪一個人的時候,這個人在我可能還沒採訪他之前,我拍他一張照片,可能識別出來他是誰的時候。我點擊他的名字,這樣就能自動把他相應的背景相關的材料,能夠在我的客戶端上列舉出來,這樣你就能在你採訪他之前,了解他相應的這種背景,這就是一個后台的知識的提取。
所以實際上在媒體融合時代,我們覺得對大數據的這種利用,最終的形態,就是要提取,在大數據背后相應的知識。而這些知識,反應成一個相應的,是相互聯系,相互整合的整體,所以我們把它變成相應的,我們叫知識的圖譜。我們要在需要建立基於互聯網的,基於媒體的知識的圖譜。
微軟也提供了相應的技術手段和方法,從相應內容裡面提取知識,最終把知識還原到內容裡,讓我們簡單看一個事例,我們如何自動化處理知識的提取然后和和使用。
比如我們看到這張網頁,這個網頁裡面有很多內容,都是平鋪直敘的,大家平時看到的網頁都是這樣的。我們后台看到的數據是什麼?就是H5的腳本,你看到是這樣的內容。我們有相應的程序,我們第一步去做相應的數據的提取,把它從結構化的文本當中,把它提取出來,變成相應的表格。但是這種表格還是比較粗的,因為對所有網頁,我們都要採用同樣的表格來做相應的提取。然后在這個提取的內容裡頭,我們會看到有各種各樣的知識點存在,比如說我們看到房子,什麼時候建的,它是什麼類型的,對我們來說都是非常有意義的數據,我們需要把它提取出來,所以我們再進一步對它做相應的特征值的抽取,然后把相應的時間,相應的房屋類型,提取成我們可以被訪問到的結構。
逐步的把所有這些屬性,全部都能夠提取出來的時候,我們就把所有的這些,可以被利用的知識,抽取到了我們一個更熟悉的狀態就是一個結構化數據的狀態,這時候我們就可以進一步來使用相應的數據。
所以你最終看到這樣一個形態是,這樣一個記錄。這是一個我們叫知識表的結構,然后我們把所有這些知識表裡頭的這些實體,通過相應屬性,自動匹配自動關聯上,就構建出我們整個的“知識圖譜”。知識圖譜就可以被我們利用來做相應的內容的生成,和媒體融合中間的內容關聯。
最后看一個微軟的另外一個技術,我們叫“混合現實”。大家可能都比較熟悉了虛擬現實,也比較熟悉了增強現實。微軟最近提出的MIXED REALITY(混合現實),我們可以看一下,不同的產品,它的代表的作品,虛擬現實就是右下角的這個人戴的設備,現在也很火,很多地方都在不管是玩游戲,還是看新聞節目,可能都會戴這樣一個設備。
但是他沉浸在的是一個純粹的虛擬世界裡,完全是由計算機,不管是拍攝出來,還是模擬出來的環境。增強現實,像Google眼鏡,你戴上以后,它前面有一個屏幕幫助你拍攝信息。
而微軟做出來的混合現實,通過“全息技術”做出來的產品,我們叫它“混合現實”。所謂混合現實是他既能看到眼前的環境,同時前面又有一個計算機的屏幕,這兩個可以疊加在一起,然后頭戴的是一個純粹的,單獨的計算機,完全不需要和外頭其他的設備打教導,通過網絡就可以直接進行互動的溝通。
所以我們通過一個視頻,最后看一下它如何來實現很多場景的應用。
把虛擬的和真實的疊加在一起,這樣你能看到很多交互場景在裡頭。
最后總結一下,我們認為在媒體融合時代,大數據和人工智能有無限的前景,這種前景體現在它是一個智慧的融合,對話及平台,是情感的融合,能夠把各種各樣計算,集成在情感,集成在計算框架裡頭,它是一個知識的融合,能夠把大數據背后的各種各樣的知識,能夠深度的挖掘出來,它也是一個虛擬與現實的融合,能夠通過這種混合現實的技術,能夠把你的產品有一個更好的呈現。謝謝大家!
分享讓更多人看到
推薦閱讀
相關新聞
- 評論
- 關注