導(dǎo)讀:UCloud 來到深圳舉辦了主題為「抱緊云+AI 的未來,你準備好了嗎?」的沙龍活動,重點聚焦云計算助力 AI 發(fā)展的諸多方面,結(jié)合具體實踐為開發(fā)者們答疑解惑!
如今 AI 被譽為技術(shù)界的「爆款」,不假;AI 技術(shù)發(fā)展逐漸趨于成熟,沒錯。可是技術(shù)應(yīng)用于行業(yè)場景并成功實現(xiàn)的難度系數(shù)呢?還是蠻高!如何利用云計算降低 AI 落地的門檻,再也不用擔(dān)心「認知、算法、數(shù)據(jù)」的「圍追堵截」?如何在企業(yè)強調(diào)成本、AI 要求投入的「兩難境地」中通過「云端賦能」有效降低研發(fā)成本、加快方案迭代?如何在云計算的「神助攻」下完美實現(xiàn) AI 產(chǎn)品化的「業(yè)務(wù)領(lǐng)跑」?
恐怕這些都是開發(fā)者們迫切想要「一探究竟」的問題。
對此,UCloud 特別來到深圳舉辦了主題為「抱緊云+AI 的未來,你準備好了嗎?」的沙龍活動,重點聚焦云計算助力 AI 發(fā)展的諸多方面,結(jié)合具體實踐為開發(fā)者們答疑解惑!
沙龍現(xiàn)場座無虛席
會上,UCloud LabU 深度學(xué)習(xí)開發(fā)工程師范融為與會開發(fā)者帶來了有關(guān)「AI 公有云平臺實踐」的主題分享。
當談及建設(shè) AI 平臺的必要性時,范融表示,如今 AI 技術(shù)在適應(yīng)不同場景時所呈現(xiàn)的算法形式多種多樣,為了實現(xiàn)更多場景的兼容性,高效的平臺建設(shè)對廣大開發(fā)者來說必不可少。
更重要的一點,在整個研發(fā)周期中,面對源于 AI 的諸多問題,無論是企業(yè)還是開發(fā)者自然都要選擇可以兼容更多深度學(xué)習(xí)算法以及框架,并保證存儲、網(wǎng)絡(luò)性能優(yōu)勢解決方案。一個優(yōu)質(zhì)的平臺恰好可以達到靈活的橫向擴展能力以及對業(yè)務(wù)規(guī)模的支持,另外在彈性、容災(zāi)簡單方便的代碼遷移等方面更是表現(xiàn)出色,如此看來 AI 平臺建設(shè)可謂「功在千秋」了。
另外,范融在分享中還詳細介紹了 UCloud 關(guān)于 AI 基礎(chǔ)平臺架構(gòu)的「那些事兒」。在基礎(chǔ)架構(gòu)中,為了可以提供兼容性更好的運行環(huán)境,采用了封裝、預(yù)裝、自由、可重用、兼容性等多種技術(shù)方式。
「所謂的封裝性,就是在運行具體任務(wù)時,并不用擔(dān)心會對自身的安裝環(huán)境產(chǎn)生干擾;預(yù)裝呢?顧名思義,就是我們針對用戶經(jīng)常使用的深度學(xué)習(xí)框架以及科學(xué)計算包做了預(yù)裝,這樣在本地使用的話直接下載就可以,非常方便;另外一點就是自由,雖然已經(jīng)安裝了大部分科技計算包的用戶可以做到開箱自用,但不排除有的用戶涉及到的領(lǐng)域比較冷門,這樣一來完全可以依照需要自行下載,正常運行相關(guān)安裝包完全沒有問題;還有一點是可重用,這在開源鏡像數(shù)據(jù)庫領(lǐng)域表現(xiàn)明顯,可以做到為開發(fā)者們大量節(jié)省時間等?!顾敿氀a充道。
當然,整體架構(gòu)在靈活接入數(shù)據(jù)源、彈性資源調(diào)節(jié)等方面也有顯著的優(yōu)勢。
UCloud LabU 深度學(xué)習(xí)開發(fā)工程師 范融
據(jù)悉,范融所在的團隊目前已經(jīng)推出 AI 在線服務(wù)、AI 訓(xùn)練服務(wù)兩個產(chǎn)品。其中 AI 在線服務(wù) PaaS 平臺在 2016-2017 年可信云大會上獲得了 AI 行業(yè)云服務(wù)獎;AI 訓(xùn)練服務(wù)全程支持了 2017 年 AI Challenger 大賽的順利開展,在該領(lǐng)域表現(xiàn)十分出色。
作為 UCloud 互聯(lián)網(wǎng)事業(yè)部解決方案架構(gòu)師,徐強長期從事大數(shù)據(jù)和 APM 領(lǐng)域工作,尤其對大數(shù)據(jù)行為分析和應(yīng)用性能監(jiān)控領(lǐng)域有深刻理解和豐富經(jīng)驗,這次沙龍也受邀作為第二位分享嘉賓并進行了主題為「云計算助力人工智能快速搭建底層資源」的演講。
「如今 AI 簡直太火爆了,但對于 AI 系統(tǒng)建設(shè),大家并不是太清晰。從我們自身出發(fā),通常著重考慮三個方面:首先是兼容性,這一點在圖像類以及語音類表現(xiàn)突出,AI 算法與其兼容主要包括切合性;另外會十分注重平臺擴展性,因為這涉及到訓(xùn)練數(shù)據(jù)成倍增長的情況;此外就是分布式化的特點,實踐證明如果采用線下單機模式會十分影響效率?!剐鞆姳硎尽?nbsp;
如果說 AI 系統(tǒng)建設(shè)是第一步的話,那確保 AI「踏實」落地究竟有哪些解決思路呢?
他認為,以 UCloud 自身出發(fā),首先會涉及到一個數(shù)據(jù)共享的平臺。眾所周知,再高深的算法都需要大量數(shù)據(jù)的支持,怎樣獲取數(shù)據(jù)實在是個問題。如今是否有一種模式可以最大能力整合數(shù)據(jù)用于訓(xùn)練呢?安全屋的相關(guān)產(chǎn)品或許會起到一定作用。
此外,在環(huán)境分離、底層資源共享后期擴展性以及等方面,徐強強調(diào),安全屋產(chǎn)品就是在保證數(shù)據(jù)所有權(quán)不變的情況下完成最大可能性的數(shù)據(jù)流通。
UCloud 解決方案架構(gòu)師 徐強
說到代表性的案例,徐強提及了 2017 年 AI Challenger 大賽。賽事規(guī)模自不用多說,就連科研數(shù)據(jù)也是最大數(shù)量級的,據(jù)了解有 1000 萬的中英文翻譯數(shù)據(jù),30 萬的圖像數(shù)據(jù)。
由于數(shù)據(jù)量龐大,主辦方選擇 UCloud 作為 GPU 提供方,對此提供了有關(guān) AI 的整體解決方案。
「在底層提供了強大的算力資源、中間布置了 AI 在線服務(wù)以及 AI 訓(xùn)練服務(wù)、然后就是安全屋。將龐大的數(shù)據(jù)放入安全屋中,然后根據(jù)需要分發(fā)給不同的選手;選手同時將自己的算法上傳到安全屋中,基于分發(fā)的數(shù)據(jù)做訓(xùn)練,只要計算出模型就可以將數(shù)據(jù)導(dǎo)入,十分安全?!剐鞆娒枋龅?。
總結(jié)來說,UCloud 一方面提供了底層的計算方法以及環(huán)境的自動部署,方便直接上傳到 AI 系統(tǒng);另一方面在收費方面也表現(xiàn)的更加人性化,按需收費只在執(zhí)行過程中,其他時間不涉及費用問題。
此外,談及數(shù)據(jù)安全性,「安全屋底層都是基于公有云平臺,更重要的一點,我們采用的加密技術(shù)是基于區(qū)塊鏈的不可篡改性,并同時增加了審計機制來保障安全。」他補充道。
現(xiàn)如今文檔資料的內(nèi)容自動化處理是人工智能技術(shù)落地的關(guān)鍵應(yīng)用之一。
作為復(fù)旦大學(xué)計算機軟件與理論的碩士,達觀數(shù)據(jù)聯(lián)合創(chuàng)始人張健曾在盛大創(chuàng)新院負責(zé)相關(guān)推薦模塊,在文學(xué)數(shù)據(jù)中心肩負任務(wù)調(diào)度平臺系統(tǒng)和集群維護管理、開發(fā)智能審核系統(tǒng)等相關(guān)工作。
達觀數(shù)據(jù)聯(lián)合創(chuàng)始人 張健
在有關(guān) NLP 的知識以及實踐的分享中,他提到,其實電腦理解的文本與人理解的文本會有一些共同之處,通常也是從三個等級來體會。例如,對文本進行字詞分析;再在這個基礎(chǔ)上做一些段落分析,涉及語法關(guān)系、上下文的糾錯等;再上層就是篇章級分析,可以達到文本相似度、組織模型、分類模型等結(jié)果。
但 NLP 實踐中最重要的還是解決如何將機器學(xué)習(xí)或者深度學(xué)習(xí)高效應(yīng)用在文本處理中。
對此張健表示,深度學(xué)習(xí)的基礎(chǔ)結(jié)構(gòu)其實就是一個基本的神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)并沒有想象的那么復(fù)雜??梢岳斫鉃槭亲罨旧窠?jīng)源結(jié)構(gòu),會接受 S1、S2 輸出,實現(xiàn)很簡單分類的功能,只是需要滿足一個很復(fù)雜的場景需求罷了。
此外深度學(xué)習(xí)無法規(guī)避基本結(jié)構(gòu)的問題,也就是 RNN 和 LSTM。「我們在理解語言的時候,其實是一個信息流,也是一個序列信息,會像 S0、S1、S2。如果講一個字,當前時刻就可以把之前時刻的這種字詞信息收納進來并作為前項的輸入,再與當前的字詞結(jié)合后輸出;但是 LSTM 除了具備這樣一個結(jié)構(gòu),還增加了一個優(yōu)點,就是人們在講話的過程中,不可避免的是上下文環(huán)境中有些字詞重要,而有些則不那么重要,LSTM 會對之前的信息進行有選擇通過或者丟棄。」他強調(diào)。
精彩的現(xiàn)場互動
總結(jié)來看,深度學(xué)習(xí)用于文本挖掘的確顯示了很多優(yōu)點,例如可以使用大量無監(jiān)督的數(shù)據(jù)提高能力;端到端的過程讓文本輸入、任務(wù)訓(xùn)練再到輸出的環(huán)節(jié)并不需要做很多處理,更重要的是能夠克服傳統(tǒng)模型的缺點。
但張健提出,這種方式并不是完全沒有缺點的,例如在小數(shù)據(jù)量的前提下效果不一定好,需要根據(jù)場景嚴格挑選適合的模型;另外調(diào)參工作量有時不亞于特征工程,甚至?xí)拗撇糠謶?yīng)用。
此外,在現(xiàn)場分享時,張健還為與會開發(fā)者們提供了實踐經(jīng)驗的小貼士來參考。
首先在業(yè)務(wù)場景層面,用戶需要盡可能理解數(shù)據(jù),分析問題本質(zhì)并選擇合適的模型;在使用的初始階段,可以選擇傳統(tǒng)機器學(xué)習(xí)模型作為嘗試,通過不斷深化針對數(shù)據(jù)的理解來解決相關(guān)問題;最后就是還需要在不斷的實踐中迭代經(jīng)驗解決問題。
分享接近尾聲,與會開發(fā)者還提出了「在 NLP 處理的過程中如果遇到長文本如何處理」的問題。
關(guān)于這個問題,張健回答道,長文本在直接只用 NLP 處理得到的效果確實不盡如人意。但是可以考慮使用 CNN 的方式來實現(xiàn)分類目標,STM、CNN 做底層的表示,在上層構(gòu)建一些 CNN,這樣效果會更好很多。
精彩分享仍在繼續(xù),現(xiàn)場氣氛始終火熱不減。
開發(fā)者們熱情不減
當前,AutoML 是人工智能發(fā)展的一個重要方向,受到 Google,F(xiàn)acebook 等諸多公司的重視,近期在 AutoML 領(lǐng)域,特別是深度神經(jīng)網(wǎng)絡(luò)模型搜索也呈現(xiàn)了很多突破性的進展。
探智立方 CTO 錢廣銳
在「AutoML 人工智能自動化模型設(shè)計與進化算法實現(xiàn)」的分享中,錢廣銳表示,在當前的實際場景中的確存在很多情況是單一模型并不能完全適應(yīng)的,復(fù)合型模型在一些場景中特別需要。人工智能模型的設(shè)計是一個復(fù)雜的工作,要設(shè)計的小、準、快更是復(fù)雜,對此探智立方在該領(lǐng)域做了很多探索。
「所有的框架以及算法是我們從大概年初剛剛開始實踐的,這樣一個人工智能模型自動設(shè)計平臺被稱為達爾文 ML。真正的希望就是能夠?qū)嵺`產(chǎn)品化的工作,用戶只要數(shù)據(jù)輸入,不需要做任何之前的預(yù)設(shè)假定就可以完成模型建設(shè)。」他說。
此外探智立方從數(shù)據(jù)準備、模型設(shè)計、生產(chǎn)對接為達爾文系統(tǒng)提供了整套「配置」,所以在設(shè)計生產(chǎn)平臺的同時也設(shè)計了一個推理平臺,確保流程順暢。
與會開發(fā)者們認真傾聽
例如在工業(yè)制造方面,整個實踐過程中有 5 萬張照片,采取 200×200 的分類,錢廣銳將其放到新平臺中去,準確率可以達到 75% 左右,其中并沒有做復(fù)雜建模處理的工作,這個案例可以發(fā)現(xiàn),達爾文設(shè)計出來的模型特別小,準確率特別高。
無論是人工智能發(fā)展還是現(xiàn)有的一些場景中,很多場景模型的設(shè)計不只是在云端,由于達爾文設(shè)計出的模型比較小,錢廣銳也希望未來可以在手機端快速識別票據(jù)等。除了幫助企業(yè)應(yīng)用落地,如何能在各個場景,例如智能制造、攝象頭等統(tǒng)統(tǒng)實現(xiàn)也是很重要的目標。
盡管UCan下午茶深圳站活動有關(guān)云計算與AI的精彩分享暫時先告一段落了,但關(guān)于“云+AI”的技術(shù)探討依舊在火熱進行中,點擊“立即報名”關(guān)注UCan下午茶后續(xù)的系列活動。