您當前的位置是:  首頁 > 新聞 > 國內 >
 首頁 > 新聞 > 國內 >

大數(shù)據(jù)催生新算法、編程語言

2017-07-11 16:33:01   作者:   來源:CTI論壇   評論:0  點擊:


  
  業(yè)界對于大數(shù)據(jù)的熱烈討論與投入,進一步催生新的算法、編程語言以及軟件加速等相關技術。
  IBM首席數(shù)據(jù)官(CDO) Inderpal Bhandari指出,“神經網(wǎng)絡(Neural network)已經存在很長一段時間了。最新的進展是我們必須為其處理大量的資料,以及強化與其有關的工程實力。”
  他描述采用“生成對抗網(wǎng)絡”(GAN)的研究進展指出,透過讓兩種神經網(wǎng)絡相互競爭,可望創(chuàng)造出更好的神經網(wǎng)絡。“這是一種導引出更多算法的工程思考——現(xiàn)在已經因此而激蕩出很多關于神經網(wǎng)絡方面的工程技術了。”
  從某些方面來看,這些算法可用于預測未來的硬件。例如,Dun & Bradstreet的首席資料科學家Anthony Scriffignano指出,“量子(quantum)算法將會變得越來越熱門,因為當這類算法成功可用后,就能用于執(zhí)行一些量子計算機才能做的事。”
  “深度信念網(wǎng)絡”(DBN)是另一種熱門的新興途徑。Scriffignano將其定義為“一種非漸進式方法,能夠讓你一邊學習一邊修正目標與目的,因而具有明日神經形態(tài)計算機的特性,”并形成一種適于仿真人腦的系統(tǒng)。
  美國斯坦福大學(Stanford University)計算機科學教授Christopher Re開發(fā)的通用數(shù)據(jù)深度探勘工具——DeepDive算法一直備受關注。該校數(shù)據(jù)科學計劃主管Stephen Eglash指出,這種算法有助于讓計算機更易于了解并使用文本、表格和圖表等非結構化的數(shù)據(jù),就像掌握關系數(shù)據(jù)庫或電子表格一樣輕松。
  “現(xiàn)有的數(shù)據(jù)大部份都是非結構化或半結構化的。例如,我們可以輕松地讀取規(guī)格表,但計算機卻很難像我們一樣理解。”
  20170710_bigdata_NT31P1以一種DeepDive程序理解基于知識建構的非結構化數(shù)據(jù) 
  Deep Dive已經用于協(xié)助腫瘤學家以計算機解釋腫瘤照片。此外,美國紐約檢察總長也用它作為執(zhí)法工具。至今,它已經應用在各個不同領域的許多公司了。
  Eglash說,DeepDive之所以如此獨特,部份原因在于“它能辨識并標記所有的數(shù)據(jù),然后用學習引擎和概率技術來確定數(shù)據(jù)的意思。”
  盡管這種途徑十分成功,但它只是近來學術界開發(fā)的多種算法之一。其他算法有的專注于計算機視覺(computer vision)等領域,或嘗試在實時數(shù)據(jù)串流中找出異常之處。Eglash強調,“如此就能讓我們持續(xù)進行更深入的研究。”
  掌握有趣的數(shù)據(jù)集
  讓開發(fā)人員腎上腺素飆高的部份原因,就在于他們必須從現(xiàn)實世界中取得有趣的數(shù)據(jù)集。GE Digital的Predix云端工程負責人Darren Haas聲稱在這方面取得了優(yōu)勢。
  Haas說:“我想有些人可能沒機會看看我們所提供的數(shù)據(jù)。我們從飛機、衛(wèi)星和火車取得了高達數(shù)千兆字節(jié)(petabyte)的傳感器資料。如果將這三者關聯(lián)起來,就可以提供很多信息,例如農場或紅杉樹看起來健康或是病了。”
  Hass原本任職于蘋果(Apple),負責部署其中一項最大的Hadoop,用于執(zhí)行像Siri等任務。他說GE Digital已經從亞馬遜(Amazon)、Facebook和Google吸收到編程人才,“當我展示我們正著手進行的數(shù)據(jù)集時,他們都感到十分震驚。”
  事實上,位于加州的通用電氣(GE)軟件部門已經從幾年前約800個編程人員,迅速增加到目前約有2,000人了。
  Haas個人喜歡的一種編程語言是Go。這是少數(shù)幾種已編譯的編程語言之一,如Elixir和Erlang一樣,現(xiàn)在重新獲得了機器學習(machine learning)開發(fā)人員的再度關注。
  “在實作層,我一直鼓勵自家團隊使用Go,”Haas指出,GE也定期舉辦Go語言的聚會。“它已經過編譯了、速度快、涵蓋各種應用,而且更有效管理內存。我還教12歲的兒子學Go呢,因為,我認為這是未來的趨勢。”
  像Go這樣的編譯語言確實適用于執(zhí)行環(huán)境。
  他說:“如果您需要串流數(shù)據(jù)或事件中樞,全部都以Go來寫最恰當不過了。”相形之下,“我看到的每一個Node.js項目在四個月后都得重新編寫。”
  也就是說,“很多人都大量使用Python。我認為它是機器學習的主流,適合數(shù)據(jù)分析、擷取數(shù)據(jù)和建構模型……等等,而且,Matlab的R也很重要。”
  無論是哪一種語言,重要的發(fā)展趨勢就是自動化功能。
  “很多人都用數(shù)據(jù)科學家說的‘何者正確與否’,以手動策劃數(shù)據(jù)集與模型。”Haas說:“但我們想用串流、偵測異常的方式進行,在封閉的反饋回路中通知用戶。”

專題