您當(dāng)前的位置是:  首頁 > 資訊 > 文章精選 >
 首頁 > 資訊 > 文章精選 >

企業(yè)五年后卓越或者死亡,數(shù)據(jù)戰(zhàn)略是關(guān)鍵!

2020-04-02 10:27:31   作者:君子蘭   來源:云技術(shù)   評(píng)論:0  點(diǎn)擊:


  一、企業(yè)清晰的數(shù)據(jù)戰(zhàn)略已經(jīng)刻不容緩
  上個(gè)月,歐盟委員會(huì)于2020年2月19日發(fā)布?xì)W盟數(shù)據(jù)戰(zhàn)略,積極推進(jìn)數(shù)字化轉(zhuǎn)型工作,打造歐盟單一數(shù)據(jù)市場(chǎng),目的是強(qiáng)化技術(shù)主權(quán),提升企業(yè)競(jìng)爭(zhēng)力。
  2020年3月,中共中央政治局常務(wù)委員會(huì)召開會(huì)議提出,加快5G網(wǎng)絡(luò)、數(shù)據(jù)中心等新型基礎(chǔ)設(shè)施建設(shè)進(jìn)度。與傳統(tǒng)基建相比,新型基礎(chǔ)設(shè)施建設(shè)更能體現(xiàn)數(shù)字經(jīng)濟(jì)特征,能夠更好推動(dòng)中國(guó)經(jīng)濟(jì)轉(zhuǎn)型升級(jí)。
  如圖1,根據(jù)國(guó)家統(tǒng)計(jì)局?jǐn)?shù)據(jù),從2015年到2019年,全國(guó)居民人均可支配收入持續(xù)增加,2019年全年全國(guó)居民人均可支配收入30733元,扣除價(jià)格因素,實(shí)際增長(zhǎng)5.8%。
  圖1 2015年到2019年全國(guó)居民人均可支配收入持續(xù)增長(zhǎng)
 。▉碓矗瑖(guó)家統(tǒng)計(jì)局官網(wǎng))
  消費(fèi)者收入一方面在增加,一方面更追求個(gè)性化。在政策的大背景下,隨著移動(dòng)互聯(lián)網(wǎng)的普及,5G的加快落地,對(duì)于企業(yè),做好數(shù)字化轉(zhuǎn)型,滿足消費(fèi)者千人千面的需求是必然的選擇。
  此外,還有一個(gè)趨勢(shì)就是越來越多的企業(yè)利用數(shù)字化技術(shù),開展線上業(yè)務(wù),比如在疫情期間,有房地產(chǎn)企業(yè)開始在線上賣房。
  數(shù)據(jù)是資產(chǎn)已經(jīng)是共識(shí),我們的衣食住行不斷地產(chǎn)生數(shù)據(jù),依托這些數(shù)據(jù),使不少互聯(lián)網(wǎng)企業(yè)發(fā)展壯大。同樣的,在企業(yè)的日常運(yùn)營(yíng)中也在不斷地產(chǎn)生數(shù)據(jù),如果能利用好這些數(shù)據(jù),將進(jìn)一步的提升企業(yè)競(jìng)爭(zhēng)力。
  在企業(yè)普遍開展數(shù)字化轉(zhuǎn)型的大潮之下,每家企業(yè)應(yīng)明確自己的數(shù)據(jù)戰(zhàn)略,為數(shù)字化轉(zhuǎn)型打好基礎(chǔ)。
  數(shù)據(jù)戰(zhàn)略包括數(shù)據(jù)采集、存儲(chǔ)、分析、消費(fèi)。國(guó)際數(shù)據(jù)公司(IDC)和數(shù)據(jù)存儲(chǔ)公司希捷開展的一項(xiàng)研究發(fā)現(xiàn),2025年,全世界產(chǎn)生的新數(shù)據(jù)將從2018年的33ZB增至175ZB,中國(guó)每年將以超過全球平均值3%的速度產(chǎn)生并復(fù)制數(shù)據(jù)。據(jù)該研究報(bào)告,2018年中國(guó)約產(chǎn)生7.6ZB(1ZB約相當(dāng)于1萬億GB)的數(shù)據(jù),到2025年該數(shù)字將增至48.6ZB。與此同時(shí),美國(guó)2018年約產(chǎn)生6.9ZB數(shù)據(jù),并將在2025年增至30.6ZB。
  二、企業(yè)用好數(shù)據(jù),面臨四個(gè)挑戰(zhàn)
  企業(yè)如何用好數(shù)據(jù),面臨以下四個(gè)挑戰(zhàn)
  1. 企業(yè)內(nèi)部存在數(shù)據(jù)豎井,數(shù)據(jù)采集困難
  企業(yè)內(nèi)部的數(shù)據(jù),往往存在數(shù)據(jù)豎井,格式不一致的問題。企業(yè)內(nèi)部的數(shù)據(jù),通常是按部門,按數(shù)據(jù)線保存。不同歷史時(shí)期,采用的數(shù)據(jù)庫不一樣,導(dǎo)致數(shù)據(jù)格式也不一致。要將數(shù)據(jù)統(tǒng)一采集存儲(chǔ),需要打破部門壁壘,兼容各種數(shù)據(jù)格式。
  2. 數(shù)據(jù)增速越來越大,數(shù)據(jù)存儲(chǔ)面臨挑戰(zhàn)
  如前文所述,隨著新技術(shù)的采用,隨著信息化的深入,產(chǎn)生的數(shù)據(jù)越來越多,數(shù)據(jù)量飛速增加,大量的數(shù)據(jù)如何存儲(chǔ)成為一門技術(shù)活:如何能存儲(chǔ)海量的數(shù)據(jù),讓數(shù)據(jù)根據(jù)冷熱分層,讓數(shù)據(jù)存儲(chǔ)性價(jià)比更高成為挑戰(zhàn)。
  3. 海量的數(shù)據(jù)分析需要專業(yè)的能力
  數(shù)據(jù)分析越來越復(fù)雜,甚至成為一個(gè)生態(tài)系統(tǒng),對(duì)于一個(gè)企業(yè)來說,要做數(shù)據(jù)分析,往往需要一個(gè)團(tuán)隊(duì),需要購買商業(yè)產(chǎn)品,需要服務(wù)商的支持。如圖2,從mattturk.com網(wǎng)站總結(jié)的數(shù)據(jù)和AI生態(tài)藍(lán)圖可以看出數(shù)據(jù)分析的復(fù)雜性。
  圖2 數(shù)據(jù)和AI生態(tài)藍(lán)圖
  (來源,mattturk.com網(wǎng)站)
  4. 安全合規(guī)方面面臨挑戰(zhàn)
  我國(guó)于2017年6月1日正式實(shí)施《中華人民共和國(guó)網(wǎng)絡(luò)安全法》。在數(shù)據(jù)安全也有諸多規(guī)定。明確規(guī)定了網(wǎng)絡(luò)運(yùn)營(yíng)者不得泄露、篡改、毀損其收集的個(gè)人信息;未經(jīng)被收集者同意,不得向他人提供個(gè)人信息。
  歐盟于2018年5月25日正式實(shí)施了《通用數(shù)據(jù)保護(hù)條例》 (General Data Protection Regulation,簡(jiǎn)稱GDPR),GDPR是一項(xiàng)保護(hù)歐盟公民個(gè)人隱私和數(shù)據(jù)的法律,其適用范圍不僅包括歐盟成員國(guó)境內(nèi)企業(yè)的個(gè)人數(shù)據(jù)、也包括歐盟境外企業(yè)處理歐盟公民的個(gè)人數(shù)據(jù)。
  2019年5月28日國(guó)家互聯(lián)網(wǎng)信息辦公室發(fā)布《數(shù)據(jù)安全管理辦法》(征求意見稿)。征求意見稿中包括數(shù)據(jù)收集、數(shù)據(jù)處理使用和數(shù)據(jù)安全監(jiān)督管理等內(nèi)容。
  這四個(gè)方面的挑戰(zhàn),中小企業(yè)面臨的挑戰(zhàn)更大,大型企業(yè)面臨的是效率問題,中小企業(yè)則面臨的是數(shù)據(jù)戰(zhàn)略如何落地的問題,而AWS推出的數(shù)據(jù)湖服務(wù),可以很好的解決這四個(gè)挑戰(zhàn)。
  三、AWS數(shù)據(jù)湖,通過組合拳解決數(shù)據(jù)難題
  圖3 AWS的數(shù)據(jù)湖服務(wù)架構(gòu)
  (圖來源,AWS公開資料)
  如圖3,AWS的數(shù)據(jù)湖實(shí)際上由一系列產(chǎn)品和服務(wù)構(gòu)成:
  • Amazon RDS:云托管的關(guān)系型數(shù)據(jù)庫,支持Amazon Aurora、MySql、Postgre SQL、MariaDB、Microsoft SQL Server、ORACLE等六種常用的關(guān)系型數(shù)據(jù)庫。
  • Amazon Redshift:數(shù)據(jù)倉庫,性能強(qiáng)大、使用簡(jiǎn)單,全托管的數(shù)據(jù)倉庫服務(wù),支持大規(guī)模并行處理, 支持從GB到TB規(guī)模數(shù)據(jù)的擴(kuò)展。
  • Amazon EMR:大數(shù)據(jù)處理,在AWS上運(yùn)行Spark, Hadoop, Hive, Presto, Hbase等大數(shù)據(jù)分析,高度可擴(kuò)展的分析和機(jī)器學(xué)習(xí)服務(wù)。
  • Amazon Kinesis:實(shí)時(shí)數(shù)據(jù),實(shí)時(shí)收集、處理并分析視頻和流數(shù)據(jù)。
  • Amazon Athena:數(shù)據(jù)交互查詢,使用標(biāo)準(zhǔn)SQL對(duì)Amazon S3上的數(shù)據(jù)做交互查詢,無需基礎(chǔ)設(shè)施及配置,無需另外加載數(shù)據(jù)。
  • AWS Glue:ETL 和數(shù)據(jù)目錄服務(wù),無服務(wù)器架構(gòu)的數(shù)據(jù)目錄和ETL服務(wù)。AWS Glue 使用能識(shí)別常用數(shù)據(jù)格式和數(shù)據(jù)類型的預(yù)構(gòu)建分類器(classifiers)抓取數(shù)據(jù)源并構(gòu)建數(shù)據(jù)目錄,包括 CSV、Apache Parquet、JSON 等。
  • AWS Lake Formation:可以自動(dòng)化構(gòu)建數(shù)據(jù)湖。
  通過以上產(chǎn)品和服務(wù)的組合,AWS的數(shù)據(jù)湖有以下特點(diǎn):
  1. 可以快速的構(gòu)建數(shù)據(jù)湖
  AWS Lake Formation 可以自動(dòng)化構(gòu)建數(shù)據(jù)湖,可以在數(shù)天內(nèi)構(gòu)建數(shù)據(jù)湖,而傳統(tǒng)方式需要一個(gè)經(jīng)驗(yàn)豐富的團(tuán)隊(duì),花費(fèi)數(shù)個(gè)月的時(shí)間。
  2. 兼容多種數(shù)據(jù)格式,支持分級(jí)存儲(chǔ)
  AWS數(shù)據(jù)湖支持關(guān)系型和非關(guān)系型數(shù)據(jù)庫,Amazon S3 提供五個(gè)存儲(chǔ)類別和自動(dòng)數(shù)據(jù)生命周期管理。Amazon Redshift 的速度比其他云數(shù)據(jù)倉庫要快3倍。
  3. 支持不同數(shù)據(jù)庫連接和數(shù)據(jù)交互查詢及
  通過AWS Glue和Amazon Athena服務(wù),可以實(shí)現(xiàn)不同數(shù)據(jù)庫連接及數(shù)據(jù)湖數(shù)據(jù)交互查詢。
  AWS Glue最主要有兩個(gè)功能,一個(gè)是ETL,ETL是Extract、Transform和Load,即數(shù)據(jù)的抽取、轉(zhuǎn)換和加載,從數(shù)據(jù)庫提取到數(shù)據(jù)倉庫使用的都是ETL。另外一個(gè)功能是數(shù)據(jù)目錄服務(wù)的功能,數(shù)據(jù)都存在數(shù)據(jù)湖里面,要對(duì)數(shù)據(jù)打標(biāo)簽,做分類工作,AWS Glue可以像爬蟲一樣對(duì)數(shù)據(jù)湖里的海量數(shù)據(jù)自動(dòng)爬取,生成數(shù)據(jù)目錄的功能。
  Amazon Athena支持使用SQL直接對(duì)S3數(shù)據(jù)交互式查詢,使快速存起來的海量的數(shù)據(jù)可以像傳統(tǒng)的使用SQL語言一樣,使用標(biāo)準(zhǔn)的數(shù)據(jù)庫查詢的語言,方便了技術(shù)人員的使用。
  4. 支持多種數(shù)據(jù)分析方式
  圖4 AWS數(shù)據(jù)分析組件
 。▓D來源,AWS公開資料)
  如圖4,AWS支持多種數(shù)據(jù)分析方式,數(shù)據(jù)通過各種數(shù)據(jù)庫采集,進(jìn)入數(shù)據(jù)湖,然后進(jìn)行分析和展現(xiàn)。
  數(shù)據(jù)分析Amazon EMR是重點(diǎn),Amazon EMR 提供在云中運(yùn)行 Apache Spark 和 Apache HIVE 工作負(fù)載。EMR 與 AWS 的其余部分進(jìn)行深度集成便于節(jié)省成本的功能,如 EC2 Spot 實(shí)例,從而將成本縮減高達(dá) 90%。
  另外,AWS數(shù)據(jù)分析支持 SQL、R、Scala、Jupyter 和 Python語言,所有的服務(wù)均支持使用開放 API 以開放格式(例如 Apache Paquet、Apache OR、Apache Avro)并使用專有(適用于數(shù)據(jù)倉庫的 Redshift)和開放引擎(例如 Spark、Hive)訪問單一對(duì)象存儲(chǔ) (S3) 中存儲(chǔ)的數(shù)據(jù)。
  更進(jìn)一步,AWS數(shù)據(jù)湖可以和機(jī)器學(xué)習(xí)和人工智能服務(wù)Amazon SageMaker結(jié)合,把數(shù)據(jù)用來做機(jī)器學(xué)習(xí)、人工智能的數(shù)據(jù)分析,做更多的自動(dòng)的預(yù)測(cè)性的分析。
  5. 安全
  AWS 提供了一套超越標(biāo)準(zhǔn)安全功能的工具,例如對(duì)安全策略積極監(jiān)控和統(tǒng)一管理的加密和訪問控制。例如,Amazon Macie 可幫助監(jiān)控?cái)?shù)據(jù)湖,以確保不會(huì)意外地暴露憑據(jù)或個(gè)人身份信息 (PII)。Amazon Inspector 可幫助實(shí)施最佳實(shí)踐和識(shí)別可能被利用的配置問題,利用 AWS Lake Formation,可以在所有分析服務(wù)中對(duì)數(shù)據(jù)湖中的數(shù)據(jù)進(jìn)行一致性的訪問控制。
  圖5 ,AWS數(shù)據(jù)湖平臺(tái)功能
 。▓D來源,AWS公開資料)
  AWS數(shù)據(jù)湖是成熟的解決方案,如圖5所示,可以提供多種功能,實(shí)現(xiàn)不同的業(yè)務(wù)價(jià)值。AWS數(shù)據(jù)湖已經(jīng)有許多用戶在使用,像娛樂業(yè)的二十一世紀(jì)福克斯電影公司。還有包括一些金融的案例,比如FINRA,是一個(gè)美國(guó)的金融監(jiān)管機(jī)構(gòu),每天有超過1500億的事件、20PB的數(shù)量,它把所有金融的交易的信息都整合在一起,可以處理所有的內(nèi)部交易。還有納斯達(dá)克交易所,使用數(shù)據(jù)湖處理每天500億條的付款,使用數(shù)據(jù)湖把上市時(shí)間縮短了1/3。
  四、總結(jié):AWS數(shù)據(jù)湖服務(wù)是數(shù)據(jù)戰(zhàn)略落地的強(qiáng)支點(diǎn)
  疫情期間的健康碼經(jīng)過精準(zhǔn)的數(shù)據(jù)分析,極大的方便了大家的出行,也讓大家進(jìn)一步認(rèn)識(shí)了數(shù)據(jù)分析的便利性。當(dāng)前,從政府到企業(yè),都普遍認(rèn)識(shí)到了數(shù)據(jù)的重要性。數(shù)據(jù)要發(fā)揮作用,必須經(jīng)過多維度的分析。今后五年,企業(yè)必須擁有清晰正確的數(shù)據(jù)戰(zhàn)略并高效的落地,數(shù)據(jù)戰(zhàn)略是通往卓越的必經(jīng)之路,企業(yè)要么因?yàn)閿?shù)據(jù)戰(zhàn)略的高效落地而卓越,要么死亡。
  AWS的數(shù)據(jù)湖服務(wù),能夠幫助企業(yè)解決數(shù)據(jù)的采集、存儲(chǔ)、分析、消費(fèi)等全周期的問題,為企業(yè)搭建了良好的數(shù)據(jù)平臺(tái),是企業(yè)數(shù)據(jù)戰(zhàn)略落地的強(qiáng)支點(diǎn),能夠有力推動(dòng)企業(yè)數(shù)字化轉(zhuǎn)型,是企業(yè)搶占先機(jī),贏得競(jìng)爭(zhēng)優(yōu)勢(shì)的利器。
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

專題

CTI論壇會(huì)員企業(yè)