首頁 云計算

AWS張俠深度解析“數據湖”的數據洞察能力

【TechWeb】3月30日,數字時代,企業海量數據隱藏的價值被空前重視,企業的信息和數據流被認為是“企業的血液流”。與此同時,“把企業的數據化資產使用好”、“如何從大量數據中獲得信息洞察未來”,這些成為企業和業內專家不懈追求的能力。

近日AWS首席云計算企業戰略顧問張俠向媒體介紹了“AWS數據湖”在實現“企業數據洞察”中的最新技術成果和應用表現。

張俠表示,數據本身的價值在于從里面提取出真正有用的“信息”,把這些信息歸類樹立成“知識”,然后用這些知識來指導企業的“行動”, 幫企業來運營業務、幫客戶實現業務需求、提高客戶滿意度等等,最終為企業創造更多的價值。

“數據湖”老概念煥發新活力

“數據湖”這個概念早在2011年就被提出,發展至今已經走過9個年頭。“我把數據湖的發展分為兩個階段”,張俠表示,“前期數據湖只是一個初級的概念,有一些開源的應用;得益于云計算提供的海量存儲、高性能計算的能力,大概從四年前開始,數據湖進入第二階段,隨著各項元素的逐一到位,AWS數據湖基本上成熟。”

那么,數據湖究竟是什么?

在張俠看來,數據湖是一個中心數據存儲的容器,這個容器可以存儲格式化、非格式化的各種各樣的數據;這些數據非常容易被快速縮放、有各種方法和工具對這些數據進行查詢、可以做各種各樣的分析。

通俗的講,本來數據很多是結構型數據、交易型數據,比如什么東西多少價格、什么人多大年齡,這些都是很規矩的放在一個一個數據庫和數據倉庫的小格子里的,但是現在有一套方法,這套方法把任何類型的數據庫,結構型的、非結構型的,非結構型的包括電子郵件、視頻的、音頻的、圖形的、一些文章、一些照片等等,都可以直接把它存下來,我們利用現在云計算時代海量存儲的能力和各種新的查詢的能力,還有各種數據分析和處理的能力,直接對這些原始的數據來做查詢,這就是數據湖的時代。

張俠也強調,數據湖特別適用做一些數據科學家、數據研究人員要用的探索性質的數據查詢和分析。原來有一類數據科學家是做那種數據挖掘的,這一類數據科學家要做的工作,數據湖尤其適用,因為數據湖對所有數據都能兼容、保持靈活性特別適合做探索性、預測性、研究性、前瞻性的服務。

AWS數據湖三大元素

在幫助企業構建數據湖上,AWS推出了一系列關鍵服務。張俠介紹,數據湖的操作步驟通常包括:把數據設置、存儲;再把數據按需要移動、加載到不同地方;然后把數據清理好,建成數據目錄。這些數據要安全的、合規的存好、管好,需要的時候使用工具把這些數據拿出來做各種分析。

基于此,目前AWS數據湖主要包含三大元素:一是Amazon S3/Glacier;二是AWS Glue;三是AWS Lake Formation。

張俠介紹:“Amazon S3,可以存所有各類的數據,它有11個9的數據持久性,它是在云上面三個可用區存了六份,互為備份。它后端還有一個冷存儲叫Amazon Glacier (glacier的意思是冰河) 。如果這個數據不常用,我們可以轉到那里面,費用可以降低很多,只是多需要三四個小時把它拿出來。冷存儲還有一個深度的冷存儲Deep Archive。除了這個以外,在我開始講之前,還有一個叫Amazon DynamoDB,是一個非關系型數據庫,存鍵值這類的數據。在游戲里面比如每個玩家是第幾級、有多少血、用什么樣的武器,這樣的數都是鍵值配對的數。全球有大量這樣的數據都存儲在Amazon DynamoDB這樣的非關系型數據庫。“

AWS Glue則是一種全托管的數據提取、轉換和加載 (ETL) 服務及元數據目錄。它讓客戶更容易準備數據,加載數據到數據庫、數據倉庫和數據湖,用于數據分析。使用AWS Glue,在幾分鐘之內便可以準備好數據用于分析。AWS Glue消除了ETL作業基礎設施方面的所有重復勞動,讓Amazon S3數據湖中的數據集可以被發現、可用于查詢和分析,極大地縮短分析項目中做ETL和數據編目階段的時間,讓ETL變得很容易。

AWS Lake Formation則能把建立數據湖的這套工作自動化,幫助企業客戶來操作,可以使很多企業在短短的幾天時間內就完成數據湖的建設工作。

目前AWS Lake Formation尚未在中國正式推出。

AWS數據湖的應用

據張俠介紹,AWS數據湖已經在全球范圍內得到廣泛應用。

以亞馬遜自己為例,亞馬遜曾經是Oracle全球數據庫最大的用戶,它使用了75PB的數據庫,用了7500多個數據庫的例子,整個亞馬遜里面1000多個不同的團隊,從運營、電商、市場營銷、庫存,幾乎業務的很多方面原來都是基于Oracle的數據庫。亞馬遜在過去一年半到兩年的時間做了一件事情,就是全方位的遷出了Oracle的數據庫,去年11月份亞馬遜全部遷移了Oracle的數據庫,遷移到亞馬遜自己相對應的產品。

“這個遷移解決了原來擴展困難、費用昂貴等等一系列的問題,減少了數據庫費用成本60%,減少了管理費用70%,增加的性能高達40%。”張俠介紹道。

此外,金融行業領域,美國納斯達克交易所也是用了AWS數據湖產品。通過使用數據湖每天處理500億條的付款,使用數據湖把產品上市時間縮短了1/3,有很好的服務能力。

張俠表示:“AWS數據湖一個很大的優勢是把所有這些服務整合在一起,統一的接口、統一的標準,包括像無服務器計算,用了AWS Glue以后,這邊接了AWS Lambda,再接了AWS Step Functions,亞馬遜那些其他的服務早都做好了這種無服務器的接口,所以一下子全部都打通了,這是數據湖得以廣泛有效應用的其中一個原因。”

張俠強調:“所以我個人認為,數據湖到了一個真的要好好研究、使用的階段了。數據湖在中國處于一個發展相對早期的階段,這個時機非常重要,在經濟數字化轉型時代,數據湖的應用、作用性越來越強,下一代互聯網、電商、5G、邊緣計算等都發展起來以后,與之相對應的我們更要走數據湖對數據的存儲、分析的道路,所以我們覺得如果利用這個時機把這些知識很好的提供給我們公眾和行業的有關人員,中國的使用甚至是這些相關的服務都能更好的發展起來,那是我們非常喜聞樂見的。”

官方微博/微信

每日頭條、業界資訊、熱點資訊、八卦爆料,全天跟蹤微博播報。各種爆料、內幕、花邊、資訊一網打盡。百萬互聯網粉絲互動參與,TechWeb官方微博期待您的關注。

↑掃描二維碼

想在手機上看科技資訊和科技八卦嗎?

想第一時間看獨家爆料和深度報道嗎?

請關注TechWeb官方微信公眾帳號:

1.用手機掃左側二維碼;

2.在添加朋友里,搜索關注TechWeb。

手機游戲更多

秒速时时彩一期一计划 北京快乐8属于什么彩 黑龙江11选5开奖号码 一码大公开王中王 股票交易软件哪个好 陕西十一选五开奖图 十一选五任3口诀 天津11选五开奖号码 线上股票配资平台大全 1分快3稳赚规律 极速时时彩早上几点开 幸运赛车公式图 十一选五任一中奖规则 河北快3开奖结果查询今天 中首投资 大类资产配置包括哪 股票配资公司