首頁(yè) 要聞 中國(guó) 經(jīng)濟(jì) 財(cái)經(jīng) 品牌 點(diǎn)評(píng) 會(huì)展 綜合 | 設(shè)為首頁(yè)
中國(guó)品牌要聞網(wǎng)-傳遞資訊的價(jià)值打造品牌的影響
您現(xiàn)在的位置:首頁(yè)/IT互聯(lián)網(wǎng)/ 正文
【2023云棲】劉一鳴:Data+AI時(shí)代大數(shù)據(jù)平臺(tái)建設(shè)的思考與發(fā)布
來源:
編輯:
時(shí)間:2023-11-15

本文根據(jù)2023云棲大會(huì)演講實(shí)錄整理而成,演講信息如下:

演講人:劉一鳴 | 阿里云自研大數(shù)據(jù)產(chǎn)品負(fù)責(zé)人

演講主題:Data+AI時(shí)代大數(shù)據(jù)平臺(tái)應(yīng)該如何建設(shè)

今天分享的主題是Data+AI時(shí)代大數(shù)據(jù)平臺(tái)應(yīng)該如何建設(shè),這個(gè)話題既是對(duì)我們過去一年工作的反思和總結(jié),同時(shí)也是希望通過這個(gè)反思和總結(jié),不管大家是否使用阿里云的平臺(tái)和技術(shù),在未來大數(shù)據(jù)平臺(tái)的選型、運(yùn)維、創(chuàng)新上都可以有一些啟發(fā),同時(shí)也會(huì)思考未來大數(shù)據(jù)人的角色、工作方式是否有一些新的變化。

阿里云大數(shù)據(jù)的核心是兩款分布式計(jì)算引擎,在ODPS(Open Data Processing Platform)品牌之下,今天的分享也會(huì)更多圍繞ODPS的兩個(gè)核心引擎來講(面向批量數(shù)據(jù)加工和海量存儲(chǔ)的MaxCompute、面向?qū)崟r(shí)數(shù)倉(cāng)以及交互式分析場(chǎng)景的Hologres)。下面進(jìn)入正題,希望跟大家分享我們過去做平臺(tái)時(shí)候的反思,什么能力是關(guān)鍵能力,以及今年我們做了哪些能力的提升。

降本能力:靈活的付費(fèi)模式驅(qū)動(dòng)大數(shù)據(jù)成本的顯著下降

降本能力是每個(gè)大數(shù)據(jù)平臺(tái)的核心能力,特別是作為公共云上的服務(wù)方,我們不希望大家使用云上的大數(shù)據(jù)平臺(tái)是一個(gè)成本的黑洞,越用越貴,每年老板說錢花哪里去還說不清楚,我們希望不僅給用戶提供一個(gè)成本費(fèi)用說得清楚用得明白的平臺(tái),也希望給用戶提供一個(gè)通過正確使用產(chǎn)品可以不斷降低單位擁有成本的平臺(tái)。降本從不意味著要使用更便宜的規(guī)格,更少的資源,這會(huì)潛在犧牲平臺(tái)的服務(wù)質(zhì)量,不是正確的降本姿勢(shì),低價(jià)往往質(zhì)量缺少保障,最后會(huì)收獲更低質(zhì)量的服務(wù),更低質(zhì)量的研發(fā)投入,最后導(dǎo)致平臺(tái)無法維系。

合理的降本方式首先是選擇合適的采購(gòu)策略、付費(fèi)策略,選擇一個(gè)合適的技術(shù)。以MaxCompute為例,平臺(tái)提供多種付費(fèi)方式,從比較經(jīng)典的預(yù)付費(fèi)或者叫包年包月,到用得最多的后付費(fèi)或者叫按量付費(fèi)的模型。預(yù)付費(fèi)對(duì)預(yù)算控制更精確,費(fèi)用提前說清楚,但資源使用受限制,無法滿足臨時(shí)性需求,也會(huì)產(chǎn)生閑置資源的空閑浪費(fèi)。按量付費(fèi)模型根據(jù)實(shí)際業(yè)務(wù)規(guī)模產(chǎn)生費(fèi)用,無需提前做容量規(guī)劃,但實(shí)際費(fèi)用容易超出預(yù)算控制。現(xiàn)在我們希望把兩種模式做一些結(jié)合。

我們看到大部分?jǐn)?shù)據(jù)加工作業(yè)都具備一定的時(shí)間規(guī)律,夜間往往高峰期,早上上班看到計(jì)算結(jié)果,白天相對(duì)水位是低峰期,這里可以利用MaxCompute的分時(shí)彈性能力,日常低水位運(yùn)行,高峰期彈性出來額外資源。分時(shí)彈性去年上線的,今年通過對(duì)庫(kù)存管理的優(yōu)化,實(shí)現(xiàn)庫(kù)存效率上的提升,920日開始MaxCompute彈性部分的CU單價(jià)直接降低50%。如果一天有8h作業(yè)跑不滿的情況,采用分時(shí)作業(yè)的方式一定是降本的,希望每個(gè)用戶可以根據(jù)大家實(shí)際使用場(chǎng)景去選擇分時(shí)策略。

原理類似ECS上的Spot Instance,MaxCompute今年推出了閑時(shí)作業(yè),也通常叫做SpotJob,定價(jià)直接是按量付費(fèi)定價(jià)的三分之一,閑時(shí)作業(yè)是把大數(shù)據(jù)集群的閑置資源服務(wù)出來,不一定保障每天運(yùn)行的時(shí)候都能得到一樣的資源,執(zhí)行一樣快,在集群繁忙時(shí)會(huì)有更多的作業(yè)等待時(shí)間,但對(duì)于延時(shí)不敏感的作業(yè),如歷史數(shù)據(jù)的導(dǎo)入、日常開發(fā)調(diào)試作業(yè)的場(chǎng)景,通過使用閑時(shí)作業(yè)可以有效降本66%。

分時(shí)彈性既能滿足彈性,也能滿足預(yù)算的管理,那么該怎么設(shè)置是最優(yōu)的?MaxCompute發(fā)布了成本優(yōu)化器,幫助用戶分析過去30天所有作業(yè)的資源分布特征,展示出高峰期和低谷期,給出彈性策略應(yīng)該怎么設(shè)計(jì)的建議。在彈性的基礎(chǔ)上,我們給作業(yè)增加了一個(gè)關(guān)鍵的約束條件叫基線,基線之前的作業(yè)需要足夠的資源保障,讓結(jié)果準(zhǔn)時(shí)計(jì)算出來,基線之后的作業(yè)可以跑慢一些,更節(jié)省資源和費(fèi)用,這樣就區(qū)分了作業(yè)的優(yōu)先級(jí)和重要性。絕大部分用戶使用成本優(yōu)化器之后,通常有20%以上成本降低,建議大家可以盡快采用起來。

接下來我們談?wù)劥鎯?chǔ)如何降本。數(shù)據(jù)在實(shí)際使用時(shí)會(huì)分特征,有些數(shù)據(jù)是高頻訪問,數(shù)據(jù)的重要性有可能更高,有些數(shù)據(jù)是低頻訪問數(shù)據(jù),一個(gè)月就讀取一兩次,有的數(shù)據(jù)是審計(jì)要求,不可以刪除,一年不一定訪問一次。數(shù)據(jù)有價(jià)值分配,那么我們的數(shù)據(jù)成本是否也應(yīng)該有分層設(shè)計(jì)呢?當(dāng)然。MaxCompute為不同訪問特征,不同價(jià)值數(shù)據(jù)提供不同的存儲(chǔ)能力,分層存儲(chǔ)提供了分層的單價(jià)。通過分層存儲(chǔ)的方式可以看到一些低頻訪問的數(shù)據(jù),長(zhǎng)期訪問的數(shù)據(jù)成本可以降到以前的三分之一。

計(jì)算和存儲(chǔ)可以通過平臺(tái)的使用策略來節(jié)省成本,其實(shí)還可以通過存儲(chǔ)技術(shù)的創(chuàng)新實(shí)現(xiàn)進(jìn)一步的降本。JSON是互聯(lián)網(wǎng)上使用非常廣泛的數(shù)據(jù)結(jié)構(gòu),半結(jié)構(gòu)化,查詢靈活,存儲(chǔ)也方便,Schema可以隨時(shí)調(diào)整,但過去JSON如果用字符串去存儲(chǔ)的時(shí)候,哪怕僅僅訪問一個(gè)字節(jié),也需要把幾兆字節(jié)全部解析出來,對(duì)計(jì)算和IO都是極大的浪費(fèi)。另一種方案是JSON數(shù)據(jù)落庫(kù)前,提前進(jìn)行JSON結(jié)構(gòu)的打?qū)挘枰罅康募庸ぷ鳂I(yè),也是對(duì)計(jì)算資源的浪費(fèi)。

如何有效提升JSON數(shù)據(jù)類型的存儲(chǔ)和訪問效率成為大數(shù)據(jù)平臺(tái)的關(guān)鍵能力,今年包括MaxCompute和Hologres,都提供JSON原生化的管理能力,包括元數(shù)據(jù)支持和存儲(chǔ)列式壓縮,把半結(jié)構(gòu)化作為一級(jí)處理類型來支持,在用戶實(shí)踐中,絕大部分用戶的JSON存儲(chǔ)成本會(huì)降到以前的五分之一,而且查詢會(huì)變得更快。

輕運(yùn)維能力:Serverless變革大數(shù)據(jù)運(yùn)維模式

云上大數(shù)據(jù)平臺(tái),應(yīng)該提供運(yùn)維足夠簡(jiǎn)單易用,把臟活累活幫助使用者運(yùn)維掉,幫助大數(shù)據(jù)工程師實(shí)現(xiàn)角色升級(jí),從過去相對(duì)被動(dòng)每天考慮系統(tǒng)平臺(tái)的穩(wěn)定性、擴(kuò)展性、資源如何分配、備份、容災(zāi)、升級(jí)、修bug這些臟活累活中解脫出來,轉(zhuǎn)變成數(shù)據(jù)的分析師,變成AI專家,變成領(lǐng)域?qū)<,而不是做重?fù)的運(yùn)維工作。

我們認(rèn)為Serverless架構(gòu)是解決運(yùn)維問題的關(guān)鍵,那么如何做Serverless架構(gòu)呢?從大數(shù)據(jù)架構(gòu)上講,通常我們分三種:1.Shared-Nothing架構(gòu),存算一體。通過節(jié)點(diǎn)之間的橫向擴(kuò)展,實(shí)現(xiàn)計(jì)算力和存儲(chǔ)能力的提升。2.Shared-Everything,計(jì)算存儲(chǔ)全部解耦開來,所有的資源都可以共享。3. Shared-Data,Data部分是共享,計(jì)算部分隔離開來,提供更好的隔離能力。每個(gè)技術(shù)會(huì)選擇不同架構(gòu)。

MaxCompute選擇Shared-Everything,對(duì)平臺(tái)側(cè)的隔離技術(shù)實(shí)現(xiàn)要求很高,對(duì)運(yùn)維側(cè)、調(diào)度側(cè)要求更高,所有計(jì)算資源、存儲(chǔ)資源是共享在統(tǒng)一的公共集群里。Hologres選擇Shared-Data架構(gòu),這個(gè)系統(tǒng)需要更多考慮在線服務(wù)場(chǎng)景下資源的隔離和穩(wěn)定性,所以不同系統(tǒng)選擇不同架構(gòu)。

這個(gè)架構(gòu)背后我們會(huì)把整個(gè)集群當(dāng)做一個(gè)統(tǒng)一的計(jì)算資源來管理。對(duì)用戶來說最大價(jià)值是,不僅是使用成本的降低,不需要提前做容量規(guī)劃,更重要的是,不需要處理復(fù)雜的升級(jí)運(yùn)維,讓用戶可以實(shí)現(xiàn)零停機(jī)的方式實(shí)現(xiàn)版本的迭代,這都是Serverless架構(gòu)創(chuàng)造的價(jià)值,平臺(tái)側(cè)希望把臟活累活,包括升級(jí)、備份、災(zāi)備、彈性這些事情通過架構(gòu)的方式把它解決,這也是Serverless背后核心的理念。

大家過去講Serverless更多講資源上省錢,只為使用的資源付費(fèi),而我相信Serverless更多是把運(yùn)維方式轉(zhuǎn)變,讓工程師更聚焦到價(jià)值的創(chuàng)造上。

Hologres在Serverless架構(gòu)上一直演進(jìn),今年提出了彈性計(jì)算組的概念,這個(gè)計(jì)算組概念背后是共享數(shù)據(jù),共享接入層,但在計(jì)算節(jié)點(diǎn)上做了資源切分,當(dāng)不同業(yè)務(wù)團(tuán)隊(duì)使用同一份數(shù)據(jù)的時(shí)候,每個(gè)團(tuán)隊(duì)可以為自己的使用場(chǎng)景去彈性分配資源,同時(shí)保障數(shù)據(jù)的一致性,支持實(shí)時(shí)寫入,實(shí)時(shí)查詢,這是在Hologres上做的創(chuàng)新。

開放能力:湖倉(cāng)一體與開放性

在談到大數(shù)據(jù)平臺(tái)的開放性時(shí),更多講Open Storage + Open Format,今天阿里的大數(shù)據(jù)平臺(tái)希望做到更多一層。云計(jì)算對(duì)技術(shù)的開放性要求會(huì)更高,一方面云廠商不希望自己變成綁架用戶的角色,MaxCompute也不希望大家使用之后就被綁架在平臺(tái)上,不可以切換。另一方面云平臺(tái)上不同技術(shù)之間交互的強(qiáng)度、密度是遠(yuǎn)大于線下的,技術(shù)之間需要分鐘級(jí)部署,分鐘級(jí)打通,用戶對(duì)技術(shù)的交互性要求很高,我們希望把開放性做得很徹底,我們不希望把創(chuàng)新只放在自己手里,我們希望把創(chuàng)新交還給用戶。

首先,阿里云的大數(shù)據(jù)完全擁抱Open Storage + Open Format,提供了湖倉(cāng)一體的解決方案,為用戶提供接近原生的元數(shù)據(jù)管理和數(shù)據(jù)讀寫體驗(yàn)。對(duì)于什么是湖倉(cāng)一體,行業(yè)內(nèi)有兩個(gè)思路,一個(gè)是在湖上長(zhǎng)出一個(gè)倉(cāng),把湖變成倉(cāng)。典型特點(diǎn)是把湖上的數(shù)據(jù)結(jié)構(gòu)提供更好的更新能力,接近數(shù)據(jù)庫(kù)的開發(fā)體驗(yàn)。另一個(gè)方式從倉(cāng)的管理能力拓展外表能力,實(shí)現(xiàn)湖上半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)以元數(shù)據(jù)方式管理起來,相當(dāng)于倉(cāng)去管理湖,這也是湖倉(cāng)一體的形態(tài)。MaxCompute是第二種形態(tài),用倉(cāng)去管湖,把存在OSS上的Hudi格式、Delta Lake等格式,包括今年阿里自己創(chuàng)新的Paimon格式,都可以在MaxCompute和Hologres中作為外表直接訪問。同時(shí)也做了一些創(chuàng)新,把OSS上的非結(jié)構(gòu)化文件定義為抽象的目錄表,這樣在數(shù)倉(cāng)里可以用更加精細(xì)化的安全管控方式去做授權(quán),哪些用戶可以訪問哪些文件,怎么訪問,包括審計(jì)都可以記錄下來。

湖倉(cāng)一體最關(guān)鍵是元數(shù)據(jù)的管理,數(shù)據(jù)不管存在倉(cāng)上、湖上,需要有一個(gè)統(tǒng)一的視圖可以看到所有的元數(shù)據(jù),數(shù)據(jù)被誰定義,數(shù)據(jù)怎么解析,這是湖倉(cāng)一體核心的概念,而并不是一定是一個(gè)系統(tǒng)還是兩個(gè)系統(tǒng)。

MaxCompute今年在開放性上有很大的變化。大家過去認(rèn)為倉(cāng)的理念是數(shù)據(jù)計(jì)算都在這兒,但我們今天希望MaxCompute存儲(chǔ)作為獨(dú)立的產(chǎn)品形態(tài)對(duì)外提供服務(wù),把Storage這一層提供產(chǎn)品化的能力,提供Storage API,支持高吞吐、高性能的原生IO接口。不管使用機(jī)器學(xué)習(xí)的PAI平臺(tái)還是使用Spark、Presto,都可以像MaxCompute原生的SQL引擎一樣去訪問倉(cāng)里的數(shù)據(jù),我們希望把自研大數(shù)據(jù)平臺(tái)的數(shù)據(jù)開放出去,支持用戶使用第三方引擎持續(xù)創(chuàng)新。

智能優(yōu)化能力:AI加持的智能數(shù)倉(cāng)

過去做優(yōu)化的時(shí)候很依賴于DBA同學(xué)對(duì)一個(gè)數(shù)倉(cāng)技術(shù)原理的理解,在云的時(shí)代,用戶把數(shù)據(jù)托管到云平臺(tái)上,云平臺(tái)就有很大責(zé)任幫助用戶做好優(yōu)化這件事。我們希望從過去基于經(jīng)驗(yàn)的運(yùn)維向智能化運(yùn)維前進(jìn)。

比如MaxCompute通過物化視圖把公共的SQL計(jì)算子集推薦出來,實(shí)現(xiàn)資源的復(fù)用,這是一種空間換時(shí)間非常有效的方法。經(jīng)過一年多時(shí)間的迭代,在推薦效率上已經(jīng)做了很大的改進(jìn),絕大部分推薦出來的物化視圖質(zhì)量都是很高,可以做到成本的節(jié)省和效率上的提升。

大數(shù)據(jù)成為AI的基礎(chǔ)設(shè)施

今年AI很熱,很多了不起的創(chuàng)新,但其實(shí)AI的創(chuàng)新中,大數(shù)據(jù)也扮演了關(guān)鍵的基礎(chǔ)設(shè)施角色。同時(shí)我們也希望用了云上大數(shù)據(jù)平臺(tái)的用戶,不需要再做那些低效繁重的運(yùn)維工作,而是更多做一些AI上的場(chǎng)景和應(yīng)用創(chuàng)新。我們也提出了大數(shù)據(jù)AI一體化,事實(shí)上大數(shù)據(jù)AI是各有分工,大數(shù)據(jù)為AI提供數(shù)據(jù)的支撐,這包括大數(shù)據(jù)平臺(tái)要做好規(guī)模數(shù)據(jù)的處理,提供分布式計(jì)算框架,提供科學(xué)計(jì)算的一站式開發(fā)環(huán)境,其次機(jī)器學(xué)習(xí)平臺(tái)也會(huì)為大數(shù)據(jù)平臺(tái)提供優(yōu)化的算法、優(yōu)化的模型。

在過去SQL的基礎(chǔ)上,我們認(rèn)為Python也應(yīng)該成為MaxCompute平臺(tái)的一級(jí)開發(fā)語(yǔ)言。MaxCompute全新發(fā)布,One Env+One Data+One Code,這背后核心就是提供一個(gè)Python的運(yùn)行環(huán)境,一個(gè)Notebook的交互式開發(fā)體驗(yàn),讓有SQL基礎(chǔ)的同學(xué),有Python經(jīng)驗(yàn)的同學(xué),需要利用Python Library進(jìn)行數(shù)據(jù)處理的場(chǎng)景,可以在統(tǒng)一的開發(fā)環(huán)境下,實(shí)現(xiàn)高效率的開發(fā)和調(diào)試,實(shí)現(xiàn)Python和coMaxCompute數(shù)據(jù)的原生打通。

全面升級(jí)DataFrame能力,發(fā)布分布式計(jì)算框架MaxFrame,100%兼容Pandas等數(shù)據(jù)處理接口,通過一行代碼即可將原生Pandas自動(dòng)轉(zhuǎn)為MaxFrame分布式計(jì)算,打通數(shù)據(jù)管理、大規(guī)模數(shù)據(jù)分析、處理到ML開發(fā)全流程,打破大數(shù)據(jù)及AI開發(fā)使用邊界,大大提高開發(fā)效率。

最后講下向量數(shù)據(jù)庫(kù),Hologres內(nèi)置達(dá)摩院向量引擎Proxima,支持高性能、實(shí)時(shí)化的向量檢索服務(wù)。使用SQL接口可以訪問向量數(shù)據(jù),在原有交互式分析場(chǎng)景下幫助大家更好使用AI場(chǎng)景。

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與本網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí), 對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾, 請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。當(dāng)事人(單位)如有異議,請(qǐng)參閱《刪帖說明》辦理。
中國(guó)品牌要聞網(wǎng)-傳遞資訊的價(jià)值打造品牌的影響
編輯:綜合整理
2024-08-29
評(píng)論(0)
編輯:綜合整理
2024-06-11
評(píng)論(0)
  • CopyRight@ 2005-2022 中國(guó)品牌要聞網(wǎng)
  • 工商注冊(cè)號(hào) 430122000189097
  • ICP備案許證:渝ICP備2022012785號(hào)