毛片免费观看成人,女生插逼,精品一区二区三区视频在线观看免

【2023云棲】劉一鳴：Data+AI時(shí)代大數(shù)據(jù)平臺(tái)建設(shè)的思考與發(fā)布

來源：

編輯：

時(shí)間：2023-11-15

本文根據(jù)2023云棲大會(huì)演講實(shí)錄整理而成，演講信息如下：

演講人：劉一鳴 | 阿里云自研大數(shù)據(jù)產(chǎn)品負(fù)責(zé)人

演講主題：Data+AI時(shí)代大數(shù)據(jù)平臺(tái)應(yīng)該如何建設(shè)

今天分享的主題是Data+AI時(shí)代大數(shù)據(jù)平臺(tái)應(yīng)該如何建設(shè)，這個(gè)話題既是對(duì)我們過去一年工作的反思和總結(jié)，同時(shí)也是希望通過這個(gè)反思和總結(jié)，不管大家是否使用阿里云的平臺(tái)和技術(shù)，在未來大數(shù)據(jù)平臺(tái)的選型、運(yùn)維、創(chuàng)新上都可以有一些啟發(fā)，同時(shí)也會(huì)思考未來大數(shù)據(jù)人的角色、工作方式是否有一些新的變化。

阿里云大數(shù)據(jù)的核心是兩款分布式計(jì)算引擎，在ODPS（Open Data Processing Platform）品牌之下，今天的分享也會(huì)更多圍繞ODPS的兩個(gè)核心引擎來講（面向批量數(shù)據(jù)加工和海量存儲(chǔ)的MaxCompute、面向?qū)崟r(shí)數(shù)倉(cāng)以及交互式分析場(chǎng)景的Hologres）。下面進(jìn)入正題，希望跟大家分享我們過去做平臺(tái)時(shí)候的反思，什么能力是關(guān)鍵能力，以及今年我們做了哪些能力的提升。

降本能力：靈活的付費(fèi)模式驅(qū)動(dòng)大數(shù)據(jù)成本的顯著下降

降本能力是每個(gè)大數(shù)據(jù)平臺(tái)的核心能力，特別是作為公共云上的服務(wù)方，我們不希望大家使用云上的大數(shù)據(jù)平臺(tái)是一個(gè)成本的黑洞，越用越貴，每年老板說錢花哪里去還說不清楚，我們希望不僅給用戶提供一個(gè)成本費(fèi)用說得清楚用得明白的平臺(tái)，也希望給用戶提供一個(gè)通過正確使用產(chǎn)品可以不斷降低單位擁有成本的平臺(tái)。降本從不意味著要使用更便宜的規(guī)格，更少的資源，這會(huì)潛在犧牲平臺(tái)的服務(wù)質(zhì)量，不是正確的降本姿勢(shì)，低價(jià)往往質(zhì)量缺少保障，最后會(huì)收獲更低質(zhì)量的服務(wù)，更低質(zhì)量的研發(fā)投入，最后導(dǎo)致平臺(tái)無法維系。

合理的降本方式首先是選擇合適的采購(gòu)策略、付費(fèi)策略，選擇一個(gè)合適的技術(shù)。以MaxCompute為例，平臺(tái)提供多種付費(fèi)方式，從比較經(jīng)典的預(yù)付費(fèi)或者叫包年包月，到用得最多的后付費(fèi)或者叫按量付費(fèi)的模型。預(yù)付費(fèi)對(duì)預(yù)算控制更精確，費(fèi)用提前說清楚，但資源使用受限制，無法滿足臨時(shí)性需求，也會(huì)產(chǎn)生閑置資源的空閑浪費(fèi)。按量付費(fèi)模型根據(jù)實(shí)際業(yè)務(wù)規(guī)模產(chǎn)生費(fèi)用，無需提前做容量規(guī)劃，但實(shí)際費(fèi)用容易超出預(yù)算控制。現(xiàn)在我們希望把兩種模式做一些結(jié)合。

我們看到大部分?jǐn)?shù)據(jù)加工作業(yè)都具備一定的時(shí)間規(guī)律，夜間往往高峰期，早上上班看到計(jì)算結(jié)果，白天相對(duì)水位是低峰期，這里可以利用MaxCompute的分時(shí)彈性能力，日常低水位運(yùn)行，高峰期彈性出來額外資源。分時(shí)彈性去年上線的，今年通過對(duì)庫(kù)存管理的優(yōu)化，實(shí)現(xiàn)庫(kù)存效率上的提升，在9月20日開始MaxCompute彈性部分的CU單價(jià)直接降低50%。如果一天有8h作業(yè)跑不滿的情況，采用分時(shí)作業(yè)的方式一定是降本的，希望每個(gè)用戶可以根據(jù)大家實(shí)際使用場(chǎng)景去選擇分時(shí)策略。

原理類似ECS上的Spot Instance，MaxCompute今年推出了閑時(shí)作業(yè)，也通常叫做SpotJob，定價(jià)直接是按量付費(fèi)定價(jià)的三分之一，閑時(shí)作業(yè)是把大數(shù)據(jù)集群的閑置資源服務(wù)出來，不一定保障每天運(yùn)行的時(shí)候都能得到一樣的資源，執(zhí)行一樣快，在集群繁忙時(shí)會(huì)有更多的作業(yè)等待時(shí)間，但對(duì)于延時(shí)不敏感的作業(yè)，如歷史數(shù)據(jù)的導(dǎo)入、日常開發(fā)調(diào)試作業(yè)的場(chǎng)景，通過使用閑時(shí)作業(yè)可以有效降本66%。

分時(shí)彈性既能滿足彈性，也能滿足預(yù)算的管理，那么該怎么設(shè)置是最優(yōu)的？MaxCompute發(fā)布了成本優(yōu)化器，幫助用戶分析過去30天所有作業(yè)的資源分布特征，展示出高峰期和低谷期，給出彈性策略應(yīng)該怎么設(shè)計(jì)的建議。在彈性的基礎(chǔ)上，我們給作業(yè)增加了一個(gè)關(guān)鍵的約束條件叫基線，基線之前的作業(yè)需要足夠的資源保障，讓結(jié)果準(zhǔn)時(shí)計(jì)算出來，基線之后的作業(yè)可以跑慢一些，更節(jié)省資源和費(fèi)用，這樣就區(qū)分了作業(yè)的優(yōu)先級(jí)和重要性。絕大部分用戶使用成本優(yōu)化器之后，通常有20%以上成本降低，建議大家可以盡快采用起來。

接下來我們談?wù)劥鎯?chǔ)如何降本。數(shù)據(jù)在實(shí)際使用時(shí)會(huì)分特征，有些數(shù)據(jù)是高頻訪問，數(shù)據(jù)的重要性有可能更高，有些數(shù)據(jù)是低頻訪問數(shù)據(jù)，一個(gè)月就讀取一兩次，有的數(shù)據(jù)是審計(jì)要求，不可以刪除，一年不一定訪問一次。數(shù)據(jù)有價(jià)值分配，那么我們的數(shù)據(jù)成本是否也應(yīng)該有分層設(shè)計(jì)呢？當(dāng)然。MaxCompute為不同訪問特征，不同價(jià)值數(shù)據(jù)提供不同的存儲(chǔ)能力，分層存儲(chǔ)提供了分層的單價(jià)。通過分層存儲(chǔ)的方式可以看到一些低頻訪問的數(shù)據(jù)，長(zhǎng)期訪問的數(shù)據(jù)成本可以降到以前的三分之一。

計(jì)算和存儲(chǔ)可以通過平臺(tái)的使用策略來節(jié)省成本，其實(shí)還可以通過存儲(chǔ)技術(shù)的創(chuàng)新實(shí)現(xiàn)進(jìn)一步的降本。JSON是互聯(lián)網(wǎng)上使用非常廣泛的數(shù)據(jù)結(jié)構(gòu)，半結(jié)構(gòu)化，查詢靈活，存儲(chǔ)也方便，Schema可以隨時(shí)調(diào)整，但過去JSON如果用字符串去存儲(chǔ)的時(shí)候，哪怕僅僅訪問一個(gè)字節(jié)，也需要把幾兆字節(jié)全部解析出來，對(duì)計(jì)算和IO都是極大的浪費(fèi)。另一種方案是JSON數(shù)據(jù)落庫(kù)前，提前進(jìn)行JSON結(jié)構(gòu)的打?qū)挘枰罅康募庸ぷ鳂I(yè)，也是對(duì)計(jì)算資源的浪費(fèi)。

如何有效提升JSON數(shù)據(jù)類型的存儲(chǔ)和訪問效率成為大數(shù)據(jù)平臺(tái)的關(guān)鍵能力，今年包括MaxCompute和Hologres，都提供JSON原生化的管理能力，包括元數(shù)據(jù)支持和存儲(chǔ)列式壓縮，把半結(jié)構(gòu)化作為一級(jí)處理類型來支持，在用戶實(shí)踐中，絕大部分用戶的JSON存儲(chǔ)成本會(huì)降到以前的五分之一，而且查詢會(huì)變得更快。

輕運(yùn)維能力：Serverless變革大數(shù)據(jù)運(yùn)維模式

云上大數(shù)據(jù)平臺(tái)，應(yīng)該提供運(yùn)維足夠簡(jiǎn)單易用，把臟活累活幫助使用者運(yùn)維掉，幫助大數(shù)據(jù)工程師實(shí)現(xiàn)角色升級(jí)，從過去相對(duì)被動(dòng)每天考慮系統(tǒng)平臺(tái)的穩(wěn)定性、擴(kuò)展性、資源如何分配、備份、容災(zāi)、升級(jí)、修bug這些臟活累活中解脫出來，轉(zhuǎn)變成數(shù)據(jù)的分析師，變成AI專家，變成領(lǐng)域?qū)＜�，而不是做重�?fù)的運(yùn)維工作。

我們認(rèn)為Serverless架構(gòu)是解決運(yùn)維問題的關(guān)鍵，那么如何做Serverless架構(gòu)呢？從大數(shù)據(jù)架構(gòu)上講，通常我們分三種：1.Shared-Nothing架構(gòu)，存算一體。通過節(jié)點(diǎn)之間的橫向擴(kuò)展，實(shí)現(xiàn)計(jì)算力和存儲(chǔ)能力的提升。2.Shared-Everything，計(jì)算存儲(chǔ)全部解耦開來，所有的資源都可以共享。3. Shared-Data，Data部分是共享，計(jì)算部分隔離開來，提供更好的隔離能力。每個(gè)技術(shù)會(huì)選擇不同架構(gòu)。

MaxCompute選擇Shared-Everything，對(duì)平臺(tái)側(cè)的隔離技術(shù)實(shí)現(xiàn)要求很高，對(duì)運(yùn)維側(cè)、調(diào)度側(cè)要求更高，所有計(jì)算資源、存儲(chǔ)資源是共享在統(tǒng)一的公共集群里。Hologres選擇Shared-Data架構(gòu)，這個(gè)系統(tǒng)需要更多考慮在線服務(wù)場(chǎng)景下資源的隔離和穩(wěn)定性，所以不同系統(tǒng)選擇不同架構(gòu)。

這個(gè)架構(gòu)背后我們會(huì)把整個(gè)集群當(dāng)做一個(gè)統(tǒng)一的計(jì)算資源來管理。對(duì)用戶來說最大價(jià)值是，不僅是使用成本的降低，不需要提前做容量規(guī)劃，更重要的是，不需要處理復(fù)雜的升級(jí)運(yùn)維，讓用戶可以實(shí)現(xiàn)零停機(jī)的方式實(shí)現(xiàn)版本的迭代，這都是Serverless架構(gòu)創(chuàng)造的價(jià)值，平臺(tái)側(cè)希望把臟活累活，包括升級(jí)、備份、災(zāi)備、彈性這些事情通過架構(gòu)的方式把它解決，這也是Serverless背后核心的理念。

大家過去講Serverless更多講資源上省錢，只為使用的資源付費(fèi)，而我相信Serverless更多是把運(yùn)維方式轉(zhuǎn)變，讓工程師更聚焦到價(jià)值的創(chuàng)造上。

Hologres在Serverless架構(gòu)上一直演進(jìn)，今年提出了彈性計(jì)算組的概念，這個(gè)計(jì)算組概念背后是共享數(shù)據(jù)，共享接入層，但在計(jì)算節(jié)點(diǎn)上做了資源切分，當(dāng)不同業(yè)務(wù)團(tuán)隊(duì)使用同一份數(shù)據(jù)的時(shí)候，每個(gè)團(tuán)隊(duì)可以為自己的使用場(chǎng)景去彈性分配資源，同時(shí)保障數(shù)據(jù)的一致性，支持實(shí)時(shí)寫入，實(shí)時(shí)查詢，這是在Hologres上做的創(chuàng)新。

開放能力：湖倉(cāng)一體與開放性

在談到大數(shù)據(jù)平臺(tái)的開放性時(shí)，更多講Open Storage + Open Format，今天阿里的大數(shù)據(jù)平臺(tái)希望做到更多一層。云計(jì)算對(duì)技術(shù)的開放性要求會(huì)更高，一方面云廠商不希望自己變成綁架用戶的角色，MaxCompute也不希望大家使用之后就被綁架在平臺(tái)上，不可以切換。另一方面云平臺(tái)上不同技術(shù)之間交互的強(qiáng)度、密度是遠(yuǎn)大于線下的，技術(shù)之間需要分鐘級(jí)部署，分鐘級(jí)打通，用戶對(duì)技術(shù)的交互性要求很高，我們希望把開放性做得很徹底，我們不希望把創(chuàng)新只放在自己手里，我們希望把創(chuàng)新交還給用戶。

首先，阿里云的大數(shù)據(jù)完全擁抱Open Storage + Open Format，提供了湖倉(cāng)一體的解決方案，為用戶提供接近原生的元數(shù)據(jù)管理和數(shù)據(jù)讀寫體驗(yàn)。對(duì)于什么是湖倉(cāng)一體，行業(yè)內(nèi)有兩個(gè)思路，一個(gè)是在湖上長(zhǎng)出一個(gè)倉(cāng)，把湖變成倉(cāng)。典型特點(diǎn)是把湖上的數(shù)據(jù)結(jié)構(gòu)提供更好的更新能力，接近數(shù)據(jù)庫(kù)的開發(fā)體驗(yàn)。另一個(gè)方式從倉(cāng)的管理能力拓展外表能力，實(shí)現(xiàn)湖上半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)以元數(shù)據(jù)方式管理起來，相當(dāng)于倉(cāng)去管理湖，這也是湖倉(cāng)一體的形態(tài)。MaxCompute是第二種形態(tài)，用倉(cāng)去管湖，把存在OSS上的Hudi格式、Delta Lake等格式，包括今年阿里自己創(chuàng)新的Paimon格式，都可以在MaxCompute和Hologres中作為外表直接訪問。同時(shí)也做了一些創(chuàng)新，把OSS上的非結(jié)構(gòu)化文件定義為抽象的目錄表，這樣在數(shù)倉(cāng)里可以用更加精細(xì)化的安全管控方式去做授權(quán)，哪些用戶可以訪問哪些文件，怎么訪問，包括審計(jì)都可以記錄下來。

湖倉(cāng)一體最關(guān)鍵是元數(shù)據(jù)的管理，數(shù)據(jù)不管存在倉(cāng)上、湖上，需要有一個(gè)統(tǒng)一的視圖可以看到所有的元數(shù)據(jù)，數(shù)據(jù)被誰定義，數(shù)據(jù)怎么解析，這是湖倉(cāng)一體核心的概念，而并不是一定是一個(gè)系統(tǒng)還是兩個(gè)系統(tǒng)。

MaxCompute今年在開放性上有很大的變化。大家過去認(rèn)為倉(cāng)的理念是數(shù)據(jù)計(jì)算都在這兒，但我們今天希望把MaxCompute存儲(chǔ)作為獨(dú)立的產(chǎn)品形態(tài)對(duì)外提供服務(wù)，把Storage這一層提供產(chǎn)品化的能力，提供Storage API，支持高吞吐、高性能的原生IO接口。不管使用機(jī)器學(xué)習(xí)的PAI平臺(tái)還是使用Spark、Presto，都可以像MaxCompute原生的SQL引擎一樣去訪問倉(cāng)里的數(shù)據(jù)，我們希望把自研大數(shù)據(jù)平臺(tái)的數(shù)據(jù)開放出去，支持用戶使用第三方引擎持續(xù)創(chuàng)新。

智能優(yōu)化能力：AI加持的智能數(shù)倉(cāng)

過去做優(yōu)化的時(shí)候很依賴于DBA同學(xué)對(duì)一個(gè)數(shù)倉(cāng)技術(shù)原理的理解，在云的時(shí)代，用戶把數(shù)據(jù)托管到云平臺(tái)上，云平臺(tái)就有很大責(zé)任幫助用戶做好優(yōu)化這件事。我們希望從過去基于經(jīng)驗(yàn)的運(yùn)維向智能化運(yùn)維前進(jìn)。

比如MaxCompute通過物化視圖把公共的SQL計(jì)算子集推薦出來，實(shí)現(xiàn)資源的復(fù)用，這是一種空間換時(shí)間非常有效的方法。經(jīng)過一年多時(shí)間的迭代，在推薦效率上已經(jīng)做了很大的改進(jìn)，絕大部分推薦出來的物化視圖質(zhì)量都是很高，可以做到成本的節(jié)省和效率上的提升。

大數(shù)據(jù)成為AI的基礎(chǔ)設(shè)施

今年AI很熱，很多了不起的創(chuàng)新，但其實(shí)AI的創(chuàng)新中，大數(shù)據(jù)也扮演了關(guān)鍵的基礎(chǔ)設(shè)施角色。同時(shí)我們也希望用了云上大數(shù)據(jù)平臺(tái)的用戶，不需要再做那些低效繁重的運(yùn)維工作，而是更多做一些AI上的場(chǎng)景和應(yīng)用創(chuàng)新。我們也提出了大數(shù)據(jù)AI一體化，事實(shí)上大數(shù)據(jù)AI是各有分工，大數(shù)據(jù)為AI提供數(shù)據(jù)的支撐，這包括大數(shù)據(jù)平臺(tái)要做好規(guī)模數(shù)據(jù)的處理，提供分布式計(jì)算框架，提供科學(xué)計(jì)算的一站式開發(fā)環(huán)境，其次機(jī)器學(xué)習(xí)平臺(tái)也會(huì)為大數(shù)據(jù)平臺(tái)提供優(yōu)化的算法、優(yōu)化的模型。

在過去SQL的基礎(chǔ)上，我們認(rèn)為Python也應(yīng)該成為MaxCompute平臺(tái)的一級(jí)開發(fā)語(yǔ)言。MaxCompute全新發(fā)布，One Env+One Data+One Code，這背后核心就是提供一個(gè)Python的運(yùn)行環(huán)境，一個(gè)Notebook的交互式開發(fā)體驗(yàn)，讓有SQL基礎(chǔ)的同學(xué)，有Python經(jīng)驗(yàn)的同學(xué)，需要利用Python Library進(jìn)行數(shù)據(jù)處理的場(chǎng)景，可以在統(tǒng)一的開發(fā)環(huán)境下，實(shí)現(xiàn)高效率的開發(fā)和調(diào)試，實(shí)現(xiàn)Python和coMaxCompute數(shù)據(jù)的原生打通。

全面升級(jí)DataFrame能力，發(fā)布分布式計(jì)算框架MaxFrame，100%兼容Pandas等數(shù)據(jù)處理接口，通過一行代碼即可將原生Pandas自動(dòng)轉(zhuǎn)為MaxFrame分布式計(jì)算，打通數(shù)據(jù)管理、大規(guī)模數(shù)據(jù)分析、處理到ML開發(fā)全流程，打破大數(shù)據(jù)及AI開發(fā)使用邊界，大大提高開發(fā)效率。

最后講下向量數(shù)據(jù)庫(kù)，Hologres內(nèi)置達(dá)摩院向量引擎Proxima，支持高性能、實(shí)時(shí)化的向量檢索服務(wù)。使用SQL接口可以訪問向量數(shù)據(jù)，在原有交互式分析場(chǎng)景下幫助大家更好使用AI場(chǎng)景。

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與本網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。當(dāng)事人（單位）如有異議，請(qǐng)參閱《刪帖說明》辦理。