国产一区二区三区在线影院,99re16热这里有精品,亚洲精品福利在线

【2023云棲】陳守元：阿里云開源大數(shù)據(jù)產(chǎn)品年度發(fā)布

來源：

編輯：

時間：2023-11-20

本文根據(jù) 2023 云棲大會演講實錄整理而成，演講信息如下：

演講人：陳守元 | 阿里云計算平臺事業(yè)部開源大數(shù)據(jù)產(chǎn)品總監(jiān)

演講主題：阿里云開源大數(shù)據(jù)產(chǎn)品年度發(fā)布

隨著云計算的不斷發(fā)展，未來數(shù)據(jù)處理和應(yīng)用的趨勢將圍繞Cloud Native、Severless和Data+AI展開。其中，云原生架構(gòu)已成為主流趨勢，因為它可以提高數(shù)據(jù)處理和應(yīng)用程序的可伸縮性和靈活性，支持大規(guī)模部署和更快的響應(yīng)時間。同時，Serverless作為一種新型計算模式，可以提高處理效率、降低運營成本并減少資源浪費，其獨特的特點使得其成為處理大規(guī)模數(shù)據(jù)的理想選擇。此外，Data與AI融合正在快速發(fā)展，不斷提高智能化和自動化程度，同時需要高質(zhì)量的數(shù)據(jù)來支撐算法的準(zhǔn)確性和有效性。

EMR：面向下一代湖倉和全面Serverless化

下面進(jìn)入產(chǎn)品發(fā)布環(huán)節(jié)，我們將圍繞上面三個點做哪些事情、有哪些發(fā)布更好地服務(wù)用戶上云來講述我們產(chǎn)品的重點發(fā)布。

首先，我們來看EMR。EMR 是一個云原生開源大數(shù)據(jù)平臺系統(tǒng)。對于 EMR 而言，線下IDC 大量基于開源 Hadoop生態(tài)構(gòu)建的線下用戶搬站上云第一站就會選擇EMR，因為改造代價特別地小，幾乎可以無縫平遷上云。這對用戶來說是具有巨大的人力資本和機器資本的節(jié)省。我們將阿里云EMR 定位為用戶搬站上云的第一站。

今年我們的產(chǎn)品矩陣做了升級，我們希望在云上基于更多樣化的 IaaS 提供多樣化的 EMR 產(chǎn)品形態(tài)。EMR 通用版，核心解決的用戶問題就是幫助用戶的大數(shù)據(jù)系統(tǒng)平遷上云，這也是和用戶線下部署兼容度最高的方案。第二個是 EMR 容器版，即 EMR ACK 版�，F(xiàn)在 IT 基礎(chǔ)設(shè)施的云原生容器化基本上都深入人心，我們大量客戶在云上基于 IT 系統(tǒng)的構(gòu)建都會選擇容器化的平臺，例如阿里云的 ACK。用戶自然而然會聯(lián)想到如何把Data 和 AI 的 workload 遷移到IT 基礎(chǔ)設(shè)施的同一個集群里，完成Data&AI 的負(fù)載與 IT 設(shè)施負(fù)載混用，EMR 容器版，或者說 EMR onACK 就是幫用戶解決這類問題的產(chǎn)品。

最后也是我們今天想強調(diào)的重點就是 EMR Serverless 版。對于 EMR Serverless 子產(chǎn)品線而言，內(nèi)部有些feature 或者功能在之前云棲中已做了發(fā)布。今天對于 EMR Serverless 產(chǎn)品線是一個更加完整的矩陣呈現(xiàn)，今天會重點講一下 Serverless Spark、Serverless StrarRocks 兩大主流 EMR 計算引擎的 Serverless 化，今天也是我們正式對外提出一個完整的 EMR Serverless化的產(chǎn)品線矩陣。

EMR Serverless 版是 EMR 產(chǎn)品線形態(tài)中誕生最晚、發(fā)布最新的一代產(chǎn)品和技術(shù)，其實 EMR 圍繞 Serverless 的布局在一年前、兩年前都在緊鑼密鼓地進(jìn)行。前面 OSS-HDFS、Serverless HDFS 這一塊其實在去年、前年已有發(fā)布，但是今年我們做了更多的嘗試努力，我們希望把 EMR 上面主流的大數(shù)據(jù)計算引擎、存儲引擎、開發(fā)平臺、元數(shù)據(jù)管理全都 Serverless 化，只有這樣方才能夠更好地滿足云原生用戶更好地利用大數(shù)據(jù)。Serverless Spark，更好地解決了湖倉場景下 Data ETL 的處理能力，Serverless StrarRocks 更好地解決了湖倉場景下 Data analytic 能力，Serverless HDFS 更好解決了湖倉場景下數(shù)據(jù)存儲能力，最后 EMR Stutio 幫助用戶線下可以平遷體驗上云，讓用戶能夠更好使用云上大數(shù)據(jù)基礎(chǔ)設(shè)施，同時還能免運維。所以EMR 今年從計算，到存儲，到開發(fā)環(huán)境幾乎全部實現(xiàn)了 EMR 主力引擎和平臺都能夠做到 Serverless 化，我們希望能夠把整個大數(shù)據(jù)開發(fā)運維閉環(huán)，從而進(jìn)一步幫助云原生上的開發(fā)者更好地把大數(shù)據(jù)用起來。

下面仍然回到 EMR 主力場景， EMR通用版，圍繞湖倉場景做了大量更新。EMR 主力場景仍然圍繞著湖倉處理，圍繞在湖倉計算、存儲、運維、開發(fā)做了大量的更新。在計算層面，我們核心還是降本提效，IaaS 層適配了新的倚天 CPU，PaaS 層做了 Native Spark RunTime，這些都是從 IaaS 層和 PaaS 層更好地幫助用戶降本提效。存儲部分，Serverless HDFS (同時也稱之為 OSS-HDFS) 很早已有發(fā)布，但是在這一年希望讓Serverless HDFS 和本地 HDFS 在使用層面給用戶體驗完全一致，包括在文件性能、數(shù)據(jù)訪問、源數(shù)據(jù)獲取等方案做到幾乎完全一致。為上述目標(biāo)，我們因此做了大量有關(guān)系統(tǒng)性能優(yōu)化以及系統(tǒng)安全性優(yōu)化。我們的 Open 文件性能的提升、DU 訪問源數(shù)據(jù)的提升，這些都是今年的成果。

EMR 運維，這主要體現(xiàn)在兩個方面。在云上來說 EMR 能結(jié)合到云原生上面給用戶創(chuàng)造比較大的平臺價值就在于彈性，今年我們做到大量的彈性優(yōu)化。我們大量客戶給我們反饋說 EMR 的平臺彈性越來越穩(wěn)定；另外一個運維重點，即 EMR Doctor，我們希望通過 AI 的方式、自動化、智能化的運維平臺方式幫助用戶去解決開源大數(shù)據(jù)運維的問題。從社區(qū)開源大數(shù)據(jù)用戶反饋來看，開源大數(shù)據(jù)使用最大的、最痛的點就是系統(tǒng)運維。如何長期有效地保證我們的業(yè)務(wù)在云上健康地運行，這是很多用戶上云和云下使用開源大數(shù)據(jù)非常大的痛點，EMR Doctor 就是解決這個問題。EMR 開發(fā)，即 EMR Studio，我們希望云原生 Serverless 化托管了我們的開發(fā)平臺、調(diào)度平臺，幫助用戶從線下的體驗完全平遷到云上的一套體驗。以上均是 EMR 圍繞湖倉場景的重大更新。

最后仍然回到 EMR For AI，我們每個產(chǎn)品都在擁抱積極的變化，這里分為三部分：EMR DataScience、EMR Doctor、EMR+DataWorks 的 Code Pilot。EMR DataScience 是在 EMR 的容器版里面，我們提供了一個新的集群叫 EMR DataScience，里面內(nèi)置了不少 AI 最流行的組件，包括 Pytorch、TF。我們希望用戶在一個平臺上既能夠處理大數(shù)據(jù)，同時還能夠云原生地處理 AI 的工具，這是 EMR DataScience 幫助用戶做的相關(guān)工作。EMR Doctor，這個工作前面提到希望用 AI 化、智能化的方式幫助用戶實現(xiàn) AIOps，能夠用自動化的手段定位問題、診斷問題、及早發(fā)現(xiàn)問題。EMR+Dataworks，今年DataWorks重磅的發(fā)布就是 code pilot 的發(fā)布，但是那上面作為一個平臺實際上底下也對接了 EMR 等等，正好實際上 code pilot 也是平臺引擎無關(guān)的Feature，可以生成 EMR 里面的 HIVE 代碼，用戶就可以用 DataWorks 上面開發(fā)平臺能夠通過自然語言生成 MaxCompute 的 SQL，能夠操作業(yè)務(wù)，這樣能夠極大地減少用戶開發(fā)代碼的成本，這在 DataWorks 對外提供公測的時候歡迎去試用一下。

Flink Streaming Lakehouse：新一代的流式湖倉新方案

下面我們看一下 Flink Streaming Lakehouse。Lakehouse 這個概念其實在前幾年很火，原因就是對于一個 Lakehouse 的系統(tǒng)來說，既兼具了 Data Warehouse 的嚴(yán)謹(jǐn)，包括ACID、版本的管理、數(shù)據(jù)格式的校驗等等；同時它還有 Data Lake 的靈活性，能夠放很多大量非結(jié)構(gòu)化的文本，包括圖片、視頻、音頻、圖像等等。而 Lakehouse 同時能夠承載結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)，這對用戶來說是非常好的 AI 和大數(shù)據(jù)融合的底層存儲方案。但是我們看 Lakehouse 的過程中發(fā)現(xiàn) Lakehouse 在時效性方面有非常大的問題，F(xiàn)link 核心使命和價值就在幫助我們的客戶解決大數(shù)據(jù)實時化轉(zhuǎn)型和升級。所以Flink 社區(qū) 和我們一起發(fā)布了 Streaming Lakehouse 方案。

回到Streaming Lakehouse 我主要從產(chǎn)品方向講三個場景要點。前面已經(jīng)提到Lakehouse 在 AI 時代下 Lakehouse 的方案會越來越重要，因為它既能存儲結(jié)構(gòu)化的數(shù)據(jù)又能存儲非階段的數(shù)據(jù)，這個是大數(shù)據(jù)和 AI 一體化存儲的重要承載點。但是 Lakehouse 在實踐的過程中仍然遇到時效性的問題，整個 Lakehouse 的 Data Pipeline 串聯(lián)起來可能達(dá)到小時級別的延遲，從最開始的數(shù)據(jù)進(jìn)入到數(shù)據(jù)價值的發(fā)揮，比如 BI、AI，能夠看到整個數(shù)據(jù)鏈路到小時級別，這其實對于用戶來說要構(gòu)建一個實時湖倉面臨很大的延遲。所以 Flink 希望一起幫助用戶做到 Lakehouse 的實時化，通過流式、實時幫助用戶做很大的提升。

最后是 Unified，其實 Flink 社區(qū)在前幾年一直主打 Unified Batch & Streaming。我們希望在計算層面做到融合，就是流批一體。我們在開源社區(qū)推廣流批一體的方案時，發(fā)現(xiàn)如果用戶只是計算層面的融合對于用戶只能解決一半的問題。還有一半問題在于存儲，存儲仍然是兩套的存儲方案，兩套存儲和兩套數(shù)據(jù)因此會導(dǎo)致的離線和實時的數(shù)據(jù)不一致性對于用戶來說是非常大的問題，所以 Flink 團(tuán)隊和社區(qū)一起構(gòu)建了 Paimon。Paimon 基于底層的分布式文件系統(tǒng)，比如說 OSS 會構(gòu)建一個 Unified 的 storage，既可以做流，也可以做批，我們稱之為批流一體的存儲。所以 Flink+Paimon 構(gòu)成 Lakehouse 的方案，既具備 Unified 的 process，也可以具備 Unified 的 Storage，這一層合并在一起能夠真正完整地幫助用戶實現(xiàn)流批一體的解決方案。這是我們 Streaming Lakehouse 的價值點，最終我們希望幫助用戶在 Data+AI 時代下提供實時化、流式化和 Serverless 化的湖倉方案。

回到 Flink 主線，我們一直以來的使命就是希望幫助用戶做到大數(shù)據(jù)的升級和轉(zhuǎn)型，所以追求實時場景下的性價比一直是 Flink 團(tuán)隊一直以來努力的方向。追求實時化的性價比今年有兩個重要的點，一個是Flink全面擁抱了倚天，結(jié)合到倚天整個實時計算 Flink 綜合的性價比有 50%的提升，這是Flink 團(tuán)隊結(jié)合IaaS 層面做了大量優(yōu)化。同時在 PaaS 層 Flink 企業(yè)級內(nèi)核我們?nèi)匀辉谧龃罅績?yōu)化，這其中包括算子的優(yōu)化，以及未來我們會公布 native runtime 的優(yōu)化。這部分優(yōu)化相比于開源Flink引擎，我們實時計算 Flink 版會有兩倍的提升，特別是在吞吐部分可以解決很多用戶高吞吐量或者大流量的實時計算場景。

Elasticsearch:Serverless 和 Search for Data & AI

接下來講一下 Elasticsearch，這也是開源大數(shù)據(jù)很重要的組成部分。說到 Elasticsearch 可能大家更多仍然停留在比較早期 for data 的 search，就是全文的檢索，類似于搜索引擎要做全文的檢索。但今天我想告訴大家這個思想需要刷新一下，Elasticsearch 不僅是 for data 的 search，也是 for AI 的 search。我今天給大家重點會講一下 ES 如何從 Data 轉(zhuǎn)變成 Data+AI 的 search 系統(tǒng)。

第一個是我們的 Elasticsearch 的版本發(fā)布。坦白地說，當(dāng)前產(chǎn)品形態(tài)，即 ES on PaaS 的獨立集群版本已經(jīng)非常好地滿足我們中國公有云和專有云客戶很多的市場需求，不少中大型公司都非常認(rèn)可阿里云的 ES產(chǎn)品形態(tài)，產(chǎn)品客戶受眾無論在基數(shù)以及未來增長都很不錯。但實際上隨著最近這一兩年客戶在降本提效上提上了日程之后，發(fā)現(xiàn)有一批非常大的潛在客戶以及中長尾的客戶其實仍然對云上的獨立集群版本所帶來的成本仍然認(rèn)為是比較大的上云入門門檻。他們非常希望以低門檻甚至零門檻的方式開啟云上的 ES，這就是我們 ES Serverless 要做的初衷，我們希望以一個零門檻的方式能夠幫助用戶開啟云上 Elasticsearch 的使用。

同時 Elasticsearch Serverless 也是我們國內(nèi)首家支持通用場景的 ES 版本。去年我們也發(fā)布了一個 Elasticsearch Serverless版本，但更多解決日志 ELK 場景的需求。但是該版本在數(shù)據(jù)一致性上會存在問題，所以今年我們進(jìn)行大量的產(chǎn)品技術(shù)架構(gòu)重構(gòu)。本次 ES Serverless 的發(fā)布是一個面向通用場景的升級發(fā)布，這里面不僅支持包括日志場景，還支持訂單、金融等等場景，這里面的數(shù)據(jù)一致性都可以得到很好的保障。這是我們今年發(fā)布相比于去年發(fā)布升級很不一樣的點。針對 ES Serverless 可以真正按量付費、秒級彈性、簡單運維，同時可以完全兼容開源的 ES，這是很多其他的廠商不一定能做到的。

下面重點強調(diào) ES for AI 和 Data 的部分，標(biāo)志著 ES 真正從 Data 面向 Data&AI 的搜索引擎。云棲會場外面有很大的廣告欄，主打的是 ESRE 的發(fā)布，這是 ES 公司重大的發(fā)布。發(fā)布的核心簡單跟大家說一下，就是支持 AI 相關(guān)檢索，包括向量檢索，包括多路并規(guī)的查詢優(yōu)化，這些東西都是在 ES 內(nèi)核重點打的點，幫助用戶做 AI 檢索。阿里云ES 圍繞著 ES 最新的 AI 能力進(jìn)行了大量方案集成，就是右邊的增強方案。我們跟達(dá)摩院 AI 方案做聯(lián)合，和 PAI—EAS 方案聯(lián)合，甚至?xí)蜕鐓^(qū)一起做更多的聯(lián)合方案，這些方案能夠幫助我們的用戶更好地在云上用上阿里云、達(dá)摩院 AI 的技術(shù)，和社區(qū)的 ES 更好地結(jié)合起來。所以我們希望通過 ES8.9 這個版本能夠幫助用戶構(gòu)建下一代面向 Data+AI 的檢索系統(tǒng)。

圍繞 ES 自研能力的升級，阿里云 ES 是和 ES 公司一起合作，也是基于開源的 ES 做更多的優(yōu)化孵化，其實是完全基于開源，也是完全兼容開源的，我們做了大量的增強。而這里面做了三個升級，包括場景的升級，也就是日志場景向通用場景的升級和改造。去年 ES 更多是做日志場景、ELK 場景，今年的 ES Serverless 面向通用場景進(jìn)行完全開放。另外就是有關(guān)搜索內(nèi)核引擎的優(yōu)化，包括讀寫分離、存算分離，這些更好地解決集群穩(wěn)定性問題、成本流控問題、資源彈性的問題。最后我們在購買鏈路和相關(guān)控制臺上做了比較大的體驗升級，我們非常推薦大家去用一用阿里云 ES Serverless 版本，感受一下完全 Serverless 化的 ES。

Milvus：AI時代的搜索引擎

今天最后一個，也是今年完全新的產(chǎn)品。前面全部是我們現(xiàn)有的功能、現(xiàn)有產(chǎn)品線的疊加，Milvus 這部分是我們今年要發(fā)布的 AI 時代新的搜索引擎。目前，在向量檢索部分Milvus幾乎是全球最火、最亮眼的技術(shù)。我們會在12月份開啟向量檢索 Milvus 版本對外測試，相比于開源的 Milvus 來說會做相應(yīng)產(chǎn)品企業(yè)級的增強。同時在兼容開源的 Milvus 之上，我們還會去結(jié)合達(dá)摩院的技術(shù)能夠提供更好的企業(yè)級向量檢索能力。同時在云上肯定會做大量的產(chǎn)品聯(lián)合工作，包括和我們的存儲上有大量非結(jié)構(gòu)化的數(shù)據(jù)可供用戶檢索查詢。同時我們會跟 PAI 平臺、達(dá)摩院 AI 模型做更多的深度集成，做 AI 向量檢索能力、做大模型向量支撐，這些方案未來都會在我們的產(chǎn)品之上構(gòu)建。所以我們最終是希望能夠幫助云上使用 Milvus 的用戶更快、更方便、更低門檻構(gòu)建 AI 時代下的搜索系統(tǒng)。

回顧一下我們講了大數(shù)據(jù)的三個趨勢。Cloud Native，整個 IT 投資都在往云上加速轉(zhuǎn)型。Serverless 化，我們認(rèn)為未來的 PaaS 平臺最終全部都會歸到 Serverless 化，所有 AI 產(chǎn)品、大數(shù)據(jù)產(chǎn)品和其他 PaaS 產(chǎn)品都會歸到 Serverless 化。最后是 Data+AI，未來 AI 和大數(shù)據(jù)會做徹底的融合打通，這也是我們整個開源大數(shù)據(jù)一直以來在積極圍繞這三個點做布局。

最后希望大家多多關(guān)注阿里云，關(guān)注阿里云的開源大數(shù)據(jù)，謝謝大家！

免責(zé)聲明：本文僅代表作者個人觀點，與本網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關(guān)內(nèi)容。當(dāng)事人（單位）如有異議，請參閱《刪帖說明》辦理。