首頁 要聞 中國 經(jīng)濟(jì) 財經(jīng) 品牌 點評 會展 綜合 | 設(shè)為首頁
中國品牌要聞網(wǎng)-傳遞資訊的價值打造品牌的影響
您現(xiàn)在的位置:首頁/IT互聯(lián)網(wǎng)/ 正文
大模型驅(qū)動DataWorks數(shù)據(jù)開發(fā)治理平臺智能化升級
來源:
編輯:
時間:2023-11-17

 

隨著大模型掀起AI技術(shù)革新浪潮,大數(shù)據(jù)也進(jìn)入了與AI深度結(jié)合的創(chuàng)新時期。2023年云棲大會上,阿里云DataWorks產(chǎn)品負(fù)責(zé)人田奇銑發(fā)布了DataWorks Copilot、DataWorks AI增強分析、DataWorks湖倉融合數(shù)據(jù)管理等眾多新產(chǎn)品能力,讓DataWorks這款已經(jīng)發(fā)展了14年的大數(shù)據(jù)開發(fā)治理平臺產(chǎn)品,從一站式向智能化不斷升級演進(jìn)。
Data+AI雙輪驅(qū)動
進(jìn)入AIGC時代,AI for Data和Data for AI成為當(dāng)下的熱詞。AI for Data,這個比較好理解,通過大模型驅(qū)動的AI智能助手,可以提升數(shù)據(jù)平臺工具的效率。DataWorks為企業(yè)搭建了一站式、全鏈路的工具鏈,在這個過程中,也源源不斷地為企業(yè)構(gòu)建數(shù)據(jù)資產(chǎn),比如數(shù)據(jù)模型、元數(shù)據(jù)、數(shù)據(jù)血緣、數(shù)據(jù)指標(biāo)等,在大模型時代,這些也可以稱之為企業(yè)專屬的領(lǐng)域知識,借助大模型強大的語義理解、推理、上下文學(xué)習(xí)、記憶能力,通過大模型的Prompt Engineering,DataWorks一站式平臺可以為AI智能助手提供更接近的、更及時的、更全面的上下文信息,從而可以讓AI獲得更好的效果和性能,這是Data for AI。有了良好的數(shù)據(jù)基礎(chǔ),今天我們發(fā)布的眾多新品就是借助AI大模型的能力,通過Data + AI雙輪驅(qū)動,為數(shù)據(jù)開發(fā)和分析提供了新的范式,進(jìn)一步提升企業(yè)獲得數(shù)據(jù)價值的效率。

云棲發(fā)布:DataWorks Copilot 智能SQL編程助手提升30%數(shù)據(jù)開發(fā)分析效率

DataWorks Copilot是基于NL2SQL大模型打造的SQL編程助手,我們使用基于公開的數(shù)據(jù)集訓(xùn)練和微調(diào)的NL2SQL大模型,結(jié)合Prompt Engineering,提供了豐富的自然語言生成SQL的操作。

輸入想要查詢分析的自然語言描述,例如“統(tǒng)計最近7天的商品銷售排行”,DataWorks Copilot將自動生成對應(yīng)的SQL語句。

在SQL IDE中編寫SQL代碼時,DataWorks Copilot能夠提供智能代碼提示建議,提升SQL編程效率。

當(dāng)SQL運行報錯時,DataWorks Copilot可提供一鍵糾錯服務(wù),幫助ETL工程師和分析師快速修復(fù)SQL錯誤。

以前寫代碼注釋是個負(fù)擔(dān),我們自己不想寫注釋,卻又希望別人的代碼有注釋。DataWorks Copilot可以批量為建表語句生成字段Comment信息,也可以為SQL語句添加逐行注釋,提升SQL的可讀性。

對于部分業(yè)務(wù)人員或者分析師,經(jīng)常拿到是數(shù)倉工程師給到一段比較復(fù)雜的取數(shù)腳本,使用到的一些高級SQL語法和函數(shù)不懂什么意思但又想改一改取數(shù)邏輯,以前就要到處查資料或者請教別人。DataWorks Copilot可以直接對SQL代碼進(jìn)行解釋,幫助我們的業(yè)務(wù)人員更快理解SQL邏輯、用途,提高取數(shù)分析和SQL學(xué)習(xí)的效率。

DataWorks Copilot 智能SQL編程助手,在我們內(nèi)部已經(jīng)使用了一段時間了,根據(jù)我們的一些觀測,可以為ETL開發(fā)和數(shù)據(jù)分析提效30%以上。

 

從GUI到LUI,DataWorks Copilot輔助ETL數(shù)倉開發(fā)

40多年前出現(xiàn)了圖形用戶界面(GUI),大模型強大的自然語言理解能力,帶來了全新的自然語言用戶界面(LUI),這也是一種全新的人機交互方式,一個軟件產(chǎn)品,能否提供LUI,這也是大模型應(yīng)用從AI智能助手邁向AI原生應(yīng)用的標(biāo)志能力之一。DataWorks也在思考和探索,如何將復(fù)雜的產(chǎn)品操作邏輯隱藏在背后,借助大模型,對用戶提供簡單直接、更符合人性的自然語言用戶界面。

我們做了一些產(chǎn)品實踐。舉幾個應(yīng)用場景,在實際工作中,找表是件頭疼的問題,業(yè)務(wù)人員為了計算一個指標(biāo)要找數(shù)倉的同學(xué)問該用哪張表,數(shù)倉同學(xué)天天應(yīng)付這類咨詢,也很煩躁。DataWorks Copilot則可以提供通過自然語言快捷找表,讓找表這件事情不用東問西問,從而提升企業(yè)的數(shù)據(jù)消費效率。在ETL開發(fā)過程中,有些操作是比較復(fù)雜或者繁瑣的,比如調(diào)度配置、參數(shù)配置、數(shù)據(jù)質(zhì)量規(guī)則配置,過去往往需要到不同的產(chǎn)品頁面來回跳轉(zhuǎn)和手工配置,現(xiàn)在DataWorks Copilot提供了對話式的自然語言用戶界面,在一個統(tǒng)一對話窗口中,通過自然語言交互就可以完成很多跨產(chǎn)品工具的操作,比如說一句“給某某表配置一個什么質(zhì)量規(guī)則”就可以完成數(shù)據(jù)質(zhì)量檢測的規(guī)則配置。未來,我們將持續(xù)豐富自然語言交互界面的覆蓋范圍。

 

DataWorks Copilot產(chǎn)品演示  https://cloud.video.taobao.com/play/u/null/p/1/e/6/t/1/437757941217.mp4

 

DataWorks Copilot提供了兩種模型服務(wù),第一種是基于公開數(shù)據(jù)集訓(xùn)練和微調(diào)的NL2SQL大模型,當(dāng)前在阿里云DataWorks官網(wǎng)可以直接申請參與邀測。如果有的企業(yè)對我們的模型效果有更高的期待,或者希望Copilot能夠回答更貼近企業(yè)內(nèi)部業(yè)務(wù),我們可以提供企業(yè)專屬的模型微調(diào)服務(wù),結(jié)合阿里云人工智能平臺PAI以及大模型專家服務(wù),可以為企業(yè)量身定制專屬代碼大模型以及私有化大模型部署服務(wù)。

 

云棲發(fā)布:DataWorks AI增強數(shù)據(jù)分析

企業(yè)在數(shù)據(jù)生產(chǎn)建設(shè)上投入這么多資源,最終希望是洞察數(shù)據(jù)中的業(yè)務(wù)價值,指導(dǎo)企業(yè)的經(jīng)營、決策。傳統(tǒng)的統(tǒng)計分析方法常常先假設(shè)一種統(tǒng)計模型,然后根據(jù)數(shù)據(jù)樣本來估計模型參數(shù),從而了解數(shù)據(jù)的特征,但實際中往往有很多數(shù)據(jù)并不符合假設(shè)的統(tǒng)計模型。探索性數(shù)據(jù)分析強調(diào)讓數(shù)據(jù)自身“說話”,先對數(shù)據(jù)特征、統(tǒng)計量進(jìn)行探索,然后再選取合適的模型進(jìn)一步分析,這是一種更加貼合實際情況的分析方法。在AI時代,數(shù)據(jù)洞察也不斷向智能化演進(jìn),AI增強分析利用AI技術(shù),可以加速或者自動化數(shù)據(jù)探索與洞察,幫助分析師從手工數(shù)據(jù)探索中解放出來。AI技術(shù)還能更好地發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律和趨勢,幫助分析師進(jìn)一步突破自身固有認(rèn)知的局限。

DataWorks聯(lián)合DataV數(shù)據(jù)可視化產(chǎn)品,深度結(jié)合AI技術(shù),推出了AI增強分析產(chǎn)品。目前提供了四項核心能力:

自動探查數(shù)據(jù)集,無需專業(yè)技術(shù)背景即可快速了解數(shù)據(jù)特征、統(tǒng)計分布。

基于自動數(shù)據(jù)探查的信息,自動生成數(shù)據(jù)圖表卡片,結(jié)合AI技術(shù),自動識別不同數(shù)據(jù)字段組合之間的相關(guān)性并生成圖表,不需要你手動寫很多SQL進(jìn)行分析,可以幫助你快速獲得靈感,保存見解。

結(jié)合大模型技術(shù),通過自然語言生成 SQL 查詢數(shù)據(jù),并自動為查詢結(jié)果自動推薦和生成數(shù)據(jù)圖表卡片。

可以像制作PPT一樣,將上面生成的數(shù)據(jù)圖表卡片一鍵生成數(shù)據(jù)長圖報告,支持導(dǎo)出為圖片或者一鍵分享。

DataWorks AI增強分析,讓數(shù)據(jù)自己“說話”,將數(shù)據(jù)洞察過程盡可能的自動化、無代碼化,通過AI還能自動發(fā)現(xiàn)數(shù)據(jù)中的潛在趨勢,講好數(shù)據(jù)故事,表達(dá)數(shù)據(jù)觀點。這款產(chǎn)品目前在公測當(dāng)中,大家開通DataWorks后進(jìn)入數(shù)據(jù)分析產(chǎn)品即可申請公測體驗。

 

DataWorks 增強分析產(chǎn)品演示 https://cloud.video.taobao.com/play/u/null/p/1/e/6/t/1/438309479548.mp4

云棲發(fā)布:DataWorks湖倉融合數(shù)據(jù)管理

隨著市場的不斷變化,企業(yè)業(yè)務(wù)也不斷的發(fā)展,企業(yè)面臨的競爭和不確定性也越來越大,數(shù)據(jù)需求從簡單的查詢、統(tǒng)計到BI到數(shù)據(jù)科學(xué)到推薦預(yù)測到AI應(yīng)用,整體上從簡單的固定查詢統(tǒng)計到復(fù)雜多變靈活的智能化分析,相應(yīng)企業(yè)數(shù)據(jù)架構(gòu)也發(fā)生了變化,從數(shù)據(jù)庫到數(shù)據(jù)倉庫到數(shù)據(jù)湖,再到湖倉融合,整個演進(jìn)過程是在追求更高的數(shù)據(jù)效率和更好更快的滿足企業(yè)的各種靈活多變的數(shù)據(jù)需求。湖倉融合數(shù)據(jù)架構(gòu)既兼顧數(shù)據(jù)倉庫的規(guī)范性和企業(yè)級能力,又兼顧數(shù)據(jù)湖的靈活性和生態(tài)開放性,成為越來越多企業(yè)所關(guān)注的數(shù)據(jù)架構(gòu)。

DataWorks當(dāng)前全面支持湖倉融合的數(shù)據(jù)管理,在存儲層,離線數(shù)據(jù)倉庫MaxCompute和實時數(shù)據(jù)倉庫Hologres以及數(shù)據(jù)湖存儲OSS/OSS-HDFS,它們之間已經(jīng)在存儲層做了無縫的打通,不需要復(fù)制移動數(shù)據(jù)就可以進(jìn)行數(shù)據(jù)的聯(lián)邦查詢。在這之上,DataWorks提供了統(tǒng)一的湖倉融合數(shù)據(jù)管理用戶界面。

在數(shù)據(jù)集成上,DataWorks本身支持50多種異構(gòu)數(shù)據(jù)源的離線、實時同步入倉。今年新增實時數(shù)據(jù)入湖的能力,實現(xiàn)數(shù)據(jù)秒級實時入湖,并且支持在數(shù)據(jù)同步過程中自動進(jìn)行庫表字段的更新,同時在這個過程中也能夠進(jìn)行元數(shù)據(jù)的自動發(fā)現(xiàn)和注冊,借助DLF可以在DataWorks數(shù)據(jù)地圖里進(jìn)行湖倉統(tǒng)一的元數(shù)據(jù)管理。

面向湖倉融合架構(gòu)中多種計算引擎,如MaxCompute、Hologres、Spark、Hive、Presto等,提供了統(tǒng)一的ETL任務(wù)開發(fā)、任務(wù)編排調(diào)度和運維服務(wù),實現(xiàn)統(tǒng)一的數(shù)據(jù)開發(fā)流水線,解決企業(yè)因數(shù)據(jù)架構(gòu)不統(tǒng)一造成的數(shù)據(jù)生產(chǎn)鏈路割裂、不穩(wěn)定等難以管理的問題。

DataWorks新增支持了湖倉融合數(shù)據(jù)治理。不僅能支持湖倉統(tǒng)一的元數(shù)據(jù)管理、數(shù)據(jù)建模和數(shù)據(jù)質(zhì)量管理,而且DataWorks的主動式、自動化數(shù)據(jù)治理工具“DataWorks數(shù)據(jù)治理中心”也全面支持了EMR+OSS數(shù)據(jù)湖。

DataWorks數(shù)據(jù)治理中心,將成熟的數(shù)倉治理能力全面擴展到了EMR+OSS數(shù)據(jù)湖。為了簡化湖倉架構(gòu)下的數(shù)據(jù)治理難度,讓數(shù)據(jù)治理不再是運動式的,而是能夠真正可持續(xù)、可跟進(jìn)、可落地,DataWorks數(shù)據(jù)治理中心,新增了“數(shù)據(jù)治理計劃”功能,來協(xié)助用戶完成主動式的數(shù)據(jù)治理規(guī)劃和診斷。

數(shù)據(jù)治理計劃內(nèi)置了面向數(shù)據(jù)管理者的計算存儲的成本治理、任務(wù)的穩(wěn)定性治理等數(shù)據(jù)治理場景的模板,支持企業(yè)設(shè)置一個數(shù)據(jù)治理目標(biāo),提供多個維度的數(shù)據(jù)治理健康度的評估模型,幫助大家去評估數(shù)據(jù)治理的成效。

數(shù)據(jù)治理計劃面向數(shù)據(jù)治理的執(zhí)行者,提供60余項覆蓋5個維度的治理規(guī)則庫,結(jié)合設(shè)置的數(shù)據(jù)治理目標(biāo)方向,數(shù)據(jù)治理產(chǎn)品可以自動推薦圈選和目標(biāo)相關(guān)的數(shù)據(jù)治理問題,并且提供相應(yīng)的治理手段和方法,幫助數(shù)據(jù)治理的執(zhí)行者可以及時的發(fā)現(xiàn)問題解決問題。同時數(shù)據(jù)治理中心提供事前的問題攔截,在數(shù)據(jù)開發(fā)階段可以事前發(fā)現(xiàn)很多的問題,比如代碼規(guī)范問題,表明任務(wù)名命名規(guī)范問題,可以進(jìn)行提前的攔截,這些事前攔截的插件和事后問題發(fā)現(xiàn)的插件都是允許支持企業(yè)自己定義。

數(shù)據(jù)治理應(yīng)用:成本優(yōu)化-無效任務(wù)自動化下線

隨著企業(yè)業(yè)務(wù)的不斷變化,企業(yè)人員變動,不可避免地會出現(xiàn)越來越多的無效數(shù)據(jù)任務(wù),每天都在消耗著大量的計算成本和存儲成本。傳統(tǒng)的手動治理,需要依賴數(shù)據(jù)工程師人工分析判斷,進(jìn)行復(fù)雜的影響分析,還存在與相關(guān)被影響人員的溝通協(xié)同成本,極容易因不小心失誤影響了線上任務(wù)造成故障,從而導(dǎo)致數(shù)據(jù)工程師因害怕出問題而對無效任務(wù)不敢治理,不愿治理。

DataWorks數(shù)據(jù)治理中心,提供了一項稱之為“優(yōu)雅下線”的產(chǎn)品功能,可對無效任務(wù)進(jìn)行批量的流程化、自動化的下線治理。首先會自動進(jìn)行任務(wù)下線的影響分析,然后將任務(wù)下線分解為延遲調(diào)度、暫停調(diào)度、下線任務(wù)、備份產(chǎn)出表、刪除產(chǎn)出表五個步驟,每個步驟還提供一個靜默期并自動通知相關(guān)責(zé)任人或者受影響人。整個過程類似于一種“灰度下線”機制,一旦出問題可以快速恢復(fù),并將影響范圍降到最低。

在阿里內(nèi)部數(shù)據(jù)團(tuán)隊,原先治理下線一組涉及到30個責(zé)任人的1000個任務(wù),從拉群拉會溝通,分析下線影響,制定下線計劃,各自分別執(zhí)行下線操作到結(jié)果跟進(jìn),要花費3-5個月時間。有了DataWorks數(shù)據(jù)治理中心的優(yōu)雅下線功能,2天完成治理動作,1周完成影響觀察,15天即可正式結(jié)項。DataWorks數(shù)據(jù)治理中心的優(yōu)雅下線已經(jīng)幫助阿里內(nèi)部數(shù)倉團(tuán)隊成功下線了數(shù)萬個無效任務(wù),節(jié)省在大量的存儲計算成本。

DataWorks數(shù)據(jù)治理中心已經(jīng)在DataWorks企業(yè)版提供服務(wù),近期也會推出企業(yè)版的試用活動,大家可以關(guān)注產(chǎn)品的官網(wǎng)信息。

從2009年誕生在阿里巴巴集團(tuán)內(nèi)部開始,DataWorks一直是一站式平臺的倡導(dǎo)者與堅定執(zhí)行者,包含從數(shù)據(jù)集成、數(shù)據(jù)開發(fā)的工具鏈、數(shù)據(jù)治理的工具鏈,以及到數(shù)據(jù)消費側(cè)的分析及服務(wù)的產(chǎn)品,我們通過一站式平臺不斷為企業(yè)構(gòu)建、沉淀企業(yè)的數(shù)據(jù)資產(chǎn)。在AI時代,DataWorks將14年積累的產(chǎn)品能力不斷與大模型進(jìn)行融合創(chuàng)新,為企業(yè)一站式智能化的數(shù)據(jù)平臺產(chǎn)品,提升企業(yè)數(shù)據(jù)流轉(zhuǎn)效率,加速企業(yè)數(shù)據(jù)價值獲取。

若需要了解更多DataWorks產(chǎn)品信息和開通試用。

免責(zé)聲明:本文僅代表作者個人觀點,與本網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實, 對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾, 請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。當(dāng)事人(單位)如有異議,請參閱《刪帖說明》辦理。
中國品牌要聞網(wǎng)-傳遞資訊的價值打造品牌的影響
編輯:綜合整理
2024-06-11
評論(0)
  • CopyRight@ 2005-2022 中國品牌要聞網(wǎng)
  • 工商注冊號 430122000189097
  • ICP備案許證:渝ICP備2022012785號