首頁 要聞 中國 經(jīng)濟 財經(jīng) 品牌 點評 會展 綜合 | 設為首頁
中國品牌要聞網(wǎng)-傳遞資訊的價值打造品牌的影響
您現(xiàn)在的位置:首頁/IT互聯(lián)網(wǎng)/ 正文
阿里云人工智能平臺PAI多篇論文入選EMNLP 2023
來源:
編輯:
時間:2023-12-06

近期,阿里云人工智能平臺PAI主導的多篇論文在EMNLP2023上入選。EMNLP是人工智能自然語言處理領(lǐng)域的頂級國際會議,聚焦于自然語言處理技術(shù)在各個應用場景的學術(shù)研究,尤其重視自然語言處理的實證研究。該會議曾推動了預訓練語言模型、文本挖掘、對話系統(tǒng)、機器翻譯等自然語言處理領(lǐng)域的核心創(chuàng)新,在學術(shù)和工業(yè)界都有巨大的影響力。此次入選意味著阿里云人工智能平臺PAI自研的自然語言處理算法達到了全球業(yè)界先進水平,獲得了國際學者的認可,展現(xiàn)了中國人工智能技術(shù)創(chuàng)新在國際上的競爭力。

論文簡述

面向Stable Diffusion的自動Prompt工程算法BeautifulPrompt

文生圖是AIGC中最引人注目和廣泛應用的技術(shù)之一,旨在通過文本輸入創(chuàng)建逼真的圖像。然而,文成圖模型要求用戶在模型推理之前編寫文本提示(例如“一艘雄偉的帆船”)。編寫滿足設計師或藝術(shù)工作者需求的這些提示充滿了不確定性,就像開盲盒一樣。這是由于訓練數(shù)據(jù)的質(zhì)量問題,導致需要詳細的描述才能生成高質(zhì)量的圖像。在現(xiàn)實場景中,非專家往往很難手工編寫這些提示,并且需要通過試錯的迭代修改來重新生成圖像,從而導致時間和計算資源的嚴重浪費。BeautifulPrompt模型關(guān)注于大語言模型(LLM)自動地生成高質(zhì)量的提示詞,與InstructGPT類似,采用了三階段的訓練方式。下圖展示了使用簡單的圖片描述和BeautifulPrompt之后生產(chǎn)的圖片:

為了驗證BeautifulPrompt的有效性,我們在一些基于模型打分的客觀指標和人類主觀評估上做了評測,結(jié)果驗證了BeautifulPrompt顯著提升了提示詞的質(zhì)量,可以生成高質(zhì)量的圖像。

 

面向垂直領(lǐng)域的知識預訓練語言模型

知識增強預訓練語言模型(KEPLM)通過從大規(guī)模知識圖(KGs)中注入知識事實來提高各種下游NLP任務的性能。然而,由于缺乏足夠的域圖語義,這些構(gòu)建開放域KEPLM的方法很難直接遷移到垂直領(lǐng)域,因為它們?nèi)狈Υ怪鳖I(lǐng)域KGs的特性進行深入建模。如下圖所示,KG實體相對于純文本的覆蓋率在垂直領(lǐng)域中明顯低于開放域,表明領(lǐng)域知識注入存在全局稀疏現(xiàn)象。這意味著將檢索到的少數(shù)相關(guān)三元組直接注入到PLM中對于領(lǐng)域來說可能是不夠的。我們進一步注意到,在垂直領(lǐng)域KGs中,最大點雙連通分量的比率要高得多,這意味著這些KGs中同一實體類下的實體相互連接更緊密,并表現(xiàn)出局部密度特性。

這一工作研究是基于上述領(lǐng)域KG的數(shù)據(jù)特性提出了一個簡單但有效的統(tǒng)一框架來學習各種垂直領(lǐng)域的KEPLM。它分別通過雙曲空間學習垂直領(lǐng)域圖譜數(shù)據(jù)的分層語義信息來補充全局語義稀疏模塊Hyperbolic Knowledge-aware Aggregator,通過捕捉領(lǐng)域圖譜稠密的圖結(jié)構(gòu)構(gòu)造基于點雙聯(lián)通分量的對比學習模塊Multi-Level Knowledge-aware Augmenter。

我們選取了金融和醫(yī)療等領(lǐng)域的各種下游任務的全數(shù)據(jù)量和少樣本數(shù)據(jù)量場景進行評測,結(jié)果體現(xiàn)出這個模型的優(yōu)越性。

基于大語言模型的復雜任務認知推理算法CogTree

隨著深度學習在自然語言處理、機器翻譯等任務上的不斷發(fā)展,人們對如何將深度學習應用到自然語言處理中越來越感興趣,由此出現(xiàn)了大語言模型(例如GPT-3.5),并已在文本生成、情感分析、對話系統(tǒng)等多個任務上取得了重大突破。大語言模型通;诖笠(guī)模文本數(shù)據(jù)進行預訓練,然后通過微調(diào)在特定任務上進行優(yōu)化,以生成高質(zhì)量的文本輸出。然而,對于語言模型而言,復雜的邏輯推理問題和數(shù)學問題的求解仍然是很困難的。并且,傳統(tǒng)的語言模型缺乏認知能力。在處理涉及冗長的推理鏈或多步解決方案的問題時,對于問題及其當前回答的評估是很重要的。然而,目前的方法例如Chain-of-thought等通常缺乏對于中間過程的驗證。并且大型語言模型的部署和推理成本相對較高,特別是在利用無參數(shù)更新的推理增強技術(shù)時。這些技術(shù)需要大量的上下文和多步的答案生成,進一步增加了推理成本和時間。

這一工作研究面向輕量化大模型的復雜任務推理,使用較小規(guī)模的模型(7B),構(gòu)建雙系統(tǒng)生成推理樹,大大增強模型在復雜數(shù)學問題和邏輯推理問題上的回答能力。提出了一種大模型面向復雜數(shù)學問題的求解方法。該方法基于人類的認知理論,通過兩個系統(tǒng):直覺系統(tǒng)和反思系統(tǒng)來模仿人類產(chǎn)生認知的過程。直覺系統(tǒng)負責產(chǎn)生原始問題的多個分解假設,反思系統(tǒng)對直覺系統(tǒng)產(chǎn)生的假設進行驗證,并選擇更有可能的假設進行后續(xù)生成,直到達到最終結(jié)果。通過上述雙系統(tǒng)的迭代式生成,可以提升大模型的解題準確度。

我們在Entailment Bank邏輯推理數(shù)據(jù)集以及GSM8K數(shù)學問題數(shù)據(jù)集上進行了測試,效果證明CogTree對大模型復雜任務上的回答準確率提升明顯。

基于知識遷移的跨語言機器閱讀理解算法

大規(guī)模預訓練語言模型的廣泛應用,促進了NLP各個下游任務準確度大幅提升,然而,傳統(tǒng)的自然語言理解任務通常需要大量的標注數(shù)據(jù)來微調(diào)預訓練語言模型。但低資源語言缺乏標注數(shù)據(jù)集,難以獲取。大部分現(xiàn)有的機器閱讀理解(MRC)數(shù)據(jù)集都是英文的,這對于其他語言來說是一個困難。其次,不同語言之間存在語言和文化的差異,表現(xiàn)為不同的句子結(jié)構(gòu)、詞序和形態(tài)特征。例如,日語、中文、印地語和阿拉伯語等語言具有不同的文字系統(tǒng)和更復雜的語法系統(tǒng),這使得MRC模型難以理解這些語言的文本。為了解決這些挑戰(zhàn),現(xiàn)有文獻中通常采用基于機器翻譯的數(shù)據(jù)增強方法,將源語言的數(shù)據(jù)集翻譯成目標語言進行模型訓練。然而,在MRC任務中,由于翻譯導致的答案跨度偏移,無法直接使用源語言的輸出分布來教導目標語言。

這一工作提出了一種名為X-STA的跨語言MRC方法,遵循三個原則:共享、教導和對齊。共享方面,提出了梯度分解的知識共享技術(shù),通過使用平行語言對作為模型輸入,從源語言中提取知識,增強對目標語言的理解,同時避免源語言表示的退化。教導方面,本方法利用注意機制,在目標語言的上下文中尋找與源語言輸出答案語義相似的答案跨度,用于校準輸出答案。對齊方面,多層次的對齊被利用來進一步增強MRC模型的跨語言傳遞能力。通過知識共享、教導和多層次對齊,本方法可以增強模型對不同語言的語言理解能力。

為了驗證X-STA算法的有效性,我們在三個跨語言MRC數(shù)據(jù)集上進行了測試,效果證明X-STA對精度提升明顯。

上述科研成果也在PAI產(chǎn)品的各個模塊進行了深度的集成和整合,持續(xù)為PAI客戶提供AI模型訓練相關(guān)服務。其中,BeautifulPrompt技術(shù)已經(jīng)作為SD WebUI的可擴展插件和PAI-EAS在線推理服務進行集成,使得PAI客戶在5分鐘內(nèi)就可以在PAI-EAS上一鍵部署SD WebUI,使用各種AIGC文圖生成功能。此外,PAI-QuickStart也集成了超過20個熱門大語言模型,及其多種訓練和推理方式,使客戶更加簡單地微調(diào)和部署大語言模型。在未來,我們也將在PAI平臺上持續(xù)提供業(yè)界領(lǐng)先的算法和模型能力給廣大客戶。

論文信息

論文標題:BeautifulPrompt: Towards Automatic Prompt Engineering for Text-to-Image Synthesis
論文作者:曹庭鋒、汪誠愚、劉冰雁、吳梓恒、朱金輝、黃俊

論文pdf鏈接:https://arxiv.org/abs/2311.06752

論文標題:Learning Knowledge-Enhanced Contextual Language Representations for Domain Natural Language Understanding
論文作者:徐如瑤、張濤林、汪誠愚、段忠杰、陳岑、邱明輝、程大偉、何曉豐、錢衛(wèi)寧

論文pdf鏈接:https://arxiv.org/abs/2311.06761

論文標題:From Complex to Simple: Unraveling the Cognitive Tree for Reasoning with Small Language Models
論文作者:嚴俊冰、汪誠愚、張濤林、何曉豐、黃俊、張偉

論文pdf鏈接:https://arxiv.org/abs/2311.06754

論文標題:Sharing, Teaching and Aligning: Knowledgeable Transfer Learning for Cross-Lingual Machine Reading Comprehension
論文作者:曹庭鋒、汪誠愚、譚傳奇、黃俊、朱金輝

論文pdf鏈接:https://arxiv.org/abs/2311.06758

免責聲明:本文僅代表作者個人觀點,與本網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實, 對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾, 請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。當事人(單位)如有異議,請參閱《刪帖說明》辦理。
中國品牌要聞網(wǎng)-傳遞資訊的價值打造品牌的影響
  • CopyRight@ 2005-2022 中國品牌要聞網(wǎng)
  • 工商注冊號 430122000189097
  • ICP備案許證:渝ICP備2022012785號