久久久久九九精品影院_久久久久久av无码免费看大片_欧美精品九九99久久在免费线_久久亚洲国产成人精品无码区

請輸入關(guān)鍵字

劉瑞、張懷文研究員團(tuán)隊3篇論文被多媒體領(lǐng)域國際頂級會議ACM MM 2024錄用

近日,我校計算機(jī)學(xué)院(軟件學(xué)院)劉瑞、張懷文研究員團(tuán)隊3篇論文被ACM MM 2024錄用。ACM MM 2024也稱為第32屆ACM國際多媒體大會,英文全稱The 32nd ACM International Conference on Multimedia (ACM MM),是CCF推薦的A類國際會議。ACM MM 2024將于2024年10月28日至11月1日在澳大利亞墨爾本舉行。本次錄用的3篇論文研究內(nèi)容涵蓋對話語音合成、跨模態(tài)檢索和模態(tài)增強(qiáng)語義建模等,以下為論文簡述。

圖1 ACM MM 2024會議官網(wǎng)

01生成式對話語音合成

題目:Generative Expressive Conversational Speech Synthesis

作者:劉瑞1,胡一帆1,任意2,殷翔2,李海洲3

單位:1:內(nèi)蒙古大學(xué),2:字節(jié)跳動,3:香港中文大學(xué)(深圳)

簡介:

對話語音合成(CSS)旨在在用戶-代理(User-Agent)對話設(shè)置中以適當(dāng)?shù)恼f話風(fēng)格表達(dá)目標(biāo)話語?,F(xiàn)有的CSS方法采用有效的多模態(tài)上下文建模技術(shù)來實(shí)現(xiàn)移情、理解和表達(dá)。然而,他們往往需要設(shè)計復(fù)雜的網(wǎng)絡(luò)架構(gòu),并精心優(yōu)化其中的模塊。此外,由于包含腳本化錄制風(fēng)格的小規(guī)模數(shù)據(jù)集的局限性,它們通常無法模擬真實(shí)的自然對話風(fēng)格。為了解決上述問題,我們提出了一種新穎的生成式表達(dá)式CSS大模型系統(tǒng),稱為GPT-Talker。我們將多輪對話歷史的多模態(tài)信息轉(zhuǎn)換為離散的標(biāo)記序列,并將它們無縫集成,形成一個全面的用戶-代理對話上下文。利用 GPT 的強(qiáng)大功能,我們預(yù)測了代理響應(yīng)的標(biāo)記序列,其中包括語義和風(fēng)格知識。之后,富有表現(xiàn)力的對話語音由對話豐富的 VITS 合成,以向用戶提供反饋。

圖2 GPT-Talker模型結(jié)構(gòu),包括對話GPT和對話VITS

 此外,我們制作了一個名為NCSSD的大規(guī)模自然CSS數(shù)據(jù)集,該數(shù)據(jù)集包括即興風(fēng)格的自然錄制的對話語音和從電視節(jié)目中提取的對話。它包括中文和英文兩種語言,總持續(xù)時間為236小時。

圖3 NCSSD數(shù)據(jù)集構(gòu)建過程

 我們對 NCSSD 的可靠性和 GPT-Talker 的有效性進(jìn)行了全面的實(shí)驗(yàn)。主觀和客觀評估都表明,我們的模型在自然性和表現(xiàn)力方面明顯優(yōu)于其他最先進(jìn)的CSS系統(tǒng)。代碼、數(shù)據(jù)集和預(yù)訓(xùn)練模型可在以下網(wǎng)址獲得:https://github.com/AI-S2-Lab/GPT-Talker。

02基于多實(shí)例多標(biāo)簽的文本運(yùn)動跨模態(tài)檢索

題目:Multi-Instance Multi-Label Learning for Text-motion Retrieval

作者: 楊洋,曹力元,時浩宇,張懷文

單位: 內(nèi)蒙古大學(xué)

簡介:

文本三維運(yùn)動序列檢索是一項重要的跨模態(tài)任務(wù),它旨在檢索語義上與給定查詢文本相似的運(yùn)動序列?,F(xiàn)有的方法主要利用單個嵌入來表示和對齊文本和運(yùn)動序列。然而,運(yùn)動序列通常包含多個具有復(fù)雜語義的原子運(yùn)動,其語義很難通過單個全局嵌入精確捕獲。此外,原子運(yùn)動還會同時發(fā)生,耦合在一起。這進(jìn)一步對有效對齊文本和運(yùn)動序列提出了重大挑戰(zhàn)。

圖4 多粒度語義交互方法

 為了應(yīng)對以上挑戰(zhàn),我們將文本三維運(yùn)動序列檢索視為一個多實(shí)例多標(biāo)簽學(xué)習(xí)問題,其中運(yùn)動序列被視為原子運(yùn)動的包,文本被視為相應(yīng)短語的包。為了解決多實(shí)例多標(biāo)簽學(xué)習(xí)問題,我們提出了一種新的多粒度語義交互方法,該方法可以在不同層級對齊文本和運(yùn)動序列。具體來說,多粒度語義交互方法最初將查詢和動作序列分解為三個層級:字符、實(shí)例和包。我們利用圖神經(jīng)網(wǎng)絡(luò)顯式地建模它們的語義相關(guān)性,并在這些各自的層級上進(jìn)行語義交互,精確地捕獲多個粒度的語義。為了識別和建模同時發(fā)生的原子運(yùn)動,我們測量運(yùn)動之間的幀語義一致性,然后融合和交互一致的運(yùn)動以改進(jìn)它們的表示。最后,我們利用字符、實(shí)例和包級的語義交互來全面對齊文本和動作序列。所提出的方法在兩個廣泛使用的基準(zhǔn)數(shù)據(jù)集取得了顯著的改進(jìn)。 

03面向細(xì)粒度三維人體運(yùn)動檢索的模態(tài)增強(qiáng)語義建模方法

題目:Modal-Enhanced Semantic Modeling for Fine-Grained 3D Human Motion Retrieval

作者:時浩宇,張懷文

單位:內(nèi)蒙古大學(xué)

簡介:

文本到三維人體運(yùn)動檢索是一項重要的跨模態(tài)檢索任務(wù),旨在通過自然語言描述檢索出語義相似的運(yùn)動序列。傳統(tǒng)方法在訓(xùn)練和測試階段依賴于原始的粗粒度文本描述,這種描述缺乏對動作細(xì)節(jié)和相關(guān)身體部位的精確描述,導(dǎo)致跨模態(tài)對齊困難。此外,運(yùn)動序列中包含連續(xù)的細(xì)微動作,這些動作往往發(fā)生在身體的局部,且變化幅度較小,傳統(tǒng)方法難以準(zhǔn)確識別和分辨這些細(xì)微的動作。

圖5 模態(tài)增強(qiáng)的語義建模方法

 為了應(yīng)對上述挑戰(zhàn),我們提出了“模態(tài)增強(qiáng)的語義建?!保∕ESM)方法,該方法分別從文本和人體運(yùn)動兩個模態(tài)進(jìn)行語義增強(qiáng)。具體來說,在文本表示方面,MESM利用大語言模型將原始的粗粒度文本擴(kuò)展成細(xì)粒度的文本描述,并通過設(shè)計合適的提示信息,確保文本描述按照動作的發(fā)生順序詳細(xì)描述相關(guān)身體部位的運(yùn)動。在運(yùn)動表示方面,MESM采用圖卷積網(wǎng)絡(luò)來對人體關(guān)節(jié)點(diǎn)進(jìn)行建模,增強(qiáng)不同關(guān)節(jié)之間的空間依賴關(guān)系,同時聚合有代表性的運(yùn)動特征,從而提升了模型對細(xì)微動作的捕捉能力。最終,通過對增強(qiáng)后的多模態(tài)特征進(jìn)行細(xì)粒度對齊,實(shí)現(xiàn)高效的檢索性能。實(shí)驗(yàn)結(jié)果表明,該方法有效地對齊了文本和運(yùn)動模態(tài)的數(shù)據(jù),顯著提升了文本和三維人體運(yùn)動的檢索性能。

(素材來源:科學(xué)技術(shù)處     編輯:李文娟      審核:劉雪峰)