面向現(xiàn)實世界場景，多語言大數(shù)據(jù)集 PRESTO 來了

2023-04-07 21:13:28來源：ZAKER科技

機器之心報道

機器之心編輯部

(資料圖片僅供參考)

PRESTO –一個多語言數(shù)據(jù)集，用于解析現(xiàn)實的面向任務(wù)的對話。

虛擬助理正日益融入我們的日常生活。它們可以幫助我們完成很多事情：從設(shè)置鬧鐘到在地圖導(dǎo)航，甚至可以幫助殘疾人更容易地管理他們的家。隨著我們使用這些助手，我們也越來越習(xí)慣于使用自然語言來完成那些我們曾經(jīng)用手完成的任務(wù)。

構(gòu)建強大虛擬助理所面臨的最大挑戰(zhàn)之一是確定用戶想要什么，以及完成這些任務(wù)需要哪些信息。在自然語言處理（NLP）的相關(guān)文獻中，這件事被定義為一個面向特定任務(wù)的對話解析任務(wù)，其中給定的對話需要由系統(tǒng)解析，以理解用戶意圖并執(zhí)行操作來實現(xiàn)該意圖。

基于定制化的數(shù)據(jù)集，如 MultiWOZ、TOP、SMCalFlow 等，學(xué)術(shù)界在處理面向特定任務(wù)的對話方面取得了一些進展。但這些數(shù)據(jù)集缺乏模型訓(xùn)練所需的典型語音場景，無法優(yōu)化語言模型性能，仍然有很大的進步空間。由此產(chǎn)生的模型往往表現(xiàn)不佳，用戶對互動功能的效果有一些失望。相關(guān)的語音場景涉及內(nèi)容修改場景、不流暢的對話語序場景、不同語言混合使用場景，以及使用圍繞用戶環(huán)境的結(jié)構(gòu)化上下文，其中可能涉及用戶的筆記、智能家居、聯(lián)系人列表等。

例如以下對話，該對話說明了用戶需要修改其話語時的一個常見實例：

體現(xiàn)了用戶修訂的對話實例。

虛擬助理誤解了用戶的請求，并試圖撥打不正確的聯(lián)系人。因此，用戶必須修改他們的話語以糾正助手的錯誤。為了正確地解析最后一句話，助理還需要解釋用戶特指的內(nèi)容 — 在這種情況下，它需要知道用戶在他們的手機中保存了一個聯(lián)系人名單，它應(yīng)該參考這個名單。

另一類對虛擬助理具有挑戰(zhàn)性的困難場景是混合語言采場景，當(dāng)用戶在對助理講話時從一種語言切換到另一種語言時，就會發(fā)生語言混合使用。例如下面的話語：

英語和德語文本混合使用的對話示意圖。

在本例中，用戶從英語切換到德語，其中「vier Uhr」在德語中的意思是「四點鐘」。

為了推進解析這種現(xiàn)實存在的復(fù)雜語言文本的研究，近日，谷歌助手團隊和哥倫比亞大學(xué)俞舟教授合作推出一個名為 PRESTO 的新數(shù)據(jù)集，這是一個用于解析現(xiàn)實任務(wù)對話的多語言數(shù)據(jù)集，其中包括大約 50 萬人與虛擬助理之間的現(xiàn)實對話。

該數(shù)據(jù)集涵蓋六種不同的語言，包括用戶在使用助手時可能遇到的多種對話場景，包括用戶定制改變、不流暢的對話語序場景、不同語言混合使用場景。數(shù)據(jù)集還包括結(jié)構(gòu)化的上下文，例如用戶的聯(lián)系人列表。PRESTO 對各種場景進行了標(biāo)注，使人們能夠創(chuàng)建不同的測試集來分別分析這些語言場景的模型性能。

論文鏈接：https://arxiv.org/abs/2303.08954

研究者發(fā)現(xiàn)，這些場景中的一些更容易建模，只需很少的樣本，而另一些場景則需要更多的訓(xùn)練數(shù)據(jù)。

數(shù)據(jù)集特征

涉及六種語言

我們數(shù)據(jù)集中的所有對話都是由語言對應(yīng)的原生使用者提供，包括六種語言 —— 英語、法語、德語、印地語、日語和西班牙語。這與其他數(shù)據(jù)集，如 MTOP 和 MASSIVE 形成了鮮明對比。上述數(shù)據(jù)集僅將話語從英語翻譯成其他語言，并不一定反映以非英語為母語的人的語言模式。

結(jié)構(gòu)化上下文

用戶在與虛擬助理交互時，通常會使用存儲在設(shè)備中的信息，如筆記、聯(lián)系人和列表。然而，助手通常無法訪問此上下文，這可能導(dǎo)致在處理用戶話語時出現(xiàn)解析錯誤。為了解決這個問題，PRESTO 包括三種類型的結(jié)構(gòu)化上下文、注釋、列表和聯(lián)系人，以及用戶話語及其解析。列表、筆記和聯(lián)系人由每種語言的母語使用者在數(shù)據(jù)收集過程中編寫。有了這樣的上下文，研究者可以探索如何使用這些信息來提高解析面向任務(wù)的對話模型的性能。

PRESTO 中的每個例子都包括：輸入 —— 用戶的虛擬狀態(tài)（上下文）、一個或多個用戶的對話，以及虛擬助理的回應(yīng)（對話）。輸出 —— 對話中最后一個用戶話語的語義解析（parse）。

內(nèi)容修改場景

用戶在與虛擬助理交談時，修改或糾正自己的話語是很常見的。這些修改發(fā)生的原因有很多 —— 助手可能在理解話語方面犯了錯誤，或者用戶在發(fā)表話語時改變了他們的想法，例如圖二。其他例子包括取消自己的請求（「不要添加任何東西。」）或在同一個語詞中糾正自己（「添加面包 — 不，不，等等 — 在我的購物清單上添加小麥面包。」）。在 PRESTO 的所有例子中，大約有 27% 的例子有某種類型的用戶修改，并且在數(shù)據(jù)集中有明確的標(biāo)記。

語言混合使用場景

截至 2022 年，世界上大約有 43% 的人口是雙語的。因此，許多用戶在與虛擬助手交談時都會轉(zhuǎn)換語言。在建立 PRESTO 的過程中，研究者要求雙語數(shù)據(jù)貢獻者對語言混合使用的語料進行注釋，這些語料約占數(shù)據(jù)集中所有語料的 14%。

來自 PRESTO 的印地語 - 英語、西班牙語 - 英語和德語 - 英語編碼混合語料的例子。

非流暢的對話語序場景

由于人們和虛擬助手的對話中存在很多口語表達，類似重復(fù)的短語或填充詞這樣的斷續(xù)語在用戶的話語中是無處不在的。像 DISFL-QA 這樣的數(shù)據(jù)集注意到現(xiàn)有的 NLP 文獻中存在這樣的場景，開始致力于跨域這種鴻溝。在本文的工作中，研究者考慮了六種語言下的對話。其中，英語、日語和法語中帶有填充詞或重復(fù)的語料的例子。

主要發(fā)現(xiàn)

研究者對上述每一種場景都進行了有針對性的實驗，他們使用 PRESTO 數(shù)據(jù)集訓(xùn)練出一些基于 mT5 的模型，并使用介于預(yù)測解析和人工注釋解析之間的一種精確匹配方法來對模型進行評估。下面展示了對內(nèi)容修改場景、非流程的對話語序場景和語言混合使用場景這三種場景中，在不同的訓(xùn)練數(shù)據(jù)數(shù)量下的性能結(jié)果。

隨著訓(xùn)練數(shù)據(jù)量的增加，對各種語言場景和完整測試集進行 K-shot 的結(jié)果。

可以發(fā)現(xiàn)，對目標(biāo)場景進行零樣本學(xué)習(xí)得到的性能較差，這說明在數(shù)據(jù)集中使用目標(biāo)場景中設(shè)計的文本來提高性能是有必要的。模型在非流程的對話語序場景和語言混合使用場景下的表現(xiàn)比用戶判讀要好得多（精確匹配準確度相差 40 多分）。

結(jié)論

在該工作中，作者介紹了 PRESTO，一個用于解析面向?qū)υ捜蝿?wù)的多語言數(shù)據(jù)集。該數(shù)據(jù)集涵蓋了用戶與虛擬助理的日常對話中的各種真實痛點，這些痛點是當(dāng)前 NLP 社區(qū)中現(xiàn)有數(shù)據(jù)集所缺乏的。

PRESTO 包括大約 50 萬個由英語、法語、德語、印地語、日語和西班牙語六種語言的母語使用者貢獻的話語。研究者創(chuàng)建了專門的測試集來評估每一種場景 —— 內(nèi)容修改場景、非流程的對話語序場景和語言混合使用場景以及結(jié)構(gòu)化的上下文。實驗的結(jié)果表明，當(dāng)目標(biāo)場景不包含在訓(xùn)練集中時，零樣本的表現(xiàn)較差，這表明需要使用此類語句來提高性能。

同時研究者注意到，內(nèi)容修改場景、非流程的對話語序場景更容易通過增加更多的數(shù)據(jù)來完成建模，而語言混合使用場景下即使有更多的樣本，也依然難以建模。

隨著這個數(shù)據(jù)集的發(fā)布，研究者預(yù)期能帶來新一輪的探索熱潮，他們希望研究界能在用戶每天日常聊天場景下進行研究，并且能取得進展。

THE END

轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)

投稿或?qū)で髨蟮溃篶ontent@jiqizhixin.com

關(guān)鍵詞：

責(zé)任編輯：hnmd003