多角度、真實用戶標注,人大 & 華為推出可解釋推薦數據集 REASONER
機器之心專欄
機器之心編輯部
推薦算法的可解釋性近年來受到工業界和學術界的廣泛關注。盡管人們提出了很多模型,但如何合理地評價算法產生的推薦解釋一直是人們討論的焦點。
(資料圖片僅供參考)
目前可解釋推薦算法的評價有諸多限制,如解釋的真值不是由真實用戶標注,通常只基于單一的某個方面評估解釋質量,評估策略難以統一等。
為了進一步推動可解釋推薦領域的發展,來自中國人民大學和華為的研究者聯合構建了一個新的可解釋推薦數據集—— REASONER ( Real Users Labeled Multi-aspect Explanations for Explainable Recommendation ) 。
論文地址:https://arxiv.org/pdf/2303.00168.pdf項目主頁:https://reasoner2023.github.io/
GitHub 地址:https://github.com/REASONER2023/reasoner2023.github.io
聯系郵箱:reasonerdataset@gmail.com
該數據集構建于視頻推薦場景,包含了多種推薦解釋目的的真值,例如,增強推薦說服力、解釋信息量以及用戶滿意度等。可廣泛應用于可解釋推薦、推薦系統糾偏以及基于心理學的推薦等領域。同時,該研究也開發了一個可解釋推薦工具包,包含了十個知名的可解釋推薦模型方便大家使用。
可解釋推薦數據集
亮點介紹
REASONER 數據集具有以下幾個亮點:
多模態的候選解釋:用戶可以根據自身偏好為每個推薦的視頻選擇文本解釋或視覺解釋。
多方面的解釋真值:從推薦說服力、解釋信息量和用戶滿意度三個方面提供推薦解釋真值。
真實用戶標注:數據集中的解釋真值的標注者正是產生交互記錄的人。
豐富的用戶特征:該研究收集了參與用戶的多方面的特征信息(已脫敏)。
數據集構建
數據集的構建主要有以下三步:
1. 搭建視頻推薦平臺,設計有關推薦可解釋性的關鍵問題
推薦平臺的元素
由于視頻內容豐富,可以提供充足的解釋候選項,該研究選擇視頻作為平臺的推薦項目。考慮到較長的標注時間會降低用戶的注意力,因此該研究將視頻時長控制在三分鐘以內。
該研究挑選了一些視頻特征作為推薦解釋的候選項,其中最重要的特征是標簽和預覽。標簽提取于視頻作者所附原始標簽、觀看者實時評論和看后評論,屬于文本特征;預覽是從視頻中提取出最具代表性的五個畫面,屬于視覺特征。
為獲得多方面的解釋真值,該研究為標注者設計了一系列的問題:
Q1: 哪些特征是您想觀看該視頻的原因?(推薦說服力)
Q2: 哪些特征最能體現該視頻的信息?(解釋信息量)
Q3: 哪些特征您最感興趣?(用戶滿意度)
Q4: 請根據您的喜好進行評分(范圍 1~5)
Q5: 您怎樣評價該視頻?(對視頻的詳細觀點)
2. 招募標注者使用上述平臺,收集他們的行為和回答
數據集的完整標注過程如圖所示:
Step1: 用戶注冊用戶提供個人基礎信息進行平臺注冊,并完成大五人格測試題。
Step2: 平臺推薦
用戶登錄平臺,系統為其隨機推薦三個短視頻。
Step3: 用戶選擇和觀看之前問題回答
用戶查看推薦視頻的特征并選擇是否想要觀看該視頻,若決定觀看,則需回答讓其選擇觀看該視頻的特征(Q1),否則用戶需要選擇令其不想觀看該視頻的特征。
Step4: 觀看視頻
用戶觀看完整視頻。
Step5: 觀看之后問題回答
用戶觀看過視頻后,進行評分和評價(Q4 和 Q5), 回答最能體現視頻內容的特征(Q2)和最能反應用戶興趣的特征(Q3)。
每個用戶需完成 Step1 一次,并重復 Step2~Step5 六次,因此,在完整的標注過程中,每位用戶會接收到 18 個推薦視頻并對其進行標注。
3. 數據質量控制
相比于圖像識別、實體標注等傳統標注任務中真值都是客觀的,REASONER 數據集旨在收集用戶主觀的個性化的偏好,無嚴格對錯之分,這給質量控制增添了難度。
為此,該研究精心設置了一系列的規則判斷標注結果的合理性,并移除不合理的樣本。規則的設計主要依據標注時間、不同問題的一致回答、同一問題的矛盾回答和不同問題的矛盾回答等方面。
數據集內容
REASONER 數據集包含了 2997 個用戶,4672 個視頻,6115 個標簽以及 58000 多條用戶與視頻的交互記錄,這些信息存儲在下列文件中:
REASONER-Dataset │── dataset │ ├── interaction.csv │ ├── user.csv │ ├── video.csv │ ├── bigfive.csv │ ├── tag_map.csv │ ├── video_map.csv │── preview │── README.md
1. Interaction.csv 字段說明
2. user.csv 字段說明3. video.csv 字段說明4. bigfive.csv 說明標注人員需完成大五人格測試 ( Big Five Personality Test ) ,bigfive.csv 包含標注者對 15 個問題的回答,其中 [ 0, 1, 2, 3, 4, 5 ] 分別對應于 [ 完全不符合,大部分不符合,有點不符合,有點符合,大部分符合,完全符合 ] 。
5. tag_map.csv 字段說明
6. video_map.csv 字段說明7. preview 說明包含了每個視頻的五個圖片預覽。
可解釋推薦工具包
連同 REASONER 數據集,該研究還開發了一個可解釋推薦算法工具包方便大家使用。該代碼庫提供了兩類廣泛研究的可解釋推薦模型,分別是基于特征的可解釋推薦模型和基于自然語言解釋的推薦模型。
現有模型
1. 基于特征的模型
EFM from Yongfeng Zhang et al.: Explicit Factor Models for Explainable Recommendation based on Phrase-level Sentiment Analysis ( SIGIR 2014 ) .
TriRank from Xiangnan He et al.: TriRank: Review-aware Explainable Recommendation by Modeling Aspects ( CIKM 2015 ) .
LRPPM from Xu Chen et al.: Learning to Rank Features for Recommendation over Multiple Categories ( SIGIR 2016 ) .
SULM from Konstantin Bauman et al.: Aspect Based Recommendations: Recommending Items with the Most Valuable Aspects Based on User Reviews. ( KDD 2017 ) .
MTER from Nan Wang et al.: Explainable Recommendation via Multi-Task Learning in Opinionated Text Data ( SIGIR 2018 ) .
AMF from Yunfeng Hou et al.: Explainable recommendation with fusion of aspect information ( WWW 2019 ) .
DERM: 區別于以上基于矩陣分解的淺層模型,該研究實現了不同形式的深度可解釋推薦模型 ( Deep Explainable Recommendation Models ) .
2. 基于自然語言解釋的模型
Att2Seq from Li Dong et al.: Learning to Generate Product Reviews from Attributes ( ACL 2017 ) .
NRT from Piji Li et al.: Neural Rating Regression with Abstractive Tips Generation for Recommendation ( SIGIR 2017 ) .
PETER from Lei Li et al.: Personalized Transformer for Explainable Recommendation ( ACL 2021 ) .
快速使用
1. 下載源代碼
git clone https://github.com/REASONER2023/reasoner2023.github.io.git
2. 快速運行
運行基于特征的模型:
python tag_predict.py --model= [ model_name ] --dataset= [ dataset ] --config= [ config_files ]
運行基于自然語言解釋的模型:
python review_generate.py --model= [ model_name ] --dataset= [ dataset ] --config= [ config_files ]
適配 RecBole
RecBole ( 伯樂 ) 是一個基于 PyTorch 開發的統一、全面和高效的推薦算法框架,目前已有 2.6k star。REASONER 數據集已經有適配 RecBole 數據格式的版本,接下來該研究會將目前的可解釋推薦算法工具包遷移到 RecBole 上,方便大家使用 RecBole 中豐富、便捷的各項功能。
展望
研究團隊相信 REAONER 數據集將為可解釋推薦領域帶來以下新機會:
多方面的可解釋推薦:通過 REASONER 數據集,人們可以同時考慮不同的解釋方面,并學習更全面的可解釋模型來為線上用戶服務。
多模態的可解釋推薦:在現實場景中,用戶總是需要感知多模態信息。借助 REASONER 數據集,人們可以圍繞多模態解釋展開研究。
具有全面人物信息的可解釋推薦:通過 REASONER 數據集,人們可以獲取脫敏的用戶信息,有助于很多方向的研究。例如,解釋的公平性,以及利用用戶特征增強解釋預測的準確性。
推薦系統其他方向:推薦系統糾偏、基于心理學的推薦算法等。
Reference
[ 1 ] Xu Chen, Jingsen Zhang, Lei Wang, Quanyu Dai, Zhenhua Dong, Ruiming Tang, Rui Zhang, Li Chen and Ji-Rong Wen. REASONER: An Explainable Recommendation Dataset with Multi-aspect Real User Labeled Ground Truths Towards more Measurable Explainable Recommendation. arXiv preprint arXiv:2303.00168 ( 2023 ) .
[ 2 ] Zhao W X, Mu S, Hou Y, et al. Recbole: Towards a unified, comprehensive and efficient framework for recommendation algorithms [ C ] //Proceedings of the 30th ACM International Conference on Information & nowledge Management. 2021: 4653-4664.
THE END
轉載請聯系本公眾號獲得授權
投稿或尋求報道:content@jiqizhixin.com
責任編輯:hnmd003
相關閱讀
-
大模型迎來「開源季」,盤點過去一個月那些開源的 LLM 和數據集
選自AheadofAI機器之心編譯編譯:杜偉、澤南開源的力量正在源源不斷地影響著整個AI社區,無論是LLM還是數據
2023-05-16 -
微軟和 ChatGPT 之父下注核聚變:2028 年用上核聚變商業發電
鈦媒體App5月16日消息,微軟日前表示已與核聚變初創公司HelionEnergy簽訂電力采購協議,將在2028年采購由該
2023-05-16 -
樂歌股份:將盡快進軍學校學生桌椅,正研究智慧屏接入 ChatGPT 觀點
多知網5月16日消息,智能升降家居品牌樂歌人體工學科技股份有限公司(以下簡稱樂歌股份)近日舉行了投資者活
2023-05-16 -
你信嗎?谷歌 AI 公司創始人稱傳統搜索引擎十年內將消亡
【CNMO新聞】近日,據CNMO了解,谷歌旗下人工智能子公司DeepMind聯合創始人穆斯塔法·蘇萊曼(MustafaSuley
2023-05-16 -
蘋果 iPhone 15 系列初期備貨量“不容樂觀”,供應鏈普遍信心不足
蘋果將會在今年秋天帶來新一代iPhone15系列手機,目前相關準備工作正在進行當中。今年智能手機市場形勢嚴峻
2023-05-16
相關閱讀
-
多角度、真實用戶標注,人大 & 華為推出可解釋推薦數據集 REASONER
機器之心專欄機器之心編輯部推薦算法的可解釋性近年來受到工業界和學術界的廣泛關注。盡管人們提出了很多模
-
大模型迎來「開源季」,盤點過去一個月那些開源的 LLM 和數據集
選自AheadofAI機器之心編譯編譯:杜偉、澤南開源的力量正在源源不斷地影響著整個AI社區,無論是LLM還是數據
-
微軟和 ChatGPT 之父下注核聚變:2028 年用上核聚變商業發電
鈦媒體App5月16日消息,微軟日前表示已與核聚變初創公司HelionEnergy簽訂電力采購協議,將在2028年采購由該
-
樂歌股份:將盡快進軍學校學生桌椅,正研究智慧屏接入 ChatGPT 觀點
多知網5月16日消息,智能升降家居品牌樂歌人體工學科技股份有限公司(以下簡稱樂歌股份)近日舉行了投資者活
-
全國人大常委會的職權主要有哪幾個方面?國家立法權具體包括哪些內容?
全國人大常委會的職權,主要有以下幾個方面:(一)、國家立法權。憲法規定;全國人民代表大會和全國人民代...
-
世界視訊!WPS AI 再發布新 AI 能力,覆蓋文字、表格、PPT、PDF 四大辦公組件
作者|鄧詠儀編輯|蘇建勛36氪獲悉,5月16日,金山辦公旗下的WPSAI正式對外展示了文字、表格、PPT、PDF四大辦
-
ofo 創始人戴威在美國創業 開設 About Time Coffee 咖啡連鎖店
ofo小黃車創始人戴威再次開始創業,這次選在美國。他開了一家名為AboutTimeCoffee的咖啡店,已經在紐約市中
-
ofo小黃車創始人赴美創業!ofo小黃車押金還能退回來嗎?
ofo小黃車創始人赴美創業!ofo小黃車創始人戴威赴美創業:注冊用戶免費喝咖啡,估值2億美元。5月16日,據...
-
對公銀行開戶要多久?對公銀行開戶需要帶什么資料?
對公銀行開戶要多久?公司銀行開戶需要7天到15天左右。注冊公司時,必須要開立銀行基本戶,公司的銀行賬...
-
余額寶銀華貨幣基金a保本嗎?余額寶三種基金哪個好?
余額寶銀華貨幣基金a保本嗎?銀華多利寶貨幣a屬于基金類產品。除了保本基金之外,所有基金都是不保本,也...
-
微信備用金怎么開通?微信備用金能提現嗎?
微信備用金怎么開通?1、第一步打開微信,進去我的界面之后,點擊支付2、第二步進去微信支付之后,點擊微...
-
全球動態:為國家低碳城市賦能: 英威騰光伏助力常州打造多個工商業光伏電站
常州,你好!這座位于蘇南擁有著3200多年歷史的文化古城,時時在煥發新的生機。逆變每一縷陽光英威騰光伏行走
-
天天快消息!北京擬實施算力伙伴計劃
北京商報訊(記者楊月涵)近日,北京出臺《北京市促進通用人工智能創新發展的若干措施(2023-2025年)(征
-
針對彈性算力需求 北京擬建設統一的多云算力調度平臺
利用政府統一入口,降低公有云采購成本,普惠中小企業,同時減少企業分別面對不同云廠商的溝通成本。針對彈
-
焦點消息!北京擬整合現有開源中文預訓練數據集和高質量互聯網中文數據
同時持續擴展高質量多模態數據來源,建設合規安全的中文、圖文對、音頻、視頻等大模型預訓練語料庫,通過北
-
世界關注:我國首臺國產化150兆瓦級大型沖擊式轉輪成功下線
中國經濟網北京5月16日訊記者今日從東方電氣集團東方電機有限公司獲悉,東方電氣自主研制的國內首臺單機容
-
IDC:一季度中國平板電腦市場同比下降1.1%
證券時報e公司訊,國際數據公司(IDC)最新平板電腦季度跟蹤報告顯示,2023年第一季度,中國平板電腦市場出
-
中國人壽c賬戶怎么樣?可以一次性把錢支出來嗎? 焦點快報
中國人壽c賬戶旨在滿足客戶長期儲蓄和風險保障的需要,與傳統的儲蓄方式不同,c賬戶的收益主要來自于固定利
-
中國人壽保險靠譜不?有哪些險種?
靠譜。 作為中國最大的保險公司之一,中國人壽保險具有廣泛的服務網絡和全面的保險產品線。截至2021年底,
-
全球簡訊:華夏保險存錢可靠嗎?存錢一年可以取嗎?
可靠。 華夏保險作為中國大陸上市的一家股份制保險公司,具有較高的信譽度和業務水平。其推出的存錢型保險
-
要聞速遞:北京印刷學院突發集體食物中毒,學生多次在食物中吃到蟑螂腿、鐵絲、頭發等異物
據國是直通車消息,15日下午,在北京印刷學院班級群中,多位學生反應在學校食堂用餐后出現上吐下瀉的情
-
北京市今年將招聘鄉村振興協理員近500名
北京市將啟動2023年鄉村振興協理員招聘工作,面向北京生源應屆畢業生,計劃招聘494人。報名時間從2023年5月
-
美財長耶倫:美國政府最早6月1日出現債務違約|全球熱聞
從過去經驗來看,如果等到最后時刻再提高政府債務上限將對企業和消費者信心帶來“嚴重危害”,對美國政...
-
9個項目集中簽約落戶重慶影視城(江津白沙)-世界今亮點
9個項目涉及到了外景拍攝、數字攝影棚、影視道具庫全產業鏈等諸多領域。這批影視產業項目將為白沙加快建設
-
無錫搭建養老"幸福圈" 今年將打造35個鄉村睦鄰點 世界熱推薦
以“睦鄰點”為中心,打造鄉村養老“幸福圈”。據悉,無錫市今年將打造35個同類鄉村“睦鄰點”。
-
你信嗎?谷歌 AI 公司創始人稱傳統搜索引擎十年內將消亡
【CNMO新聞】近日,據CNMO了解,谷歌旗下人工智能子公司DeepMind聯合創始人穆斯塔法·蘇萊曼(MustafaSuley
-
蘋果 iPhone 15 系列初期備貨量“不容樂觀”,供應鏈普遍信心不足
蘋果將會在今年秋天帶來新一代iPhone15系列手機,目前相關準備工作正在進行當中。今年智能手機市場形勢嚴峻
-
拆解報告:飛利浦 DLM3542N 無線麥克風
短視頻平臺的興起,人們記錄和分享生活的方式開始以視頻為主,隨之體積輕巧便攜,用于提升視頻音頻質量的無
-
SpaceX 公理太空 Ax-2 私人航天任務將于 5 月 22 日發射,送四人到國際空間站停留八天 全球聚焦
品玩5月16日訊,據IT之家報道,NASA、SpaceX和AxiomSpace(公理太空)今天(美國時間5月15日)對Ax-2任務進
-
主板廠商新版 BIOS 或沒有解決 AM5 主板問題,SoC 電壓仍會超過 1.3V
由于芯片電壓提高到不安全的水平,導致Ryzen7000X3D系列處理器可能會出現突然燒壞的情況。各大主板廠商在近
精彩推薦
閱讀排行
精彩推送
- 叫“鶴”的城市房價都低?北京一...
- 平安電工:自我提示虧損,靠收購...
- 世界關注:熱搜!馬斯克收到法院...
- 全球熱消息:重大發現!抗阿爾茨...
- 網約車要飽和了,比亞迪與廣汽埃...
- 汽車服務工程專業介紹及就業方向...
- 每日焦點!中國太平人壽保險怎么...
- 焦點短訊!泰康保險可靠嗎?怎么...
- 工地工傷保險賠償標準是多少?多...
- 保險合同終止的原因有哪些?怎么...
- 養老保險跨省轉移最新政策是什么...
- 當前要聞:復星聯合健康增資屢敗...
- 2023新財富500富人:4562億,鐘...
- 馬斯克:荒謬 愛潑斯坦從未向我...
- 用戶價值驅動的汽車電子電氣架構...
- 通過軟件平臺賦能客戶可擴展ADAS...
- AITO問界與能鏈智電達成戰略合作...
- 全球熱資訊!細節小幅調整,阿斯...
- 福祿雙喜是什么保險?福祿雙喜兩...
- 微業貸貸款需要什么條件?微業貸...
- 華夏貨幣基金怎么樣?華夏貨幣基...
- 焦點播報:輝瑞宣布全資子公司發...
- 讓“帶娃”不再難 未來我國每千...
- 多行一起下架“智能通知存款”產品
- 今日熱議:倍諳基宣布完成逾3億...
- 當前速遞!華麗家族股價封死漲停...
- 全球資訊:華為 MateBook E ...
- 小冰宣布啟動“ GPT 克隆人計...
- WPS AI 二次亮相 展示類微軟 Copilot 能力
- 當前熱文:生態融合 華為 Mate...