朱倩男:從推薦結(jié)果多樣化建立算法公平性評(píng)測(cè)指標(biāo)

2022-03-24 19:41:41來(lái)源:中新經(jīng)緯  

中新經(jīng)緯3月24日電 (薛宇飛)近日,由中國(guó)人民大學(xué)高瓴人工智能學(xué)院、智能社會(huì)治理跨學(xué)科交叉平臺(tái)和基于大數(shù)據(jù)文科綜合訓(xùn)練國(guó)家級(jí)虛擬仿真實(shí)驗(yàn)教學(xué)中心聯(lián)合主辦的算法公平性與內(nèi)容生態(tài)建設(shè)研討會(huì)在線上舉行,來(lái)自清華大學(xué)、中國(guó)人民大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)、對(duì)外經(jīng)貿(mào)大學(xué)、北京郵電大學(xué)、北京科技大學(xué)、微軟亞洲研究院的十幾位專家、學(xué)者,就推薦算法的公平性等多個(gè)熱點(diǎn)問(wèn)題展開(kāi)討論。研討會(huì)上,中國(guó)人民大學(xué)高瓴人工智能學(xué)院發(fā)布了《算法公平性與內(nèi)容生態(tài)建設(shè)》報(bào)告(下稱報(bào)告)。

剖析與總結(jié)算法不公平性的原因

研討會(huì)上,中國(guó)人民大學(xué)高瓴人工智能學(xué)院博士后朱倩男分享了報(bào)告的主要內(nèi)容。報(bào)告將推薦系統(tǒng)看作用戶、數(shù)據(jù)和模型三者間的循環(huán)交互過(guò)程,推薦流程可以分為用戶到數(shù)據(jù)、數(shù)據(jù)到模型、模型到用戶三個(gè)階段。用戶到數(shù)據(jù)階段,是指從移動(dòng)端、網(wǎng)頁(yè)等各途徑收集用戶行為數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行清洗與篩選;數(shù)據(jù)到推薦模型階段,是將篩選或清洗后的行為數(shù)據(jù)輸入到模型中以挖掘用戶偏好,同時(shí)向用戶返回個(gè)性化推薦結(jié)果;在模型到用戶階段,用戶根據(jù)反饋結(jié)果進(jìn)行點(diǎn)擊或?yàn)g覽,形成新的交互行為用作下一次迭代。

為了加深大眾對(duì)推薦系統(tǒng)的了解,朱倩男列舉了日常生活中經(jīng)常使用到的推薦產(chǎn)品及應(yīng)用場(chǎng)景。比如,今日頭條的資訊推薦系統(tǒng)就是典型的新聞應(yīng)用場(chǎng)景,它利用資訊內(nèi)容、用戶特征以及環(huán)境特征三個(gè)維度擬合用戶對(duì)推薦內(nèi)容的滿意程度,同時(shí),今日頭條的資訊推薦系統(tǒng)還考慮基于內(nèi)容安全的鑒定模型向用戶推薦比較安全和可靠的資訊。

報(bào)告從公平性關(guān)注角度,即信息需求方和信息供給方列舉了幾個(gè)不公平的例子。比如,對(duì)于信息需求方來(lái)講,常見(jiàn)的不公平現(xiàn)象包括但不限于偏好放大、曝光偏見(jiàn)和大數(shù)據(jù)殺熟等。比如,在電商場(chǎng)景下,“偏好放大”是指用戶搜索一個(gè)物品后,接下來(lái)一段時(shí)間的推薦很可能都與該物品相關(guān),即使是用戶已經(jīng)購(gòu)買過(guò)該物品。而曝光偏見(jiàn)是指未曝光或者很少曝光的物品,由于缺乏用戶行為數(shù)據(jù),更加得不到曝光機(jī)會(huì),限制了用戶接觸到更多感興趣商品的機(jī)會(huì),這對(duì)用戶來(lái)講是不公平的。對(duì)于信息供給方來(lái)說(shuō),常見(jiàn)不公平現(xiàn)象包括但不限于位置偏見(jiàn)和流行性偏見(jiàn)等。位置偏見(jiàn)是指位置靠前的物品比位置靠后的物品更容易被用戶注意到。流行性偏見(jiàn)指比較流行的物品更容易推薦給用戶,而不流行的物品有較少的機(jī)會(huì)被推薦給用戶。

朱倩男稱,要從推薦系統(tǒng)原理出發(fā),關(guān)注推薦系統(tǒng)循環(huán)回路中的數(shù)據(jù)、推薦模型和用戶三個(gè)要素,分析產(chǎn)生不公平現(xiàn)象的潛在原因。

首先,在數(shù)據(jù)層面,樣本數(shù)量的有限性和可偽造性,會(huì)影響推薦算法的準(zhǔn)確性和公正性。由于商業(yè)競(jìng)爭(zhēng)和對(duì)用戶數(shù)據(jù)隱私的保護(hù),與用戶相關(guān)的全量樣本數(shù)據(jù)的獲取不具備可行性;人為偽造的點(diǎn)贊量、轉(zhuǎn)發(fā)量等數(shù)據(jù),會(huì)對(duì)算法規(guī)則產(chǎn)生“欺騙”;用戶往往受選擇偏見(jiàn)、曝光偏見(jiàn)、從眾心理以及物品流行度的影響,可能會(huì)產(chǎn)生有偏的反饋數(shù)據(jù),而有偏的數(shù)據(jù)自然會(huì)產(chǎn)生有偏的推薦結(jié)果。

其次,在推薦模型層面,算法的核心是從輸入的數(shù)據(jù)中挖掘用戶偏好,以預(yù)測(cè)符合用戶偏好的推薦結(jié)果,但有偏的輸入會(huì)形成有偏的輸出,并在推薦循環(huán)中進(jìn)一步加深,產(chǎn)生不公平問(wèn)題。此外,在算法目標(biāo)或核心設(shè)計(jì)層面,更多的是追求風(fēng)險(xiǎn)最小化,比較看重的是整體準(zhǔn)確率或者收益,也就是說(shuō),推薦系統(tǒng)更在意擬合多數(shù)群體的需求,而少數(shù)群體的反饋往往會(huì)被忽略掉。長(zhǎng)此以往,推薦算法會(huì)喪失對(duì)這部分少量用戶的代表性,形成歸納偏差。朱倩男稱,如果推薦算法只追求準(zhǔn)確性,而很少考慮到公平性的因素,這樣的推薦算法就會(huì)用有偏的結(jié)果來(lái)擬合并且強(qiáng)化用戶已有的偏見(jiàn)或者喜好,從而減少用戶對(duì)其他新鮮信息的接觸機(jī)會(huì),產(chǎn)生不公平問(wèn)題。

最后,在人的層面。算法是人為設(shè)計(jì)的,設(shè)計(jì)者可能將自身固有的偏見(jiàn)嵌入到算法中,算法在反映偏見(jiàn)的同時(shí)也會(huì)放大這種歧視。其次,對(duì)用戶來(lái)講,用戶行為可能會(huì)受到從眾心理以及流行度等因素影響,并不能形成反映用戶真實(shí)興趣的數(shù)據(jù),而推薦系統(tǒng)在有偏數(shù)據(jù)上進(jìn)行建模,就可能產(chǎn)生有偏的推薦結(jié)果。

通過(guò)以上分析,報(bào)告對(duì)推薦算法可能產(chǎn)生的偏見(jiàn)問(wèn)題進(jìn)行總結(jié)。在用戶到數(shù)據(jù)階段,可能會(huì)有位置偏見(jiàn)、曝光偏見(jiàn)、選擇偏見(jiàn)以及從眾偏見(jiàn)等不公平問(wèn)題。在數(shù)據(jù)到模型階段,可能會(huì)產(chǎn)生屬性偏差、歸納偏差和探索偏差等不公平問(wèn)題。在模型到用戶階段,推薦結(jié)果可能會(huì)存在流行度偏見(jiàn)和對(duì)某些群體的不公平等。

朱倩男總結(jié)道,算法的公平性是社會(huì)治理的重要原則,也是堅(jiān)持算法向善和可持續(xù)發(fā)展的核心要素。保證算法決策的客觀、公平、合理是加速人工智能落地的必要條件。因此,研究算法的公平性具有重大的理論意義和應(yīng)用價(jià)值。

綜合考量算法公平性問(wèn)題

報(bào)告認(rèn)為,現(xiàn)階段,推薦系統(tǒng)公平性的研究已成為推薦領(lǐng)域新的突破點(diǎn),學(xué)術(shù)界和產(chǎn)業(yè)界正著力推動(dòng)和研究公平機(jī)器學(xué)習(xí)的理論、技術(shù)和應(yīng)用發(fā)展。

特別地,對(duì)工業(yè)界來(lái)講,算法的不公平性會(huì)影響用戶的黏性和長(zhǎng)期存留,實(shí)現(xiàn)公平性對(duì)企業(yè)來(lái)說(shuō)也是至關(guān)重要的。面對(duì)推薦算法可能帶來(lái)的不公平問(wèn)題,TikTok的推薦算法兼顧了需求方(短視頻觀看者)和供給方(短視頻發(fā)布者)的公平,使得普通用戶發(fā)布的內(nèi)容也有可能受到明星般的關(guān)注,同時(shí)也能使有小眾或細(xì)分需求的用戶能看到自己感興趣的內(nèi)容。該算法被麻省理工學(xué)院在MIT technology review中被評(píng)為2021年度十大突破技術(shù)之一。

報(bào)告還從公平性的定義及適用范圍、數(shù)據(jù)、算法相關(guān)主體、法律法規(guī)和社會(huì)監(jiān)管等層面綜合考量,給出克服算法公平性問(wèn)題的一些建議。

一是建議界定清晰的公平性定義、對(duì)象及適用范圍。報(bào)告借助社會(huì)科學(xué)領(lǐng)域比較典型的起點(diǎn)公平,過(guò)程公平和結(jié)果公平,從數(shù)據(jù)、算法、推薦結(jié)果三個(gè)層面界定公平性范圍。首先,保證數(shù)據(jù)的公平性是避免算法不公平問(wèn)題的基礎(chǔ),因此,建議考慮在數(shù)據(jù)層面定義公平性來(lái)獲取無(wú)偏的數(shù)據(jù)。其次,保證無(wú)偏的建模過(guò)程是解決公平性問(wèn)題的重要抓手。為了追求高準(zhǔn)確率,推薦結(jié)果可能會(huì)極大滿足多數(shù)群體的需求,而忽視少數(shù)群體,因此,建議在算法建模層面定義公平性,設(shè)計(jì)以公平性為導(dǎo)向的算法。最后,保證對(duì)不同個(gè)體、群體、機(jī)構(gòu)等對(duì)象無(wú)偏的推薦結(jié)果,報(bào)告建議考慮推薦結(jié)果的多樣化,作為解決公平性問(wèn)題的主要途徑之一。

二是建議在數(shù)據(jù)、算法以及算法相關(guān)主體層面,規(guī)避產(chǎn)生不公平問(wèn)題的潛在原因,以實(shí)現(xiàn)公平的推薦。首先,在數(shù)據(jù)層面,建議平衡好數(shù)據(jù)獲取時(shí)的探索和利用環(huán)節(jié),因?yàn)橥扑]場(chǎng)景中攜帶偏見(jiàn)的數(shù)據(jù)往往來(lái)源于數(shù)據(jù)獲取過(guò)程,數(shù)據(jù)的獲取策略可能對(duì)某一類數(shù)據(jù)具有偏好,而對(duì)其他數(shù)據(jù)采樣比較少。因此,針對(duì)該問(wèn)題,建議利用已有數(shù)據(jù)的同時(shí),采用機(jī)器學(xué)習(xí)算法合理探索未知類型的數(shù)據(jù),避免信息獲取的單一性。其次,在算法層面,開(kāi)展以公平性為導(dǎo)向的算法設(shè)計(jì)模型,傳統(tǒng)人工智能算法在設(shè)計(jì)歸納偏置時(shí),大多是關(guān)注預(yù)測(cè)的高精度,忽略了公平性,因此應(yīng)以公平性為導(dǎo)向設(shè)計(jì)面向不同任務(wù)和場(chǎng)景的歸納偏置,盡可能將反歧視目標(biāo)貫穿于算法設(shè)計(jì)中。最后,建立算法及其相關(guān)主體公平性原則。建立和完善算法透明、算法可解釋以及算法問(wèn)責(zé)機(jī)制,在算法落地過(guò)程中明確哪些環(huán)節(jié)有人參與,參與的是哪一部分,對(duì)算法可能造成的影響,需要在特定范圍內(nèi)以及特定單位公開(kāi),以避免因人為因素帶來(lái)的不公平問(wèn)題。此外,算法研究人員還需遵守一些基本倫理準(zhǔn)則,堅(jiān)持算法向善以及對(duì)社會(huì)有益,也要注重對(duì)用戶隱私數(shù)據(jù)的保護(hù)。

三是建議建立通用的公平性評(píng)測(cè)指標(biāo)和平臺(tái)。建立算法公平性評(píng)測(cè)指標(biāo),建議從兩方面入手,一方面是考慮推薦結(jié)果的多樣化,因?yàn)槎鄻踊墙鉀Q公平性問(wèn)題的有效途徑。另一個(gè)方面是考慮推薦對(duì)象的公平性。推薦算法的公平性可以從以用戶為中心,擴(kuò)展到以群體為中心,在歸納偏置中關(guān)注不同群體的準(zhǔn)確性差異,以不同的對(duì)象來(lái)建立評(píng)測(cè)指標(biāo)。其次,建立算法公平性評(píng)測(cè)的公開(kāi)數(shù)據(jù)集和通用平臺(tái),形成統(tǒng)一標(biāo)準(zhǔn)的公平性評(píng)估。同時(shí),建議用公平性評(píng)估結(jié)果引導(dǎo)算法設(shè)計(jì)者對(duì)算法進(jìn)行改進(jìn)和修正。

四是建議在法律法規(guī)以及社會(huì)監(jiān)管層面,對(duì)公平性問(wèn)題進(jìn)行規(guī)避和應(yīng)對(duì)。首先,要建立算法相關(guān)利益主體的責(zé)任機(jī)制和法律意識(shí),明確算法的責(zé)任主體,對(duì)可能造成社會(huì)危害的事件進(jìn)行追責(zé),加強(qiáng)相關(guān)主體的道德和倫理素質(zhì)的培養(yǎng)。其次,建立和完善算法相關(guān)制度,對(duì)算法進(jìn)行監(jiān)管,可以通過(guò)算法的性能標(biāo)準(zhǔn)、預(yù)測(cè)標(biāo)準(zhǔn)、設(shè)計(jì)標(biāo)準(zhǔn)等的設(shè)立,避免算法作惡。也可以建立由計(jì)算機(jī)、法學(xué)、經(jīng)濟(jì)學(xué)及其他社會(huì)科學(xué)組成的第三方機(jī)構(gòu),從多角度、多方面鑒定算法技術(shù)可能帶來(lái)的不公平影響,對(duì)相關(guān)主體的責(zé)任范圍進(jìn)行界定,幫助企業(yè)和單位完善算法的設(shè)計(jì)和落地。

報(bào)告認(rèn)為,目前,對(duì)算法的公平性研究還處于起步階段,并沒(méi)有形成統(tǒng)一的公平性理論體系,對(duì)公平性的研究任重道遠(yuǎn)。(中新經(jīng)緯APP)

關(guān)鍵詞:

責(zé)任編輯:hnmd003

相關(guān)閱讀

相關(guān)閱讀

精彩推送