【
儀表網 研發快訊】在線選品優化(Online assortment optimization)是近年來運營管理領域中備受關注的重要研究方向。其核心在于探討平臺如何從有限的產品庫存中精心挑選出一組最優的產品組合(即“選品”),并將其推薦給隨著時間陸續到達的多樣化客戶群體,以實現在特定時間段內的平臺總收益最大化。眾多現實場景,例如酒店預訂、演出票銷售以及短生命周期產品的推薦等,均可被建模為在線選品優化問題。然而,現有主流模型驅動方法(如離散選擇模型)的模型假設通常存在局限性,與真實用戶行為不符,且在相應的高維動態規劃問題求解中計算代價顯著。
圖1 在線選品優化(以酒店預訂為例)
為解決上述難題,西安交通大學管理學院智能決策與機器學習研究中心王堯教授與其碩士研究生李韜(現為香港科技大學博士生)、王晨浩(即將入職同濟大學),聯合美國紐約州立大學布法羅分校唐少杰(Shaojie Tang)教授和加拿大多倫多大學陳寧遠(Ningyuan Chen)教授開展了全新的基于人工智能技術的研究策略,提出了一種無模型(Model-free)的深度強化學習(Deep reinforcement learning)方法。該方法通過使用一個特別設計的深度神經網絡(DNN)來構建選品策略,并利用從歷史交易數據構建的模擬器,通過優勢演員-評論家(A2C)算法更新DNN的網絡參數,以有效解決傳統強化學習訓練需要大量、甚至不切實際的交易數據的問題。
圖2 本文構建的DNN架構
一系列合成數據與實際數據上的實驗結果表明,與主流方法相比,所提方法能夠顯著提高長期收益,并且在各種實際條件下保持穩健性。研究還證明了新方法的靈活性,即可以進一步考慮客戶屬性以實現個性化策略,并且可通過在DNN的輸入狀態中增加歷史銷售信息,擴展至包含可重復使用產品的應用場景中。
圖3 在Expedia實際數據集上的實驗結果對比
上述研究成果以“基于深度強化學習的在線個性化選品推薦:一種數據驅動的方法”(Deep Reinforcement Learning for Online Assortment Customization: A Data-Driven Approach)為題,于2025年6月在運營管理領域頂級期刊《生產與運作管理》(Production and Operations Management)在線發表。李韜博士生、王晨浩博士為論文的共同第一作者,王堯教授為論文的通訊作者,西安交通大學管理學院為論文的第一完成單位與通訊單位。該研究得到了國家自然科學基金面上項目和國家社會科學基金重大項目的資助。
所有評論僅代表網友意見,與本站立場無關。