“学海拾珠”系列之一百八十四：深度投资组合处罚中的对比学习和奖励平滑-万生优配-万生优配app下载官网

“学海拾珠”系列之一百八十四：深度投资组合处罚中的对比学习和奖励平滑

本篇是“学海拾珠”系列第一百八十四篇，著作建议了一种新的基于深度强化学习的措施来覆按智能体以竣事积攒收益最大化为主义设置投资组合，措施中期骗了对比学习与奖励平滑，以匡助智能体在靠近不笃定的将来价钱走势时学习谨慎的表征。

·对比学习与金钱配对

对比学习是一种通过比拟样本之间的同样性或各异性来增强其创建强表征才智的措施，这种措施对投资组合特地有用，因为投资方案依赖于从数据中提真金不怕火的表征。在金融阛阓中，当两种金钱在瞻望将来价钱趋势时不错彼此匡助时，它们就被觉得是正金钱对，不然被视为负金钱对。

·多任务学习

为了使智能体学习灵验的战略，使用多个主义（也称为多任务学习）对主要任务是故意的，主义包括：最终投资组合价值、平滑奖励主义和对比学习主义。总阶梯中将把柄投资组合价值自合乎颐养权重，以能留心智能体过度依赖噪声奖励，具体来说，当智能体收益较低或为负时，平滑奖励权重较高，反之权重较低。

·将深度强化学习期骗于投资组合构建

通过实证分析，本文展示了所提措施在好意思国股市与加密货币阛阓中的灵验性。消融本质服从标明，对比学习与奖励平滑王人产生了积极影响，且两者的组合施展最佳。

学海拾珠智能体金钱权重表征发布于：北京市声明：该文不雅点仅代表作家本东说念主，搜狐号系信息发布平台，搜狐仅提供信息存储空间干事。