2020年2月7日,第34届美国人工智能协会年会AAAI2020现场,深度学习三巨头齐聚一堂,“计算机视觉”和“机器学习”两边坐镇,虎视眈眈最好的论文。最终,清华大学和南洋理工大学的一篇关于“FairPartitionofMixedDivisibleandIndivisibleCommodities”的文章获得了最佳学生论文奖。论文地址:https://arxiv.org/pdf/1911.07048.pdf这时候,人们突然醒悟了。原来,深度学习在博弈论和经济学领域的布局由来已久。从论文接受率来看,每三篇论文就有一篇被接受。文章的接受率占据了榜首。这在资深经济学家眼中似乎难以置信。毕竟,经济研究的重点不在于预测,而在于对经济现象的解释和经济运行规律的揭示。具体而言,深度学习的黑箱性无法有效解释优化后的参数,也无法解释参数作用于经济规律的具体机制。不过,AI经济学家在运用深度学习方面也有着不一样的魅力。Reinforcementlearningfortaxdesigntwo-levellearningframework斯坦福大学副教授RichardSocher开发了包含代理人(工人)和税收政策(政府)的两级强化学习框架,利用原生态经济环境设计税收政策。动态模拟世界中只设置了木头和石头两种资源,假设资源再生率有限。工人通过在世界中随机游荡来收集资源,通过买卖或建造房屋来赚钱。钱可以带来效用(满足感),而盖房子的劳动会降低效用。另外,假设不同技能的工人有不同的劳动效率,工人需要为他们赚取的钱纳税,而系统所得税是平均分配给所有工人的。公平分配机制需要工人的战略眼光。当模拟世界中的工人以效用最大化为目标时,整个系统都会发生这种情况:低技能工人自行收集和销售,而高技能工人购买材料和建筑物。这种情况的经济学术语是“劳动专业化”,它使系统的效用最大化。在整个模型的运行过程中,采用了强化学习的最优税收设计作为奖励模式。政策制定者可以设定税率来影响工人的税后收入水平。工人通过买卖资源和建造房屋来获得金钱(效用)。强化学习奖励的目标是最大化整体系统效用。有了这个有益的目标,工人和政策制定者的行动对整个系统提出了内部和外部挑战。在内循环中,劳动者在劳动、挣钱、纳税等过程中不断调整自己的行为。如果此时给定一个固定的税率,问题就变成了标准的奖励函数固定的多智能体强化学习问题。在外部循环中,调整税收政策以优化社会目标。这创建了一个非静态学习环境,强化学习中的代理需要不断适应不断变化的实用环境。最后,作者发现,通过使用学习税表(类似于美国所得税的征税方式)和熵正则化等技术,可以找到稳定的收敛点。实验结果表明,人工智能经济学家通过强化学习可以将平等程度提高47%,而生产率仅降低11%。在虚拟世界中模拟真实的经济状况,设计出更好的系统,只是人工智能与经济学结合的方式之一。事实上,深度强化学习在面对风险参数和不确定性不断增加的现实经济问题时,也能提供更好的性能和更高的准确性。深度学习在经济学中的应用论文下载:https://arxiv.org/ftp/arxiv/papers/2004/2004.01509.pdf论文《经济学中的强化学习》(ComprehensiveReviewofDeepReinforcementLearningMethodsandApplicationsinEconomics),Researchersat德累斯顿工业大学和牛津布鲁克斯大学仔细研究了经济学中的强化学习。通过对股票定价、拍卖机制、宏观经济学等12个领域的考察,发现深度学习算法在准确性和鲁棒性方面优于传统的经济学和统计算法。1.深度学习下的股票定价股票价格具有极大的不确定性和风险性。如果有一个模型可以克服股价预测,无疑会给模型构建者带来巨大的收益。深度学习预测股票价格的最新进展如下表所示。情绪对股价走势无疑是非常重要的。当前的大多数研究都依赖于低效的情感数据集,这通常会导致模型性能不佳。[68]中提出的双流门控循环单元被发现比LSTM模型表现更好。此外,他们提出了Stock2Vec嵌入模型,并在使用HarvardIV-4的同时,证明了该模型对市场风险的稳健性。[69]提出了一种应用于股票价格预测的深度学习技术。主要创新在于过滤技术赋予深度学习模型新颖的输入特征。[70]在分析股票价格模式时,他们使用深度学习技术来预测股票价值流向。具体来说,他们利用时间序列技术设计了一个DNN深度学习算法来寻找模式,虽然准确率达到了86%。但是DNN存在过拟合、复杂度高等缺点,推荐使用CNN和RNN。在[71]的研究中,采用了一种新的多层深度学习方法,利用时间序列的概念来表示数据,从而能够预测当前股票的收盘价。2.深度学习下的保险业保险业现在面临的问题是如何有效管理欺诈检测。相应地,机器学习技术已经逐渐开发出用于衡量所有类型风险的算法以应对这一问题。[75]等。使用社交网络分析来检测大型数据集中的汽车保险职业欺诈。使用循环的概念,他们建立了一个间接碰撞网络,在更现实的市场假设下,能够识别可疑循环,从而产生更多利润。此外,他们还通过从实际数据中得出的伪造概率来评估可疑成分的方法。[76]等。使用LDA和DNNs技术的结合来提取事故的文本特征,发现其性能优于传统方法。此外,为了考虑LDA对预测过程的影响,他们还通过“withLDA”和“withoutLDA”中的accuracy和precision性能因素对结果进行了评估。[77]等人提出了一种结合自动编码技术和远程信息处理数据值的算法来预测与保险客户相关的风险。3.深度学习下的拍卖机制拍卖机制的核心是竞价者需要规划出利润最大化的最优策略。最新的研究结果如下表所示:[83]等。在预算约束和贝叶斯兼容性方面扩展[82](增强拉格朗日方法)中的结果。他们的方法展示了神经网络通过关注具有不同估值分布的多重设置问题来有效设计新颖的最优收益拍卖的能力。[84]等人采用了面向数据的方法。具体方法:在假设多个投标可以应用于每个投标人的情况下,利用战略专业知识。[85]等。利用多层神经网络技术构建了有效的拍卖机制,并将其应用于移动区块链网络。[86]设计了一种多投标人兼容的拍卖机制,特别是通过应用多层神经网络对其机制进行编码,从而最大化利润。与基于线性规划的方法相比,使用增强拉格朗日技术的方法能够解决更复杂的任务。4.深度学习下的银行和线上市场在网购和信用卡场景下对欺诈检测的要求非常高。强化学习目前最先进的研究成果如下表所示:[90]基础实验的应用证实了AE(AutomaticEncoding)和RBM(BoltzmannMachine)方法可以在以下情况下准确检测信用卡风险海量数据集。但是深度学习在构建模型时利用影响其结果的不同参数。[87]中提出的研究设计了一种自动编码器算法,以构建一种高效的自动化工具,可以处理世界各地的日常交易。该模型允许研究人员报告不平衡的数据集,而无需使用欠采样等数据平衡方法。[89]使用自然语言处理(NLP)技术设计了一个新框架,该技术能够形成与新闻和推文等各种数据源相关联的复杂机制,以有效检测洗钱活动。5.深度学习下的宏观经济学宏观经济学中最重要的问题是指标预测,包括失业率、GDP增长率等。利用神经网络的方法,最新的研究成果如下图所示:[92]提出了一个高度robustmodel——encoder-decoder模型,利用深度神经架构提高失业问题的预测精度,精度要求非常低。此外,在此基础上,它还使用平均绝对误差(MAE)值来评估结果。Haider和Hanif[93]构建了一个神经网络来预测通货膨胀,并通过均方根(RMSE)值评估结果。[94]在应用宏观经济指标和价量趋势的同时,使用前馈神经网络进行战术资产分配。他们提出了两种不同的方法来构建投资组合,第一种用于估计预期回报和不确定性,第二种用于直接利用神经网络结构来获得分配和优化投资组合。6.金融市场深度学习在金融市场中,有效处理信用风险至关重要。由于大数据技术的最新进展,深度学习模型可以设计出可靠的金融模型来预测银行系统的信用风险。最新研究如下:[95]使用二元分类技术赋予所选机器学习和深度学习模型基本特征。此外,考虑到贷款定价过程中的关键特征和算法,本研究使用这两个模型来预测贷款违约的概率。[96]研究的方法可以帮助金融机构以较少的工作量进行信用评估,同时可以提高信用评分和客户评级等方面的分类精度。此外,还比较了线性SVM、CART、k-NN、朴素贝叶斯、MLP和RF技术的准确性。[97]通过自动编码、校准、验证等过程构建了一个投资组合算法,可应用于包含看跌期权和看涨期权等标的股票的投资组合。[98]建立了抵押贷款风险的深度学习模型,能够处理庞大的数据集。实验结果表明,受当地经济状况影响的变量与债务人行为之间存在非线性关系。例如,失业变量对抵押贷款风险的影响很大。7.深度学习下的投资金融问题通常需要对多源数据集进行分析。因此,建立一个可靠的模型来处理数据中的异常值和特征是非常重要的。最新的研究成果如下图所示:[99]设计的模型具有提取非线性数据模式的能力。他们使用LSTM、自动编码和智能索引等神经网络架构来估计证券投资组合的风险。[100]利用DNN结构研究期权定价问题,重构了著名的BLACK-SCHOLES期权定价模型计算公式,具有相当高的准确率。[101]结合交易复杂性研究期权定价问题,其研究目标是探索高频交易方式下的有效投资策略。其中,LSTM-SVR模型应用于最终交易的预测。[102]提出了一种新的学习遗传算法,利用R-NN模型来模拟人类行为。具体来说,采用了复杂的深度学习结构,包括:强化学习快速决策,深度学习构建股票身份,聚类整体决策,遗传学迁移。[103]通过超参数的多样化选择使模型更加准确。实验结果表明,该模型能够以较小的误差对期权进行定价。8.深度学习与零售零售业用得最多的是增强现实(AR),可以提升顾客的购买体验。最新的研究成果如下:[104]在一项研究中结合深度学习技术和增强现实方法,以向客户提供丰富的信息。他们还想出了一个移动应用程序,使他们能够通过深度学习中的图像分类技术来定位客户。[105]设计了一个新的DNN,使用一组完全不同的变量来准确预测未来的销售,例如产品的物理规格和专家的想法。[106]等。使用CNN回归模型来解决估计商店可用人数和检测关键点计数这两个问题。[107]采用k-means算法和k-最近邻算法将计算的质心合并到CNN中以进行有效的分离和适应。该模型主要用于验证食品生产日期等相关信息。9.深度学习下的商业智能[108]开发了一项涉及元可塑性概念的工作,它具有提高学习机制灵活性的能力,可以从数据中更深层次地发现有用的信息并进行研究。研究的重点是MLP,同时利用客户数据,输出应用于BI(商业智能)。[109]提出的MLS和SAE相结合的方法可以对序列现象中的时间维度进行建模,这对异常非常有用,即业务日志中的异常检测能力高。[31]设计了一种新颖的多层特征选择,它与堆叠自动编码器(SAE)交互以仅检测数据的关键表示。[110]使用递归神经网络结构以业务流程的方式进行预测,其中通过嵌入空间建立RNN的输入,并给出了该方法的准确性验证结果和可行性验证结果纸。强化学习在高维经济学问题中的应用前面介绍的是深度学习在经济学领域的应用。与传统深度学习相比,深度强化学习可以有效处理高维问题。因此,在一些涉及高维动态数据的经济问题上,深度强化学习表现更好。1.深度强化学习下的股票交易由于缺乏处理高维问题的能力,传统的强化学习方法不足以找到最佳策略。以下是关于深度强化学习的最新研究。[114]使用深度确定性策略梯度(DDPG)算法作为探索动态股票市场中最优策略的替代方法。该算法处理更大的动作状态空间,兼顾稳定性,消除样本相关性,提高数据利用率。[115]等。设计了一种新颖的自适应深度确定性强化学习框架(自适应DDPG),用于在动态和复杂的股票市场中发现最佳策略。该模型结合了乐观和悲观的深度强化学习(optimisticandpessimisticDeepRL),同时依赖于消极和积极的预测误差。[116]在深度RL中进行了一项调查研究,以分析股票决策机制的多种算法。他们基于DQN、DoubleDQN和DuelingDQN三种经典模型的实验结果表明,DQN模型可以获得更好的投资策略。此外,该研究还使用经验数据验证了该模型。[117]专注于将深度强化学习用于证券交易中的自动振荡,他们使用递归卷积神经网络(RCNN)方法从经济新闻中预测股票价值。2.深度强化学习下的投资组合管理[118]采用了不同的强化学习方法,如DDPG方法、最近策略优化(PPO)方法和PG方法。这些方法能够在连续的行动空间中获得与金融投资组合相关的政策。他们结合中国资产市场比较了模型在不同环境下的表现,结果表明PG模型在股票交易中比其他两个模型更有利。本研究还提出了一种新颖的对抗训练方法,可以提高训练效率和平均奖励。[119]研究设计了一个无模型卷积神经网络(model-lessRNN),其中输入是来自加密货币交易所的历史资产价格,目的是生成一组投资组合权重。[15]研究通过充分利用DPG方法引入奖励函数来优化累积回报。该模型采用独立评估器拓扑结构,在权重共享方面结合了大型神经网络集合。此外,为了防止梯度损坏,还使用了投资组合向量内存。余等。[120]在自动交易的意义上设计了一种新的基于模型的深度强化学习方案,能够采取行动并做出与全球目标相关的顺序决策。该模型架构由注入预测模块(IPM)、生成对抗数据增强模块(DAM)和行为克隆模块(BCM)组成,可用于处理设计的回测。3.深度强化学习下的在线服务在线服务主要集中在推荐算法上。目前有很多推荐方法,例如基于内容的协同过滤、因子分解机和多臂老虎机。但这些方法大多局限于用户和推荐系统之间的静态交互,并且侧重于短期奖励。使用深度强化学习方法的当前进展如下:[121]使用actor-critic模型设计推荐算法,该模型在连续决策过程中明确捕获动态交互和长期奖励。[122]专注于与用户行为和出价策略相关的复杂随机环境中的实时出价(RTB)付费搜索(SS)拍卖。此外,基于阿里巴巴拍卖平台线上线下评估的实证结果表明了该方法的有效性。[123]提出了一种基于电子商务平台MDP(马尔可夫链决策过程)框架的定价算法。由于能够有效应对动态的市场环境变化,因此可以设置与复杂环境相关的有效奖励函数。[124]使用DQN(深度Q网络)方案进行在线新闻推荐,能够获得当前和未来的奖励。在考虑用户活跃度的同时,该模型还使用了DulingBandit梯度下降法来提高推荐精度。本文转载自雷锋网。如需转载,请在雷锋网官网申请授权。
