基于集成学习的电影票房预测.pdf

上传人：自信****多点

文档编号：649222

上传时间：2024-01-23

格式：PDF

页数：4

大小：1.16MB

《基于集成学习的电影票房预测.pdf》由会员分享，可在线阅读，更多相关《基于集成学习的电影票房预测.pdf（4页珍藏版）》请在咨信网上搜索。

1、wwwele169com|67软件开发基于集成学习的电影票房预测张涛，陈潇潇（北方工业大学，北京，100144）摘要：文化产业高速发展的今天，电影产业也随之高速发展。电影票房是衡量电影成功与否的关键指标，对电影票房的精准预测能帮助影院排片、降低投资风险。针对传统电影票房预测模型精确度不高的问题，本文提出了一种基于对测试集加权的stacking算法的集成学习模型。首先选取了XGBoost、LightGBM、CatBoost、支持向量回归(Support Vector Regression)、随机森林(Random Forest)5个算法分别建立了基模型；然后在对五个基模型集成时，根据交叉验证下不

2、同折数的验证集的预测精度差异对测试集的预测结果进行加权，利用kaggle提供的9399条TMDB票房数据进行实例分析和验证，该算法最终在Kaggle上的得分为1.6745，在1395支队伍中排名第17，排名高于传统票房预测算法。关键词：电影票房预测；集成学习；stacking 算法；Optuna0 引言随着社会经济的发展，社会生活水平提高，看电影已经成为一项主要的娱乐活动。据国家统计局统计，2021 中国票房近 470 亿，几乎是 2019 年中国票房的 5 倍1。尽管大多数公司都想从这个巨大的市场中分一杯羹，但只有几部热门电影实现了盈利，其他电影则在亏损2。因此，如何准确地预测电影票房，降低

3、投资风险，避免公司因投资失败而遭受巨大损失已成为亟需解决的问题。随着人工智能技术的快速发展，越来越多的学者将机器学习等数据挖掘技术应用于电影票房预测中，郭萱3以2014 年-2016 年的 173 部影片为研究对象，引入了基于条件推断树的随机森林模型对电影票房进行预测，研究结果表明，基于条件推断树的随机森林预测模型比传统的随机森林预测模型准确度更高。杨朝强4分别训练了 LSTM 模型和 BP 神经网络模型，得出了 LSTM 模型的平均相对误差比BP 神经网络模型的平均相对误差要低的结论。李振兴5的研究结果表明，演员是影响电影票房的关键因素。甘雨涵6爬取了 2016 年全年在国内上映的 150

4、部电影的豆瓣评论信息，通过分析评论中的情感倾向，证明了口碑对电影票房的重要性。在前人研究的基础上，本文首先分别建立了 XGBoost、LightGBM、CatBoost、随机森林(RandomForest)和支持向量回归(supportvectorRegression)票房预测模型，并通过 optuna 框架对五个票房预测模型的超参数进行优化，提高单个票房预测模型的预测精确度；然后，使用测试集，通过加权 stacking 算法进行了电影票房预测，并与传统的票房预测模型进行了对比，验证了模型的有效性。1 相关工作 1.1 评价指标为了有效评估模型的预测效果，本文采用了平均绝对百分比误差(MAPE

5、)、均方误差(MSE)、均方根误差(RMSE)以及 kaggle 上的评分这四项指标作为模型评价指标。平均绝对百分比误差(MAPE)表示的是真实值与预测值之差的绝对值占真实值之比。MAPE 值越小，模型预测效果越好。具体公式如下:1100%niiiiyyMAPEny=式(1)式中：n 为样本数，iy 为预测值，iy 为真实值。均方误差(MSE)是指预测值与真实值的距离的平方和的平均数，MSE 的值越小，模型预测效果越好，具体公式如下：()211niiiMSEyyn=式(2)均方根误差(RMSE)是均方误差的算数平方根，RMSE的值越小，模型预测效果越好，具体公式如下：RMSEMSE=式(3）K

6、aggle 上的评分是指当用户提交对测试集的预测结果时，kaggle 对测试集的预测结果的打分，kaggle 上的评分越低，排名越靠前，模型预测效果越好。1.2 Optuna 框架Sklearn的 GridSearchCV 函数可通过网格搜索与交叉验证的方式来进行超参数优化，但由于其会遍历给定范围内的所有超参数组合，所以非常耗时，特别是当超参数的数量增长时，网格搜索的时间复杂度将呈现指数增长。Optuna 是一个完全用Python 编写的自动超参数调整框架。专为机器学习而设计，可以与PyTorch、TensorFlow、Keras、SKlearn等其他框架一起使用。O

7、ptuna的优化程序中只有三个核心的概念，分别为目标函数(objective)，单次试验(trial)，和研究(study)。其中目标函数负责定义待优化函数并指定超参数范围，单词试验对应着目标函数的单次执行，而研究则负责管理优化，决68|电子制作2023 年 7 月软件开发定优化的方式，记录总试验的次数、试验结果等。1.3 传统 stacking 算法介绍stacking算法一般采用两层结构，第一层的学习器被称作初级学习器，也被称为基学习器，常用作对经过处理后的原始样本的训练和预测，第二层的学习器为次级学习器，也被称为元学习器，用于结合第一层的验证集与测试集的预测结果再次进行学习。Stacki

8、ng 算法能够结合每个基学习器的优点，提高模型的整体预测精度。Stacking算法的流程图如图 1 所示,假设第一层有两个基学习器，每个基学习器分别对原始训练集进行训练，得到验证集的预测结果 v1和 v2。对整个测试集的进行五次预测，将结果进行相加取平均得到测试集结果 T1 和 T2。水平连接 V1 和 V2 得到新训练集 TrainNew，水平连接 T1 和 T2 得到新的测试集 Testew，将新训练集 Trainnew 与原始训练集一同放入元学习器中进行训练，将最终所得的元学习器对TestNew 进行测试后即可得到测试集的最终预测结果。1.4 改进 stacking 算法介绍在传统 st

9、acking 算法中，在第二层进行集成时，仅仅是将测试集的预测结果进行的平均处理，这样会平均掉表现好的模型的训练结果。因此，可对次级学习器的每一折预测结果进行加权处理，从而提高模型在测试集上的表现，具体的示意图如图 2 所示，其中 wi即为权值，权值为每一折验证集的预测值与真实值的误差，wi的计算方式如公式(4)所示,式中mape的定义如公式(1)所示。1100imapew=式(4)2 数据预处理本文选取的是 Kaggle 竞赛中的数据，数据来自于TMDB 电影数据库，数据集共有 9399 条，其中有 5001 条训练集数据，4398 条测试集数据。数据集共包括电影 Id、系列电影名、电影预算

10、、电影类型、电影官方主页、TMDB官网 id、原始语言、电影原始名称、电影简介、流行程度、海报链接、出品公司、出品国家、发行日期、电影时长、电影语言、电影状态、宣传语、电影名称、电影关键词、演员、导演和电影总收入这二十三个特征。其中，电影总收入为预测目标变量。由于 Kaggle 提供的数据为未经过处理的原始数据，其中包含有文本类型的数据，不能将其直接输入模型训练，需要进行数据预处理，数据预处理包括正态化处理、数值化处理以及标准化处理。（1）正态化处理正态化处理是指将不符合正态分布的特征数据转换成符合正态分布的特征数据。该数据集包含有电影预算和电影总收入这两个不符合正态分布的特征，正态化处理方式

11、有指数变换、对数变换、Box-cox 变换等，需要根据数据的不同情况进行选择，通常采用指数变换将左偏数据的数值较大的数据点间的距离增大，采用对数变换将右偏数据的数值较大的数据点间的距离缩小，而 Box-cox 变换既可以处理左偏数据，也可以处理右偏数据。本文使用的是对数变换对电影预算和电影总收入进行转换，使分布不均的数据服从正态分布。（2）数值化处理数值化处理是指将类别型特征和文本型特征转换成数图 1stacking 算法的流程图图 2次学习器中精度加权的改进wwwele169com|69软件开发值型特征，该数据集共包含有 11 个类别型特征，分别包括系列电影名、电影类型、电影官方主页、出品公

12、司、出品国家、电影语言、电影状态、电影名称、电影关键词、演员、导演。该数据集有三个文本型特征,分别包括电影简介、发行日期和宣传语。独热编码，又称一位有效编码，是使用 M 位状态寄存器对 M 个状态进行编码的方式，每个状态都有它独立的寄存器位，并且在任意时刻，这些寄存器位中只有其中一位有效。独热编码能将类别型特征的取值扩展到欧式空间，有效扩充了特征，使特征之间的距离计算更合理。经过独热编码，系列电影名、电影类型、电影官方主页等 11 个类别型特征一共转换成了 113 个数值型特征。而对于电影简介和宣传语这两个特征来说，将对应文本的长度作为特征的量化值；对于发行日期这个特征来说，将具体的年、月、日

13、作为其量化值。（3）标准化处理标准化处理是指通过一定的数据变换方式，将数据落入到特定区间内，使结果更具有可比性。标准化的处理方式有极差标准化法，即 min-max 标准化法、Z-score 标准化法、归一化法、中心化法。本文采用的是 min-max 标准化法，该方法的具体转换公式如下。xminxmaxmin=式(5)式中 x 为转换后的数据，min 为原始数据的最小值，max 为原始数据的最大值，x 为原始数据。删除了电影 Id、TMDB 官网 Id、原始语言、原始名称、海报链接这五个无关特征后，最终形成了一共包含有 9399条数据，143 个特征的数据集。3 实验对于第一层的初级学习器来说

14、，搭建模型的主要任务即是进行模型的超参数优化，常用的超参数的优化方法有网格搜索、随机搜索、贝叶斯优化等,Optuna 优化框架支持以上所有优化方法，因此本文选用了 Optuna 框架对模型的超参数进行优化。（1）基于 XGBoost 的票房预测模型基于 XGBoost 的电影票房预测模型的主要超参数有max_depth,subsample,colsample_bytree 和 learning_rate，max_depth 为 XGBoost 中树的最大深度，max_depth 的值越大，树越复杂，模型学习的更加具体，系统默认值为 6，一般设置在 310 之间。subsample

15、为 XGBoost中每棵树随机选择样本的比率，系统默认值为1，范围在(0,1之间。colsample_bytree 是构建每棵树时随机选择特征的比例，系统默认值为 1，范围在在(0,1 之间。learning_rate 为每一步迭代的步长，默认值为 0.3，一般设置为 0.1。根据 Optuna 优化框架得到的基于 XGBoost 的票房预测模型的主要超参数如表 1 所示。表1XGBoost模型的超参数表参数名取值max_depth5subsample065colsample_bytree055learning_rate009（2）基于 LightGBM 的电影票房预测模型基于 LightGB

16、M 的电影票房预测模型的主要超参数有num_leaves,min_data_in_leaf,max_depth,learning_rate。nums_leaves 为 LightGBM 中每棵树上的叶子节点的个数，默认值为 31，增大 num_leaves 的值能提高模型预测的准确率，但过高会导致模型过拟合。min_data_in_leaf 为 LightGBM 中一个叶子节点上的最小样本数，默认值为 20，增大 min_data_in_leaf 可以防止过拟合。与XGBoost 类似，max_depth 为树的最大深度，learning_rate 为学习率。根据 Optuna 优化框架得到的

17、基于 LightGBM 的票房预测模型的主要超参数如表 2 所示。表2LightGBM模型的超参数表参数名取值max_depth5num_leaves35min_data_in_leaf20learning_rate0004（3）基于 CatBoost 的电影票房预测模型基于 CatBoost 的电影票房预测模型的主要超参数有iterations,learning_rate,depth,bagging_temperature。与 XGBoost 类似，iterations 为可以建立的树的数目，learning_rate 为学习率，depth 为树的深度，bagging_temperature

18、为贝叶斯套袋控制强度，默认值为 1。根据 Optuna 优化框架得到的基于 CatBoost 的票房预测模型的主要超参数如表 3 所示。表3CatBoost4模型的超参数表参数名取值depth5iterations100000bagging_temperature02learning_rate0004（4）基于支持向量回归的票房预测模型在使用 rbf 作为核函数的情况下，基于支持向量回归70|电子制作2023 年 7 月软件开发的票房预测模型的主要超参数有 gamma 和 C。其中，gamma 决定了数据集映射到新的特征空间后的分布，gamma 越大，支持向量越少。gamme 越小，支持向量

19、越多 C 是模型的正则化系数，默认值为 1.0，主要用来防止模型过拟合，C 值越大，对模型的惩罚越高，泛化能力越弱，即造成了过拟合。反之，C 值越小，对模型的惩罚越低，泛化能力越强，即造成欠拟合。根据 Optuna 优化框架得到的基于支持向量回归的票房预测模型的主要超参数如表 4 所示。表4基于支持向量回归的票房预测模型的超参数表参数名取值C20gamma00001（5）基于随机森林的票房预测模型基于随机森林的票房预测模型的主要超参数有 n_estimators,max_depth,min_samples_leaf 和 max_features。与 XGBoost 类似，max_depth 为

20、决策树的最大深度，n_estimators 为决策树的个数，min_samples_leaf 为叶子节点所需的最小样本数，默认值为 1，若叶子节点样本数小于 min_samples_leaf，则对该叶子节点和兄弟叶子节点进行减枝，只留下该叶子节点的父节点。max_feature 为构建决策树最优模型时考虑的最大特征数。根据 Optuna 优化框架得到的基于随机森林的票房预测模型的主要超参数如表 5 所示。表5基于随机森林的票房预测模型的超参数表参数名取值max_depth5n_estimators100000bagging_temperature02learning_rate0004（6）基于

21、改进 stacking 算法的票房预测模型在对以上五个模型进行集成时，本文选用的是岭回归算法进行集成。分别记录下每折验证集真实值与预测值的差异，对对应测试集的结果进行加权，即得到最终预测结果。将本文提出的基于改进 stacking 算法的票房预测模型与基于 XGBoost、LightGBM、CatBoost、随机森林、支持向量回归、传统 stacking 算法的票房预测模型的实验结果进行对比，最终结果如表 6 所示。从表 6 中可以看出，单个模型中，基于 XGBoost的票房预测模型性能最好，而基于传统 Stacking 算法的票房预测模型的性能优于单个模型的性能，基于改进 stacking

22、算法的票房预测模型性能又优于基于传统stacking 算法的票房预测模型，可见改进 stacking 算法能充分挖掘和利用数据信息，在模型之间取长补短，最终取得更好的效果。表6不同算法的指标对比算法MAPEMSERMSE测试集得分XGBoost1970%47177321720316904LightGBM2091%475629218089171079CatBoost2075%463116215201168478随机森林2550%551696234882196814支持向量回归3195%954968309025259496传统Stacking算法2003%461667214864167457改进s

23、tacking算法2003%46166721486416745ss4 总结与展望针对电影票房预测模型精确度低的问题，本文提出了一种对测试集加权的 stacking 算法，对kaggle 提供的 TMDB电影票房数据集进行了预测。首先，分别训练了第一层的XGBoost、LightGBM。CatBoost、支持向量回归和随机森林电影票房模型，并使用了 Optuna 参数优化框架找到了模型的最优超参数，优化了模型；然后，在对第一层的模型进行集成时，第二层使用了对测试集加权的岭回归算法。实验结果表明，与其他算法所搭建的电影票房预测模型相比，基于对测试集加权的改进 stacking 算法所搭建的模型对电

24、影票房的预测更加准确，效果更好。因此，本文的方法可以对投资公司进行电影票房预测提供有效的参考。然而，本文中使用的电影票房数据有限，将来需要更多的数据来构建鲁棒性更强的票房收入预测模型。参考文献 1Liao,Yi,Peng,Yuxuan,Shi,Songlin,Shi,Victor,Yu,Xiaohong.Early box office prediction in Chinas film market based on a stacking fusion model.J.Annals of operations research,2020,308(1-2).2Ghiassi,M.,Lio,D.

25、,&Moon,B.(2015).Pre-production forecasting of movie revenues with a dynamic artificial neural network.Expert Systems with Applications,42(6),31763193.https:/doi.org/10.1016/j.eswa.2014.11.022.3 郭萱.基于随机森林的电影票房预测研究 D.中国石油大学(北京),2018.4 杨朝强,蒋卫丽,邵党国.基于 LSTM 模型的电影票房预测算法 J.数据通信,2019(05):34-37.5 李振兴,韩丽娜,史楠.基于贝叶斯分类模型的电影票房预测研究 J.计算机与数字工程,2020,48(09):2233-2237.6 甘雨涵.基于 Stacking 方法的电影票房预测 D.上海师范大学,2018.

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于集成学习电影票房预测

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。