您好,欢迎来到爱够旅游网。
搜索
您的当前位置:首页基于微博数据的电影票房预测模型研究

基于微博数据的电影票房预测模型研究

来源:爱够旅游网
………………………一探塞 察一!/!l i 基于微博数据的电影票房预测模 研究 安徽大学计算机科学与技术学院安徽财经大学管理科学与工程学院杨威 安徽大学计算机科学与技术学院李龙澍 【摘要】以新浪微博中电影主演和导演的粉丝数、相关徼博转发量、评论量等微博数据为基础,利用神经网络建立电影票房的预测模型并利用微博数据进行预测研究。研 究表明,本文构建的模型可以在一定程度上用于电影栗房的预测,其准确率为90%。 【关键词】微博数据;神经网络;电影票房;预测模型 1.引言 据20l 1年I DC的《Di gital Uni verSe 闭,只有互粉者可以评论: 表3电影的微博数据 序 号 l Sduty>>报告显示,数据以每年超过50%的速度 增长。全球信息总量每过两年就会增长一倍。 在众多产生大数据的平台中,Twitter、新浪和 腾讯微博等使用简单便捷、信息丰富、传播速 度快、更新迅速、影响范围广,新浪微博是中 国微博产业的主导力量。 电影作为一种生存期短的商品,对其票房的 预测难度较大,当前关于电影票房的研究较少 Kyung Jae Lee和Woojin Chang(1999)用贝叶斯 网络研究票房的影响因素,给出了预测模型…。 Sharda R和Delen D(2006)利用影响电影票房的多 个属性,以多层神经网络算法为基础,提出一种 电影票房分类模型l2]。Marshall P等(2013)提出 使用电影历史数据预测电影上映期间的累计观众 数量,使用多元线性回归算法预测第1周的观众 人数,再用其预测后几周的观众总数 。王铮和 许敏(2013)基于Logit模型的研究电影票房的影 响因素发现明星和导演存在显著的票房效应|4】。 郑坚和周尚波(2014)利用神经网络算法,提出一 种基于反馈神经网络的电影票房预测模[5] 电影上映前.主创人员会对电影进行微博 宣传,对电影有潜在消费欲望的网友会关注这些 并评论和转发。对粉丝数多的用户,这是一种便 宜、高效、传播范围广且迅速的营销方式。本文 在此研究基础上,尝试利用神经网络方法,基于 微博数据对电影票房进行预测性研究。 2.相关数据收集和处理 2.1确定数据指标 本文采用新浪微博的相关数据来对电影票房 预测研究.选取电影主创的粉丝数,相关转发量 和评论量作为票房预测的指标体系(见图1)。 因此,在对票房进行相关分析时提取以电 影名称为关键词的相关主创的微博,统一选取电 影主演l、主演2、导演的粉丝数、相关微博评论 量、转发量作为研究指标并收集数据。粉丝数、 转发量和评论量越大对票房的贡献率越大。 (3)由于个人情感等原因,每部电影的 相关转发数和评论数差距较大。 鉴于以上问题,需要对采集到的数据进行 预处理。 名称 西辨降 主2评 论量 1979 导演耪 丝(万) I 739 导滑 转发 ■ 7060 导演 评论 5675 暴房 l24603 矗篇 2 3 敦青春 私^定 77% l73 57l2 I739 240I 7O60 2l09 5875 71888 712lO (1)对于没开通微博的主演和导演,以 和其影响力相同的微博账户来代替。 (2)对粉丝评论关闭的主演和导演,采用 其发布的其他的微博转发数和评论数来近似替 代,并采取转发数和评论数求均值来提高对比 性。本文收集的电影的部分微博数据见表2、3。 表1 2013年上映的45部电影 J芊 号 名称 制 4 5 独仁燕 中伙  2O” 908 l2 l4724 l 386 6S 324 254 49 72 60o36 53857 53265 北京遏 7 8 g 10 上西雅 圈 1979 5160 埔l2 1979 6 2168 1 38 223IO 400 400 22 ㈣ 100 lo0 5l967 48409 3l482 30oI3 小时代1 风暴 i辱山 居圈 序 号 名称 序 号 名称 序 号 名称 I 降魔 篇 致青 春 私人 狱仁 西游 13 不二 神探 肘子 戏子 癌子 无^ 25 毒战 非常 幸运 遗出 天台 神奇 2 I4 15 26 27 38 39 控制 在一 宦制 区 生天 起 未 l6 l7 扫毒 盲探 28 29 罾情 激战 40 白孤 我爱 的是 你爱 理 中国 合伙 人  6 2013 北京 l8 101 次求 婚 30 我想 和你 好好 的 42 越来 越好 之村 晚 慝外 3构建模型 3.1研究工具 采用Spss C1ementine12.0软件的神经网络 节点构建模型。 3.2构建神经网络预测模型 微博收集的相关数据采用神经网络来构 建电影票房的相关预测模型,需要确定其输入 层、隐藏层和输出层的神经元个数。神经网络 模型结构见图3。神经网络模型的输入输出变 量名和数据类型见表4。 7 遇上 西雅 图 19 分手 台约 全民 3l 等风 来 笑功 震武 林 摩登 43 的恋 爱时 光 小时 8 代l 20 32 目击 四丈 44 一场 风花 雪月 的事 超级 9 10 【1 风暴 冒眷 2l 22 23 名捕 2 33 34 35 年代 忠烈 45 经纪 人 山居 图 小时 夜 慷喜 栖家 将 百星 } 墼 ? !…. 譬 .!蔓 … 至曩 图3神经网络模型结构 .._柙錾叠, 特殊 出变量名 变量 变量名称 粪型 变量 变量名称 类型 代2 身份 被偷 酒店 I2 一代 24 走的 那五 燕 宫锁 沉香 输入变量1 主1勘丝数输入变量2 主1评论量输入叠量3 主1}{发置输入变量4 主2耔i丝数辘入变量5 主2鸨发量连续值 j穑^l 量6主2评论鼍 连}舞值 连蟥值 {岛^变量7导演粉丝数 连臻值 宗师 连续值 铺A变量8导清I{发量 连缚值 连续值 输入变量9导演评论量 连续值 连续值 % 她 连接值 ◎一画 图1 ④ 2.2数据收集 图4芫蟹的梗型图 电影的微博营销时间通常集中在上映之前 和上映的几周之内。为了使本文的研究结果得 到验证,本文选择的2013年上映的45部电影研 究,电影名称见表1。 本文的数据收集流程见图2: (1)搜索电影名称确定其导演和主要演员; (2)查找主演和导演的个人认证微博中 以电影名为关键词对其原创和转发的所有微 博,收集其粉丝数量; (3)收集有关电影所发微博的转发数和 评论数。 2.3数据处理 在收集数据时会遇到几个问题: (1)有的电影主演没有个人认证微博, 其粉丝数和转发数、评论数无法收集; (2)有的电影主演的微博评论对粉丝关 图2电影微博数据收集流程 表2部分电影的微博数据 序 号 1 2 3 名称 西游降 囊篇 主1 粉丝 (万) 主I转 发量 753 主1评 论量 J392 4539 2055 主2粉丝 (万) 2455 4208 1809 主2转 发量 1673 致青春 私八定 制 515 4l2 4379 I226 287 4 5 驮仁燕 中冒台 515 2I】8 8l9 8276 558 28l7 l484 l476 1867 2772 6 快人 ,累 2OI3 22l6 446l 4574 3759 35lg 北京遇 7 8 9 lO 上西雅 圈 516 29g4 90I 901 2740 l320l 232 232 2833 12724 246 246 556 3335 6687 556 57髓 7790 2772 5726 小时代1 风暴 I辱山 居圈 4.实证分析 4.1仿真实验 利用微博平台收集的有关45部电影的微 博数据进行仿真实验时,使用45个数据的66% 作为训练数据,34%作为测试数据,测试集和 训练集是采取随机抽样的方法得到的,这两个 部分的数据完全分离,没有重复样本 在实验 中,将训练数据作为训练集对模型进行训练, 使用测试集对模型进行测试。 将主1粉丝数、主1转发数、主l评论量、 主2粉丝数、主2评论量、主2转发量、导演粉 丝数、导演转发量、导演评论量的方向设置为 输入,将票房设置为输出。将神经网络节点加 入到模型中,设置神经网络的隐藏层数和每层 的神经元数。在神经网络节点的专家选项中选 择两个隐藏层,层l选择6,层2选(下转第l 6页) 屯子世界一13— I_))》一 麦 婴察…………………的同一平台进行发布资源共享,集中挖掘来加 以提高教育云空间资源的利用率。 五是研究者、标准制定者和教育管理者要积 极行动起来。教育技术研究者应深入研究教育云 空间资源共享的各类方案、重点项目与工程,采 用定量实证和定性研究相结合的方法,尽快开展 关于教育云空间资源应用成本/效益的研究。标 准制定者应尽快研制教育云空间资源服务技术标 准,确保未来各类教育云服务之间的数据交换、 系统操作、信息安全等有所依据。教育管理者应 重点对教育云空间的运营模式、管理机制、经费 管理制度等问题进行探索,这也是确保教育云空 间资源能真正得以实现共享的重要保证。 4.基于云计算的教育云空间资源共享建设 保障 是各高校领导要高度重视,专门成立 一……一 教育信息化云空间建设工作领导小组,统一领 导,安排部署好各自学校的教育云空间资源共 享建设工作,下设办公室负责各项具体工作。 二是设立试点学校。试点学校要争取早出成 果,推广成功的经验,在试点学校取得初步成 果的基础上再进行全面推行,通过精心的组织 实施和积极的探索,争取打造校校有平台、人 人有空间的环境,并实现所有平台空间的互联 互通和共建共享。三是要加强和经费保 障。建设工作领导小组可以研究制定加快推进 高校教育云空间建设的措施和评比奖励办 法,组织对各试点学校的建设成果进行评审, 对成果突出的学校给予一定的经费奖励和支 持。各试点高校也要加大经费的投入,以保证 各项工作顺利的开展和运行。四是加强资源知 识产权保护对教学资源运用数字资源知识产权 管理技术加以技术保护,如数字签名技术、访 问控制技术、水印技术、入侵检测技术、数据 加密技术、cA认证技术等。 参考文献 【1】王毅,安红云学教师虚拟学习社区构建研究 Ⅱ】中国电化教育,2010. 【2]王润兰.Moodle平台在高校专业课程教学中的应用Ⅱ】 电化教育研究,2008. 【31王萍,张际平云计算与网络学习U]现代教育技术,2008. 黎加厚走向教育技术云服务U Jl远程教育杂志,2008 【5]孙传明,路红,廖龙龙.基于云操作系统的网络互动学 习平台开发研究叩.中国远程教育,2012. 作者简介:郭晓梦(1985一),女,山东济南人,助 教,济南职业学院电子工程系辅导员。 (上接第1 3页)择2。基于神经网络的完整模型 见图4。 4.2结果分析 利用微博数据进行建模之后,得出变量 重要性见表5。基于数据的分析,可知导演粉 和主2粉对电影票房预测模型有着很高的贡献 率。如果某部电影导演的粉丝数、转发量和评 论量大大高于其他电影导演,那么导演的指标 的前啬是i 丰涫的指标雩£高 存珊建:的由帚乏覃 票房预测模型之后,要使用测试集数据对模型 预测性能进行评估。本文使用相同的测试集数 据分别对电影票房的线性回归模型和决策树模 型进行测试,来比对神经网络的预测准确性。 三种模型对测试集数据进行预测的平均相对误 差见表6,平均误差见图5。可知运用神经网络 预测模型具有良好的预测精确度。 表6三种模型的平均相对误差 l 方法 溘RT 平均误差相对较小,具有一定的可信度。 但是,本文建模所用的电影数目为45个,进 一步加大数据量可以提高模型的精确度,同时铹 博数据不局限于电影主创们的微博,还可以通过 统计一定时间内以某部电影为关键词所发微博总 量等数据来预测电影票房,增加输入神经元个数 也能提高模型的准确性。下一步的研究可以将缁 博作为平台,将微博中关于某部电影的情感分析 n入车l1由署幺要£雇的稀i湘¨审.十b百r僻一 老虞稽 馏 l 平均相对误差 I 房中,, 、时代的导演郭敬明和致青春导演赵薇 月 l J 82 42 94 07 } 五 f 价,疋、 。。。  H 日J1 、1士,.)‘, i ^l x.1口人n I, 『 童 里l 材兰兰裂、转反堇、计 苴郁匹趋具他寻摄,岽 z山 t 房也远比其他电影高。 表5变量的重要性 线性回归 1 104.55 电影上映日期临.丘的变化趋势等数据,这些都日J_  I、J 小士蛐 山 日 }.仪 同— 口 靶坏/ 1上l . 可1止7r “/\ U* n、 Il #I l无 ±:1’0 lrh  变量名 变量重 要性 变量名 变量重 要性 变量名 变量重 要性 主2粉丝数 导搞粉丝数  : :A .0 24 0 183 导演评 主论量2转 发t 0 124 0 Il7 导演转 +* 月镕 参考文献 【1]Ramya Neelamegham,Pradeep Chintagunta.A Bayesia ̄ 主发量I评 论量 0 04l 0 032 : 全 八 , +绕-.-丧l锖 目括{ MoIdel tO Forecast New Product Perf0ITflgA ̄ce in Domestic all( nternationalMarkets[J].MarketingScience,1999,18(2]115—136 motion pictures with neural networks ̄].Expert Systemt wi出Appfications2006,30(2):243—254. ,【2]Sh ̄ttda R,Deletx D.Predicting box—office success o J[3] ̄DockendorfM,lbmez sAforecasmag systemformovi, attendance[J]J,oumalofBusiness Res ̄ch,2013,66(13):1800-1806. [4]王铮,许敏l电影票房的影响因素分析——基于Lo 模型的研究Ⅱ】l经济问题探索,2013,11:96—102 【5]郑坚,周尚波.基于神经网络的电影票房预测建模U】 计算机应用j2014,03:742—748. 主2评论量 0 18l 主l粉 丝数 0 058 主1转 发量 0 025 1 2 3 4 5 6 T 8 9 1O 11 经过神经网络模型使用训练集数据建模得 到的模型的估计准确性为89.894%,即训练集数 据的拟合优度为90%,从模型预测的精准性来 看,数据量的增多会提高模型的预测结果。 4.3模型评估 使用训练集数据建立基于神经网络的电影 图5三种模型的误差对比图 5.结束语 本文利用Spss Clementine中的神经网络节点构 建了电影票房的预测模型。通过结果分析得出电影 票房与主演和导演粉、转和评和电影票房的关系, 并给出了具体的预测模型。其精确度为89.894%, (上接第1 4页)有,则接收通道存在问题;重点 检查接收通道电路。 插入测试卡,开机,使用手动方式搜网, 正常情况下可以搜索到中国移动和中国联通选 项,说明接收电路正常,射频发射电路存在问 题;如搜索不到网络,则故障一定在接收端。 不入网故障涉及到的部位较多,如天线, 天线开关,频率合成器,中频模块,系统时钟 等以及上述电路的供电与滤波电容都可能造成 手机不入网 遇到不入网故障时,先分清是接 收电路还是发送电路故障,然后按一定规律检 查故障电路的重要元件。 然后,我们需要进一步判断故障发生在公共 通道,是2G通道,还是3G通道,首先下载软件, 排除软件造成的不良,再利用校准仪器进行校 准,仔细观察校准日志,上面给出的故障原因, 根据提示进行维修,找到相关的电路之后,分别 从供电,控制,信号流程等方面去查找故障点。 1)2G射频功放 A、VBAT供电是否到位;B、选择信号时否正 常;C、功放是否正常:D、天线到双工器之间的 通路是否正常;E、射频转换接口是否正常。 2)Gs ̄f接收滤波器是否正常 3)3G接收电路 A、双工滤波器是否正常:B、通路中的耦 合器件是否正常。 4)射频模块故障 A、射频电路的几路供电是否正常;B、射 16一电子世界 频模块是否正常;C、AFC电压是否正常;D、 CPU是否正常 2.智能手机HTC T328w ̄修实例(CPU为高 通骁 ̄MSM7227A) 故障现象:手机无信号(进水开机无信号)。 维修思路:通过与客户沟通交流得知,该手机 是进水导致手机无信号,即是能开机但不能拨打电 话,由于是进水机,首先应该是拆机后先清洗,吹 干试机,但结果仍无信号,于是检查天线开关,发 现役有异常现象。 因手机只有接收通道和发射通道都没故障情 况下才有信号,经过测试,手机的接收通道没有问 题,故障出现在发射通道。在发射通道中主要元件 是功放,更换功放后,通电试机,手机信号正常, 能拨打电话。 维修总结:发射电路故障可以使用频谱仪对发 射调制好的信号进行测试,是否有正常的输出,或 者使用直流电源,在手机开机后拨打电话,用电流 法进行检测,是否有发射电流; ̄/CDMA发射校准失 败,检查发射通路上各器件焊接隋况。 1)主芯片RTR6285A. ̄/出到发射滤波器的 射频信号是否正常。可以用频谱仪观察信号是 否正常,如正常,说明CPU输出到射频模块的 I/q信号以及射频模块都没有问题,应该继续 查找发射滤波电路和射频放大电路的相关工作 条件,以便进一步判断故障所在。 2)WCDMA功放是否工作正常,检查功放管 脚是否连焊,射频供电电压是否正常等。用示 波器检查PA-EN等信号是否正常,更换功放, 双工滤波器,CPU。 3)检查天线开关是否正常,分别检查天 线开关的四路控制信号是否正常,可以使用示 波器观察其波形,如控制无问题。 手机从当年的“身份象征——大哥大”演变 为今天融通讯、多媒体为一体的个人电子商务、生 活助理。都与人们的日常生活越来越密不可分。现 在人们手机的拥有量和前几年比可谓多得惊人,而 且还在逐年增长。需求量的增加而导致手机维修市 场潜力也是巨大的,而且是长久的。新的技术, 新的产品必然要求我们跟上技术更新的步伐。 面临手机射频电路集成度越来越高,产品更新 速度愈来愈快的大环境下,要突破原有的分析 和维修思路,及时总结经验,敢于开拓创新。 参考文献 【1】文恺主编手机维修从入门到精通[M】.人民邮电出版 社,2011,I. [2]陈予聪主编.手机原理及维修教程IM].机械工业出版 社,2008,6. 『3]刘南平.手机原理与维修 .北京师范大学出版社,2008 『4]韩广兴等快修巧修新型手机 .北京电子工业出版 社.2008. 作者简介:吕秋珍(1985一),女,湖北黄冈人,学 士,通信工程讲师,现供职于河源市高级技工学校, 研究方向:电子技术。 一

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igbc.cn 版权所有 湘ICP备2023023988号-5

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务