扫一扫,关注我们
微信号:375279829
附件1
毕业设计(论文)选题审批表
课题 情况 |
课题名称 |
基于网络爬虫的电影票房数据分析可视化系统的设计与实现 |
||||
选题来源 |
☑社会实际 □科研教改 □多样化成果 □其它 |
|||||
课题类型 |
☑设计(含创作、演出) □研究开发 □其它 |
|||||
教师姓名 |
|
职称 |
|
学位 |
|
|
教师姓名 |
|
职称 |
|
学位 |
|
|
主要 研究 内容 目标
|
随着互联网的不断地发展,大数据可视化正在悄悄的进入到人们的视线,所谓的可视化就是利用计算机将一些数字信息转化成图形或图像在屏幕上显示出来。电影票房数据分析可视化系统是将中国的电影票房数据,例如中国票房记录、今日票房实时数据、影片排片数据等先通过爬虫将数据存储到数据库中,再将数据通过图形的形式直观的展示出来。
主要功能: 1、利用python爬虫技术,爬取所需要的电影票房各项数据; 2、将爬取的电影票房数据进行分类、归纳和整理,并存储到数据库中; 3、将各种数据通过Echarts图表的形式展示到前台页面,例如热门影片票房趋势折线图、内地历史票房排行柱状图、排片占比分布情况饼状图等; 4、各个数据信息每分钟都会动态更新。当所爬取网站电影票房数据更新时,数据库和前台页面中的各个图表数据也会动态更新; 5、前台全部图表综合可视化大屏展示效果,各个图表单独大屏展示效果; 6、各个图表可以通过图片的形式导出,保存到本地; 7、主题切换功能,可以根据不同用户的需求进行不同的主题切换,给用户最好的视觉体验效果; 8、多个客户端联动。打开多个客户端,当一个客户端页面发生变化时,其他的客户端页面也跟着发生变化; 开发平台:自选 开发语言:自选 |
|||||
教研室 审题 意见 |
负责人: 年 月 日 |
|||||
院系 审批 意见 |
负责人: 年 月 日 |
注:此表一式二份,一份随学生毕业设计(论文)材料存档,一份系部存档。 2020-11制
通过需求分析设计系统功能,通过数据映射处理、归一化处理和缺失数据清洗,进行分析电影票房因素,在通过数据集的分割,最后借助Node.JS和Vue进行电影票房多元可视化分析。
电影票房数据分析系统包括了电影票房数据集的采集、数据清洗和加工、数据缺失值可视化查询、多元可视化分析。
数据集的采集,通过爬虫抓取电影票房的数据,并保存在MySQL中。根据不同的URL选择不同的处理器,综合使用urllib2的build_opener、install_opener和urlopen函数来获取网页信息。提取价值数据,提供新的待爬取的URL列表。使用正则表达式结构化解析,其中Beautiful Soup可以使用lxml作为解析器。根据下载的HTML网页,创建BeautifulSoup对象,根据DOM树进行节点的搜索,在获取节点后,我们可以对节点的名称、属性、文字等进行解析,访问节点信息。
数据清洗和加工中,是对MySQL中的数据进行映射处理,包括日期、电影票房数量、上映天数、上映时间、累计票房、今日综合票房、今日综合票房占比、今日排片占比、上座率、热门电影、观影人数,然后进行归一化处理,特征数据转换和数据合并处理。数据处理的内容主要是对数据集进行数据清洗和加工,然后数据集利于进一步的分析。数据清洗包括查漏,去重,补缺,纠错,而数据加工就是对数据集字段进行提取,计算,分组,转换等操作。
数据缺失值是影响数据集的质量的一个重要因素,需要看看缺失值的情况。数据缺失值可视化查询的前提是先进行数据清洗和加工,然后处理缺失值,使用不同的图形可视化显示出来。
多元可视化分析是本平台的研究重点,使用MySQL存储的数据为基础,通过Vue进行界面展示。具体包括了电影票房可视化查询、热门电影票房发展趋势、今日大盘、今日票房排名、今日排片分布、电影票房总榜,并显示在大盘上。 如需定做或者获取更多资料,请联系QQ:375279829