100年的恐怖电影:使用Databricks SQL进行分析
说到电影的历史,也许没有哪一种类型比恐怖片更能体现我们人类的本性,它触及了我们对世界最大的恐惧和不确定性。有这么大的范围——从可怕到象征到喜剧恐怖——我们认为分析IMDb每十年的恐怖电影数据,看看我们能发现什么见解,会很有趣。更具体地说,我们想知道的是:随着时间的推移,某些子类型的流行度是如何变化的?最受欢迎的恐怖电影是如何影响整个恐怖类型的?
这篇博文将介绍我们是如何做到这一点的砖的SQLIMDb是世界上最受欢迎和最权威的电影、电视和名人内容数据来源。我们认为这将是一种有趣的方式(特别是在万圣节即将来临之际),以展示使用Databricks SQL立即开始查询数据和创建视觉效果以快速洞察是多么容易。
为什么Databricks SQL?
Databricks SQL是一项允许用户直接在数据湖上轻松执行BI和SQL的服务,以实现可靠、闪电般的分析。通常在数据仓库中,这需要数据团队集成BI工具,然后花费数小时设置数据管道并通过ETL处理数据。使用Databricks SQL,因为我们可以直接从一个lakehouse,一旦我们从IMDb下载数据(见下文),我们几乎可以立即开始查询,并在30分钟内创建视觉效果——所有这些都在一个平台上。bob体育客户端下载
对于我们的分析,我们使用一个数据集其中包括IMDb上的3万多部恐怖电影;我们选择这个示例数据集,因为它对开发人员来说很容易访问和使用。IMDb是任何电影分析的理想来源,因为它包括数亿个可搜索的数据项,包括800多万部电影、电视和娱乐节目。IMDb还利用AWS数据交换(AWS Data Exchange),方便查找、订阅和使用云中的第三方数据,为其目录中的每一部电影、电视和OTT系列以及视频游戏标题提供必要的元数据(滚动到本博客的末尾,了解更多关于IMDb作为数据源的信息)。
恐怖比喻的十年趋势
我们想回答的第一个问题是:当按年代来看这些电影时,在特定的修辞(例如怪物,主题等)上是否有任何可观察到的趋势?为此,我们计算了每个标题中出现的每个单词的词频。在此基础上,我们确定了常用的“恐怖术语”,并将它们组合在一起。我们认为主要的比喻如下:
- 吸血鬼
- 鬼
- 万圣节
- 儿童玩具
- 占有
- 僵尸
- 女巫
- 怪物
一个简单的词云让我们对经典有了一个高层次的概述——显然鬼片一直是电影人的热门选择!
让我们更细致地看看这个问题。我们的方法很简单。我们使用上面列出的比喻,并创建了一个本体来分类与每个比喻相关的电影。例如,在鬼类别,我们包括的变化:鬼,吵闹鬼,精神,幻影而且令人难忘的.这些变化很容易由术语频率表确定。这就是鬼的最后一盘是这样的:
鬼 |
鬼 |
鬼 |
鬼猫 |
鬼, |
鬼: |
鬼的 |
捉鬼敢死队 |
捉鬼敢死队: |
重影 |
鬼脸杀手 |
Ghosthunters |
重影 |
幽灵 |
Ghostman |
鬼魂 |
吵闹鬼 |
幻影 |
幻影 |
精神 |
精神 |
精神 |
精神 |
灵魂 |
灵魂的 |
灵魂 |
灵魂 |
闹鬼 |
闹鬼 |
闹鬼 |
闹鬼: |
消失 |
令人难忘的 |
鬼故事 |
困扰着 |
因为我们想要看到这些不同的主题是如何随着时间的推移而变化的,所以我们使用本体来对哪些电影属于哪些比喻进行分类。然后,我们计算并可视化了每十年属于每种比喻的电影的分布情况。结果非常有趣!
我们的见解
正如你所看到的,20世纪早期在修辞方面相当有限,同时也包含了我们数据集中最多的吸血鬼电影。有趣的是,吸血鬼,可能是最著名的吸血鬼作品,出版于1897年因此,这项研究与吸血鬼电影的流行之间存在潜在的联系。
另一个有趣的点是70年代开始的附身电影的高峰。再一次,这在恐怖电影经典中是有道理的,比如驱魔人,可以说是有史以来最具影响力的恐怖电影之一,于1973年首映。
最后,我们的数据集显示,怪物电影的数量激增,在20世纪下半叶迅速减少。这确实符合经典的时间线,如流行和有影响力的电影,如哥斯拉,金刚而且来自黑礁湖的生物首播于20世纪50年代;做一个更深入的分析,看看为什么最终呈下降趋势,这将是很有趣的。
随后的80年代,僵尸电影风靡一时亡灵黎明(1978),巨大的商业成功.但在21世纪初,僵尸电影又卷土重来,这段时间也出现了重量级的僵尸电影:28天后(2002),生化危机(2002)和第一部“Rom Zom Com”僵尸肖恩(2004)。这种“山寨”效应绝对值得进一步探索,在更深入的分析中,我们想看看所有这些电影的收入和盈利能力。
结论
虽然这篇博客文章旨在通过一个有趣的用例展示数据分析的力量(它给了我们一个很好的借口来研究电影),但不仅如此,它还展示了使用一个相对较大的元数据集并开始使用SQL和可视化生成快速洞察是多么简单。媒体公司通常坐拥各种各样的数据,但不确定如何从中获取价值。我们想要演示一个熟悉SQL但不熟悉更复杂的数据科学语言的分析师如何开始探索这些数据集,以创建有趣的观众体验。在Databricks,我们致力于为所有头衔和级别的数据从业者提供简单的服务。
要深入了解更多的娱乐用例,请查看我们的媒体和娱乐解决方案加速器.
更多关于IMDb
IMDb拥有数以亿计的可搜索数据项,包括800多万部电影、电视和娱乐影片,1100多万名演员和工作人员,1200多万张图片,是世界上最受欢迎和最权威的电影、电视和名人内容来源,每月有超过2亿的网络和移动用户访问。
IMDb通过为世界各地的粉丝和专业人士提供每部电影、电视剧和视频游戏的演员和剧组名单、box office Mojo的终身票房总收入、IMDb全球超过2亿粉丝的专有电影和电视用户评分等等,增强了娱乐体验。
IMDb将其庞大而权威的数据库中的信息授权给第三方企业,包括电影制片厂、电视网络、流媒体服务和有线电视公司,以及航空公司、电子制造商、非营利组织和软件开发商。这些企业依靠IMDb数据库来改善自己的客户体验、推动投资决策、形成情绪分析、为内容获取战略提供信息等等。BOB低频彩在developer.imdb.com了解更多信息.