人工智能的数据

100年的恐怖电影:使用Databricks SQL进行分析

分享这篇文章

说到电影的历史,也许没有哪一种类型比恐怖片更能体现我们人类的本性,它触及了我们对世界最大的恐惧和不确定性。有这么大的范围——从可怕到象征到喜剧恐怖——我们认为分析IMDb每十年的恐怖电影数据,看看我们能发现什么见解,会很有趣。更具体地说,我们想知道的是:随着时间的推移,某些子类型的流行度是如何变化的?最受欢迎的恐怖电影是如何影响整个恐怖类型的?

这篇博文将介绍我们是如何做到这一点的砖的SQLIMDb是世界上最受欢迎和最权威的电影、电视和名人内容数据来源。我们认为这将是一种有趣的方式(特别是在万圣节即将来临之际),以展示使用Databricks SQL立即开始查询数据和创建视觉效果以快速洞察是多么容易。

为什么Databricks SQL?

Databricks SQL是一项允许用户直接在数据湖上轻松执行BI和SQL的服务,以实现可靠、闪电般的分析。通常在数据仓库中,这需要数据团队集成BI工具,然后花费数小时设置数据管道并通过ETL处理数据。使用Databricks SQL,因为我们可以直接从一个lakehouse,一旦我们从IMDb下载数据(见下文),我们几乎可以立即开始查询,并在30分钟内创建视觉效果——所有这些都在一个平台上。bob体育客户端下载

对于我们的分析,我们使用一个数据集其中包括IMDb上的3万多部恐怖电影;我们选择这个示例数据集,因为它对开发人员来说很容易访问和使用。IMDb是任何电影分析的理想来源,因为它包括数亿个可搜索的数据项,包括800多万部电影、电视和娱乐节目。IMDb还利用AWS数据交换(AWS Data Exchange),方便查找、订阅和使用云中的第三方数据,为其目录中的每一部电影、电视和OTT系列以及视频游戏标题提供必要的元数据(滚动到本博客的末尾,了解更多关于IMDb作为数据源的信息)。

恐怖比喻的十年趋势

我们想回答的第一个问题是:当按年代来看这些电影时,在特定的修辞(例如怪物,主题等)上是否有任何可观察到的趋势?为此,我们计算了每个标题中出现的每个单词的词频。在此基础上,我们确定了常用的“恐怖术语”,并将它们组合在一起。我们认为主要的比喻如下:

  • 吸血鬼
  • 万圣节
  • 儿童玩具
  • 占有
  • 僵尸
  • 女巫
  • 怪物

一个简单的词云让我们对经典有了一个高层次的概述——显然鬼片一直是电影人的热门选择!

对过去100年恐怖电影片名的文本分析再次证实,恐怖电影类型中鬼魂、吸血鬼、附身和僵尸的比喻经久不衰。
IMDb支持

让我们更细致地看看这个问题。我们的方法很简单。我们使用上面列出的比喻,并创建了一个本体来分类与每个比喻相关的电影。例如,在类别,我们包括的变化:吵闹鬼精神幻影而且令人难忘的.这些变化很容易由术语频率表确定。这就是鬼的最后一盘是这样的:

鬼猫
鬼,
鬼:
鬼的
捉鬼敢死队
捉鬼敢死队:
重影
鬼脸杀手
Ghosthunters
重影
幽灵
Ghostman
鬼魂
吵闹鬼
幻影
幻影
精神
精神
精神
精神
灵魂
灵魂的
灵魂
灵魂
闹鬼
闹鬼
闹鬼
闹鬼:
消失
令人难忘的
鬼故事
困扰着

因为我们想要看到这些不同的主题是如何随着时间的推移而变化的,所以我们使用本体来对哪些电影属于哪些比喻进行分类。然后,我们计算并可视化了每十年属于每种比喻的电影的分布情况。结果非常有趣!

恐怖电影类型中常见主题的百年流行分析。
IMDb支持

我们的见解

正如你所看到的,20世纪早期在修辞方面相当有限,同时也包含了我们数据集中最多的吸血鬼电影。有趣的是,吸血鬼,可能是最著名的吸血鬼作品,出版于1897年因此,这项研究与吸血鬼电影的流行之间存在潜在的联系。

另一个有趣的点是70年代开始的附身电影的高峰。再一次,这在恐怖电影经典中是有道理的,比如驱魔人,可以说是有史以来最具影响力的恐怖电影之一,于1973年首映。

最后,我们的数据集显示,怪物电影的数量激增,在20世纪下半叶迅速减少。这确实符合经典的时间线,如流行和有影响力的电影,如哥斯拉金刚而且来自黑礁湖的生物首播于20世纪50年代;做一个更深入的分析,看看为什么最终呈下降趋势,这将是很有趣的。

随后的80年代,僵尸电影风靡一时亡灵黎明(1978),巨大的商业成功.但在21世纪初,僵尸电影又卷土重来,这段时间也出现了重量级的僵尸电影:28天后(2002),生化危机(2002)和第一部“Rom Zom Com”僵尸肖恩(2004)。这种“山寨”效应绝对值得进一步探索,在更深入的分析中,我们想看看所有这些电影的收入和盈利能力。

结论

虽然这篇博客文章旨在通过一个有趣的用例展示数据分析的力量(它给了我们一个很好的借口来研究电影),但不仅如此,它还展示了使用一个相对较大的元数据集并开始使用SQL和可视化生成快速洞察是多么简单。媒体公司通常坐拥各种各样的数据,但不确定如何从中获取价值。我们想要演示一个熟悉SQL但不熟悉更复杂的数据科学语言的分析师如何开始探索这些数据集,以创建有趣的观众体验。在Databricks,我们致力于为所有头衔和级别的数据从业者提供简单的服务。

要深入了解更多的娱乐用例,请查看我们的媒体和娱乐解决方案加速器


更多关于IMDb

IMDb拥有数以亿计的可搜索数据项,包括800多万部电影、电视和娱乐影片,1100多万名演员和工作人员,1200多万张图片,是世界上最受欢迎和最权威的电影、电视和名人内容来源,每月有超过2亿的网络和移动用户访问。

IMDb通过为世界各地的粉丝和专业人士提供每部电影、电视剧和视频游戏的演员和剧组名单、box office Mojo的终身票房总收入、IMDb全球超过2亿粉丝的专有电影和电视用户评分等等,增强了娱乐体验。

IMDb将其庞大而权威的数据库中的信息授权给第三方企业,包括电影制片厂、电视网络、流媒体服务和有线电视公司,以及航空公司、电子制造商、非营利组织和软件开发商。这些企业依靠IMDb数据库来改善自己的客户体验、推动投资决策、形成情绪分析、为内容获取战略提供信息等等。BOB低频彩在developer.imdb.com了解更多信息

免费试用Databricks
看到所有数据+ AI博客的帖子