人工智能的数据

主宰你的日常Wordle Lakehouse

2022年3月15日 数据策略

分享这篇文章

自从去年年底推出后,先已成为世界各地的人们每天突出。这么多,《纽约时报》最近收购了拼图游戏添加到其日益增长的投资组合。在砖,有一些事情我们喜欢超过寻找新的,创新的方法来利用我们Lakehouse平台。bob体育客户端下载所以,我们认为:为什么不使用它来提高我们的竞争优势与Wordle ?

这个博客将走过我们如何执行这个用例通过分析Wordle数据识别平台上使用最频繁的信件。bob体育客户端下载我们使用我们的结果很容易识别额外的单词,可以帮助你与你的日常Wordle !

Wordle是什么?

对于那些不熟悉,Wordle是一个简单的每天word-solving游戏出来。在高级别上,你有6尝试猜5信字;在提交每个猜,玩家给出的线索有多少字母猜对了。您可以查看完整的指令(玩!)在这里

我们的方法

这个用例,我们想要回答这个问题:最优是什么单词开始时打Wordle吗?

对于我们的数据集,我们使用Wordle库的5个字母的单词。使用砖Lakehouse平台bob体育客户端下载,我们能够摄取和净化这个库,执行两种方法识别“最佳”字开始,从可视化和提取的见解,识别这两个词。Lakehouse这个用例是一个理想的选择,因为它提供了一个统一的平台,使端到端分析(数据摄入- >数据分析- >商业智能);bob体育客户端下载使用砖笔记本的环境,我们可以轻松地分析组织到一个定义的过程。

数据摄取、转换和分析过程

首先,我们提取Wordle图书馆接受5信的话从他们的网站的页面源为CSV。该库包括12972字从“大呼小叫”到“zymic。”

加快摄入、转换和分析Wordle图书馆,我们使用砖笔记本的环境,我们可以无缝地使用多种编程语言(SQL, Python, Scala, R),无论用户是最舒服的,定义一个过程进行系统的设计和执行分析。通过使用这种环境下,我们能够合作遍历过程使用相同的笔记本,而不必担心版本控制。这简化了整体最优的过程开始的单词。

使用砖笔记本环境Lakehouse提供的,我们只是从CSV文件摄入数据加载到一个表名为“wordle三角洲。“这原始表我们称之为“青铜”数据表,按我们的大奖章架构。铜层包含我们的原始摄入和历史数据。银层包含我们的转换(例如,过滤、净化、增强)数据。金层包含聚合数据的业务水平,准备了解分析。

pyspark.sql.types进口StructType、StructField StringType
              模式= StructType ([StructField (“单词”、StringType ()真正的)))df = spark.read.csv (“/ FileStore / wordlev2 - 1. csv”头=“假”模式=)df.write.saveAsTable (“先”)

我们发现,摄入所需数据清理之前能够执行分析。例如,“false”被吸收为“false”由于数据的格式保存,限制我们的能力做字符查找(没有额外的逻辑),相当于“f f。“既然砖笔记本的环境支持多种编程语言,我们使用SQL来识别数据质量问题和净化这些数据。我们这个数据加载到一个表称为Wordle_Cleansed“银”。

然后我们计算每个字母在单词的图书馆的频率在Wordle_Cleansed并保存结果表叫Word_Count“黄金”三角洲。

此外,我们计算每个字母的频率在每个字母位置(p_1、p_2 p_3, p_4, p_5)在单词和图书馆保存的结果在“黄金”三角洲表为每个位置(例如,Word_Count_p1)。最后,我们分析了Word_Count结果和每个位置表来确定场景的最优词。现在让我们深入的发现。

结果:整体信计数

下面是十大字母根据字母频率Wordle 5信中接受词库。分析这些信件后,我们确定最优词开始暴涨,或年轻的鹰。您还可以使用图来确定其他高价值的词:

十大信频率

结果:字母数位置

下面是字母根据字母频率和顶部位置Wordle接受词库。分析这些发行版之后,有许多不同的选项为“最佳”开始使用这种方法。例如,“关心”是一个很好的选择。“S”是最常见的信在位置1 (P1)和P5。因为它是两倍的频繁在P5,我们槽。

“C”是下一个最常见的信在P1,所以我们槽,给我们“C _ _ _。”“一个”是最常见的信在P2和P3,但在P2更频繁,所以我们槽。在P3,第二个最常见字母“R”,所以我们现在有“C R _ S”。来结束这个词,我们看P4,“E”是最常见的信。因此,使用这种方法的“最优”开始的单词是“关心”。

位置1

位置2

位置3

位置4

位置5

结论

当然,“最优”只是一个战略方面当玩Wordle——这绝对不需要“拼图”的游戏。最优的现在可能会随时间而变化!这就是为什么我们鼓励你尝试这个用例。

新Lakehouse吗?看看这个博客从我们的合伙人架构的概述,以及它如何可以利用跨数据团队。

免费试着砖

相关的帖子

看到所有数据策略的帖子