查询速度更快,获取成本仅为数据仓库的10%
每日事件可在15分钟内分析
当人们使用Grammarly的人工智能交流帮助时,他们会收到帮助他们提高多个沟通维度的建议,包括拼写和语法的正确性、清晰和简洁、词汇选择、风格和语气。Grammarly通过应用程序创建的事件接收用户接受、拒绝或忽略其建议的反馈,每天约有50亿个事件。
从历史上看,Grammarly依赖于一个自主开发的遗留分析平台,并利用了一种内部的类似sql的语言,这种语言需要花费大量时间来bob体育客户端下载学习,并且对新员工来说具有挑战性。随着公司的发展,Grammarly的数据分析师发现,该平台未能充分满足其基本业务功能的需求,尤其是市场营销、销售和客户成bob体育客户端下载功。分析师们发现自己只能从电子表格中复制和粘贴数据,因为现有的系统不能有效地吸收回答诸如“哪种营销渠道提供最高的投资回报率?”等问题所需的外部数据。报告被证明具有挑战性,因为现有的系统不支持Tableau仪表板,公司领导和分析师需要确保他们能够快速而自信地做出决策。
Grammarly还试图统一其数据仓库,以扩展和改进数据存储和查询功能。就目前情况而言,大型亚马逊EMR集群全天候运行,推高了成本。对于各种数据源,团队还需要维护访问控制。Grammarly的数据平台工程经理Chris Locklin说:“在分布式文件系统中访问控制是困难的,当你吸收更多的数据源时,它只会变得更加复杂。”bob体育客户端下载同时,依赖于单一的流工作流使得团队之间的协作具有挑战性。数据竖井的出现是由于不同的业务领域分别实现了分析工具。洛克林说:“每个团队都决定以他们认为合适的最佳方式解决分析需求。“这在一致性和知道哪个数据集是正确的方面带来了挑战。”
随着数据战略的不断发展,Grammarly的首要任务是在保证数据安全的同时,最大限度地利用分析数据。这是至关重要的,因为安全性是Grammarly的首要任务,也是最重要的功能,无论是如何保护用户的数据,还是如何确保自己公司的数据保持安全。为了实现这一目标,Grammarly的数据平台团队试图整合数据,并将公司统bob体育客户端下载一在一个平台上。这意味着维持一个高度安全的基础设施,可以随着公司的增长而扩展,提高摄取灵活性,降低成本并促进合作。
在进行了几次概念验证以增强其基础设施之后,Grammarly迁移到Databricks Lakehouse平台。bob体育客户端下载将所有分析数据带入湖屋,为Grammarly的所有数据生产者和消费者创建了一个中心枢纽,三角洲湖是核心。
使用lakehouse架构,Grammarly内的数据分析师现在有了一个统一的分析接口,这导致了数据平台团队管理的所有数据的准确性和可用性的单一真相来源和信心。bob体育客户端下载在整个组织中,各个团队都在使用Databricks SQL在平台内对内部生成的产品数据和来自数字广告平台合作伙伴的外部数据进行查询。bob体育客户端下载bob体育外网下载现在,他们可以轻松地连接到Tableau,并创建仪表板和可视化,以呈现给高管和关键利益相关者。
Locklin说:“在Grammarly,安全是最重要的,我们团队的首要目标是拥有和保护我们的分析数据。”“其他公司会索要你的数据,为你保管,然后让你对这些数据进行分析。正如Grammarly确保我们的用户数据始终是他们的,我们希望确保我们公司的数据仍然是我们的。Grammarly的数据保存在Grammarly内部。”
通过在湖屋中整合数据,Grammarly的不同业务领域现在可以更彻底、更有效地分析数据。例如,Grammarly的营销团队利用广告来吸引新业务。使用Databricks,团队可以整合来自不同来源的数据,推断用户的终身价值,将其与客户获取成本进行比较,并获得活动的快速反馈。在其他地方,从用户交互中捕获的数据流入一组表,由分析人员用于特别分析,以告知和改善用户体验。
通过将数据整合到一个统一的平台上,Grammarly消除了数据竖井。bob体育客户端下载Grammarly的商业智能主管Sergey Blanket说:“使用Databricks将所有这些功能、数据处理和分析放在同一个平台下的能力非常有价值。”bob体育客户端下载“从ETL和工程到分析和ML,在同一保护伞下完成所有事情,消除了障碍,使每个人都可以轻松地处理数据和彼此。”
为了管理访问控制,实现端到端可观察性和监控数据质量,Grammarly依赖于Unity Catalog中的数据沿路功能。Locklin表示:“数据沿袭使我们能够有效地监控数据的使用情况,并确保数据符合我们作为数据平台团队所设定的标准。bob体育客户端下载“Lineage是访问控制的最后一个关键部件。它允许分析师利用数据来完成他们的工作,同时遵守所有的使用标准和访问控制,即使是在另一个环境中重新创建表和数据集。”
通过使用Databricks Lakehouse平台,Grambob体育客户端下载marly的工程团队现在拥有一个定制的、集中的平台和整个公司一致的数据源,从而提高了速度和效率,降低了成本。湖屋架构的查询速度比数据仓库快110%,接收成本只有数据仓库的10%。Grammarly现在可以在15分钟内(而不是4小时)对其50亿个每日事件进行分析,实现低延迟的数据聚合和查询优化。这使得团队能够快速收到关于新功能推出的反馈,并了解它们是否按照预期被采用。最终,它帮助他们了解用户群体如何参与用户体验,改善体验,并确保功能和产品发布为用户带来最大的价值。洛克林说:“我的团队所做的一切都专注于创造丰富的个性化体验,使人们能够更有效地沟通,发挥他们的潜力。”
迁移到湖畔架构也解决了分布式文件系统访问控制的挑战,而Unity Catalog支持细粒度的、基于角色的访问控制和实时数据沿袭。Locklin说道:“Unity Catalog让我们能够比数据库更灵活地管理文件权限。“它解决了我的团队无法大规模解决的问题。虽然使用Databricks可以让我们在内部保存分析数据,但Unity Catalog通过控制数据内部的访问范式,帮助我们继续维护数据保护的最高标准。这为我们打开了一个全新的世界。”
最终,迁移到Databricks Lakehouse平台帮助Grammarly培养了一种数据驱动的文bob体育客户端下载化,员工可以快速访问分析,而不必编写复杂的查询,同时保持Grammarly的企业级安全实践。“我们团队的任务是帮助Grammarly做出更好、更快的业务决策,”Blanket补充道。“如果我们没有Databricks这样的平台,我们的团队就无法有效地执行这一任务。”bob体育客户端下载也许最关键的是,从僵化的遗留基础设施迁移出来,使Grammarly有了更强的适应性,可以做更多的事情,同时知道平台将随着需求的发展而发展。bob体育客户端下载Locklin说:“Databricks让我们可以毫不妥协地灵活地释放数据。“这种灵活性使我们能够以前所未有的速度加快分析速度。”