跳转到主要内容
人工智能的数据

使用Hadoop是时候重新审视你们的关系

2021年3月25日 数据策略

分享这篇文章

公司被迫适应远程分布式员工在过去的一年中,云应用加速了以前所未有的速度+ 14%导致电视台2%或13美元b高于预估2020 - b可能超过600美元的on-prem云迁移在未来几年内。这一转变到云的地方越来越重要在新一代的数据和分析平台,推动创新和实现企业数字转换策略。bob体育客户端下载然而,许多组织与复杂性,仍不能攀登的基础设施和严重的维护管理费用的遗产Hadoop环境,最终牺牲的价值数据,反过来,风险他们的竞争优势。应对这一挑战,解锁更多的(有时是隐藏的)机会在他们的数据,组织转向开放、简单和协作的基于云的数据和分析平台像砖Lakehouse平台。bob体育客户端下载在这个博客中,您将了解的挑战促使组织探索现代基于云的解决方案和角色lakehouse架构在引发下一波的数据驱动的创新。

Hadoop的承诺

Hadoop分布式文件系统启动时(HDFS)是一个改变游戏规则的技术,仍将是一个图标的历史数据。因为它的到来,组织的范围不再局限于关系数据库,和它最终催生了现代大型数据存储和云数据湖泊。所有的荣耀和宣传前2015年,Hadoop难以支持的所有数据类型的发展潜力,特别是在企业规模。最终,作为数据景观和相应的业务需求的发展,Hadoop难以继续兑现其承诺。因此,企业已经开始探索基于云的选择和迁移的速度从Hadoop云只会增加。

团队从Hadoop因为各种各样的原因;通常是“推”和“拉的组合。“限制与现有的Hadoop系统和高授权和管理成本是推动团队寻求替代方案。他们也被现代云数据架构所带来的新可能性。因组织架构有所不同,我们看到几个共同的因素,导致客户意识到是时候开始说再见。这些包括:

  • 浪费了硬件容量:产能过剩是给定的,这样您就可以在本地实现扩大你的高峰时间需求,但结果是,大部分的产能闲置但继续增加的运营和维护成本。Hadoop的隐性成本
  • 扩展成本迅速增加:解耦存储和计算本地Hadoop环境中是不可能的,所以成本增长数据集。因素与产生的快速数字化COVID-19流行和全球增长率。研究表明,总量的数据创建,被俘,复制,和消费预计将增长152.5%从2020年到2024年为149字节。在hyperdata增长的世界中,成本失控可以迅速气球。
  • DevOps的负担:基于客户的经验,你可以假设4到8个全职员工,每100个节点。
  • 增加电力成本:预计支付高达800美元每年每台服务器基于消费和冷却。每年80美元的100节点的Hadoop集群!
  • 新和更换硬件成本:这个占TCO的~ 20%,等于Hadoop集群的管理成本。
  • 软件版本升级:这些升级通常规定,以确保合同保留的支持,这些项目需要几个月的时间,提供一些新的功能和占用宝贵的带宽的数据团队。

除了上面的全方位的挑战,有真正的Hadoop的长期生存能力的担忧。2019年,世界看到一个巨大的解开Hadoop内球体。谷歌,其开创性的2004年论文在MapReduce支持创建Apache Hadoop,完全停止使用MapReduce,在推特上谷歌高级副总裁的技术基础设施,乌尔。也有一些非常引人注目的合并收购在Hadoop的世界。此外,在2020年,一个领先的Hadoop供应商改变了产品集远离Hadoop-centric, Hadoop现在被认为是“比技术的哲学”。最后,在2021年,Apache软件基金会宣布了退休的十个项目从Hadoop生态系统。这种日益增长的担忧与加速需要数字化促使许多公司使用Hadoop重新评估他们的关系。

转向lakehouse架构

lakehouse架构是理想的数据为数据驱动的组织架构。它结合了最好的品质数据仓库和数据湖泊为所有数据提供一个高性能的解决方案工作负载。Lakehouse架构支持各种用例,如BI流数据分析,数据科学和人工智能。为什么客户喜欢砖Lakehouse平台?bob体育客户端下载

  • 这很简单。统一数据,分析和人工智能的一个平台。bob体育客户端下载
  • 它是开放的。统一数据系统与开放标准和格式。
  • 这是协作。统一数据团队合作在整个数据和人工智能工作流。

lakehouse架构可以实现遗留Hadoop环境相比,显著增长“拉动式”企业云应用。这也包括顾客试图使用Hadoop在云中,但没有得到相同的结果如预期或期望。作为r·泰勒突堤的工程总监Scribd,解释道“砖声称30% - -50%的优化的最传统的Apache火花™工作负载。出于好奇,我重构成本模型考虑到砖的价格和潜在的火花工作优化。调整数量后,我发现在优化率17%,砖会降低我们的亚马逊网络服务(AWS)基础设施成本太多,它将支付砖平台本身的成本。bob体育客户端下载我们最初的评价后,我已经出售的特性和开发速度改进砖将提供。当我跑的数字在我的模型中,我知道我买不起不采用砖!”

Scribd并不孤独;额外的客户,从Hadoop迁移到砖Lakehouse平台包括:bob体育客户端下载

  • H&M处理大量的数据来自5000多个商店每天超过70与数以百万计的客户市场。Hadoop-based架构创建挑战数据。它成为资源密集型和昂贵的规模,提出了数据安全问题,难以大规模操作支持数据科学的努力从各种孤立的数据源和上市时间下降。因为重要的DevOps延迟。需要一整年从构思到生产。砖,H&M受益于改善运作效率降低运营成本70%,改善跨团队协作,提高业务影响time-to-insight更快。
  • Viacom18需要处理日常观众数据优化编程的tb。使用Hadoop data湖无法处理90天的滚动数据在sla,限制他们实现业务需求的能力。砖,他们大大降低了成本,更快的查询时间和更少的DevOps尽管增加了数据量。Viacom18也提高团队生产力26%完全管理平台,支持ETL、分析和大规模毫升。bob体育客户端下载
  • 利洁时公司集团(RB)在预测的复杂性需求在500000家门店。他们每天处理2 tb的数据在250年管道。遗留Hadoop基础设施被证明是复杂、繁琐,成本规模和纠结的性能。砖,RB意识到十几倍容量体积来支持业务,98%从80年结核病2 tb数据压缩,减少运营成本,2 x 24 x7工作更快的数据管道性能。

Hadoop从未建在云环境中运行。尽管Hadoop云服务进行不断的改进与本地同行相比,两者相比仍然落后lakehouse架构。Hadoop实例收益率低性能、低效率、高成本和无法解决更复杂的大规模数据的用例。

能否经得住时间的考验你的数据,分析和AI-driven增长

云迁移决策是商业决策。他们迫使企业认真审视的现实交付他们当前的系统和评估他们需要实现短期和长期目标。AI投资的势头继续发展、数据分析和技术领导人需要扮演至关重要的角色思考超越现有的Hadoop架构的问题“这让我们我们需要去哪里吗?”

清晰的目标关键技术细节,如技术映射,评估云资源利用率和cost-to-performance,构建迁移项目,最大限度地减少错误和风险。但最重要的是,你需要的数据驱动的信念使用Hadoop是时候重新审视你们的关系。BOB低频彩如何迁移从Hadoop可以加速业务成果数据的用例。


1。来源:Gartner市场数据手册,高盛(Goldman Sachs)全球投资研究

免费试着砖
看到所有数据策略的帖子