从Hadoop迁移时的主要考虑事项
2021年7月22日 在数据+ AI博客
Apache Hadoop创建于15年前,是一个开源的分布式存储和计算平台,专为大型数据集和大规模批处理而设bob下载地址计。bob体育客户端下载在早期,它比传统的数据存储解决方案更便宜。当时,企业不需要在特定的硬件上运行它。的Hadoop生态系统它也由多个开源项目组成,可以部署在本地和云中,但它很bob下载地址复杂。
但是15年的技术并不是为今天的工作量而设计的。说到底,Hadoop是一个高度工程化的系统,拥有大量的技术。它是资源密集型的,需要高技能的人来管理和操作环境。随着数据的增长和对更高级分析(如AI/ML)的需求,我们看到很少有高级分析项目部署在Hadoop上。最后,它也未能支持分析的基本原理。在以前的博客,我们探讨了运行Hadoop的高财务和资源税;环境是固定的,服务是24/7运行的,环境的大小适合峰值处理,升级成本可能很高,而且是维护密集型的。组织需要专门的团队来维持运转,而系统的脆弱性影响了他们从所有数据中获取价值的能力。
有效地利用AI/ML和所有数据的价值需要一个现代化的架构。这篇博客将介绍如何做到这一点,以及组织计划从Hadoop迁移时的首要考虑事项。
现代化数据架构的重要性
企业就绪的现代云数据和人工智能架构提供了无缝的规模和高性能,以经济高效的方式与云齐头并进。作为一个标准,性能经常被低估,但是执行时间越短,云成本就越低。
它还需要易于管理,以便数据团队可以更专注于构建用例,而不是管理基础设施。该架构需要提供一种可靠的方式来处理各种数据,以实现预测和实时分析用例,从而推动创新。进入Databricks Lakehouse平bob体育客户端下载台\AWS)\、\ Azure和\ GCP。这是一个统一数据处理和分析的管理协作环境砖的SQL例如,利用实时流数据进行数据科学和机器学习(ML)等高级分析。这样就不需要缝合多个工具,也不需要担心安全问题或移动数据——数据驻留在组织内部的云存储中三角洲湖.所有东西都以开放格式通过开源工具访问,使组织能够对其数据和代码保持完全控制。bob下载地址
在计划从Hadoop迁移时的首要考虑事项
内部的问题
让我们从规划迁移开始。与任何旅程一样,数据团队、首席信息官和首席数据官需要经历几件事。大多数人会从这些问题开始,我现在在哪里?我该去哪里?然后,他们评估当前基础设施的构成,并在此过程中为新世界制定计划。在这一点上会有很多新的学习和自我发现。数据团队将测试和验证一些假设。最后,它们可以自己执行迁移。组织在开始迁移之前应该问的一系列问题包括:
- 我们为什么要移民?它的价值不复存在,你的创新速度赶不上竞争对手,Hadoop的前景也不复存在。在我们的Hadoop环境的特定版本的生命周期结束时,会出现代价高昂的许可证更新,或者即将出现的硬件更新,CIO和CFO都希望避免这种情况。可能是以上所有,甚至更多。
- 期望的开始和结束日期是什么?
- 谁是买进所需的内部利益相关者?
- 谁需要参与每个阶段?这将有助于映射需要哪些资源。
- 最后,迁移如何适应整个云战略?组织是使用AWS、Azure还是GCP?
迁移评估
组织必须首先列出所有迁移项目的清单。注意环境和各种工作负载,然后对需要迁移的用例进行优先级排序。虽然大爆炸方法是可能的,但对大多数人来说,更现实的方法是一个项目一个项目地迁移。此外,组织将需要了解正在运行的作业以及代码的外观。在大多数情况下,组织还必须为迁移构建业务理由,包括计算现有的总拥有成本和预测以及Databricks本身的成本。最后,通过完成迁移评估,组织将更好地了解他们的迁移时间表,并与最初计划的时间表保持一致。
技术规划阶段
当涉及到Hadoop迁移时,技术阶段具有相当大的权重。在这里,组织需要考虑他们的目标体系结构,并确保它将长期支持业务。一般的数据流将类似于已经存在的数据流。在许多情况下,这一过程包括将旧技术映射到新技术或简单地对其进行优化。组织还必须评估如何将数据与工作负载一起迁移到云端。这将是一种提升和转变,还是利用Databricks的新功能带来更大的变革?还是两者兼而有之?其他考虑因素包括数据治理和安全性,以及在可能的情况下引入自动化,以确保平稳迁移,因为它不容易出错,并引入可重复的过程。在这里,组织还应该确保现有的生产流程被转移到云端,与现有的监控和操作相结合。
评估和实现
我们有必要了解这个新平台能提供什么,以及事物是如何转化的。bob体育客户端下载Databricks不是Hadoop,但它为数据处理和数据分析中的所有数据以更高的性能和规模提供了类似的功能。还建议进行某种形式的评估,有针对性的演示,也许是研讨会,或者联合计划一个生产试点,以审查一种环境方法。
迁移执行
最后要考虑的是执行迁移。移民从来不是件容易的事。然而,第一次就做好它对于现代化计划的成功至关重要,对于组织最终能够多快开始扩展其分析实践、削减成本和提高整体数据团队的生产力至关重要。组织应该首先部署一个环境,然后逐个迁移用例,先迁移数据,再迁移代码。为了确保业务连续性,组织应该考虑同时在Hadoop和Databricks上运行工作负载。为了确保新环境中的所有内容都相同,需要进行验证。当一切顺利时,可以决定切换到Databricks并从Hadoop中退役用例。组织将对所有剩余的用例进行清洗和重复,直到它们全部被转移,然后整个Hadoop环境就可以退役了。
从Hadoop迁移不是“如果”的问题,而是“何时”的问题。
很多功劳都归功于Hadoop,因为它从诞生之初到几年前所推动的创新。然而,随着组织希望用他们的数据做更多的事情,授权他们的数据团队做更多的分析和人工智能,减少基础设施维护和数据管理,数据和人工智能的世界需要Hadoop的替代品。世界各地的组织已经意识到,是否需要迁移来保持竞争力和创新不再是问题,而是何时需要迁移的问题。组织在改进数据架构以满足日益增长的客户期望和竞争压力方面等待的时间越长,他们就越落后,同时产生越来越多的成本。当组织开始他们的现代化之旅时,他们需要一个循序渐进的方法,在整个组织中彻底探索五个考虑事项中的每一个,而不仅仅是在业务竖井中。要了解BOB低频彩有关Databricks迁移产品的更多信息,请访问www.neidfyre.com/solutions/migration.