bob体育客户端下载平台的博客

如何节省高达50%的Azure ETL同时提高数据质量

2021年1月21日 bob体育外网下载

分享这篇文章

数据质量的挑战

客户面临的最常见问题之一是保持较高的数据质量标准,尤其当他们迅速提高他们处理的数据量,分析和发布。数据验证、数据转换和de-identification可以复杂和耗时。随着数据量的增长,新的用例和下游应用程序出现,及时交付高质量的数据和期望增加快速和可靠的数据转换的重要性,验证、重复数据删除和错误修正。随着时间的推移,各种各样的数据来源和类型添加处理开销和增加一个错误的风险引入越来越多的数据管道流和批处理数据合并,验证和分析。

城市规模数据处理

斯波坎市位于华盛顿州,致力于提供信息促进政府的透明度和问责制和了解第一手数据质量的挑战。斯波坎市处理大量的关键数据,需要很多的操作,包括财务报告,市议会会议议程和分钟,发行和等待许可,以及地图和地理信息系统(GIS)的数据对道路建设,犯罪报告和除雪。与原有的架构,它是几乎不可能获得运营分析和实时报告。出版和传播城市的他们需要一种方法从各种来源的数据分析和报告目的通过一个中央位置,可以有效地处理数据,确保数据的一致性和质量。

如何提高数据质量的斯波坎市同时降低成本

抽象整个ETL过程通过数据质量并达到一致的数据和主数据管理服务,杠杆的斯波坎市DQLabsAzure砖。他们合并各种数据源,重复数据删除,策划Azure湖数据存储中的数据(ADLS)。

“透明度和问责制是斯波坎市优先考虑”埃里克·芬奇说,创新和技术总监,斯波坎市。“DQLabs和Azure砖使我们能够提供一个一致的源净化数据解决问题的高危人群,提高公共安全和社区规划。”

使用这个联合解决方案,增加政府透明度和问责制的斯波坎市和可以为公民提供信息,鼓励并邀请公众参与和反馈。使用集成的黄金记录视图,数据集变得容易改善报告和分析。结果是重复减少80%,显著提高数据质量。DQLabs和Azure砖,也取得了50%的斯波坎市更低的总拥有成本(TCO)通过减少分类所需的体力劳动,组织、de-identify,减少重复和正确的输入数据以及更低的成本来维持和运营信息系统随着数据量的增加。

斯波坎市ETL /英语教学过程DQLabs和Azure砖
斯波坎市ETL /英语教学过程DQLabs和Azure砖

DQLabs利用Azure砖来提高数据的质量如何

“DQLabs是一个增广数据质量平台,帮助组织管理数据更聪明,”拉吉约瑟说bob体育客户端下载,首席执行官DQLabs。“拥有超过20年的经验数据和数据科学解决方案和产品,我发现很多组织斗争的整合来自不同位置的数据。数据通常存储在不同的形式和位置,如pdf文档,数据库,和其他文件类型分散在各种各样的地点如本地系统,云api,和第三方系统”。

帮助客户理解他们的数据,甚至回答简单的问题,比如,“它好吗?”或“坏吗?“更复杂的比组织的预期。为了解决这些挑战,DQLabs建造一个增广数据质量平台。bob体育客户端下载DQLabs帮助创建一个自动化的斯波坎市云数据架构使用Azure砖处理多种数据格式,包括JSON和关系数据库。他们首先利用Azure数据工厂(ADF)与DQLabs内置数据集成工具连接不同的数据源和编排数据摄入不同的速度,完全和增量更新。

DQLabs使用Azure砖过程和de-identify流和批处理数据实时数据质量分析。这些数据然后筹备策划并机器学习模型PySpark MLlib。

传入的数据评估使用DQLabs理解其语义类型的人工智能(AI)模块,DataSense。这有助于组织进行分类、编目和管理他们的数据,包括敏感数据,如个人身份信息(PII),包括联系信息和社会安全号码。

DataSense分类的基础上,额外的检查和自定义规则可用于确保数据管理和共享根据城市的指导方针。数据质量分数可以快速捕获错误监控。主数据模型(MDM)是在不同层次上定义的。例如,联系信息包括姓名、地址和电话号码。

细化数据发表作为下游的金色的观点分析,报告和分析。由于DQLabs和Azure砖,这个过程是快速和高效,使组织在领先地位的斯波坎市利用他们的数据操作,决策和未来规划。

开始使用DQLabs和Azure砖,提高数据质量

BOB低频彩了解更多关于DQLabs通过注册为生活事件与砖、微软和DQLabs。开始使用Azure砖用的快速入门的实验室系列研讨会培训

注册生活事件!

免费试着砖
看到所有bob体育外网下载 的帖子