术语表

什么是事务?在数据库和数据存储系统的上下文中,事务是被视为单个工作单元的任何操作,该操作要么完全完成,要么根本不完成,从而使存储系统处于不利状态{…}
梯度下降是机器学习和深度学习算法中最常用的优化方法。它被用来训练机器学习模型。梯度下降有三种主要类型{…}
什么是替代数据?替代数据是通过使用其他人没有使用的替代数据源收集的信息;非传统信息来源。对替代数据的分析可以提供超出现有数据的见解{…}
异常检测是一种识别罕见事件或观测结果的技术,这些事件或观测结果在统计上与其他观测结果不同,从而引起怀疑。这种“反常”行为通常会转化为某种问题,比如{…}
什么是Apache Hive?Apache Hive是一款开源数据仓库软件,用于读取、写入和管理从Apache Hadoop分布式文件系统(HDFS)中提取的大型数据集,HDFS是大型Hadoop生态系统的一个方面。与exten{…}
什么是阿帕奇库杜?Apache Kudu是为Apache Hadoopbob下载地址开发的免费、开源的柱状存储系统。它是一个用于结构化数据的引擎,支持对单个行进行毫秒级的低延迟随机访问{…}
什么是阿帕奇麒麟?Apache Kylin是一个用于交互式大数据分析的分布式开bob下载地址源在线分析处理(OLAP)引擎。Apache Kylin在Hadoop/S上提供SQL接口和多维分析(OLAP){…}
什么是Apache Spark?Apache Spark是一个用于大数bob下载地址据工作负载的开源分析引擎。它可以处理批处理以及实时分析和数据处理工作负载。Apache Spark开始于2009年,当时是Apache的一个研究项目{…}
什么是Apache Spark as a Service?Apache Spark是一个用于快速bob下载地址实时大规模数据处理的开源集群计算框架。自2009年在加州大学伯克利分校的AMPLab诞生以来,Spark已经取得了长足的发展。目前是ra{…}
什么是人工神经网络?人工神经元网络(artificial neural network, ANN)是一种仿照人脑神经元运作的计算系统。人工神经网络是如何工作的?人工神经网络可以得到最好的评价{…}
什么是自动化偏差?自动化偏见是对自动化辅助和决策支持系统的过度依赖。随着自动化决策辅助工具的可用性越来越多地添加到重症监护病房等关键决策环境中,{…}
什么是贝叶斯神经网络?贝叶斯神经网络(BNNs)是指通过后验推理扩展标准网络以控制过拟合。从更广泛的角度来看,贝叶斯方法使用统计方法{…}
在Hadoop发明之前,支撑现代存储和计算系统的技术都是相对基础的,这使得公司主要局限于分析“小数据”。即使是这种关系{…}
生物信息学是一门利用计算从大量生物数据中提取知识的研究领域。生物信息学是指在生物技术中使用信息技术来存储、检索、组织和分析生物数据。{…}
Spark SQL的核心是Catalyst优化器,它以一种新颖的方式利用高级编程语言特性(例如Scala的模式匹配和准引号)来构建可扩展的查询优化器。Catalyst是基于函数式程序的{…}
什么是复杂事件处理(CEP) ?复杂事件处理[CEP]也被称为事件、流或事件流处理,是在将数据存储到数据库之前或在某些情况下不存储数据之前使用技术来查询数据{…}
连续应用程序是实时响应数据的端到端应用程序。特别是,开发人员希望使用单一的编程接口来支持连续应用程序的各个方面,这些方面目前是分开处理的{…}
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,通常用于识别图像中存在的模式,但它们也用于空间数据分析、计算机视觉、自然语言{…}
什么是数据分析平台?bob体育客户端下载数据分析平台是一个服务和技术的生态bob体育客户端下载系统,需要对大量、复杂和动态的数据执行分析,允许您检索、组合、交互、探索和可视化{…}
什么是数据治理?数据治理是确保数据带来价值并支持业务策略的监督。数据治理不仅仅是一个工具或过程。它使用f将与数据相关的需求与业务策略对齐{…}
什么是数据湖屋?数据湖屋是一种新的、开放的数据管理体系结构,它将数据湖的灵活性、成本效率和规模与数据仓库的数据管理和ACID事务结合起来,支持业务int{…}
什么是数据集市?数据集市是一个精心策划的数据库,包括一组表,旨在满足单个数据团队、社区或业务线(如营销或工程部门)的特定需求。它通常很小{…}
什么是数据共享?数据共享是将相同的数据提供给一个或多个消费者的能力。如今,不断增长的数据量已经成为任何公司的战略资产。共享数据——在组织内部或外部{…}
什么是数据仓库?数据仓库是一种用于构建企业级分析数据仓库的数据建模设计模式。数据仓库有三种类型的实体:集线器、链接和卫星。中心代表核心业务概念,{…}
什么是数据仓库?数据仓库是一种数据管理系统,它以业务友好的方式存储来自多个来源的当前和历史数据,以便更容易地进行洞察和报告。数据仓库通常用于业务i{…}
Databricks运行时是一组运行在Databricks管理的机器集群上的软件构件。它包括Spark,但也添加了许多组件和更新,极大地提高了可用性、性能和安全性{…}
什么是数据帧?DataFrame是一种数据结构,它将数据组织成一个由行和列组成的2维表,很像电子表格。dataframe是现代数据分析中最常用的数据结构之一,因为它们是{…}
数据集是Spark针对Java和Scala的结构化API的类型安全版本。这个API在Python和R中是不可用的,因为它们是动态类型的语言,但它是用Scala和Java编写大型应用程序的强大工具。Recal{…}
什么是深度学习?深度学习是机器学习的一个子集,涉及大量数据,算法受到人脑结构和功能的启发,这就是为什么经常提到深度学习模型{…}
什么是需求预测?需求预测是预测消费者需求(相当于未来收入)的过程。具体来说,它利用定量和定性数据预测消费者将购买的产品种类。受潮湿腐烂{…}
密集张量将值存储在一个连续的连续内存块中,所有值都表示在其中。张量或多维数组被用于不同的多维数据分析应用。有一些软件的刺激{…}
什么是数码双胞胎?数字双胞胎的经典定义是;“数字双胞胎是一种虚拟模型,旨在准确地反映一个物理对象。”- IBM[KVK4]对于离散或连续的制造过程,数字孪生集合{…}
什么是DNA序列?DNA序列是确定DNA核苷酸(脱氧核糖核酸)精确序列的过程。对DNA进行四种化学成分的排序——腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶{…}
Delta Live Tables (DLT)可以轻松构建和管理可靠的数据管道,从而在Delta Lake上交付高质量的数据。,BOB低频彩在Databricks  上了解更多关于ETL的信息;什么是ETL?作为am{…}
特征工程,也称为数据预处理,是将原始数据转换为可用于开发机器学习模型的特征的过程。介绍f的基本概念{…}
基因组学是遗传学中的一个领域,涉及生物基因组的测序和分析。它的主要任务是确定DNA的整个序列或组成DNA的原子的组成以及DN之间的化学键{…}
什么是Hadoop集群?Apache Hadoop是一个开源的、bob下载地址基于java的软件框架和并行数据处理引擎。它使大数据分析处理任务被分解成可以并行执行的更小的任务{…}
HDFS HDFS (Hadoop Distributed File System)是Hadoop应用的主存储系统。这个开源框bob下载地址架的工作原理是在节点之间快速传输数据。它经常被需要处理和存储大数据的公司使用。{…}
什么是Hadoop生态系统?Apache Hadoop生态系统是指Apache Hadoop软件库的各个组件;它包括开源项目以及一系列bob下载地址完整的补充工具。的一些最著名的工具{…}
在计算中,哈希表[哈希映射]是一种数据结构,它基于键[唯一的字符串或整数]提供对对象的虚拟直接访问。哈希表使用哈希函数计算到桶或槽数组的索引,从中{…}
什么是Hive Date函数?Hive提供了许多内置函数来帮助我们处理和查询数据。这些函数提供的一些功能包括字符串操作、日期操作、类型转换、条件{…}
什么是托管Spark?Apache Spark是一个针对大数据的快速通用集群计算系统,围绕速度、易用性和高级分析构建,最初于2009年在加州大学伯克利分校建立。它提供了Scala、Java、Py的高级api{…}
木星笔记本是什么?Jupyter Notebook是一个开源的网络应bob下载地址用程序,允许数据科学家创建和共享文档,其中包括实时代码、方程和其他多媒体资源。木星笔记本的用途是什么{…}
什么是Keras模型?Keras是一个高级的深度学习库,建立在Theano和Tensorflow之上。它是用Python编写的,提供了一种干净方便的方式来创建一系列深度学习模型。Keras已成为其中之一{…}
什么是零售湖屋?Lakehouse for Retail是Databricks推出的第一个针对特定行业的Lakehouse。它通过解决方案加速器、数据共享功能和合作伙伴生态系统帮助零售商快速启动和运行。Lakehouse佛{…}
Lambda架构是什么?Lambda体系结构是一种处理大量数据的方法(例如。“大数据”),以混合方式提供批处理和流处理方法的访问。Lambda体系结构用于求解{…}
Apache Spark的机器学习库(MLlib)设计简单,可伸缩性强,易于与其他工具集成。凭借Spark的可扩展性、语言兼容性和速度,数据科学家可以专注于他们的数据问题和mod{…}
什么是机器学习模型?机器学习模型是一种程序,可以从以前未见过的数据集中发现模式或做出决定。例如,在自然语言处理中,机器学习模型可以解析并正确识别{…}
什么是托管Spark?通过托管Spark服务,您可以利用开源数据工具进行批处理、查询、流和机器学习。bob下载地址通过使用这样的自动化,您将能够快速地按需创建集群{…}
什么是MapReduce?MapReduce是Apache Hadoop生态系统中的一个基于java的分布式执行框架。它通过公开开发人员实现的两个处理步骤来消除分布式编程的复杂性:1)映射和{…}
Delta pipeline提供了一组用于管理数据管道生命周期的api和UI。这个开源框架帮助数据工程团队简化ETL开发,提高数据{…}
什么是勋章架构?奖章体系结构是一种数据设计模式,用于逻辑地组织湖屋中的数据,其目标是在数据流经ea时递增地改进数据的结构和质量{…}
通常在运行机器学习算法时,它涉及一系列任务,包括预处理、特征提取、模型拟合和验证阶段。例如,当对文本文档进行分类时,可能涉及到文本分割和c{…}
什么是MLOps?MLOps代表机器学习操作。MLOps是机器学习工程的核心功能,专注于简化将机器学习模型投入生产的过程,然后维护和监控它们。米{…}
模型风险管理是指对基于不正确或误用模型的决策的潜在不利后果的风险进行监督。风险管理模型的目的是采用技术和实践来识别、测量和管理风险{…}
如果底层表是Databricks Delta Tables . , Databricks支持多语句事务。这意味着事务中的所有语句都是atomi的{…}
什么是神经网络?神经网络是一种计算模型,其分层结构类似于大脑中神经元的网络结构。它的特点是相互连接的处理元素被称为神经元,它们一起工作产生输出{…}
什么是开放银行?开放银行是一种安全的方式,可以访问消费者的金融数据,这一切都取决于客户的同意。²在监管、技术和竞争动态的推动下,开放银行要求客户服务民主化{…}
什么是编制?编排是对多个计算机系统、应用程序和/或服务的协调和管理,将多个任务串在一起以执行更大的工作流或流程。这些过程可以由{…}
什么是整体设备效能?总体设备效率(OEE)是一种衡量制造操作在计划期间(设备、时间和材料)与其全部潜力相比利用程度的指标{…}
说到数据科学,可以毫不夸张地说,通过使用pandas DataFrame充分发挥其潜力,您可以改变您的业务工作方式。为此,您需要正确的数据结构。这些会帮助你更好{…}
什么是拼花?Apache Parquet是一种开源的、bob下载地址面向列的数据文件格式,设计用于高效的数据存储和检索。它提供了高效的数据压缩和编码方案,增强了处理复杂数据的性能{…}
什么是个性化理财?金融产品和服务正变得越来越商品化,随着媒体和零售行业对个性化体验的偏好增加,消费者也变得越来越挑剔。,仍{…}
什么是预测分析?预测分析是一种高级分析,它使用新的和历史数据来确定模式并预测未来的结果和趋势。预测分析如何工作?预测分析{…}
什么是预测性维护?简而言之,预测性维护就是根据资产的实际状况或状态,确定何时应该维护资产,以及需要执行哪些具体的维护活动{…}
PyCharm是一种用于计算机编程的集成开发环境(IDE),为Python编程语言创建。当在Databricks上使用PyCharm时,默认情况下PyCharm会创建一个Python虚拟环境,但您可以配置为创建一个Python虚拟环境{…}
PySpark是什么?Apache Spark是用Scala编程语言编写的。PySpark的发布是为了支持Apache Spark和Python的协作,它实际上是一个用于Spark的Python API。此外,PySpark可以帮助您连接wi{…}
什么是零售业的实时数据?实时零售就是实时获取数据。从面向批处理的访问,分析和计算将允许数据“始终在线”,从而推动准确、及时的决策和商业智能。{…}
RDD从一开始就是Spark中主要的面向用户的API。本质上,RDD是不可变的数据元素的分布式集合,在集群中的节点之间进行分区,可以与低级API并行操作{…}
什么是雪花模式?雪花模式是一种多维数据模型,它是星型模式的扩展,其中维表被分解为子维。雪花模式通常用于业务智能和re{…}
如果你正在使用Spark,你会遇到三个api:数据框架、数据集和rdd。什么是弹性分布式数据集?RDD或弹性分布式数据集,是分布式计算记录的集合{…}
Spark应用程序由一个驱动进程和一组执行程序进程组成。驱动进程运行你的main()函数,位于集群中的一个节点上,负责三件事:维护Spark应用程序的信息;res{…}
Spark Elasticsearch是什么?Spark Elasticsearch是一个NoSQL分布式数据库,用于存储、检索和管理面向文档的半结构化数据。它是一个开源的GitHub搜索bob下载地址引擎,基于Apache Lucene和r{…}
许多数据科学家、分析师和一般商业智能用户依赖交互式SQL查询来探索数据。Spark SQL是一个用于结构化数据处理的Spark模块。它提供了一种名为DataFrames的编程抽象{…}
Apache Spark Streaming是Apache Spark的上一代流引擎。Spark Streaming不再有更新,它是一个遗留项目。在Apache Spark中有一个更新且更容易使用的流引擎,称为Structured Stre{…}
什么是Spark性能调优?Spark Performance Tuning是指调整设置以记录系统使用的内存、内核和实例的过程。这一过程保证了Spark具有完美的性能,也防止{…}
什么是Sparklyr?Sparklyr是一个开源包,提供R和Apache Spark之间的接口。现在,您可以在现代R环境中利用Spark的功能,因为Spark能够通过小l与分布式数据进行交互{…}
SparkR是一个在Spark上运行R的工具。它遵循与Spark所有其他语言绑定相同的原则。要使用SparkR,只需将其导入环境并运行代码。它与Python API非常相似,只是它遵循{…}
Python提供了一个称为numpy的内置库来操作多维数组。这个库的组织和使用是开发pytensor库的主要需求。Sptensor是一个表示稀疏张量的类。水疗中心{…}
什么是星型模式?星型模式是一种多维数据模型,用于组织数据库中的数据,使其易于理解和分析。星型模式可以应用于数据仓库、数据库、数据集市和其他工具。圣{…}
流分析是如何工作的?流分析,也称为事件流处理,是通过使用连续查询(称为事件流)对大量当前和“动态”数据池进行分析。这些流是由{…}
结构化流是一个用于流处理的高级API,在Spark 2.2中已经可以用于生产。结构化流允许您使用Spark的结构化api在批处理模式下执行相同的操作,并在压力下运行它们{…}
2015年11月,谷歌发布了用于机器学习的开源框架,并将其命名为TensorFlow。它支持深度学习、神经网络和cpu、gpu和gpu集群上的一般数值计算。最大的进步之一{…}
什么是Tensorflow Estimator API?估计器表示一个完整的模型,但对较少的用户来说也足够直观。Estimator API提供了训练模型、判断模型准确性和生成预测的方法。TensorFlow{…}
什么是转换?在Spark中,核心数据结构是不可变的,这意味着一旦创建就不能更改。乍一看,这似乎是一个奇怪的概念,如果你不能改变它,你应该如何使用它?为了“改变”{…}
钨项目是什么?Tungsten是对Apache Spark执行引擎进行更改的伞形项目的代号,该项目专注于大幅提高Spark应用程序的内存和CPU效率,以推动性能{…}
Facebook在今年的F8期间宣布了统一人工智能(UAI)。它汇集了Facebook创建和外包的2个特定的深度学习框架——PyTorch专注于假设访问大规模计算的研究{…}
统一数据分析是一种新的解决方案,它将数据处理与人工智能技术统一起来,使企业组织更容易实现人工智能,并使他们能够加速其人工智能计划。统一数据分析使它成为e{…}
Databricks的统一数据分析平台通过将数据科学与工程和业务统一起bob体育客户端下载来,帮助组织加速创新。使用Databricks作为您的统一数据分析平台,您可以快速准备和清理大量数据bob体育客户端下载{…}
什么是统一数据仓库?统一的数据库(也称为企业数据仓库)保存了组织的所有业务信息,并使整个公司都可以访问这些信息。现在大多数公司都把数据管理在{…}
Apache Hadoop是一个开源的、bob下载地址基于java的软件平台,用于管理大数据应用程序的数据处理和存储。bob体育客户端下载该平台的bob体育客户端下载工作原理是将Hadoop大数据和分析工作分布到计算集群中的节点上,从而打破它们{…}