术语表

什么是事务?在数据库和数据存储系统的上下文中,事务是被视为单个工作单元的任何操作,该操作要么完全完成,要么根本不完成,并使存储系统处于一致的状态。经典的例子{. .}
梯度下降是机器学习和深度学习算法中最常用的优化方法。它被用来训练机器学习模型。梯度下降的类型{. .}
什么是替代数据?替代数据是通过使用其他人没有使用的替代数据源收集的信息;非传统信息来源。对替代数据的分析可以提供超出行业常规数据源所能提供的见解{. .}
异常检测是一种识别罕见事件或观测结果的技术,这些事件或观测结果在统计上与其他观测结果不同,从而引起怀疑。这种“异常”行为通常意味着某种问题,如信用卡欺诈、机器故障或cy{. .}
什么是Apache Hive?Apache Hive是一款开源的数据仓库软件,用于读取、写入和管理大型数据{. .}
什么是阿帕奇库杜?Apache Kudu是为Apache Hadoopbob下载地址开发的免费、开源的柱状存储系统。它是一个用于支持低延迟随机访问的结构化数据的引擎{. .}
什么是阿帕奇麒麟?Apache Kylin是一个用于交互式大数据分析的分布式开bob下载地址源在线分析处理(OLAP)引擎。Apache Kylin的设计提供了SQL接口和多维分析(OLAP){. .}
什么是Apache Spark?Apache Spark是一个用于大数bob下载地址据工作负载的开源分析引擎。它可以处理批处理以及实时分析和数据处理工作负载。Apache Spark始于2009年,当时是加州大学伯克利分校的一个研究项目。{. .}
什么是Apache Spark as a Service?Apache Spark是一个用于快速bob下载地址实时大规模数据处理的开源集群计算框架。自2009年在加州大学伯克利分校的AMPLab成立以来,Spark已经取得了长足的发展。它目前被评为最大的开源社区bob下载地址{. .}
什么是人工神经网络?人工神经元网络(artificial neural network, ANN)是一种仿照人脑神经元运作的计算系统。人工神经网络是如何工作的?人工神经网络可以被视为直接加权{. .}
什么是自动化偏差?自动化偏见是对自动化辅助和决策支持系统的过度依赖。随着自动化决策辅助工具的可用性越来越多地添加到关键决策环境中,如重症监护病房,或飞机驾驶舱{. .}
什么是贝叶斯神经网络?贝叶斯神经网络(BNNs)是指通过后验推理扩展标准网络以控制过拟合。从更广泛的角度来看,贝叶斯方法使用统计方法,因此任何事情都有可能发生{. .}
在Hadoop发明之前,支撑现代存储和计算系统的技术是相对基础的,这限制了公司的发展{. .}
生物信息学是一门利用计算从大量生物数据中提取知识的研究领域。{. .}
Spark SQL的核心是Catalyst优化器,它以一种新颖的方式利用高级编程语言特性(例如Scala的模式匹配和准引号)来构建可扩展的查询优化器。Catalyst基于Scala中的函数式编程结构,并使用t{. .}
什么是复杂事件处理(CEP) ?复杂事件处理[CEP]也称为事件、流或事件流处理,是使用技术在将数据存储到数据库之前查询数据,或者在某些情况下,不存储数据。复杂事件处理i{. .}
连续应用程序是实时响应数据的端到端应用程序。特别是,开发人员希望使用单一的编程接口来支持当前在独立系统中处理的连续应用程序的各个方面,例如查询服务或交互{. .}
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,通常用于识别图像中存在的模式,但它们也用于空间数据分析、计算机视觉、自然语言处理、信号处理和各种其他p{. .}
什么是数据分析平台?bob体育客户端下载数据分析平台是一个服务和技术的生态bob体育客户端下载系统,需要对大量、复杂和动态的数据进行分析,允许您检索、组合、交互、探索和可视化来自公司各种来源的数据{. .}
什么是数据治理?数据治理是确保数据带来价值并支持业务策略的监督。数据治理不仅仅是一个工具或过程。它使用跨人员的框架将与数据相关的需求与业务策略对齐{. .}
什么是数据湖屋?数据湖屋是一种新的、开放的数据管理体系结构,它将数据湖的灵活性、成本效率和规模与数据仓库的数据管理和ACID事务结合起来{. .}
什么是数据集市?数据集市是一个精心策划的数据库,包括一组表,旨在满足单个数据团队、社区或业务线(如营销或工程部门)的特定需求。它通常比数据战规模更小,更有针对性{. .}
什么是数据共享?数据共享是将相同的数据提供给一个或多个消费者的能力。如今,不断增长的数据量已经成为任何公司的战略资产。共享数据-在组织内部或外部-是一种支持数据的技术{. .}
什么是数据仓库?数据仓库是一种用于构建企业级分析数据仓库的数据建模设计模式。数据仓库有三种类型的实体:集线器、链接和卫星。中心代表核心业务概念,{. .}
什么是数据仓库?数据仓库是一种数据管理系统,它以业务友好的方式存储来自多个来源的当前和历史数据,以便更容易地进行洞察和报告。数据仓库通常用于商业智能(BI)、报告和数据存储{. .}
Databricks运行时是一组运行在Databricks管理的机器集群上的软件构件。它包括Spark,但也添加了许多组件和更新,极大地提高了大数据分析的可用性、性能和安全性。主要的微分a{. .}
什么是数据帧?DataFrame是一种数据结构,它将数据组织成一个由行和列组成的2维表,很像电子表格。dataframe是现代数据分析中最常用的数据结构之一,因为它们是一种灵活而直观的分析方法{. .}
数据集是Spark针对Java和Scala的结构化API的类型安全版本。这个API在Python和R中是不可用的,因为它们是动态类型的语言,但它是用Scala和Java编写大型应用程序的强大工具。回想一下,dataframe是分布式的{. .}
什么是深度学习?深度学习是机器学习的一个子集,涉及大量数据,算法受到人类大脑结构和功能的启发,这就是为什么深度学习模型通常被称为深度神经网络。我{. .}
什么是需求预测?需求预测是预测消费者需求(相当于未来收入)的过程。具体来说,它利用定量和定性数据预测消费者将购买的产品种类。{. .}
密集张量将值存储在一个连续的连续内存块中,所有值都表示在其中。张量或多维数组被用于不同的多维数据分析应用。有很多软件产品可以执行张量计算{. .}
什么是数码双胞胎?数字双胞胎的经典定义是;”“数字双胞胎是一种虚拟模型,旨在准确地反映一个物理对象。" " - IBM{. .}
什么是DNA序列?DNA序列是确定DNA核苷酸(脱氧核糖核酸)精确序列的过程。测序DNA的四种化学组成部分的顺序-腺嘌呤,鸟嘌呤,胞嘧啶和胸腺嘧啶也称为碱基,发生在{. .}
基因组学是遗传学中的一个领域,涉及生物基因组的测序和分析。它的主要任务是确定DNA的整个序列或组成DNA的原子的组成以及DNA原子之间的化学键。基因组学领域很有兴趣{. .}
什么是Hadoop集群?Apache Hadoop是一个开源的、bob下载地址基于java的软件框架和并行数据处理引擎。它使大数据分析处理任务被分解成可以执行的更小的任务{. .}
HDFS HDFS (Hadoop Distributed File System)是Hadoop应用的主存储系统。这个开源框bob下载地址架的工作原理是在节点之间快速传输数据。它经常被需要处理和存储大数据的公司使用。HDFS是许多Hadoop的关键组件{. .}
什么是Hadoop生态系统?Apache Hadoop生态系统是指Apache Hadoop软件库的各个组件;它包括开源项目以及一系列bob下载地址完整的补充工具。有些人{. .}
在计算中,哈希表[哈希映射]是一种数据结构,它基于键[唯一的字符串或整数]提供对对象的虚拟直接访问。哈希表使用哈希函数计算到桶或槽数组的索引,从中可以找到所需的值。这里是{. .}
什么是Hive Date函数?Hive提供了许多内置函数来帮助我们处理和查询数据。这些函数提供的一些功能包括字符串操作、日期操作、类型转换、条件操作符、数学函数{. .}
什么是托管Spark?Apache Spark是一个针对大数据的快速通用集群计算系统,围绕速度、易用性和高级分析构建,最初于2009年在加州大学伯克利分校建立。它提供了Scala、Java、Python和R中的高级api,以及一个优化的引擎{. .}
木星笔记本是什么?Jupyter Notebook是一个开源的网络应bob下载地址用程序,允许数据科学家创建和共享文档,其中包括实时代码、公式和程序{. .}
什么是Keras模型?Keras是一个高级的深度学习库,建立在Theano和Tensorflow之上。它是用Python编写的,提供了一种干净方便的方式来创建一系列深度学习模型{. .}
什么是零售湖屋?Lakehouse for Retail是Databricks推出的第一个针对特定行业的Lakehouse。它通过解决方案加速器、数据共享功能和合作伙伴生态系统帮助零售商快速启动和运行。{. .}
Lambda架构是什么?Lambda架构是一种处理大量数据(即“大数据”)的方法,它提供了使用混合方法的批处理和流处理方法的访问。采用Lambda架构解决了仲裁的计算问题{. .}
Apache Spark的机器学习库(MLlib)设计简单,可伸缩性强,易于与其他工具集成。借助Spark的可扩展性、语言兼容性和速度,数据科学家可以专注于他们的数据问题和模型,而不是解决周围的复杂问题{. .}
什么是机器学习模型?机器学习模型是一种程序,可以从以前未见过的数据集中发现模式或做出决定。例如,在自然语言处理中,机器学习模型可以解析并正确识别之前不确定背后的意图{. .}
什么是托管Spark?通过托管Spark服务,您可以利用开源数据工具进行批处理、查询、流和机器学习。bob下载地址通过使用这样的自动化,您将能够快速地按需创建集群,轻松地管理它们并转换它们{. .}
什么是MapReduce?MapReduce是Apache Hadoop生态系统中基于java的分布式执行框架。通过公开开发人员实现的两个处理步骤,它消除了分布式编程的复杂性{. .}
什么是勋章架构?奖章体系结构是一种数据设计模式,用于逻辑地组织湖屋中的数据,其目标是渐进地改进da的结构和质量{. .}
通常在运行机器学习算法时,它涉及一系列任务,包括预处理、特征提取、模型拟合和验证阶段。例如,对文本文档进行分类时,可能涉及到文本分割和清理、提取特征和训练类{. .}
什么是MLOps?MLOps代表机器学习操作。MLOps是机器学习工程的核心功能,专注于简化将机器学习模型投入生产的过程,然后维护和监控它们。MLOps是一个协作函数,通常是com{. .}
模型风险管理是指对基于不正确或误用模型的决策的潜在不利后果的风险进行监督。模型风险管理的目的是采用技术和实践来识别、测量和减轻模型风险,即模式的可能性{. .}
什么是神经网络?神经网络是一种计算模型,其分层结构类似于大脑中神经元的网络结构。它的特点是相互连接的处理元素,称为神经元,它们一起工作以产生输出函数。神经网络是由{. .}
什么是开放银行?开放银行是一种安全的方式,可以访问消费者的金融数据,这一切都取决于客户的同意。²在监管、技术和竞争动态的推动下,开放银行要求向非银行第三方提供客户数据{. .}
什么是编制?编排是对多个计算机系统、应用程序和/或服务的协调和管理,将多个任务串在一起以执行更大的工作流或流程。这些过程可以由多个自动化的任务组成{. .}
什么是整体设备效能?总体设备效率(OEE)是衡量制造操作(设施、时间和材料)利用率的指标{. .}
说到数据科学,可以毫不夸张地说,通过使用pandas DataFrame充分发挥其潜力,您可以改变您的业务工作方式。要做到这一点,你需要正确的数据结构{. .}
什么是拼花?Apache Parquet是一种开源的、bob下载地址面向列的数据文件格式,设计用于高效的数据存储和检索。它提供了高效的数据压缩和编码方案,增强了处理批量复杂数据的性能。Apache Parquet设计{. .}
什么是个性化理财?金融产品和服务正变得越来越商品化,随着媒体和零售行业对个性化体验的偏好增加,消费者也变得越来越挑剔。为了保持竞争力,银行必须提供{. .}
什么是预测分析?预测分析是一种高级分析,它使用新的和历史数据来确定模式并预测未来的结果和趋势。预测分析如何工作?预测分析使用了许多技术{. .}
什么是预测性维护?简而言之,预测性维护就是根据资产的实际状况或状态,而不是固定的时间表,确定资产应该在什么时候进行维护,以及需要执行哪些具体的维护活动{. .}
PyCharm是一种用于计算机编程的集成开发环境(IDE),为Python编程语言创建。当在Databricks上使用PyCharm时,默认情况下PyCharm会创建一个Python虚拟环境,但您可以配置为创建Conda环境或使用现有的Conda环境。{. .}
PySpark是什么?Apache Spark是用Scala编程语言编写的。PySpark的发布是为了支持Apache Spark和Python的协作,它实际上是一个用于Spark的Python API。此外,PySpark可以帮助您与弹性分布式数据集(R{. .}
什么是零售业的实时数据?实时零售就是实时获取数据。从面向批处理的访问,分析和计算将允许数据“始终在线”,从而推动准确、及时的决策和商业智能。Real-tim{. .}
RDD从一开始就是Spark中主要的面向用户的API。RDD的核心是不可变的分布式{. .}
什么是雪花模式?雪花模式是一种多维数据模型,它是星型模式的扩展,其中维表被分解为子维。雪花模式通常用于总线{. .}
如果你正在使用Spark,你会遇到三个api:数据框架、数据集和rdd。什么是弹性分布式数据集?RDD或弹性分布式数据集,是分布式计算记录的集合,具有容错性,本质上是不可变的{. .}
Spark应用程序由一个驱动进程和一组执行程序进程组成。驱动进程运行你的main()函数,位于集群中的一个节点上,负责三件事:维护Spark应用程序的信息;响应用户的程序或{. .}
Spark Elasticsearch是什么?Spark Elasticsearch是一个NoSQL分布式数据库,用于存储、检索和管理面向文档的半结构化数据。它是一个GitHub开源的REbob下载地址STful搜索引擎,构建在Apache Lucene之上,并根据Apache Lic的条款发布{. .}
许多数据科学家、分析师和一般商业智能用户依赖交互式SQL查询来探索数据。Spark SQL是一个用于结构化数据处理的Spark模块。它提供了一个名为DataFrames和can als的编程抽象{. .}
Apache Spark Streaming是Apache Spark的上一代流引擎。Spark Streaming不再有更新,它是一个遗留项目。在Apache Spark中有一个更新且更容易使用的流引擎,称为结构化流。你应该使用Spark Structured stream{. .}
什么是Spark性能调优?Spark Performance Tuning是指调整设置以记录系统使用的内存、内核和实例的过程。这一过程不仅保证了Spark的性能,也避免了S中的资源瓶颈{. .}
什么是Sparklyr?Sparklyr是一个开源包,提供R和Apache Spark之间的接口。现在,您可以在现代R环境中利用Spark的功能,因为Spark能够以很小的延迟与分布式数据进行交互。Sparklyr是一种效果{. .}
SparkR是一个在Spark上运行R的工具。它遵循与Spark所有其他语言绑定相同的原则。要使用SparkR,只需将其导入环境并运行代码。它与Python API非常相似,只是它遵循R而不是Python的语法。对于大多数人来说{. .}
Python提供了一个称为numpy的内置库来操作多维数组。这个库的组织和使用是开发pytensor库的主要需求。{. .}
什么是星型模式?星型模式是一种多维数据模型,用于组织数据库中的数据,使其易于理解和分析。星型模式可以应用于数据仓库、数据库、数据集市和其他工具。星型模式设计的优化{. .}
流分析是如何工作的?流分析,也称为事件流处理,是通过使用连续查询(称为事件流)对大量当前和“动态”数据池进行分析。这些流由发生的特定事件触发{. .}
结构化流是一个用于流处理的高级API,在Spark 2.2中已经可以用于生产。结构化流允许您使用Spark的结构化api在批处理模式下执行相同的操作,并以流方式运行它们。这可以减少延迟并允许{. .}
2015年11月,谷歌发布了用于机器学习的开源框架,并将其命名为TensorFlow。它支持深度学习、神经网络和cpu、gpu和集群上的一般数值计算{. .}
什么是Tensorflow Estimator API?估计器表示一个完整的模型,但对较少的用户来说也足够直观。Estimator API提供了训练模型、判断模型准确性和生成预测的方法。{. .}
什么是转换?在Spark中,核心数据结构是不可变的,这意味着一旦创建就不能更改。乍一看,这似乎是一个奇怪的概念,如果你不能改变它,你应该如何使用它?为了“改变”一个数据帧,你将{. .}
钨项目是什么?Tungsten是对Apache Spark执行引擎进行更改的伞形项目的代号,该项目专注于大幅提高Spark应用程序的内存和CPU效率,将性能推向现代极限{. .}
Facebook在今年的F8期间宣布了统一人工智能(UAI)。它汇集了Facebook创建和外包的2个特定的深度学习框架——PyTorch专注于假设访问大规模计算资源的研究,而Caffe专注于模型部署{. .}
统一数据分析是一种新的解决方案,它将数据处理与人工智能技术统一起来,使企业组织更容易实现人工智能,并使他们能够加速其人工智能计划。统一数据分析使企业更容易跨界构建数据管道{. .}
Databricks的统一数据分析平台通过将数据科学与工程和业务统一起bob体育客户端下载来,帮助组织加速创新。使用Databricks作为您的统一数据分析平台,您可以快速准备和清理大规模的数据,没有限制。bob体育客户端下载pl的{. .}
什么是统一数据仓库?统一的数据库(也称为企业数据仓库)保存了组织的所有业务信息,并使整个公司都可以访问这些信息。如今,大多数公司都将数据管理在孤立的竖井中{. .}
Apache Hadoop是一个开源的、bob下载地址基于java的软件平台,用于管理大数据应用程序的数据处理和存储。bob体育客户端下载该平台的bob体育客户端下载工作原理是将Hadoop大数据和分析作业分布到计算集群中的节点上,将它们分解为可以在pa中运行的更小的工作负载{. .}