术语表

什么是事务?在数据库和数据存储系统的环境中,事务的任何操作都被视为单个的工作单元,完成完全或不完全,和树叶存储系统的缺点{…}
梯度下降法是最常用的优化方法部署在机器学习和深度学习算法。它是用来训练机器学习模型。类型的梯度下降法有三个主要类型的梯度下降法{…}
替代数据是什么?替代数据收集的信息通过使用替代来源的数据其他人不使用;非传统的信息来源。替代数据的分析可以提供见解除此之外的{…}
异常检测是识别罕见的事件或观察的技术可以提高怀疑被统计不同于其他的观察。这样的“反常”行为通常转化为某种形式的一个问题{…}
Apache蜂巢是什么?Apache蜂巢是开源数据仓库软件阅读,写作,和管理大型数据集从Apache Hadoop分布式文件系统中提取(HDFS),更大的Hadoop生态系统的一个方面。与exten{…}
Apache捻角羚是什么?Apache捻角羚是一个自由和开放源码Apache bob下载地址Hadoop柱状存储系统发达。这是一个引擎用于结构化数据,支持低延迟随机存取millisecond-scale访问单个行{…}
Apache麒麟是什么?分布式开放源码Apache麒麟是联机分析处理(OLAP)引擎bob下载地址互动分析大数据。Apache麒麟被设计来提供SQL接口和多维分析(OLAP) Hadoop / S{…}
Apache火花是什么?Apache火花是一个开源的分析引擎用bob下载地址于大数据的工作量。它可以处理两个批次以及实时分析和数据处理工作负载只Apache引发2009年开始作为一个研究项目{…}
Apache火花作为服务是什么?Apache火花是一个开源集群计算框架bob下载地址,用于快速实时大规模数据处理只自2009年成立以来在加州大学伯克利分校的AMPLab,引发了主要的增长。目前它是类风湿性关节炎{…}
人工神经网络是什么?一个人工神经元网络(ANN)是一个计算系统的手术后的神经元在人类的大脑。人工神经网络如何工作?人工神经网络可以是最好的{…}
自动化的偏见是什么?自动化的偏见是一种过度依赖自动化艾滋病和决策支持系统。自动化辅助决策系统的可用性日益增加等关键决策上下文重症监护病房,{…}
贝叶斯神经网络是什么?贝叶斯神经网络(bnn)指扩展后的标准网络推理为了控制过度学习。从更广泛的角度来看,贝叶斯方法使用统计方法{…}
数据和大数据分析的区别在Hadoop的发明之前,现代存储和计算技术支撑系统相对基础,限制公司主要分析“小数据。”Even this relat{…}
生物信息学是一个研究领域,使用计算从海量生物数据中提取知识。生物信息学是指利用生物技术来存储,检索、组织和分析生物数据。{…}
火花SQL是催化剂优化器的核心,它利用高级编程语言特性(例如Scala的模式匹配和准引号)小说的方式来构建一个可扩展的查询优化器。催化剂是基于功能的程序{…}
复杂事件处理(CEP)是什么?复杂事件处理(CEP)也称为事件,流或事件流处理技术的使用存储在数据库或前查询数据,在某些情况下,没有被年代{…}
连续应用程序是一个端到端的应用程序,对数据进行实时的反应。特别是,开发人员想要使用一个连续的应用程序编程接口来支持方面目前在不同的处理{…}
在深度学习,卷积神经网络(CNN或事先)是一种深层神经网络,通常用于识别模式出现在图像但他们也用于空间数据分析、计算机视觉、自然语言{…}
数据分析平台是什么?bob体育客户端下载数据分析平台是一个生态系统的服务和bob体育客户端下载技术,需要执行大量的分析,复杂和动态数据,允许您检索,结合,相互作用,探索和visua{…}
数据治理是什么?数据治理是监督,以确保数据带来价值和支持商业策略。数据治理不仅仅是一种工具或一个过程。它将使用f数据相关业务战略需求{…}
什么是数据Lakehouse ?数据lakehouse是一个新的、开放数据管理体系结构,结合了灵活性,成本效益,和规模的数据湖泊与数据管理和数据仓库的ACID事务,支持业务int{…}
什么是数据集市?数据集市是策划设计的数据库包括一组表为单个数据的特定需求服务团队,社区,或业务部门,如市场营销或工程部门。它通常从小型{…}
数据共享是什么?数据共享是能够使相同的数据可用于一个或多个消费者。如今,不断增长的数据量已成为一种战略资产对任何公司。共享数据,组织内部或外部{…}
数据保险库是什么?数据保险库是一个数据建模设计模式用于构建一个企业级数据仓库分析。数据保险库有三种类型的实体:中心,链接和卫星。中心代表核心业务的概念,{…}
什么是数据仓库?数据仓库是一种数据管理系统,将来自多个源的当前和历史数据存储在一个商业友好的方式更容易的见解和报告。数据仓库通常用于业务{…}
砖运行时上运行的软件构件集的集群机器由砖。它包括火花,还添加了许多组件和更新,大大提高可用性、性能和安全的{…}
什么是DataFrame ?DataFrame是一种数据结构,将数据组织成一个二维表的行和列,就像一个电子表格。DataFrames是最常见的一种数据结构在现代数据分析,因为它们使用{…}
数据集是类型安全的版本的火花的结构化的Java API和Scala。这个API是在Python和R,因为这些都是动态类型语言,但它是一个强大的工具用Scala编写大型应用程序和Java。Recal{…}
深度学习是什么?深度学习是机器学习的一个子集涉及大量数据和算法受到人类大脑的结构和功能,这就是为什么经常referre深度学习模型{…}
需求预测是什么?需求预测是预测消费者需求的过程(相当于未来的收入)。具体地说,它预计的各式各样的产品消费者会购买使用定量和定性数据。受潮湿腐烂{…}
密度张量值存储在一个连续的连续的内存块,所有值表示。张量或多维数组中使用一组不同的多维数据分析应用程序。有很多软件刺激{…}
什么是数字的双胞胎?数字双的古典的定义;”“数字双是一个虚拟模型旨在准确反映物理对象。””——IBM [KVK4]一个离散的或连续的生产过程,一个数字的双胞胎聚集{…}
DNA序列是什么?DNA序列的过程中确定的确切的核苷酸序列的DNA(脱氧核糖核酸)。,测序DNA的顺序四个化学积木——腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶{…}
生活表δ生活表(DLT)可以轻松地构建和管理可靠数据管道三角洲湖上提供高质量的数据。,BOB低频彩了解更多关于ETL数据砖,ETL是什么?随着我{…}
工程特性工程机器学习功能,也称为数据预处理的过程是将原始数据转化为特性,可用于开发的机器学习模型。本主题描述的主要概念{…}
基因组学领域内遗传学担心一个有机体的基因组的测序和分析。它的主要任务是确定整个序列的DNA或原子的成分构成DNA和之间的化学键DN{…}
什么是Hadoop集群?Apache Hadoop是一个开源的、bob下载地址基于java、软件框架和并行数据处理引擎。它使大数据分析处理任务被分解成更小的任务可以并行执行{…}
HDFS HDFS (Hadoop分布式文件系统)是主要的存储系统由Hadoop应用程序使用。这种开源框bob下载地址架是通过迅速节点之间传输数据。它常常被公司需要处理和存储大数据。{…}
Hadoop生态系统是什么?Apache Hadoop生态系统是指各种组件的Apache Hadoop软件图书馆;它包括开源项目以及一个完bob下载地址整的范围的补充工具。一些最知名的工具{…}
在计算中,哈希表(散列映射)是一种数据结构,它提供了几乎直接访问对象基于关键(一个独一无二的字符串或整数)。一个哈希表使用一个哈希函数计算成一个数组索引桶或槽,从制作{…}
一个蜂巢日期函数是什么?蜂巢提供了许多内置函数来帮助我们在处理和查询的数据。这些函数提供的一些功能包括字符串操作、操作日期,类型转换,conditi{…}
托管火花是什么?Apache火花是一个快速和大数据集群计算系统建立在速度、易用性和先进的分析,最初建于2009年在加州大学伯克利分校。它提供高级api在Scala中,Java, Py{…}
什么是Jupyter笔记本?Jupyter笔记本是一个开源的web应用程序,它bob下载地址允许数据科学家创建和共享文档,包括代码,方程,和其他多媒体资源。Jupyter笔记本使用佛是什么{…}
Keras模型是什么?Keras深度学习是一个高级库,Theano和Tensorflow之上。写在Python和提供一个清洁和方便的方式来创建一系列深度学习模型只Keras已经成为{…}
什么是Lakehouse零售吗?砖的第一特定于行业的Lakehouse Lakehouse零售。它可以帮助零售商通过解决方案加速器快速启动和运行,数据共享能力,和合作伙伴生态系统。Lakehouse佛{…}
λ架构是什么?λ架构是一种处理大量的数据(即。“大数据”)提供批处理和流处理方法的混合方法。λ架构用于求解{…}
Apache火花的机器学习库(MLlib)被设计为简单起见,可伸缩性,并且很容易与其他工具的集成。与可伸缩性、语言兼容性,和速度的火花,科学家可以专注于他们的数据问题和国防部{…}
机器学习模型是什么?机器学习模型是一个程序,可以找到从以前看不见的数据集模式或做决定。例如,在自然语言处理,机器学习模型可以正确解析和recogni{…}
管理的火花是什么?火花管理服务允许您利用开源数据批处理工具,查询、流媒体和机器学习。bob下载地址通过使用这种自动化您需求能够快速创建集群,m{…}
MapReduce是什么?MapReduce是一个基于java的、分布式的执行框架Apache Hadoop生态系统内只它带走了分布式编程的复杂性,让开发人员实现的两个处理步骤:1)和地图{…}
管道/物化视图数据砖δ介绍三角洲管道提供了一组api和UI管理生命周期的数据管道。这个开源框架有助于数据简化ETL开发工程团队,提高dat{…}
一个图案架构是什么?大奖章的体系结构是一种数据设计模式用于lakehouse逻辑上组织数据,逐步逐步的目标和改进的结构和质量数据流经ea{…}
通常运行时机器学习算法,它包括一系列的任务,包括预处理、特征提取、模型拟合,验证阶段。例如,当分类文本文档可能涉及文本分割和c{…}
MLOps是什么?MLOps代表机器学习操作。MLOps是机器学习的核心功能工程,集中在简化过程中机器学习模型来生产,然后维护和监控。米{…}
模型风险管理的监督是指潜在的不良后果的风险决策基于不正确或滥用模型。风险管理模型的目的是使用技术和实践,将识别、测量和{…}
Multi-Statement事务砖砖三角洲表支持Multi-Statement交易如果底层表数据砖三角洲表只这意味着所有的语句在事务将atomi{…}
神经网络是什么?神经网络计算模型的分层结构类似于大脑中的神经元的网络结构。它功能相互联系的处理元素称为神经元产生outpu一起工作{…}
开放的银行是什么?开放银行业是一种安全的方法来提供消费者的财务数据,取决于客户的同意。²受到监管,技术和竞争动态,开放银行成本的民主化的呼声{…}
编制是什么?编排多个计算机系统的协调和管理,应用程序和/或服务任务串联起来,以更大的工作流程或流程执行。这些过程可以由{…}
整体设备效率是什么?整体设备效率(OEE)是衡量制造业如何操作使用(设施、时间和材料)相比,它的全部潜力,在预定的时期{…}
数据科学时,毫不夸张地说,你可以改变你的生意的方式是通过使用其潜能和熊猫DataFrame。要做到这一点,你需要正确的数据结构。这些将帮助你ef{…}
拼花是什么?Apache拼花是一个开源的,用于数据文件bob下载地址格式设计高效的数据存储和检索。它提供了高效的数据压缩和编码方案与增强的性能来处理复杂的数据{…}
个性化的金融是什么?金融产品和服务日益商品化和消费者越来越挑剔的媒体和零售行业增加了他们喜欢个性化的体验。,仍{…}
预测分析是什么?预测分析是一种先进的分析,使用新的和历史数据来确定模式和预测未来的结果和趋势。预测分析是如何工作的呢?预测分析{…}
预见性维护是什么?预测性维护,简而言之,就是弄清楚当一项资产应该维护,具体需要执行维护活动,基于资产的实际情况或状态,早期{…}
PyCharm是一个集成开发环境(IDE)用于计算机编程、创建Python编程语言。当使用PyCharm砖,默认情况下PyCharm Python创建了一个虚拟环境,但您可以配置克雷亚{…}
PySpark是什么?Apache火花是用Scala编程语言写的。PySpark已经发布为了支持Apache火花和Python的合作,它实际上是一个Python API的火花。此外,wi PySpark,帮助你接口{…}
实时数据为零售是什么?实时零售数据的实时访问。从批量访问、分析和计算将使数据是“永远在运行”,从而获得准确、及时的决策和商业智能。{…}
抽样是主要面向用户的API引发自成立以来。核心,一个抽样是一个不可变的分布式数据的元素集合,跨中节点集群,可以并行操作的低级API{…}
雪花模式是什么?雪花模式是一个多维数据模型是一个星型模式的延伸,在维度表分解成个子维度。雪花模式通常用于商业智能和再保险{…}
如果你正在与火花,你将遇到三个api: DataFrames,数据集,和抽样弹性分布式数据集是什么?抽样或弹性分布式数据集,与分布式计算是记录的集合,{…}
火花的应用程序由一个驱动过程和一组执行程序的过程。司机流程运行main()函数,坐在集群中的一个节点,并负责三件事:维护信息引发程序;res{…}
火花Elasticsearch是什么?火花Elasticsearch NoSQL,分布式数据库存储,检索和管理面向文档和半结构化数据。GitHub开源,RESTfubob下载地址l Apache Lucene搜索引擎之上,r{…}
许多数据科学家,分析师和一般商业智能用户依赖于交互式探索数据的SQL查询。火花SQL是一种火花为结构化数据处理模块。它提供了一个编程抽象称为DataFrames和可以{…}
Apache火花流是Apache火花的流的上一代引擎。有引发流不再更新,这是一个遗留项目。有一个新的和更容易使用流引擎Apache火花称为结构性压力{…}
引发性能调优是什么?火花性能调优的过程是指记录内存调整设置,核心,和实例使用的系统。这个过程保证了火花有一个完美的性能也很强{…}
Sparklyr是什么?Sparklyr之间提供了一个接口是一个开源包R和Apache火花。您现在可以利用R火花的能力在现代环境中,由于火花与分布式数据交互的能力与小l{…}
SparkR火花的工具运行R。它遵循同样的原则作为引发的所有其他语言绑定。使用SparkR,我们只是将其导入我们的环境并运行我们的代码。它非常类似于Python API除了它跟随{…}
Python提供了一个内置库称为numpy操纵多维数组。这个库是一个主要的组织和使用要求开发pytensor图书馆。Sptensor代表稀疏的张量是一个类。水疗中心{…}
星型模式是什么?星型模式是一个多维数据模型用来组织数据在数据库中,这样很容易理解和分析。明星模式可以应用于数据仓库,数据库,数据集市和其他工具。圣{…}
流分析是如何工作的呢?流分析,也称为事件流处理,是巨大的分析的当前和“运动”数据池通过使用连续查询,称为事件流。这些流触发的{…}
结构化流是一个高级API 2.2流处理,生产就绪的火花。结构化流允许您采取同样的操作,执行批处理模式使用火花的结构化的api,并运行他们的压力{…}
在2015年11月,Google发布了它为机器学习,并命名为TensorFlow开源框架。它支持深度学习、神经网络和一般数值计算cpu、gpu和集群gpu。一个最大的效果显著{…}
Tensorflow估计API是什么?估计是一个完整的模型也看起来直观足以减少用户。估计量的API提供了一些方法来训练模型,来判断模型的准确性,并生成预测。TensorFlow{…}
转换是什么?在火花,核心数据结构创建不可变意味着他们无法改变一次。这可能似乎是一个奇怪的概念,如果你不能改变它,你应该如何使用它呢?为了“改变”{…}
钨项目是什么?钨的代号是伞项目修改Apache火花的执行引擎,关注大幅提高火花应用程序的内存和CPU的效率,推进性能{…}
统一的人工智能或可用在F8今年宣布了Facebook。这汇集了2特定深度学习框架,Facebook创建和外包——PyTorch专注于研究假设进入大规模计算r{…}
统一数据分析是一个新的类别统一数据处理与人工智能技术的解决方案,使得企业组织和AI更加可行的使它们加速AI倡议。统一数据分析使其e{…}
砖的统一数据分析Platform 帮助组织加快通过统一数据科bob体育客户端下载学与工程和业务创新。与砖作为统一的数据分析平台,您可以快速准备和干净的数据质量bob体育客户端下载{…}
一个统一的数据仓库是什么?一个统一的数据库也被称为一个企业数据仓库持有所有组织的业务信息,使其可访问整个公司。大多数公司今天,数据管理{…}
Apache Hadoop是一个基于jabob下载地址va的开放源码的软件平台管理大数据应用程序的数据处理和存储。bob体育客户端下载平台通过bob体育客户端下载分发Hadoop大数据在集群中的节点计算和分析工作,打破它们{…}