术语表
无所不包的
什么是Apache Hive?Apache Hive是一款开源数据仓库软件,用于读取、写入和管理从Apache Hadoop分布式文件系统(HDFS)中提取的大型数据集,HDFS是大型Hadoop生态系统的一个方面。与exten{…}
什么是阿帕奇库杜?Apache Kudu是为Apache Hadoopbob下载地址开发的免费、开源的柱状存储系统。它是一个用于结构化数据的引擎,支持对单个行进行毫秒级的低延迟随机访问{…}
什么是阿帕奇麒麟?Apache Kylin是一个用于交互式大数据分析的分布式开bob下载地址源在线分析处理(OLAP)引擎。Apache Kylin在Hadoop/S上提供SQL接口和多维分析(OLAP){…}
什么是Apache Spark?Apache Spark是一个用于大数bob下载地址据工作负载的开源分析引擎。它可以处理批处理以及实时分析和数据处理工作负载。Apache Spark开始于2009年,当时是Apache的一个研究项目{…}
什么是Apache Spark as a Service?Apache Spark是一个用于快速bob下载地址实时大规模数据处理的开源集群计算框架。自2009年在加州大学伯克利分校的AMPLab诞生以来,Spark已经取得了长足的发展。目前是ra{…}
什么是人工神经网络?人工神经元网络(artificial neural network, ANN)是一种仿照人脑神经元运作的计算系统。人工神经网络是如何工作的?人工神经网络可以得到最好的评价{…}
Spark SQL的核心是Catalyst优化器,它以一种新颖的方式利用高级编程语言特性(例如Scala的模式匹配和准引号)来构建可扩展的查询优化器。Catalyst是基于函数式程序的{…}
什么是数据分析平台?bob体育客户端下载数据分析平台是一个服务和技术的生态bob体育客户端下载系统,需要对大量、复杂和动态的数据执行分析,允许您检索、组合、交互、探索和可视化{…}
什么是数据湖屋?数据湖屋是一种新的、开放的数据管理体系结构,它将数据湖的灵活性、成本效率和规模与数据仓库的数据管理和ACID事务结合起来,支持业务int{…}
什么是数据帧?DataFrame是一种数据结构,它将数据组织成一个由行和列组成的2维表,很像电子表格。dataframe是现代数据分析中最常用的数据结构之一,因为它们是{…}
数据集是Spark针对Java和Scala的结构化API的类型安全版本。这个API在Python和R中是不可用的,因为它们是动态类型的语言,但它是用Scala和Java编写大型应用程序的强大工具。Recal{…}
什么是ETL?随着组织中数据量、数据源和数据类型的增长,在分析、数据科学和机器学习计划中使用这些数据以获得业务见解的重要性也在增长。公关的必要性{…}
HDFS HDFS (Hadoop Distributed File System)是Hadoop应用的主存储系统。这个开源框bob下载地址架的工作原理是在节点之间快速传输数据。它经常被需要处理和存储大数据的公司使用。{…}
什么是Hadoop生态系统?Apache Hadoop生态系统是指Apache Hadoop软件库的各个组件;它包括开源项目以及一系列bob下载地址完整的补充工具。的一些最著名的工具{…}
什么是Hive Date函数?Hive提供了许多内置函数来帮助我们处理和查询数据。这些函数提供的一些功能包括字符串操作、日期操作、类型转换、条件{…}
什么是托管Spark?Apache Spark是一个针对大数据的快速通用集群计算系统,围绕速度、易用性和高级分析构建,最初于2009年在加州大学伯克利分校建立。它提供了Scala、Java、Py的高级api{…}
木星笔记本是什么?Jupyter Notebook是一个开源的网络应bob下载地址用程序,允许数据科学家创建和共享文档,其中包括实时代码、方程和其他多媒体资源。木星笔记本的用途是什么{…}
什么是Keras模型?Keras是一个高级的深度学习库,建立在Theano和Tensorflow之上。它是用Python编写的,提供了一种干净方便的方式来创建一系列深度学习模型。Keras已成为其中之一{…}
什么是零售湖屋?Lakehouse for Retail是Databricks推出的第一个针对特定行业的Lakehouse。它通过解决方案加速器、数据共享功能和合作伙伴生态系统帮助零售商快速启动和运行。Lakehouse佛{…}
Apache Spark的机器学习库(MLlib)设计简单,可伸缩性强,易于与其他工具集成。凭借Spark的可扩展性、语言兼容性和速度,数据科学家可以专注于他们的数据问题和mod{…}
什么是MapReduce?MapReduce是Apache Hadoop生态系统中的一个基于java的分布式执行框架。它通过公开开发人员实现的两个处理步骤来消除分布式编程的复杂性:1)映射和{…}
说到数据科学,可以毫不夸张地说,通过使用pandas DataFrame充分发挥其潜力,您可以改变您的业务工作方式。为此,您需要正确的数据结构。这些会帮助你更好{…}
PyCharm是一种用于计算机编程的集成开发环境(IDE),为Python编程语言创建。当在Databricks上使用PyCharm时,默认情况下PyCharm会创建一个Python虚拟环境,但您可以配置为创建一个Python虚拟环境{…}
PySpark是什么?Apache Spark是用Scala编程语言编写的。PySpark的发布是为了支持Apache Spark和Python的协作,它实际上是一个用于Spark的Python API。此外,PySpark可以帮助您连接wi{…}
Spark Elasticsearch是什么?Spark Elasticsearch是一个NoSQL分布式数据库,用于存储、检索和管理面向文档的半结构化数据。它是一个开源的GitHub搜索bob下载地址引擎,基于Apache Lucene和r{…}
Apache Spark Streaming是Apache Spark的上一代流引擎。Spark Streaming不再有更新,它是一个遗留项目。在Apache Spark中有一个更新且更容易使用的流引擎,称为Structured Stre{…}
什么是Sparklyr?Sparklyr是一个开源包,提供R和Apache Spark之间的接口。现在,您可以在现代R环境中利用Spark的功能,因为Spark能够通过小l与分布式数据进行交互{…}
SparkR是一个在Spark上运行R的工具。它遵循与Spark所有其他语言绑定相同的原则。要使用SparkR,只需将其导入环境并运行代码。它与Python API非常相似,只是它遵循{…}
2015年11月,谷歌发布了用于机器学习的开源框架,并将其命名为TensorFlow。它支持深度学习、神经网络和cpu、gpu和gpu集群上的一般数值计算。最大的进步之一{…}
什么是Tensorflow Estimator API?估计器表示一个完整的模型,但对较少的用户来说也足够直观。Estimator API提供了训练模型、判断模型准确性和生成预测的方法。TensorFlow{…}
Databricks的统一数据分析平台通过将数据科学与工程和业务统一起bob体育客户端下载来,帮助组织加速创新。使用Databricks作为您的统一数据分析平台,您可以快速准备和清理大量数据bob体育客户端下载{…}
Apache Hadoop是一个开源的、bob下载地址基于java的软件平台,用于管理大数据应用程序的数据处理和存储。bob体育客户端下载该平台的bob体育客户端下载工作原理是将Hadoop大数据和分析工作分布到计算集群中的节点上,从而打破它们{…}