2022年5月10日更新mathan.pillai

z值将是无效的,而不是收集统计数据

问题你想优化δz值表,收到一个错误不收集统计数据的列。AnalysisException: z值在[col1, col2]将是无效的,因为我们目前不为这些列收集统计数据。信息请查看z值(多维聚簇)(AWS | Azure GCP) |更多有限公司…

0分钟的阅读时间
2023年2月3日更新,mathan.pillai

优化只是支持表误差δ湖

δ表上运行优化问题和得到一个错误消息说它只是支持三角洲表。错误:“<数据库名称>”。“<表名称>”不是一个δ表。优化只是支持三角洲表。因为这可能发生,如果目标表的存储位置修改,表重新创建了一个新的存储……

0分钟的阅读时间
2022年5月23日更新mathan.pillai

当启用AQE断断续续的NullPointerException

问题得到一个间歇NullPointerException错误当保存您的数据。Py4JJavaError:调用o2892.save时发生一个错误。:. lang。在org.apache.spark.sql.execution.adaptive.OptimizeSkewedJoin NullPointerException。anonfun getMapSizesForReduceId美元1美元(OptimizeSkewedJoin.scala: 167) org.apache.spark.sql.execution.adaptive ....

0分钟的阅读时间
更新5月16日,2022年由mathan.pillai

Conda未能从蟒蛇下载包

问题要从蟒蛇下载包存储库和PackagesNotFoundError错误消息。这个错误可能发生在使用% conda,或% sh conda笔记本,当使用conda init脚本。导致蟒蛇inc .)更新为repo.anaconda.com和anaconda.org/anaconda服务条款。基于水蟒……

0分钟的阅读时间
2022年11月7日,更新mathan.pillai

工作失败ExecutorLostFailure因为遗嘱执行人是忙碌的

问题工作失败ExecutorLostFailure错误消息。ExecutorLostFailure(执行人< 1 >退出正在运行的任务之一所致)原因:遗嘱执行人心跳超时后< 148564 >导致女士ExecutorLostFailure错误信息意味着执行人之一Apache火花集群已经丢失。这是一个通用的错误消息…

1分钟的阅读时间
2022年11月7日,更新mathan.pillai

工作失败ExecutorLostFailure由于“内存溢出”错误

问题工作失败ExecutorLostFailure错误消息。ExecutorLostFailure(执行人< 1 >退出正在运行的任务之一所致)原因:遗嘱执行人心跳超时后< 148564 >导致女士ExecutorLostFailure错误信息意味着执行人之一Apache火花集群已经丢失。这是一个通用的错误消息…

2分钟的阅读时间
2022年5月10日更新mathan.pillai

优化三角洲沉在一个结构化的流媒体应用程序

您使用的是δ表作为结构化的流媒体应用程序的水槽和你想优化三角洲表以便提高查询的速度。如果您的结构化的流媒体应用程序有一个非常频繁触发间隔,它也不会带来足够的文件在每个microbatch资格获得压实。autoOptimize操作compac……

0分钟的阅读时间
2022年5月10日更新mathan.pillai

比较两个版本的δ表

三角洲湖支持时间旅行,你可以查询旧三角洲表的快照。一个常见的用例是比较两个版本的三角洲表,以确定哪些改变。有关时间旅行的更多详细信息,请查看三角洲湖时间旅行文档(AWS | Azure | GCP)。识别所有的差异可以使用SQL SELEC……

0分钟的阅读时间
2022年5月23日更新mathan.pillai

找到一个表的大小

本文解释如何找到一个表的大小。取决于使用的命令,如果你试图找到一个增量的大小表或non-delta表。三角洲大小表找到δ的大小表,您可以使用Apache引发SQL命令。% scala com.databricks.sql.transaction.tahoe进口。_ val deltaLog = deltaLog。forTable(火花,“dbf……

0分钟的阅读时间
2022年5月19日更新mathan.pillai

readStream()不是白名单查询运行时错误

问题表访问控制(AWS | Azure | GCP)上启用您的集群。你试图运行一个结构化流查询和获取和错误消息。py4j.security。公共org.apache.spark.sql.streaming Py4JSecurityException:方法。DataStreamReader org.apache.spark.sql.SQLContext.readStream()不是白名单类类org.apache.s……

0分钟的阅读时间
2023年2月3日更新,mathan.pillai

真空三角洲湖上的最佳实践

为什么要使用真空三角洲湖吗?真空是用来清理闲置和陈旧的数据文件占用不必要的存储空间。删除这些文件可以帮助降低存储成本。当您运行真空在三角洲表删除以下文件从底层文件系统:任何数据文件不是由三角洲湖删除过期…

5分钟的阅读时间
2022年5月23日更新mathan.pillai

选择文件使用模式匹配

在选择文件,一个共同的要求是只从一个文件夹读取特定的文件。例如,如果您正在处理日志,你可能想要从一个特定的月读文件。列举每个文件和文件夹找到所需的文件,您可以使用一个水珠模式匹配多个文件用一个表达式。本文使用进行了…

1分钟的阅读时间
2022年5月26日更新mathan.pillai

获取和设置Apache火花在笔记本配置属性

在大多数情况下,您将火花配置集群级别(AWS | Azure)。然而,可能存在这样的情况:您需要检查(或一组)特定的火花配置属性的值在一个笔记本上。本文向您展示了如何显示火花配置属性的当前值在一个笔记本上。它还向您展示了如何设置一个新的v…

0分钟的阅读时间
加载更多