阿方索罗阿雷东多

功能架构师,Habla计算

    Alfonso Roa是Habla Computing的功能架构师。在过去的六年里,Alfonso主要在各种领域的实际应用中使用Apache Spark,他在咨询项目中有丰富的经验,主要集中在大数据、开发分析和ML应用程序方面,并试图花一些空闲时间创建库以回馈开源社区。bob下载地址他也是马德里Scala Meetup小组的联合组织者。

    过去的会议

    2019年欧洲峰会 在数据框架中处理复杂类型:光学救星

    2019年10月16日下午05:00 PT

    处理复杂类型不应该是一项复杂的工作。DataFrames为数据转换提供了一个很棒的面向sql的API,但是当需要更新复杂类型(如结构体或数组)的元素时,它并没有多大帮助。在这种情况下,您的程序很快就会变成由结构词和括号组成的庞大代码,同时尝试对内部元素进行转换,并重新构造列。这正是我们在函数式编程中使用不可变数据结构时遇到的示例问题,为了解决这个问题,光学被发明了。我们不能在DataFrame领域中使用类似于光学的东西吗?

    在这次演讲中,我们将展示如何通过透镜(最常见的光学类型之一)提出的设计模式来丰富DataFrame API,以操作不可变的数据结构。我们将展示如何通过spark-optics库(类似于Scala Monocle库)实现这些模式,并将通过几个示例说明它的使用。最后但并非最不重要的是,我们将利用DataFrames的动态类型系统来做更多的工作,而不仅仅是转换子列,比如修剪元素和重命名它们。