Himanshu古普塔

Knoldus Inc.首席顾问

我是Knoldus软件有限责任公司的首席顾问。在过去的4年里，我一直在使用Spark/Scala和Akka开发响应式产品。我使用Scala和Spark中的机器学习为媒体和零售行业开发了复杂的解决方案。我是一个技术爱好者，经常写关于Scala生态系统的博客。我还负责Spark和Akka的工程师培训。

过去的会议

2019年欧洲峰会蓝色药丸/红色药丸:成千上万数据流的矩阵

2019年10月16日下午05:00 PT

设计一个必须处理1或2个流数据的流应用程序是很容易的。任何提供可伸缩性、高吞吐量和容错性的流框架都可以工作。但是，当流的数量开始以100或1000为单位增长时，管理它们可能会令人生畏。您将如何在1000个流之间共享资源，并且它们都是24x7运行的?管理他们的状态，应用高级流操作，添加/删除流而不重新启动?这个演讲解释了常见的场景，并展示了使用Spark结构化流处理数千个流的技术。

2018欧洲峰会使用Apache Spark ML智能搜索数万亿研究论文

太平洋时间2018年10月2日下午05:00

每个出版物都有一组丰富的文档，其中包含关于不同域的信息。大多数情况下，这些文档一直保存在数据仓库中。如果使用得当，它们可以被证明是在制药、医疗或金融机构等领域运营的公司的黄金组合。

例如，今天任何一家制药公司将一种新药推向市场都需要长达12年和20亿美元的时间。尽管花费巨大，制药公司的科学家们还没有办法找到已经完成的工作的数据。他们只是重新做一遍，把钱浪费在重复的工作上。

使这些文档可搜索的最大挑战是，它们需要被标记为需要sme(主题专家)的相应主题。sme将阅读文档并获取主题，用主题标记它。这种给文档加标签的方法既慢又昂贵。

这篇演讲解释了我们如何应用Spark ML来标记成千上万的文档。应用ML不仅可以使标记过程更快、更便宜，还可以探索被中小企业忽视的新领域。

会议标签:#SAISEco3