Himanshu古普塔

Knoldus Inc.首席顾问

    我是Knoldus软件有限责任公司的首席顾问。在过去的4年里,我一直在使用Spark/Scala和Akka开发响应式产品。我使用Scala和Spark中的机器学习为媒体和零售行业开发了复杂的解决方案。我是一个技术爱好者,经常写关于Scala生态系统的博客。我还负责Spark和Akka的工程师培训。

    过去的会议

    2019年欧洲峰会 蓝色药丸/红色药丸:成千上万数据流的矩阵

    2019年10月16日下午05:00 PT

    设计一个必须处理1或2个流数据的流应用程序是很容易的。任何提供可伸缩性、高吞吐量和容错性的流框架都可以工作。但是,当流的数量开始以100或1000为单位增长时,管理它们可能会令人生畏。您将如何在1000个流之间共享资源,并且它们都是24x7运行的?管理他们的状态,应用高级流操作,添加/删除流而不重新启动?这个演讲解释了常见的场景,并展示了使用Spark结构化流处理数千个流的技术。

    2018欧洲峰会 使用Apache Spark ML智能搜索数万亿研究论文

    太平洋时间2018年10月2日下午05:00

    每个出版物都有一组丰富的文档,其中包含关于不同域的信息。大多数情况下,这些文档一直保存在数据仓库中。如果使用得当,它们可以被证明是在制药、医疗或金融机构等领域运营的公司的黄金组合。

    例如,今天任何一家制药公司将一种新药推向市场都需要长达12年和20亿美元的时间。尽管花费巨大,制药公司的科学家们还没有办法找到已经完成的工作的数据。他们只是重新做一遍,把钱浪费在重复的工作上。

    使这些文档可搜索的最大挑战是,它们需要被标记为需要sme(主题专家)的相应主题。sme将阅读文档并获取主题,用主题标记它。这种给文档加标签的方法既慢又昂贵。

    这篇演讲解释了我们如何应用Spark ML来标记成千上万的文档。应用ML不仅可以使标记过程更快、更便宜,还可以探索被中小企业忽视的新领域。

    会议标签:#SAISEco3