西缅Simeonov

创始人兼首席技术官

Sim Simeonov是一个企业家,投资者和创业导师。他是首席技术官的俯冲和IPM成立。ai公司使用保护隐私ai来改善病人的结果,在生命科学和医疗保健营销效果。新中国成立以前,Sim是CTO Evidon (CrownPeak) &实验室(AOL)和一个创始投资人Veracode (Broadcom)。VC天,Sim EIR通用催化剂在北极星伙伴合作伙伴和技术合作伙伴,他帮助开始五家公司公司投资,其中三bob体育外网下载个已经收购了。之前天作为一个投资者,Sim是新兴技术的副总裁和首席架构师Macromedia(现在Adobe)。早些时候,他是一个创始成员,阿莱尔首席架构师的第一个互联网平台公司的旗舰产品,ColdFusion,成千上万的Priceline和MySpace等网站。bob体育客户端下载

过去的会议

2020年峰会高性能与概率数据结构分析:HyperLogLog的力量

2020年6月23日凌晨5点PT

Pre-aggregation是一个强有力的分析技术,只要aggregable措施计算。计数reaggregate总和,极限最小值,最大值与马克斯,等。奇怪的是截然不同的,这不是aggregable。传统上,不同数量的non-reaggregability导致一个隐式的限制:任何一个系统计算不同数量最细粒度的数据访问和触摸每一行在查询时间。由于这个原因,在典型的分析架构,需要快速查询响应时间,原始数据是重复的火花和另一个系统,如RDBMS之间。

这个演讲是为了每个人计算或使用不同的数量和每个人不理解的神奇力量HyperLogLog (HLL)草图。我们将突破传统的分析架构的限制使用先进的高级语言功能和跨系统的互操作性的spark-alchemy开源库,与OSS的能力超越什么是可能的火花,红移,甚至BigQuery。我们将揭开模式1000 x收益分析查询性能没有数据重复和产能大大减少。我们将探讨实际用例从俯冲的pb级别的系统,提高数据隐私在敏感数据运行时分析,甚至看到一个实时分析前端运行在浏览器可以提供数据直接从火花。

峰会的欧洲2019 高性能与Spark-Alchemy高级分析

2019年10月16日凌晨5点PT

Pre-aggregation是一个强有力的分析技术,只要reaggregable措施计算。计数reaggregate总和,极限最小值,最大值与马克斯,等。奇怪的是截然不同的,这不是reaggregable。

传统上,不同数量的non-reaggregability导致一个隐式的限制:任何一个系统计算不同数量最细粒度的数据访问和触摸每一行在查询时间。由于这个原因,在典型的分析架构,需要快速查询响应时间,原始数据是重复的火花和另一个系统,如RDBMS之间。这个演讲是为了每个人计算或使用不同的数量和每个人不理解的神奇力量HyperLogLog (HLL)草图。

我们将突破传统的分析架构的限制使用先进的高级语言功能和跨系统的互操作性的spark-alchemy开源库,与OSS的能力超越什么是可能的火花,红移,甚至BigQuery。我们将揭开模式1000 x收益分析查询性能没有数据重复和产能大大减少。

我们将探讨实际用例从俯冲的pb级别的系统,提高数据隐私在敏感数据运行时分析,甚至看到一个实时分析前端运行在浏览器可以提供数据直接从火花。

2019年峰会伟大的模型与伟大的隐私:优化毫升和人工智能在敏感数据(继续)

2019年4月23日凌晨5点PT

越来越觉得隐私的担忧抑制创新机器学习和人工智能应用于个人和/或敏感数据。毕竟,毫升和AI渴望富有,详细的数据和清除数据改善隐私一般包括修订或起毛输入,多个研究显示可以严重影响模型质量和预测能力。虽然对于一些privacy-safe建模技术在技术上是如此,这不是真的。问题的根源是双重的。首先,大多数数据科学家从来没有学会如何制造出伟大的模型与伟大的隐私。第二,大多数公司缺乏系统简化保护隐私机器学习和人工智能。

这个演讲将挑战隐含的假设,即更多的隐私意味着糟糕的预测。使用实例从生产环境中涉及个人和敏感数据,演讲者将引入一系列先进技术简单的散列embeddings-for高精度,privacy-safe模型发展。关键主题包括匿名的ID生成语义擦洗,还利用数据起毛,特定于任务和task-independent卫生处理,确保下游隐私多党合作。此外,我们将作为一个独特的深深入嵌入在非结构化数据上优于保护隐私的方法建模。将特别关注Spark-based生产环境。

2019年峰会伟大的模型与伟大的隐私:优化毫升和AI /敏感数据

2019年4月23日凌晨5点PT

越来越觉得隐私的担忧抑制创新机器学习和人工智能应用于个人和/或敏感数据。毕竟,毫升和AI渴望富有,详细的数据和清除数据改善隐私一般包括修订或起毛输入,多个研究显示可以严重影响模型质量和预测能力。虽然对于一些privacy-safe建模技术在技术上是如此,这不是真的。

问题的根源是双重的。首先,大多数数据科学家从来没有学会如何制造出伟大的模型与伟大的隐私。第二,大多数公司缺乏系统简化保护隐私机器学习和人工智能。这个演讲将挑战隐含的假设,即更多的隐私意味着糟糕的预测。使用实例从生产环境中涉及个人和敏感数据,演讲者将引入一系列先进技术简单的散列embeddings-for高精度,privacy-safe模型发展。

关键主题包括匿名的ID生成语义擦洗,还利用数据起毛,特定于任务和task-independent卫生处理,确保下游隐私多党合作。此外,我们将作为一个独特的深深入嵌入在非结构化数据上优于保护隐私的方法建模。将特别关注Spark-based生产环境。

峰会的欧洲2018 伟大的模型与伟大的隐私:优化毫升和AI GDPR之下

2023年3月18日,02:43 PT

一般数据保护监管(GDPR), 5月25日生效,2018年,建立了严格的指导方针来管理个人和敏感数据,支持的严厉处罚。GDPR关闭服务的需求已迫使一些公司和其他人完全逃离欧盟市场。GDPR的目标给消费者控制他们的数据,因此,增加消费者信任在数字生态系统是值得称赞的。

然而,越来越多的感觉,GDPR抑制了创新在机器学习和人工智能应用于个人和/或敏感数据。毕竟,毫升& AI渴望富有,详细的数据和清除数据改善隐私一般包括修订或起毛输入,多个研究显示可以严重影响模型质量和预测能力。虽然对于一些privacy-safe建模技术在技术上是如此,这不是真的。

问题的根源是双重的。首先,大多数数据科学家从来没有学会如何制造出伟大的模型与伟大的隐私。第二,大多数公司缺乏系统简化privacy-safe机器学习和人工智能。这个演讲将挑战隐含的假设,即更多的隐私意味着糟糕的预测。使用实例从生产环境中涉及个人和敏感数据,演讲者将引入一系列先进技术——从简单的哈希映射进行——高精度,privacy-safe模型发展。

关键主题包括匿名的ID生成语义擦洗,还利用数据起毛,特定于任务和task-independent卫生处理,确保下游隐私多党合作。将特别关注Spark-based生产环境。

会话标签:# SAISDD13

峰会的欧洲2018 不惧怕变化:优化ETL、ML和人工智能在快节奏的环境中

2018年10月2日凌晨5点PT

在处理更多的数据通过一组现有的ETL或ML /人工智能管道与火花很容易,处理一组不断扩大和/或改变的管道可以相当具有挑战性,更当有复杂的相互依赖关系。Workflow-based编制工作提供一些帮助的情况下相对静态流动但失败得很惨的时候支持快节奏生产等数据科学实验(特征探索,模型调优,…),特别分析和根本原因分析。

这个演讲将介绍三个快节奏的环境中大规模数据生产模式——即时依赖分辨率(JDR) configuration-addressed (CAP)和自动化生产生命周期管理(ALM)——ETL & ML /人工智能演示以及开源的代码可以用在你的项目。这些模式在俯冲production-tested pb级别的环境中,他们有着显著的提升人类生产力和处理的灵活性,而成本降低了10倍以上。

采用这些模式,你会得到的好处通常与策划好的和高度调节相关数据生产快速和高效,没有没完没了的会议,甚至一个工作流服务器。你将能够透明地保证结果准确性即使面对成百上千的不断变化的输入,消除重复计算内和跨集群和生命周期管理自动化。

会话标签:# SAISDev1

2018年峰会一丘之貉会话:火花毫升移动到实时生产的用例

2023年3月18日,02:43 PT

东2017年峰会防弹工作:模式大规模火花加工

2017年2月7日,内点PT

大数据永远不会停止和你的火花也不应该工作。当他们看到人们就不应该停止无效的输入数据。当有人们就不应该停止原来的代码中的错误。他们不应该停止,因为I / o相关的问题。他们不应该停止,因为数据太大了。防弹工作不仅继续工作,他们可以很容易地识别和解决常见问题在大规模生产火花加工:从数据质量代码质量操作问题随时间不断增长的数据量。
在这个会议你将学习,人们对防弹设备的三个关键原则引发工作,一起使他们的体系结构和系统模式。第一个原则是幂等性。以火花2.0幂等附加操作,它使管理10倍更容易失败。第二个原则是行级结构化的记录。以火花记录,它使100 x(是的,一百次)更快的根本原因分析。第三个原则是不变的查询结构。以弹性分区表,允许灵活的管理长期大规模的数据,包括迟到处理,再处理现有的数据处理错误或数据质量问题,已经写的数据进行重新分区等。

这些模式已成功地用于生产要求的pb级别的网络广告。

2017年峰会智能数据仓库:基于目标数据生产

2017年6月6日凌晨5点PT

发明以来,SQL和关系数据库、数据生产是指定应该如何通过数据查询。而当然可以使用Apache火花一般分布式sql的查询引擎,火花的权力和粒度api允许完全不同的,和更富有成效的方法。这次会议将介绍基于目标的原则从ETL数据生产与例子,探索性数据分析,为机器学习功能的工程。
基于目标数据生产关注指定期望的结果是什么,让细节的结果是如何实现智能数据仓库运行的火花。不仅大大提高了生产率,而且还极大地扩展了观众,可以直接与火花:从开发人员和数据科学家技术业务用户。与特定的数据体系结构模式和现场演示,本届会议将展示是多么容易对任何公司创建自己的智能数据仓库2火花。x和获得基于目标数据生产的好处。

会话标签:# SFexp10

2017年峰会转炉讨论路线图将Apache火花

2017年6月5日凌晨5点PT

适合当前的火花贡献者和火花包创造者,对话将集中在开源社区如何帮助火花Apache项目之外的成长,有严格的标准什么&范围。

峰会的欧洲2017 基于目标数据生产:革命的火花

2017年的10月25日凌晨5点PT

发明以来,SQL和关系数据库、数据生产是指定如何通过查询数据转换。而Apache火花可以用作通用的分布式查询引擎,火花的权力和粒度api使革命增加数据工程生产力:基于目标数据生产。基于目标数据生产关注指定期望的结果是什么,让细节的结果是如何实现智能数据仓库运行的火花。不仅大大提高了生产率,而且还极大地扩展了观众,可以直接与火花:从开发人员和数据科学家技术业务用户。与特定的数据体系结构模式生成包括ETL、机器学习的数据准备和现场演示,本阶段将演示如何引发用户可以获得基于目标数据生产的好处。
会话标签:# EUent1