跨工程、数据科学和机器学习团队协作,支持多种语言、内置数据可视化、自动版本控制和作业操作化。
好处
一起工作
用多种语言(R、Python、SQL和Scala)和你选择的库共享笔记本和跨团队的同事一起工作。实时合作创作、评论和自动版本控制在提供控制的同时简化了协作。
分享见解
通过内置的交互式可视化,或利用Matplotlib和ggplot等库,快速发现新的见解。以HTML或IPYNB格式导出结果和笔记本,或构建并共享始终保持最新的仪表板。
大规模运作
计划笔记本自动运行大规模的机器学习和数据管道。使用Notebook工作流创建多级管道。设置警报并快速访问审计日志,以便轻松监控和故障排除。
特性
数据访问:快速访问可用的数据集或连接到本地或云中任何数据源。
多语言支持:使用交互式笔记本探索数据,支持同一笔记本中的多种编程语言,包括R、Python、Scala和SQL。
交互式可视化:通过各种各样的指向和点击可视化来可视化见解。或者使用强大的脚本选项,如Matplotlib, ggplot和D3。
实时合著者:在同一笔记本上实时工作,同时跟踪详细的修改历史。
评论:在共享的笔记本中留下评论并通知同事。
自动版本:自动更改跟踪和版本控制,帮助您从中断的地方重新开始。
Git-based回购:简化了基于git的协作、可再现性和CI/CD工作流程。
分栏:自动记录实验,参数和结果从笔记本直接到MLflow作为运行,并快速查看和加载以前的运行和代码版本从侧边栏。
指示板:与同事和客户分享见解,或者让他们使用spark驱动的仪表板运行交互式查询。
将笔记本电脑作为作业运行:通过点击或API调用,将笔记本或jar转换为有弹性的生产作业。
工作调度程序:按照特定的时间表执行生产管道的作业。
笔记本工作流程:使用源编程语言的控制结构创建多级管道。
通知和日志:设置警报并快速访问审计日志,以便轻松监控和故障排除。
权限管理:使用一个通用的安全模型,快速管理对每个笔记本电脑或笔记本电脑集合和实验的访问。
集群:快速将笔记本连接到自动管理的集群,以高效且经济有效地扩展计算。
集成:连接到Tableau, Looker, Power BI, RStudio, Snowflake等,允许数据科学家和工程师使用他们选择的工具。
它是如何工作的
共享和交互式笔记本、实验和扩展文件支持允许数据科学家团队在整个生命周期中更有效地组织、共享和管理复杂的数据科学项目。api和Job Scheduler允许数据工程团队快速自动化复杂的管道,而业务分析师可以通过交互式仪表板直接访问结果。