Dataiku 支持各种类型的用户,无论他们是喜欢利用可视化点击界面还是完全使用代码。但 Dataiku 拥有易于使用的图形用户界面并不意味着我们会忽略更多技术型人才所需的强大功能。这篇博文将详细介绍 Dataiku 为数据科学家、工程师、建筑师和其他可能更喜欢使用代码(而不是可视化工具)来操作、转换和建模数据的人员提供的一些亮点。
→ 观看 Dataiku 面向程序员的功能的完整 10 分钟演示
使用您喜欢的语言和工具
Dataiku 允许您使用您已经熟悉和喜爱的工具,而无需牺牲与可能使用 波兰电话号码数据 或不使用同一套工具的其他团队成员的协作。
例如:
使用您选择的语言创建代码配方,包括 Python、R、SQL 等。
直接在 Dataiku 中开发代码时,请使用本机代码编辑器,或者选择更熟悉的嵌入式 Jupyter Notebooks 或 Code Studios,以获得流行的基于 Web 的 IDES,如 VS Code、R Studio 或 Jupyter Labs。
如果您已经拥有在 Dataiku 之外开发的 Jupyter Notebook,则可以手动上传这些 Notebook 或连接到远程 Git 存储库,并使用典型的分支、推送和拉取操作使 Dataiku 中的代码与该远程存储库保持同步。
Dataiku 包含来自最先进机器学习库的内置算法,例如 Scikit-Learn、MLlib 和 XGboost,以及用于深度学习的 TensorFlow 和 Keras。但是,您也可以编写自己的自定义模型,同时仍可充分利用 Dataiku Visual ML 提供的所有优势,例如自动实验跟踪和诊断、可解释性和性能指标、自动文档记录以及在生产中轻松进行版本监控。
数据科学家专用视频 dataiku 截图
在模型部署方面,只需单击几下,您就可以将模型或其他功能部署为 RESTful API 服务,以将其输出合并到其他数据管道、可视化或应用程序中。得益于与 MLflow、Databricks 和云 ML 平台(例如 AWS Sagemaker、AzureML 或 Google Vertex AI)的双向集成,您可以在一个地方进行设计和实验,在另一个地方进行部署和监控。简而言之,您不受单一平台限制的束缚;您可以自由选择最适合您特定需求的工具,同时享受 Dataiku 提供的集中标准化、可解释性和 AI 治理。