跳到内容

历史与社区

ydata-profiling 项目之所以能发展到今天,离不开创建者们的辛勤工作。本页面旨在重点介绍一些开发历史。要了解全貌,请参阅贡献者历史

YData 是这个成功软件包背后的公司,负责发布诸如时间序列支持、数据集比较和 Spark 支持等功能。

感谢我们出色的贡献者

非常感谢我们所有出色的贡献者!

贡献者墙由 contrib.rocks 制作。

起源

2016 年,Jos Polfliet 在 SAS Institute 工作,对反复进行相同类型的探索性数据分析感到厌倦。他自动化了自己的逻辑,发现它很有用,并决定在 MIT 许可下将其开源。该软件包被命名为 pandas-profiling,是 pandasdata profiling 的缩写。其理念是让用户能够执行自动化的探索性数据分析,超越 df.describe() 函数所提供的功能,并通过利用 Jupyter 的 HTML 输出实现。自那时起,机器学习社区已节省了多年重复绘图和总结统计的时间。

第二次生命

自 2019 年 5 月起,主要开发工作由 Simon Brugman 接手。他共同创立的初创公司是该软件包的早期采用者,他投入大量精力,利用在行业中的使用经验来发展该软件包。Simon 主导了软件包的大规模重构(99.5% 的代码被修改)和两次主要发布,并进行了重要的合作,尤其是与 Ian Eavesvisions 项目上的合作。

作为以数据为中心的人工智能的一部分进行分析 -----------自 2022 年 2 月起,YData 致力于持续支持和改进 pandas-profiling。作为软件包的维护者,我们的动力是让数据科学家爱上这个优秀的分析软件包所提供的易用性和高质量分析。自 2022 年以来,YData 团队已经发布了多个新版本,其中包括时间序列数据集分析、两个数据集比较以及最近与大数据引擎 Spark 的集成等主要功能。

pandas-profiling 被 Google 评为前 20 大机器学习软件包之一。

特别感谢两位最具代表性的贡献者,他们使得比较两个数据集成为可能:Simon Brugman,以及通过 Spark 将分析规模提升到新水平的 Edwin Chan

我们现在何处?

撰写本文时,pandas-profiling 正在焕然一新并更名为 ydata-profiling。考虑到最近增加的主要功能 Spark 支持,我们决定从 [pandas]{.title-ref} 更名为一个能够开启新集成和新开发可能性的名称。

这是 Python 中最流行的数据探索工具,拥有超过 1.1 万个 Github Star,5000 万次下载,用户遍布各行各业,包括许多 FAANG 公司、银行、保险公司、初创企业和大学的员工。

下一步是什么?

ydata-profiling 致力于帮助数据科学家采用以数据为中心的方法进行人工智能开发。持续的开发和支持将是这个深受数据科学社区喜爱的开源项目发展的一部分。

我们期待新功能,了解您的需求和期望至关重要,这样才能让未来更加光明。加入 DCAI 社区 并告诉我们您的想法。