跳到内容

欢迎

数据质量画像和探索性数据分析是数据科学和机器学习开发过程中的关键步骤。YData-profiling 作为开创性的 Python 包,是数据科学工作流中数据理解阶段的领先工具。

ydata-profiling 是一个领先的数据画像包,它自动化并标准化详细报告的生成,报告包含完整的统计数据和可视化。该包的意义在于它如何通过一行代码简化理解和准备数据以进行分析的过程!如果你准备开始,请参阅快速入门

规模化画像和数据库画像

将你的数据画像提升到新的水平 - 尝试对大规模数据和数据库使用 ydata-profiling!

体验企业级可伸缩性和数据库支持,同时享受你喜爱的熟悉开源功能。轻松处理大型数据集,并以前所未有的方式确保数据质量。尝试 YData Fabric 社区版

ydata-profiling report

为什么要使用 ydata-profiling?

ydata-profiling 对于数据科学家和分析师来说是一个有价值的工具,因为它简化了 EDA(探索性数据分析),提供了全面的洞察,提高了数据质量,并推广了数据科学的最佳实践。

  • 易于使用:它非常易于使用 - 只需一行代码即可开始。你真的需要更多理由来信服吗? 😛
    1
    2
    3
    4
    5
    import pandas as pd
    from ydata_profiling import ProfileReport
    
    df = pd.read_csv('data.csv')
    profile = ProfileReport(df, title="Profiling Report")
    
  • 报告中包含全面的洞察:报告包含广泛的统计数据和可视化,提供数据的整体视图。报告可以作为 html 文件共享,或集成到 Jupyter Notebook 中作为小部件。
  • 数据质量评估:擅长识别缺失数据、重复条目和异常值。这些洞察对于数据清洗和准备至关重要,可确保分析的可靠性并及早发现问题。
  • 易于与其他流程集成:数据画像的所有指标都可以通过标准的 JSON 格式获取。
  • 大型数据集的数据探索:即使数据集行数众多,ydata-profiling 也能为你提供帮助,因为它支持 Pandas Dataframes 和 Spark Dataframes

要了解有关此包的更多信息,请查看概念概览

📝 功能、特性与集成

YData-profiling 可用于提供各种不同的应用。文档包含处理这些应用的指南、技巧和窍门。

带有数据库与存储数据画像的数据目录

需要直接从数据库和数据存储进行画像 (Oracle, snowflake, PostGreSQL, GCS, S3, 等)

尝试 YData Fabric Data Catalog 以进行交互式和可伸缩的数据画像

查看免费社区版

功能与特性 描述
对比数据集 对比同一数据集的多个版本
对时间序列数据集进行画像 使用一行代码生成时间序列数据集的报告
对大型数据集进行画像 关于如何准备数据和配置 ydata-profiling 以处理大型数据集的技巧
处理敏感数据 生成考虑输入数据集中敏感数据的报告
数据集元数据和数据字典 在报告中补充数据集详细信息和列特定数据字典
自定义报告外观 更改报告页面及其包含的可视化效果的外观
对关系型数据库进行画像 ** 为了在组织数据库中获得无缝的画像体验,请查看 Fabric Data Catalog,它允许从不同类型的存储中消费数据,例如 RDBMs (Azure SQL, PostGreSQL, Oracle 等) 和对象存储 (Google Cloud Storage, AWS S3, Snowflake 等),以及其他类型。
PII 分类与管理 ** 通过 UI 体验进行自动化 PII 分类和管理

教程

如果想了解如何使用特定功能或如何将 ydata-profiling 集成到您当前的堆栈和工作流中,请查看我们的分步教程。

  • 如何使用 ydata-profiling 掌握探索性数据分析? 查看此分步教程
  • 想知道如何对时间序列进行探索性数据分析 🕛? 查看此博客文章了解方法。要了解有关此功能的更多信息,请查看文档
  • 如何对比两个数据集?此分步教程已涵盖。 要了解有关此功能的更多信息,请查看文档
  • 想对大型数据集进行扩展? 查看带有 ⭐⚡Spark 支持的发布信息!有关 Spark 集成的更多信息,请查看文档

🙋 支持

需要帮助?想分享观点?报告错误?有协作想法?请通过以下渠道联系我们

  • Stack Overflow:提出关于如何使用该包的问题的理想场所
  • GitHub Issues:错误报告、变更提案、功能请求
  • Discord:项目讨论、提问、协作、通用聊天等的理想场所

帮助我们确定优先级 - 在报告之前,请仔细检查,点赞(upvote)总是更好的!

在 GitHub 上报告问题之前,请查看常见问题

如果你想确认你的请求是否已被优先处理,请查看项目流程详情

🤝🏽 贡献

了解如何在贡献指南中参与。

一个低门槛的提问或开始贡献的场所是数据中心 AI 社区的 Discord

非常感谢所有出色的贡献者!

⚡ 我们需要你的帮助 - Spark!

Spark 支持已发布,但我们一直在寻找额外的帮手 👐。 查看当前正在进行的工作!