跳到内容

概念

文本/语料库数据 - 需要您的输入!

ydata-profiling 团队正在考虑支持语料库数据的新功能集,我们希望听取您的意见!我们特别想了解您认为这些功能为何有用,您的意见将帮助我们优先处理和完善这项开发。

👉 点赞 [在此添加请求表单链接]

支持的数据结构

该分析工具为各种类型的数据(包括表格数据、时间序列数据、文本数据和图像数据)提供了全面的洞察。

  • 表格数据:在处理表格数据时,例如电子表格或数据库,该分析工具提供关于数据分布、中心趋势和分类变量频率的有价值的统计信息。它以可视化的方式识别多变量关系,例如相关性和相互作用。它还识别缺失数据。
  • 时间序列数据:在处理具有时间维度的数据时,该分析工具将其功能扩展到捕捉趋势、季节性、周期性模式和缺失数据间隔。它可以揭示关于数据波动性、周期性和异常值的信息,有助于更深入地理解时间相关趋势。
  • 文本:对于文本数据,例如字符串或文档,该分析工具提供关于词频分布、常用短语和唯一词的有洞察的统计信息。

数据类型

类型,当超越整数、浮点数等逻辑数据类型时,是进行有效数据分析的强大抽象,允许在更高层次的视角下进行分析。ydata-profiling 由专门为数据分析开发的强大类型系统支持:visions <https://github.com/dylan-profiler/visions>_。目前,ydata-profiling 识别以下类型

  • 布尔值
  • 数值
  • 日期(和日期时间)
  • 分类
  • 时间序列
  • URL
  • 路径
  • 文件
  • 图像

适当的类型集可以提高整体表达能力并降低分析/代码的复杂性。完全支持用户自定义的摘要和类型定义,非常欢迎支持特定用例新数据类型的 PR。作为参考,您可以在此处查看 ydata-profiling 默认类型集的实现。

数据质量警告


Data quality warnings ydata-profiling

数据质量警告

NASA 陨石数据集报告中的警告部分。一些警告包含数值指标。

报告的 警告 部分包含一个全面的自动生成的潜在数据质量问题列表。尽管有用,但判断警告是否确实是数据质量问题始终需要领域验证。一些警告指向特定的列,另一些则指向列间关系,还有一些是数据集范围的。下表列出了所有可能的数据质量警告及其含义。

警告 描述
常量 列只包含一个值
零值 列只包含零值
高相关性 相关性(Spearman、Cramer、Pearson、Kendall、𝜙k)高于警告阈值(可配置)。
高基数 列是否包含超过 50 个不同的值。阈值可配置。
不平衡 列高度不平衡。阈值可配置。
偏度 列的单变量分布呈现偏度。阈值可配置。
缺失值 列包含缺失值
无穷大值 列包含无穷大值(np.inf-np.inf
唯一值 列的所有值都是唯一的(唯一值的数量等于列的长度)
季节性 列具有季节性模式
非平稳 列是一个时间序列非平稳
日期 列(可能/大部分)包含日期或日期时间记录
均匀分布 列遵循均匀分布(卡方检验得分 > 0.999,阈值得分可配置)
固定长度 对于字符串/日期/日期时间列,其条目长度都相同
已拒绝 变量类型混杂或为常量(因此不适合进行有意义的分析)
不支持 列无法分析(不支持类型,类型混杂,包含 lists/dicts/tuples,为
空,格式错误)
重复项 数据集级别的警告,表示存在超过 10 条重复记录。
数据集级别的警告,表示没有数据可供分析。

关于这些警告计算中使用的默认值和特定参数/阈值的信息,以及禁用特定警告的设置,请参阅文档

单变量分析


Univariate profiling ydata-profiling

单变量分析指标与可视化

本节全面概述给定数据集中的各个变量,此功能对于探索性数据分析 (EDA) 特别有用,因为它会自动计算数据集中每个变量的详细统计数据、可视化和洞察。它提供诸如数据类型、缺失值、唯一值、基本描述性统计、直方图和分布图等信息。这使得数据分析师和科学家能够快速了解每个变量的特征,识别潜在的数据质量问题,并初步了解数据的分布和变异性。

有关不同指标和可视化的更多详细信息,请查看单变量部分详情页面。

多变量分析


Multivariate profiling ydata-profiling

多变量分析指标与可视化

本节通过相关矩阵和交互作用提供对变量间关系的必要洞察。相关性视图计算并呈现成对数值变量之间的相关系数,有助于识别潜在的线性关系。这有助于数据分析师和科学家理解变量如何共同变化,并突显可能的多重共线性问题。

另一方面,交互作用部分超越了相关性,通过探索变量之间潜在的非线性关系和交互作用,提供了对变量如何相互作用的更全面理解。这对于识别传统相关性分析可能无法捕捉到的隐藏模式至关重要。

有关交互作用配置和相关矩阵指标的更多详细信息,请查看相关部分。

缺失数据

本节提供了关于数据集中缺失数据的存在和分布的有价值的洞察。它对于数据预处理和质量评估特别有帮助,因为它提供了变量缺失值的全面摘要,指示每个变量的缺失数据百分比。此外,它通过条形图和热力图展示缺失数据模式的可视化表示,使用户能够快速识别哪些变量具有最显著的缺失信息量。

查看如何配置您的缺失数据可视化。

异常值 **


Outliers profiling

异常值识别

本节提供了对潜在数据集异常值的全面分析。您可以根据观察到的方差验证和观察异常值的存在以及其与数值变量总体分布的偏差。异常值的识别使得数据分析师或科学家能够评估它们是真实的数据异常还是错误条目,从而做出保留、转换或排除这些点以进行进一步分析的明智决定。

此功能仅限于云托管解决方案用户。

预览数据

为了快速概览数据,ydata-profiling 提供了用户可以轻松配置的以下部分: - 给定数据集的前 n 条记录 - 给定数据集的后 n 条记录 - 包含观察到的重复项(完全匹配)的表格