跳到内容

数据集比较

数据帧比较支持

从 ydata-profiling 3.5.0 版本开始支持概况比较。概况比较对于 Spark Dataframes (目前) 不可用!

ydata-profiling 可用于比较同一数据集的多个版本。这在比较来自不同时间段(例如两年)的数据时非常有用。另一个常见场景是在机器学习中查看训练集、验证集和测试集的数据集分析概要。

可以使用以下语法比较两个数据集

比较 2 个数据集
from ydata_profiling import ProfileReport

train_df = pd.read_csv("train.csv")
train_report = ProfileReport(train_df, title="Train")

test_df = pd.read_csv("test.csv")
test_report = ProfileReport(test_df, title="Test")

comparison_report = train_report.compare(test_report)
comparison_report.to_file("comparison.html")

比较报告全程使用 Settings 中的 title 属性作为标签。颜色在 settings.html.style.primary_colors 中配置。可以调整数字精度参数 settings.report.precision 以在报告中获得额外的空间。

为了比较两个以上的报告,可以使用以下语法

比较 2 个以上的数据集
1
2
3
4
5
6
7
8
9
from ydata_profiling import ProfileReport, compare

comparison_report = compare([train_report, validation_report, test_report])

# Obtain merged statistics
statistics = comparison_report.get_description()

# Save report to file
comparison_report.to_file("comparison.html")

注意

此功能仅保证支持两个数据集的报告比较。可以获取统计信息,但报告可能会有格式问题。可以更改的设置之一是 settings.report.precision。经验法则上,单个报告可以使用值 10,比较两个报告时可以使用值 8。