数据集比较

数据帧比较支持
从 ydata-profiling 3.5.0 版本开始支持概况比较。概况比较对于 Spark Dataframes (目前) 不可用!
ydata-profiling
可用于比较同一数据集的多个版本。这在比较来自不同时间段(例如两年)的数据时非常有用。另一个常见场景是在机器学习中查看训练集、验证集和测试集的数据集分析概要。
可以使用以下语法比较两个数据集
比较 2 个数据集 |
---|
| from ydata_profiling import ProfileReport
train_df = pd.read_csv("train.csv")
train_report = ProfileReport(train_df, title="Train")
test_df = pd.read_csv("test.csv")
test_report = ProfileReport(test_df, title="Test")
comparison_report = train_report.compare(test_report)
comparison_report.to_file("comparison.html")
|
比较报告全程使用 Settings
中的 title
属性作为标签。颜色在 settings.html.style.primary_colors
中配置。可以调整数字精度参数 settings.report.precision
以在报告中获得额外的空间。
为了比较两个以上的报告,可以使用以下语法
比较 2 个以上的数据集 |
---|
| from ydata_profiling import ProfileReport, compare
comparison_report = compare([train_report, validation_report, test_report])
# Obtain merged statistics
statistics = comparison_report.get_description()
# Save report to file
comparison_report.to_file("comparison.html")
|
注意
此功能仅保证支持两个数据集的报告比较。可以获取统计信息,但报告可能会有格式问题。可以更改的设置之一是 settings.report.precision
。经验法则上,单个报告可以使用值 10,比较两个报告时可以使用值 8。