可用设置
有一系列选项可用于自定义 ydata-profiling
的行为和生成的报告的外观。深度自定义可以创建高度针对特定分析数据集的行为。可用设置如下所示。要了解如何更改它们,请查阅 :doc:changing_settings
。
通用设置
全局报告设置
参数 | 类型 | 默认值 | 描述 |
---|---|---|---|
title |
string | YData Profiling Report | 报告的标题,显示在页眉和标题栏中。 |
pool_size |
integer | 0 | 线程池中的工作线程数。设置为零时,它将被设置为可用 CPU 的数量。 |
progress_bar |
boolean | True |
如果设置为 True ,ydata-profiling 将显示进度条。 |
变量摘要设置
与每个变量显示的信息相关的设置。
参数 | 类型 | 默认值 | 描述 |
---|---|---|---|
sort |
None, asc 或 desc | nan | 按 asc(升序)、desc(降序)或 None(保留原始顺序)对变量进行排序。 |
variables.descriptions |
dict | {} | 能够在每个变量的描述性统计数据旁边显示描述({'变量名': '描述'})。 |
vars.num.quantiles |
list[float] | [0.05,0.25,0.5,0.75,0.95] | 要计算的分位数。请注意,.25、.5 和 .75 是计算其他指标(中位数和 IQR)所必需的。 |
vars.num.skewness_threshold |
integer | 20 | 如果偏度高于此阈值,则发出警告。 |
vars.num.low_categorical_threshold |
integer | 5 | 如果不同值的数量小于此数值,则该系列被视为分类变量。设置为 0 可禁用。 |
vars.num.chi_squared_threshold |
float | 0.999 | 设置为 0 可禁用卡方计算。 |
vars.cat.length |
boolean | True |
检查字符串长度并汇总值(最小值、最大值、均值、中位数)。 |
vars.cat.characters |
boolean | False |
检查字符的分布及其 Unicode 属性。通常提供有用的信息,但计算成本可能较高。 |
vars.cat.words |
boolean | False |
检查单词的分布。通常提供有用的信息,但计算成本可能较高。 |
vars.cat.cardinality_threshold |
integer | 50 | 如果不同值的数量高于此阈值,则发出警告。 |
vars.cat.imbalance_threshold |
float | 0.5 | 如果失衡分数高于此阈值,则发出警告。 |
vars.cat.n_obs |
integer | 5 | 显示此数量的观察值。 |
vars.cat.chi_squared_threshold |
float | 0.999 | 与上述相同,但用于分类变量。 |
vars.bool.n_obs |
integer | 3 | 与上述相同,但用于布尔变量。 |
vars.bool.imbalance_threshold |
float | 0.5 | 如果失衡分数高于此阈值,则发出警告。 |
设置数据集 schema 类型
配置给定数据集的 schema 类型。
缺失数据概述图
与缺失数据部分及其可能包含的可视化相关的设置。
参数 | 类型 | 默认值 | 描述 |
---|---|---|---|
missing_diagrams.bar |
boolean | True |
显示每个列的缺失值计数的条形图。 |
missing_diagrams.matrix |
boolean | True |
显示缺失值矩阵。类似于条形图,但可能提供行中缺失值共现的概述。 |
missing_diagrams.heatmap |
boolean | True |
显示缺失值热力图,衡量空值相关性(即一个变量的存在或缺失对另一个变量的存在影响程度)。 |
配置示例:为大型数据集禁用热力图 | |
---|---|
相关性
关于相关性指标和阈值的设置。
默认值为 auto
,但以下相关矩阵可用
参数 | 描述 |
---|---|
auto |
根据类型 schema 计算列的成对相关性 |
- 数值变量到数值变量:Spearman 相关系数 | |
- 分类变量到分类变量:Cramer's V 关联系数 | |
- 数值变量到分类变量:数值变量自动离散化后的 Cramer's V 关联系数 | |
spearman |
Spearman 相关性衡量两个变量之间单调关联的强度和方向。非常适合评估分类或序数变量之间关系的强度。 |
pearson |
Pearson 相关系数是衡量线性相关的最常用方法。它是一个介于 –1 和 1 之间的数值,衡量两个变量之间关系的强度和方向。 |
kendall |
Kendall 秩相关系数是用于衡量两个测量量之间序数关联的统计量。当数据不满足 Pearson 相关性要求时,通常使用 Kendall 相关性。 |
phi_k |
Phi K 特别适合处理混合类型变量。使用此系数,我们可以找到(意外的)相关性并评估其统计显著性。 |
cramers |
Cramers 是一种相关矩阵,通常用于检查分类变量在存在大于 2x2 列联表时的关联。 |
对于每个相关矩阵,您可以使用以下配置
参数 | 类型 | 默认值 | 描述 |
---|---|---|---|
correlations.auto.calculate |
boolean | True |
是否计算 'auto' 相关性 |
correlations.auto.warn_high_correlations |
boolean | True |
显示高于阈值的相关性警告 |
correlations.auto.threshold |
float | 0.9 | 警告阈值 |
correlations.pearson.calculate |
boolean | False |
是否计算 Pearson 相关性 |
correlations.pearson.warn_high_correlations |
boolean | True |
显示高于阈值的相关性警告 |
correlations.pearson.threshold |
float | 0.9 | 警告阈值 |
correlations.spearman.calculate |
boolean | False |
是否计算 Spearman 相关性 |
correlations.spearman.warn_high_correlations |
boolean | False |
显示高于阈值的相关性警告 |
correlations.spearman.threshold |
float | 0.9 | 警告阈值 |
correlations.kendall.calculate |
boolean | False |
是否计算 Kendall 秩相关性 |
correlations.kendall.warn_high_correlations |
boolean | False |
显示高于阈值的相关性警告 |
correlations.kendall.threshold |
float | 0.9 | 警告阈值 |
correlations.phi_k.calculate |
boolean | False |
是否计算 Phi K 相关性 |
correlations.phi_k.warn_high_correlations |
boolean | False |
显示高于阈值的相关性警告 |
correlations.phi_k.threshold |
float | 0.9 | 警告阈值 |
correlations.cramers.calculate |
boolean | False |
是否计算 Cramer's V 关联系数 |
correlations.cramers.warn_high_correlations |
boolean | True |
显示高于阈值的相关性警告 |
correlations.cramers.threshold |
float | 0.9 | 警告阈值 |
例如,要禁用所有相关性计算(对于大型数据集可能很实用)
交互
与交互部分相关的设置。
参数 | 类型 | 默认值 | 描述 |
---|---|---|---|
interactions.continuous |
boolean | True |
为所有连续变量对生成一个 2D 散点图(或六边形分箱图)。 |
interactions.targets |
list | [] | 当给定变量名称列表时,仅计算这些变量与所有其他变量之间的交互。 |
报告外观
与报告外观和样式相关的设置。
参数 | 类型 | 默认值 | 描述 |
---|---|---|---|
html.minify_html |
bool | True |
如果设置为 True ,则使用 htmlmin 包压缩输出的 HTML。 |
html.use_local_assets |
bool | True |
如果设置为 True ,所有资产(样式表、脚本、图像)都本地存储。如果设置为 False ,则对某些样式表和脚本使用 CDN。 |
html.inline |
boolean | True |
如果设置为 True ,所有资产都包含在报告中。如果设置为 False ,则会创建一个 Web 导出,其中所有资产都存储在 '[报告名称]_assets/' 目录中。 |
html.navbar_show |
boolean | True |
是否在报告中包含导航栏 |
html.style.theme |
string | None |
选择一个 bootswatch 主题。可用选项:flatly(深蓝色)和 united(橙色) |
html.style.logo |
string | nan | 一个 Base64 编码的徽标,用于在导航栏中显示。 |
html.style.primary_color |
string | #337ab7 | 报告中使用的主要颜色。 |
html.style.full_width |
boolean | False |
默认情况下,报告宽度是固定的。如果设置为 True ,则使用屏幕的完整宽度。 |