概览
由 YData 提供
数据集统计
变量数量 | 14 |
---|---|
观测数量 | 32561 |
缺失单元格 | 4262 |
缺失单元格 (%) | 0.9% |
重复行 | 24 |
重复行 (%) | 0.1% |
内存总大小 | 18.1 MiB |
平均记录内存大小 | 583.0 B |
变量类型
数值型 | 6 |
---|---|
分类型 | 8 |
数据集
描述 | 根据人口普查数据预测年收入是否超过5万美元。也称为“人口普查收入”数据集。数据由 Barry Becker 从1994年的人口普查数据库中提取。使用以下条件提取了一组相对干净的记录:((AAGE>16) && (AGI>100) && (AFNLWGT>1)&& (HRSWK>0))。预测任务是判断一个人年收入是否超过5万美元。 |
---|---|
创建者 | Barry Becker |
作者 | Ronny Kohavi 和 Barry Becker |
URL | https://archive.ics.uci.edu/ml/datasets/adult |
变量描述
age | 定义 0 |
---|---|
workclass | 定义 1 |
fnlwgt | 定义 2 |
education | 定义 3 |
education-num | 定义 4 |
marital-status | 定义 5 |
occupation | 定义 6 |
relationship | 定义 7 |
race | 定义 8 |
sex | 定义 9 |
capital-gain | 定义 10 |
capital-loss | 定义 11 |
hours-per-week | 定义 12 |
native-country | 定义 13 |
警告
数据集有 24 (0.1%) 重复行 | 重复 |
education 与 education-num 总体高度相关 | 高相关性 |
education-num 与 education 总体高度相关 | 高相关性 |
relationship 与 sex 总体高度相关 | 高相关性 |
sex 与 relationship 总体高度相关 | 高相关性 |
workclass 极度不平衡 (52.8%) | 不平衡 |
race 极度不平衡 (65.6%) | 不平衡 |
native-country 极度不平衡 (84.5%) | 不平衡 |
workclass 有 1836 (5.6%) 个缺失值 | 缺失 |
occupation 有 1843 (5.7%) 个缺失值 | 缺失 |
native-country 有 583 (1.8%) 个缺失值 | 缺失 |
capital-gain 有 29849 (91.7%) 个零值 | 零值 |
capital-loss 有 31042 (95.3%) 个零值 | 零值 |
重现
分析开始 | 2025-03-26 00:46:00.392880 |
---|---|
分析完成 | 2025-03-26 00:46:04.653175 |
持续时间 | 4.26 秒 |
软件版本 | ydata-profiling v0.0.dev0 |
下载配置 | config.json |
变量
age
实数 (ℝ)
唯一值 | 73 |
---|---|
唯一值 (%) | 0.2% |
缺失 | 0 |
缺失 (%) | 0.0% |
无穷大 | 0 |
无穷大 (%) | 0.0% |
均值 | 38.581647 |
最小值 | 17 |
---|---|
最大值 | 90 |
零值 | 0 |
零值 (%) | 0.0% |
负数 | 0 |
负数 (%) | 0.0% |
内存大小 | 254.5 KiB |
分位数统计
最小值 | 17 |
---|---|
第5百分位数 | 19 |
Q1 | 28 |
中位数 | 37 |
Q3 | 48 |
第95百分位数 | 63 |
最大值 | 90 |
范围 | 73 |
四分位距 (IQR) | 20 |
描述性统计
标准差 | 13.640433 |
---|---|
变异系数 (CV) | 0.35354718 |
峰度 | -0.16612746 |
均值 | 38.581647 |
中位数绝对偏差 (MAD) | 10 |
偏度 | 0.55874337 |
求和 | 1256257 |
方差 | 186.0614 |
单调性 | 非单调 |
固定大小分箱直方图 (bins=50)
值 | 计数 | 频率 (%) |
36 | 898 | 2.8% |
31 | 888 | 2.7% |
34 | 886 | 2.7% |
23 | 877 | 2.7% |
35 | 876 | 2.7% |
33 | 875 | 2.7% |
28 | 867 | 2.7% |
30 | 861 | 2.6% |
37 | 858 | 2.6% |
25 | 841 | 2.6% |
其他值 (63) | 23834 |
值 | 计数 | 频率 (%) |
17 | 395 | |
18 | 550 | |
19 | 712 | |
20 | 753 | |
21 | 720 | |
22 | 765 | |
23 | 877 | |
24 | 798 | |
25 | 841 | |
26 | 785 |
值 | 计数 | 频率 (%) |
90 | 43 | |
88 | 3 | < 0.1% |
87 | 1 | < 0.1% |
86 | 1 | < 0.1% |
85 | 3 | < 0.1% |
84 | 10 | < 0.1% |
83 | 6 | < 0.1% |
82 | 12 | < 0.1% |
81 | 20 | |
80 | 22 |
workclass
分类型
不平衡 缺失
唯一值 | 8 |
---|---|
唯一值 (%) | < 0.1% |
缺失 | 1836 |
缺失 (%) | 5.6% |
内存大小 | 2.1 MiB |
私营 | |
---|---|
自雇人士(非法人) | |
地方政府 | 2093 |
州政府 | 1298 |
自雇人士(法人) | 1116 |
其他值 (3) | 981 |
常见值
值 | 计数 | 频率 (%) |
私营 | 22696 | |
自雇人士(非法人) | 2541 | 7.8% |
地方政府 | 2093 | 6.4% |
州政府 | 1298 | 4.0% |
自雇人士(法人) | 1116 | 3.4% |
联邦政府 | 960 | 2.9% |
无报酬 | 14 | < 0.1% |
从未工作 | 7 | < 0.1% |
(缺失) | 1836 | 5.6% |
长度
类别长度直方图
常见值 (图示)
值 | 计数 | 频率 (%) |
私营 | 22696 | |
自雇人士(非法人) | 2541 | 8.3% |
地方政府 | 2093 | 6.8% |
州政府 | 1298 | 4.2% |
自雇人士(法人) | 1116 | 3.6% |
联邦政府 | 960 | 3.1% |
无报酬 | 14 | < 0.1% |
从未工作 | 7 | < 0.1% |
最常出现的字符
值 | 计数 | 频率 (%) |
e | 33249 | |
30725 | ||
t | 27861 | |
a | 27061 | |
v | 27054 | |
i | 26367 | |
r | 23670 | |
P | 22696 | |
- | 14227 | 5.0% |
o | 9006 | 3.2% |
其他值 (18) | 43046 |
最常出现的类别
值 | 计数 | 频率 (%) |
(未知) | 284962 |
每类别最常出现的字符
(未知)
值 | 计数 | 频率 (%) |
e | 33249 | |
30725 | ||
t | 27861 | |
a | 27061 | |
v | 27054 | |
i | 26367 | |
r | 23670 | |
P | 22696 | |
- | 14227 | 5.0% |
o | 9006 | 3.2% |
其他值 (18) | 43046 |
最常出现的书写系统
值 | 计数 | 频率 (%) |
(未知) | 284962 |
每书写系统最常出现的字符
(未知)
值 | 计数 | 频率 (%) |
e | 33249 | |
30725 | ||
t | 27861 | |
a | 27061 | |
v | 27054 | |
i | 26367 | |
r | 23670 | |
P | 22696 | |
- | 14227 | 5.0% |
o | 9006 | 3.2% |
其他值 (18) | 43046 |
最常出现的区块
值 | 计数 | 频率 (%) |
(未知) | 284962 |
每区块最常出现的字符
(未知)
值 | 计数 | 频率 (%) |
e | 33249 | |
30725 | ||
t | 27861 | |
a | 27061 | |
v | 27054 | |
i | 26367 | |
r | 23670 | |
P | 22696 | |
- | 14227 | 5.0% |
o | 9006 | 3.2% |
其他值 (18) | 43046 |
fnlwgt
实数 (ℝ)
唯一值 | 21648 |
---|---|
唯一值 (%) | 66.5% |
缺失 | 0 |
缺失 (%) | 0.0% |
无穷大 | 0 |
无穷大 (%) | 0.0% |
均值 | 189778.37 |
最小值 | 12285 |
---|---|
最大值 | 1484705 |
零值 | 0 |
零值 (%) | 0.0% |
负数 | 0 |
负数 (%) | 0.0% |
内存大小 | 254.5 KiB |
分位数统计
最小值 | 12285 |
---|---|
第5百分位数 | 39460 |
Q1 | 117827 |
中位数 | 178356 |
Q3 | 237051 |
第95百分位数 | 379682 |
最大值 | 1484705 |
范围 | 1472420 |
四分位距 (IQR) | 119224 |
描述性统计
标准差 | 105549.98 |
---|---|
变异系数 (CV) | 0.55617497 |
峰度 | 6.218811 |
均值 | 189778.37 |
中位数绝对偏差 (MAD) | 59894 |
偏度 | 1.4469801 |
求和 | 6.1793734 × 109 |
方差 | 1.1140798 × 1010 |
单调性 | 非单调 |
固定大小分箱直方图 (bins=50)
值 | 计数 | 频率 (%) |
164190 | 13 | < 0.1% |
203488 | 13 | < 0.1% |
123011 | 13 | < 0.1% |
113364 | 12 | < 0.1% |
121124 | 12 | < 0.1% |
148995 | 12 | < 0.1% |
126675 | 12 | < 0.1% |
188246 | 11 | < 0.1% |
155659 | 11 | < 0.1% |
102308 | 11 | < 0.1% |
其他值 (21638) | 32441 |
值 | 计数 | 频率 (%) |
12285 | 1 | < 0.1% |
13769 | 1 | < 0.1% |
14878 | 1 | < 0.1% |
18827 | 1 | < 0.1% |
19214 | 1 | < 0.1% |
19302 | 5 | |
19395 | 2 | < 0.1% |
19410 | 1 | < 0.1% |
19491 | 1 | < 0.1% |
19520 | 1 | < 0.1% |
值 | 计数 | 频率 (%) |
1484705 | 1 | |
1455435 | 1 | |
1366120 | 1 | |
1268339 | 1 | |
1226583 | 1 | |
1184622 | 1 | |
1161363 | 1 | |
1125613 | 1 | |
1097453 | 1 | |
1085515 | 1 |
常见值
值 | 计数 | 频率 (%) |
高中毕业 | 10501 | |
大学在读 | 7291 | |
学士 | 5355 | |
硕士 | 1723 | 5.3% |
专科(职业) | 1382 | 4.2% |
11年级 | 1175 | 3.6% |
专科(学术) | 1067 | 3.3% |
10年级 | 933 | 2.9% |
7-8年级 | 646 | 2.0% |
职业学校 | 576 | 1.8% |
其他值 (6) | 1912 | 5.9% |
长度
类别长度直方图
值 | 计数 | 频率 (%) |
高中毕业 | 10501 | |
大学在读 | 7291 | |
学士 | 5355 | |
硕士 | 1723 | 5.3% |
专科(职业) | 1382 | 4.2% |
11年级 | 1175 | 3.6% |
专科(学术) | 1067 | 3.3% |
10年级 | 933 | 2.9% |
7-8年级 | 646 | 2.0% |
职业学校 | 576 | 1.8% |
其他值 (6) | 1912 | 5.9% |
最常出现的字符
值 | 计数 | 频率 (%) |
32561 | 10.6% | |
e | 29415 | 9.6% |
o | 26424 | 8.6% |
- | 21964 | 7.2% |
l | 20564 | 6.7% |
a | 19059 | 6.2% |
r | 18619 | 6.1% |
c | 18584 | 6.1% |
S | 17792 | 5.8% |
g | 17792 | 5.8% |
其他值 (22) | 84397 |
最常出现的类别
值 | 计数 | 频率 (%) |
(未知) | 307171 |
每类别最常出现的字符
(未知)
值 | 计数 | 频率 (%) |
32561 | 10.6% | |
e | 29415 | 9.6% |
o | 26424 | 8.6% |
- | 21964 | 7.2% |
l | 20564 | 6.7% |
a | 19059 | 6.2% |
r | 18619 | 6.1% |
c | 18584 | 6.1% |
S | 17792 | 5.8% |
g | 17792 | 5.8% |
其他值 (22) | 84397 |
最常出现的书写系统
值 | 计数 | 频率 (%) |
(未知) | 307171 |
每书写系统最常出现的字符
(未知)
值 | 计数 | 频率 (%) |
32561 | 10.6% | |
e | 29415 | 9.6% |
o | 26424 | 8.6% |
- | 21964 | 7.2% |
l | 20564 | 6.7% |
a | 19059 | 6.2% |
r | 18619 | 6.1% |
c | 18584 | 6.1% |
S | 17792 | 5.8% |
g | 17792 | 5.8% |
其他值 (22) | 84397 |
最常出现的区块
值 | 计数 | 频率 (%) |
(未知) | 307171 |
每区块最常出现的字符
(未知)
值 | 计数 | 频率 (%) |
32561 | 10.6% | |
e | 29415 | 9.6% |
o | 26424 | 8.6% |
- | 21964 | 7.2% |
l | 20564 | 6.7% |
a | 19059 | 6.2% |
r | 18619 | 6.1% |
c | 18584 | 6.1% |
S | 17792 | 5.8% |
g | 17792 | 5.8% |
其他值 (22) | 84397 |
education-num
实数 (ℝ)
高相关性
唯一值 | 16 |
---|---|
唯一值 (%) | < 0.1% |
缺失 | 0 |
缺失 (%) | 0.0% |
无穷大 | 0 |
无穷大 (%) | 0.0% |
均值 | 10.080679 |
最小值 | 1 |
---|---|
最大值 | 16 |
零值 | 0 |
零值 (%) | 0.0% |
负数 | 0 |
负数 (%) | 0.0% |
内存大小 | 254.5 KiB |
分位数统计
最小值 | 1 |
---|---|
第5百分位数 | 5 |
Q1 | 9 |
中位数 | 10 |
Q3 | 12 |
第95百分位数 | 14 |
最大值 | 16 |
范围 | 15 |
四分位距 (IQR) | 3 |
描述性统计
标准差 | 2.5727203 |
---|---|
变异系数 (CV) | 0.25521299 |
峰度 | 0.62344407 |
均值 | 10.080679 |
中位数绝对偏差 (MAD) | 1 |
偏度 | -0.31167587 |
求和 | 328237 |
方差 | 6.6188899 |
单调性 | 非单调 |
固定大小分箱直方图 (bins=16)
值 | 计数 | 频率 (%) |
9 | 10501 | |
10 | 7291 | |
13 | 5355 | |
14 | 1723 | 5.3% |
11 | 1382 | 4.2% |
7 | 1175 | 3.6% |
12 | 1067 | 3.3% |
6 | 933 | 2.9% |
4 | 646 | 2.0% |
15 | 576 | 1.8% |
其他值 (6) | 1912 | 5.9% |
值 | 计数 | 频率 (%) |
1 | 51 | 0.2% |
2 | 168 | 0.5% |
3 | 333 | 1.0% |
4 | 646 | 2.0% |
5 | 514 | 1.6% |
6 | 933 | 2.9% |
7 | 1175 | 3.6% |
8 | 433 | 1.3% |
9 | 10501 | |
10 | 7291 |
值 | 计数 | 频率 (%) |
16 | 413 | 1.3% |
15 | 576 | 1.8% |
14 | 1723 | 5.3% |
13 | 5355 | |
12 | 1067 | 3.3% |
11 | 1382 | 4.2% |
10 | 7291 | |
9 | 10501 | |
8 | 433 | 1.3% |
7 | 1175 | 3.6% |
常见值
值 | 计数 | 频率 (%) |
已婚(民用配偶) | 14976 | |
未婚 | 10683 | |
离婚 | 4443 | 13.6% |
分居 | 1025 | 3.1% |
丧偶 | 993 | 3.0% |
已婚(配偶不在场) | 418 | 1.3% |
已婚(武装部队配偶) | 23 | 0.1% |
长度
类别长度直方图
常见值 (图示)
值 | 计数 | 频率 (%) |
已婚(民用配偶) | 14976 | |
未婚 | 10683 | |
离婚 | 4443 | 13.6% |
分居 | 1025 | 3.1% |
丧偶 | 993 | 3.0% |
已婚(配偶不在场) | 418 | 1.3% |
已婚(武装部队配偶) | 23 | 0.1% |
最常出现的字符
值 | 计数 | 频率 (%) |
e | 70787 | |
r | 68351 | |
i | 46512 | |
- | 41517 | |
d | 33554 | 6.7% |
32561 | 6.5% | |
s | 31252 | 6.2% |
v | 30102 | 6.0% |
a | 28568 | 5.7% |
o | 20853 | 4.2% |
其他值 (15) | 97840 |
最常出现的类别
值 | 计数 | 频率 (%) |
(未知) | 501897 |
每类别最常出现的字符
(未知)
值 | 计数 | 频率 (%) |
e | 70787 | |
r | 68351 | |
i | 46512 | |
- | 41517 | |
d | 33554 | 6.7% |
32561 | 6.5% | |
s | 31252 | 6.2% |
v | 30102 | 6.0% |
a | 28568 | 5.7% |
o | 20853 | 4.2% |
其他值 (15) | 97840 |
最常出现的书写系统
值 | 计数 | 频率 (%) |
(未知) | 501897 |
每书写系统最常出现的字符
(未知)
值 | 计数 | 频率 (%) |
e | 70787 | |
r | 68351 | |
i | 46512 | |
- | 41517 | |
d | 33554 | 6.7% |
32561 | 6.5% | |
s | 31252 | 6.2% |
v | 30102 | 6.0% |
a | 28568 | 5.7% |
o | 20853 | 4.2% |
其他值 (15) | 97840 |
最常出现的区块
值 | 计数 | 频率 (%) |
(未知) | 501897 |
每区块最常出现的字符
(未知)
值 | 计数 | 频率 (%) |
e | 70787 | |
r | 68351 | |
i | 46512 | |
- | 41517 | |
d | 33554 | 6.7% |
32561 | 6.5% | |
s | 31252 | 6.2% |
v | 30102 | 6.0% |
a | 28568 | 5.7% |
o | 20853 | 4.2% |
其他值 (15) | 97840 |
常见值
值 | 计数 | 频率 (%) |
专业特长 | 4140 | |
工艺维修 | 4099 | |
行政管理 | 4066 | |
行政文职 | 3770 | |
销售 | 3650 | |
其他服务 | 3295 | |
机械操作员-检查员 | 2002 | |
运输-搬家 | 1597 | 4.9% |
搬运工-清洁工 | 1370 | 4.2% |
农林渔业 | 994 | 3.1% |
其他值 (4) | 1735 | |
(缺失) | 1843 |
长度
类别长度直方图
值 | 计数 | 频率 (%) |
专业特长 | 4140 | |
工艺维修 | 4099 | |
行政管理 | 4066 | |
行政文职 | 3770 | |
销售 | 3650 | |
其他服务 | 3295 | |
机械操作员-检查员 | 2002 | |
运输-搬家 | 1597 | 5.2% |
搬运工-清洁工 | 1370 | 4.5% |
农林渔业 | 994 | 3.2% |
其他值 (4) | 1735 |
最常出现的字符
值 | 计数 | 频率 (%) |
e | 42979 | 10.1% |
r | 40333 | 9.5% |
a | 39289 | 9.2% |
30718 | 7.2% | |
- | 29219 | 6.9% |
i | 28751 | 6.7% |
c | 26001 | 6.1% |
l | 22136 | 5.2% |
s | 20302 | 4.8% |
t | 17359 | 4.1% |
其他值 (22) | 129094 |
最常出现的类别
值 | 计数 | 频率 (%) |
(未知) | 426181 |
每类别最常出现的字符
(未知)
值 | 计数 | 频率 (%) |
e | 42979 | 10.1% |
r | 40333 | 9.5% |
a | 39289 | 9.2% |
30718 | 7.2% | |
- | 29219 | 6.9% |
i | 28751 | 6.7% |
c | 26001 | 6.1% |
l | 22136 | 5.2% |
s | 20302 | 4.8% |
t | 17359 | 4.1% |
其他值 (22) | 129094 |
最常出现的书写系统
值 | 计数 | 频率 (%) |
(未知) | 426181 |
每书写系统最常出现的字符
(未知)
值 | 计数 | 频率 (%) |
e | 42979 | 10.1% |
r | 40333 | 9.5% |
a | 39289 | 9.2% |
30718 | 7.2% | |
- | 29219 | 6.9% |
i | 28751 | 6.7% |
c | 26001 | 6.1% |
l | 22136 | 5.2% |
s | 20302 | 4.8% |
t | 17359 | 4.1% |
其他值 (22) | 129094 |
最常出现的区块
值 | 计数 | 频率 (%) |
(未知) | 426181 |
每区块最常出现的字符
(未知)
值 | 计数 | 频率 (%) |
e | 42979 | 10.1% |
r | 40333 | 9.5% |
a | 39289 | 9.2% |
30718 | 7.2% | |
- | 29219 | 6.9% |
i | 28751 | 6.7% |
c | 26001 | 6.1% |
l | 22136 | 5.2% |
s | 20302 | 4.8% |
t | 17359 | 4.1% |
其他值 (22) | 129094 |
常见值
值 | 计数 | 频率 (%) |
丈夫 | 13193 | |
非家庭成员 | 8305 | |
子女 | 5068 | 15.6% |
未婚者 | 3446 | 10.6% |
妻子 | 1568 | 4.8% |
其他亲属 | 981 | 3.0% |
长度
类别长度直方图
常见值 (图示)
值 | 计数 | 频率 (%) |
丈夫 | 13193 | |
非家庭成员 | 8305 | |
子女 | 5068 | 15.6% |
未婚者 | 3446 | 10.6% |
妻子 | 1568 | 4.8% |
其他亲属 | 981 | 3.0% |
最常出现的字符
值 | 计数 | 频率 (%) |
32561 | 9.9% | |
n | 30012 | 9.1% |
i | 27673 | 8.4% |
a | 25925 | 7.9% |
- | 22659 | 6.9% |
d | 21707 | 6.6% |
l | 14354 | 4.4% |
b | 13193 | 4.0% |
H | 13193 | 4.0% |
u | 13193 | 4.0% |
其他值 (16) | 115039 |
最常出现的类别
值 | 计数 | 频率 (%) |
(未知) | 329509 |
每类别最常出现的字符
(未知)
值 | 计数 | 频率 (%) |
32561 | 9.9% | |
n | 30012 | 9.1% |
i | 27673 | 8.4% |
a | 25925 | 7.9% |
- | 22659 | 6.9% |
d | 21707 | 6.6% |
l | 14354 | 4.4% |
b | 13193 | 4.0% |
H | 13193 | 4.0% |
u | 13193 | 4.0% |
其他值 (16) | 115039 |
最常出现的书写系统
值 | 计数 | 频率 (%) |
(未知) | 329509 |
每书写系统最常出现的字符
(未知)
值 | 计数 | 频率 (%) |
32561 | 9.9% | |
n | 30012 | 9.1% |
i | 27673 | 8.4% |
a | 25925 | 7.9% |
- | 22659 | 6.9% |
d | 21707 | 6.6% |
l | 14354 | 4.4% |
b | 13193 | 4.0% |
H | 13193 | 4.0% |
u | 13193 | 4.0% |
其他值 (16) | 115039 |
最常出现的区块
值 | 计数 | 频率 (%) |
(未知) | 329509 |
每区块最常出现的字符
(未知)
值 | 计数 | 频率 (%) |
32561 | 9.9% | |
n | 30012 | 9.1% |
i | 27673 | 8.4% |
a | 25925 | 7.9% |
- | 22659 | 6.9% |
d | 21707 | 6.6% |
l | 14354 | 4.4% |
b | 13193 | 4.0% |
H | 13193 | 4.0% |
u | 13193 | 4.0% |
其他值 (16) | 115039 |
常见值
值 | 计数 | 频率 (%) |
白人 | 27816 | |
黑人 | 3124 | 9.6% |
亚裔太平洋岛民 | 1039 | 3.2% |
印第安人-爱斯基摩人 | 311 | 1.0% |
其他 | 271 | 0.8% |
长度
类别长度直方图
常见值 (图示)
值 | 计数 | 频率 (%) |
白人 | 27816 | |
黑人 | 3124 | 9.6% |
亚裔太平洋岛民 | 1039 | 3.2% |
印第安人-爱斯基摩人 | 311 | 1.0% |
其他 | 271 | 0.8% |
最常出现的字符
值 | 计数 | 频率 (%) |
32561 | ||
i | 29477 | |
e | 29437 | |
t | 28087 | |
h | 28087 | |
W | 27816 | |
a | 6552 | 3.1% |
c | 4163 | 2.0% |
l | 4163 | 2.0% |
k | 3435 | 1.6% |
其他值 (13) | 19138 |
最常出现的类别
值 | 计数 | 频率 (%) |
(未知) | 212916 |
每类别最常出现的字符
(未知)
值 | 计数 | 频率 (%) |
32561 | ||
i | 29477 | |
e | 29437 | |
t | 28087 | |
h | 28087 | |
W | 27816 | |
a | 6552 | 3.1% |
c | 4163 | 2.0% |
l | 4163 | 2.0% |
k | 3435 | 1.6% |
其他值 (13) | 19138 |
最常出现的书写系统
值 | 计数 | 频率 (%) |
(未知) | 212916 |
每书写系统最常出现的字符
(未知)
值 | 计数 | 频率 (%) |
32561 | ||
i | 29477 | |
e | 29437 | |
t | 28087 | |
h | 28087 | |
W | 27816 | |
a | 6552 | 3.1% |
c | 4163 | 2.0% |
l | 4163 | 2.0% |
k | 3435 | 1.6% |
其他值 (13) | 19138 |
最常出现的区块
值 | 计数 | 频率 (%) |
(未知) | 212916 |
每区块最常出现的字符
(未知)
值 | 计数 | 频率 (%) |
32561 | ||
i | 29477 | |
e | 29437 | |
t | 28087 | |
h | 28087 | |
W | 27816 | |
a | 6552 | 3.1% |
c | 4163 | 2.0% |
l | 4163 | 2.0% |
k | 3435 | 1.6% |
其他值 (13) | 19138 |
常见值
值 | 计数 | 频率 (%) |
男性 | 21790 | |
女性 | 10771 |
长度
类别长度直方图
常见值 (图示)
值 | 计数 | 频率 (%) |
男性 | 21790 | |
女性 | 10771 |
最常出现的字符
值 | 计数 | 频率 (%) |
e | 43332 | |
a | 32561 | |
32561 | ||
l | 32561 | |
M | 21790 | |
F | 10771 | 5.8% |
m | 10771 | 5.8% |
最常出现的类别
值 | 计数 | 频率 (%) |
(未知) | 184347 |
每类别最常出现的字符
(未知)
值 | 计数 | 频率 (%) |
e | 43332 | |
a | 32561 | |
32561 | ||
l | 32561 | |
M | 21790 | |
F | 10771 | 5.8% |
m | 10771 | 5.8% |
最常出现的书写系统
值 | 计数 | 频率 (%) |
(未知) | 184347 |
每书写系统最常出现的字符
(未知)
值 | 计数 | 频率 (%) |
e | 43332 | |
a | 32561 | |
32561 | ||
l | 32561 | |
M | 21790 | |
F | 10771 | 5.8% |
m | 10771 | 5.8% |
最常出现的区块
值 | 计数 | 频率 (%) |
(未知) | 184347 |
每区块最常出现的字符
(未知)
值 | 计数 | 频率 (%) |
e | 43332 | |
a | 32561 | |
32561 | ||
l | 32561 | |
M | 21790 | |
F | 10771 | 5.8% |
m | 10771 | 5.8% |
capital-gain
实数 (ℝ)
零值
唯一值 | 119 |
---|---|
唯一值 (%) | 0.4% |
缺失 | 0 |
缺失 (%) | 0.0% |
无穷大 | 0 |
无穷大 (%) | 0.0% |
均值 | 1077.6488 |
最小值 | 0 |
---|---|
最大值 | 99999 |
零值 | 29849 |
零值 (%) | 91.7% |
负数 | 0 |
负数 (%) | 0.0% |
内存大小 | 254.5 KiB |
分位数统计
最小值 | 0 |
---|---|
第5百分位数 | 0 |
Q1 | 0 |
中位数 | 0 |
Q3 | 0 |
第95百分位数 | 5013 |
最大值 | 99999 |
范围 | 99999 |
四分位距 (IQR) | 0 |
描述性统计
标准差 | 7385.2921 |
---|---|
变异系数 (CV) | 6.8531527 |
峰度 | 154.79944 |
均值 | 1077.6488 |
中位数绝对偏差 (MAD) | 0 |
偏度 | 11.953848 |
求和 | 35089324 |
方差 | 54542539 |
单调性 | 非单调 |
固定大小分箱直方图 (bins=50)
值 | 计数 | 频率 (%) |
0 | 29849 | |
15024 | 347 | 1.1% |
7688 | 284 | 0.9% |
7298 | 246 | 0.8% |
99999 | 159 | 0.5% |
3103 | 97 | 0.3% |
5178 | 97 | 0.3% |
4386 | 70 | 0.2% |
5013 | 69 | 0.2% |
8614 | 55 | 0.2% |
其他值 (109) | 1288 | 4.0% |
值 | 计数 | 频率 (%) |
0 | 29849 | |
114 | 6 | < 0.1% |
401 | 2 | < 0.1% |
594 | 34 | 0.1% |
914 | 8 | < 0.1% |
991 | 5 | < 0.1% |
1055 | 25 | 0.1% |
1086 | 4 | < 0.1% |
1111 | 1 | < 0.1% |
1151 | 8 | < 0.1% |
值 | 计数 | 频率 (%) |
99999 | 159 | |
41310 | 2 | < 0.1% |
34095 | 5 | < 0.1% |
27828 | 34 | 0.1% |
25236 | 11 | < 0.1% |
25124 | 4 | < 0.1% |
22040 | 1 | < 0.1% |
20051 | 37 | 0.1% |
18481 | 2 | < 0.1% |
15831 | 6 | < 0.1% |
capital-loss
实数 (ℝ)
零值
唯一值 | 92 |
---|---|
唯一值 (%) | 0.3% |
缺失 | 0 |
缺失 (%) | 0.0% |
无穷大 | 0 |
无穷大 (%) | 0.0% |
均值 | 87.30383 |
最小值 | 0 |
---|---|
最大值 | 4356 |
零值 | 31042 |
零值 (%) | 95.3% |
负数 | 0 |
负数 (%) | 0.0% |
内存大小 | 254.5 KiB |
分位数统计
最小值 | 0 |
---|---|
第5百分位数 | 0 |
Q1 | 0 |
中位数 | 0 |
Q3 | 0 |
第95百分位数 | 0 |
最大值 | 4356 |
范围 | 4356 |
四分位距 (IQR) | 0 |
描述性统计
标准差 | 402.96022 |
---|---|
变异系数 (CV) | 4.6156076 |
峰度 | 20.376802 |
均值 | 87.30383 |
中位数绝对偏差 (MAD) | 0 |
偏度 | 4.5946291 |
求和 | 2842700 |
方差 | 162376.94 |
单调性 | 非单调 |
固定大小分箱直方图 (bins=50)
值 | 计数 | 频率 (%) |
0 | 31042 | |
1902 | 202 | 0.6% |
1977 | 168 | 0.5% |
1887 | 159 | 0.5% |
1485 | 51 | 0.2% |
1848 | 51 | 0.2% |
2415 | 49 | 0.2% |
1602 | 47 | 0.1% |
1740 | 42 | 0.1% |
1590 | 40 | 0.1% |
其他值 (82) | 710 | 2.2% |
值 | 计数 | 频率 (%) |
0 | 31042 | |
155 | 1 | < 0.1% |
213 | 4 | < 0.1% |
323 | 3 | < 0.1% |
419 | 3 | < 0.1% |
625 | 12 | < 0.1% |
653 | 3 | < 0.1% |
810 | 2 | < 0.1% |
880 | 6 | < 0.1% |
974 | 2 | < 0.1% |
值 | 计数 | 频率 (%) |
4356 | 3 | < 0.1% |
3900 | 2 | < 0.1% |
3770 | 2 | < 0.1% |
3683 | 2 | < 0.1% |
3004 | 2 | < 0.1% |
2824 | 10 | |
2754 | 2 | < 0.1% |
2603 | 5 | |
2559 | 12 | |
2547 | 4 | < 0.1% |
hours-per-week
实数 (ℝ)
唯一值 | 94 |
---|---|
唯一值 (%) | 0.3% |
缺失 | 0 |
缺失 (%) | 0.0% |
无穷大 | 0 |
无穷大 (%) | 0.0% |
均值 | 40.437456 |
最小值 | 1 |
---|---|
最大值 | 99 |
零值 | 0 |
零值 (%) | 0.0% |
负数 | 0 |
负数 (%) | 0.0% |
内存大小 | 254.5 KiB |
分位数统计
最小值 | 1 |
---|---|
第5百分位数 | 18 |
Q1 | 40 |
中位数 | 40 |
Q3 | 45 |
第95百分位数 | 60 |
最大值 | 99 |
范围 | 98 |
四分位距 (IQR) | 5 |
描述性统计
标准差 | 12.347429 |
---|---|
变异系数 (CV) | 0.30534633 |
峰度 | 2.9166868 |
均值 | 40.437456 |
中位数绝对偏差 (MAD) | 3 |
偏度 | 0.22764254 |
求和 | 1316684 |
方差 | 152.459 |
单调性 | 非单调 |
固定大小分箱直方图 (bins=50)
值 | 计数 | 频率 (%) |
40 | 15217 | |
50 | 2819 | 8.7% |
45 | 1824 | 5.6% |
60 | 1475 | 4.5% |
35 | 1297 | 4.0% |
20 | 1224 | 3.8% |
30 | 1149 | 3.5% |
55 | 694 | 2.1% |
25 | 674 | 2.1% |
48 | 517 | 1.6% |
其他值 (84) | 5671 | 17.4% |
值 | 计数 | 频率 (%) |
1 | 20 | 0.1% |
2 | 32 | 0.1% |
3 | 39 | 0.1% |
4 | 54 | 0.2% |
5 | 60 | 0.2% |
6 | 64 | 0.2% |
7 | 26 | 0.1% |
8 | 145 | |
9 | 18 | 0.1% |
10 | 278 |
值 | 计数 | 频率 (%) |
99 | 85 | |
98 | 11 | < 0.1% |
97 | 2 | < 0.1% |
96 | 5 | < 0.1% |
95 | 2 | < 0.1% |
94 | 1 | < 0.1% |
92 | 1 | < 0.1% |
91 | 3 | < 0.1% |
90 | 29 | 0.1% |
89 | 2 | < 0.1% |
不平衡 缺失
唯一值 | 41 |
---|---|
唯一值 (%) | 0.1% |
缺失 | 583 |
缺失 (%) | 1.8% |
内存大小 | 2.2 MiB |
美国 | |
---|---|
墨西哥 | 643 |
菲律宾 | 198 |
德国 | 137 |
加拿大 | 121 |
其他值 (36) | 1709 |
常见值
值 | 计数 | 频率 (%) |
美国 | 29170 | |
墨西哥 | 643 | 2.0% |
菲律宾 | 198 | 0.6% |
德国 | 137 | 0.4% |
加拿大 | 121 | 0.4% |
波多黎各 | 114 | 0.4% |
萨尔瓦多 | 106 | 0.3% |
印度 | 100 | 0.3% |
古巴 | 95 | 0.3% |
英国 | 90 | 0.3% |
其他值 (31) | 1204 | 3.7% |
(缺失) | 583 | 1.8% |
长度
类别长度直方图
值 | 计数 | 频率 (%) |
美国 | 29170 | |
墨西哥 | 643 | 2.0% |
菲律宾 | 198 | 0.6% |
德国 | 137 | 0.4% |
加拿大 | 121 | 0.4% |
波多黎各 | 114 | 0.4% |
萨尔瓦多 | 106 | 0.3% |
印度 | 100 | 0.3% |
古巴 | 95 | 0.3% |
英国 | 90 | 0.3% |
其他值 (31) | 1204 | 3.8% |
最常出现的字符
值 | 计数 | 频率 (%) |
t | 88030 | |
e | 59820 | |
31978 | 7.4% | |
a | 31774 | 7.4% |
i | 31372 | 7.3% |
n | 30568 | 7.1% |
d | 29801 | 6.9% |
- | 29503 | 6.8% |
s | 29416 | 6.8% |
S | 29396 | 6.8% |
其他值 (35) | 40037 |
最常出现的类别
值 | 计数 | 频率 (%) |
(未知) | 431695 |
每类别最常出现的字符
(未知)
值 | 计数 | 频率 (%) |
t | 88030 | |
e | 59820 | |
31978 | 7.4% | |
a | 31774 | 7.4% |
i | 31372 | 7.3% |
n | 30568 | 7.1% |
d | 29801 | 6.9% |
- | 29503 | 6.8% |
s | 29416 | 6.8% |
S | 29396 | 6.8% |
其他值 (35) | 40037 |
最常出现的书写系统
值 | 计数 | 频率 (%) |
(未知) | 431695 |
每书写系统最常出现的字符
(未知)
值 | 计数 | 频率 (%) |
t | 88030 | |
e | 59820 | |
31978 | 7.4% | |
a | 31774 | 7.4% |
i | 31372 | 7.3% |
n | 30568 | 7.1% |
d | 29801 | 6.9% |
- | 29503 | 6.8% |
s | 29416 | 6.8% |
S | 29396 | 6.8% |
其他值 (35) | 40037 |
最常出现的区块
值 | 计数 | 频率 (%) |
(未知) | 431695 |
每区块最常出现的字符
(未知)
值 | 计数 | 频率 (%) |
t | 88030 | |
e | 59820 | |
31978 | 7.4% | |
a | 31774 | 7.4% |
i | 31372 | 7.3% |
n | 30568 | 7.1% |
d | 29801 | 6.9% |
- | 29503 | 6.8% |
s | 29416 | 6.8% |
S | 29396 | 6.8% |
其他值 (35) | 40037 |
交互
相关性
age | capital-gain | capital-loss | education | education-num | fnlwgt | hours-per-week | marital-status | native-country | occupation | race | relationship | sex | workclass | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
age | 1.000 | 0.125 | 0.058 | 0.111 | 0.066 | -0.078 | 0.143 | 0.282 | 0.030 | 0.096 | 0.027 | 0.273 | 0.123 | 0.092 |
capital-gain | 0.125 | 1.000 | -0.067 | 0.112 | 0.119 | -0.006 | 0.093 | 0.037 | 0.000 | 0.070 | 0.008 | 0.043 | 0.048 | 0.051 |
capital-loss | 0.058 | -0.067 | 1.000 | 0.042 | 0.075 | -0.007 | 0.060 | 0.059 | 0.000 | 0.033 | 0.011 | 0.064 | 0.071 | 0.023 |
education | 0.111 | 0.112 | 0.042 | 1.000 | 1.000 | 0.017 | 0.089 | 0.089 | 0.129 | 0.196 | 0.072 | 0.121 | 0.093 | 0.100 |
education-num | 0.066 | 0.119 | 0.075 | 1.000 | 1.000 | -0.036 | 0.167 | 0.077 | 0.142 | 0.225 | 0.069 | 0.108 | 0.072 | 0.092 |
fnlwgt | -0.078 | -0.006 | -0.007 | 0.017 | -0.036 | 1.000 | -0.022 | 0.023 | 0.055 | 0.019 | 0.066 | 0.017 | 0.028 | 0.023 |
hours-per-week | 0.143 | 0.093 | 0.060 | 0.089 | 0.167 | -0.022 | 1.000 | 0.118 | 0.029 | 0.131 | 0.059 | 0.161 | 0.240 | 0.097 |
marital-status | 0.282 | 0.037 | 0.059 | 0.089 | 0.077 | 0.023 | 0.118 | 1.000 | 0.064 | 0.130 | 0.083 | 0.488 | 0.462 | 0.076 |
native-country | 0.030 | 0.000 | 0.000 | 0.129 | 0.142 | 0.055 | 0.029 | 0.064 | 1.000 | 0.068 | 0.421 | 0.078 | 0.056 | 0.030 |
occupation | 0.096 | 0.070 | 0.033 | 0.196 | 0.225 | 0.019 | 0.131 | 0.130 | 0.068 | 1.000 | 0.080 | 0.177 | 0.434 | 0.215 |
race | 0.027 | 0.008 | 0.011 | 0.072 | 0.069 | 0.066 | 0.059 | 0.083 | 0.421 | 0.080 | 1.000 | 0.097 | 0.118 | 0.055 |
relationship | 0.273 | 0.043 | 0.064 | 0.121 | 0.108 | 0.017 | 0.161 | 0.488 | 0.078 | 0.177 | 0.097 | 1.000 | 0.649 | 0.089 |
sex | 0.123 | 0.048 | 0.071 | 0.093 | 0.072 | 0.028 | 0.240 | 0.462 | 0.056 | 0.434 | 0.118 | 0.649 | 1.000 | 0.143 |
workclass | 0.092 | 0.051 | 0.023 | 0.100 | 0.092 | 0.023 | 0.097 | 0.076 | 0.030 | 0.215 | 0.055 | 0.089 | 0.143 | 1.000 |
缺失值
按列显示空值情况的简单可视化。
空值矩阵是一种数据密集型显示,可以快速直观地发现数据完整性中的模式。
相关性热力图衡量空值相关性:一个变量的存在或缺失对另一个变量的存在影响有多大。
样本
age | workclass | fnlwgt | education | education-num | marital-status | occupation | relationship | race | sex | capital-gain | capital-loss | hours-per-week | native-country | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 39 | 州政府 | 77516 | 学士 | 13 | 未婚 | 行政文职 | 非家庭成员 | 白人 | 男性 | 2174 | 0 | 40 | 美国 |
1 | 50 | 自雇人士(非法人) | 83311 | 学士 | 13 | 已婚(民用配偶) | 行政管理 | 丈夫 | 白人 | 男性 | 0 | 0 | 13 | 美国 |
2 | 38 | 私营 | 215646 | 高中毕业 | 9 | 离婚 | 搬运工-清洁工 | 非家庭成员 | 白人 | 男性 | 0 | 0 | 40 | 美国 |
3 | 53 | 私营 | 234721 | 11年级 | 7 | 已婚(民用配偶) | 搬运工-清洁工 | 丈夫 | 黑人 | 男性 | 0 | 0 | 40 | 美国 |
4 | 28 | 私营 | 338409 | 学士 | 13 | 已婚(民用配偶) | 专业特长 | 妻子 | 黑人 | 女性 | 0 | 0 | 40 | 古巴 |
5 | 37 | 私营 | 284582 | 硕士 | 14 | 已婚(民用配偶) | 行政管理 | 妻子 | 白人 | 女性 | 0 | 0 | 40 | 美国 |
6 | 49 | 私营 | 160187 | 9年级 | 5 | 已婚(配偶不在场) | 其他服务 | 非家庭成员 | 黑人 | 女性 | 0 | 0 | 16 | 牙买加 |
7 | 52 | 自雇人士(非法人) | 209642 | 高中毕业 | 9 | 已婚(民用配偶) | 行政管理 | 丈夫 | 白人 | 男性 | 0 | 0 | 45 | 美国 |
8 | 31 | 私营 | 45781 | 硕士 | 14 | 未婚 | 专业特长 | 非家庭成员 | 白人 | 女性 | 14084 | 0 | 50 | 美国 |
9 | 42 | 私营 | 159449 | 学士 | 13 | 已婚(民用配偶) | 行政管理 | 丈夫 | 白人 | 男性 | 5178 | 0 | 40 | 美国 |
age | workclass | fnlwgt | education | education-num | marital-status | occupation | relationship | race | sex | capital-gain | capital-loss | hours-per-week | native-country | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
32551 | 32 | 私营 | 34066 | 10年级 | 6 | 已婚(民用配偶) | 搬运工-清洁工 | 丈夫 | 印第安人-爱斯基摩人 | 男性 | 0 | 0 | 40 | 美国 |
32552 | 43 | 私营 | 84661 | 专科(职业) | 11 | 已婚(民用配偶) | 销售 | 丈夫 | 白人 | 男性 | 0 | 0 | 45 | 美国 |
32553 | 32 | 私营 | 116138 | 硕士 | 14 | 未婚 | 技术支持 | 非家庭成员 | 亚裔太平洋岛民 | 男性 | 0 | 0 | 11 | 台湾 |
32554 | 53 | 私营 | 321865 | 硕士 | 14 | 已婚(民用配偶) | 行政管理 | 丈夫 | 白人 | 男性 | 0 | 0 | 40 | 美国 |
32555 | 22 | 私营 | 310152 | 大学在读 | 10 | 未婚 | 保护服务 | 非家庭成员 | 白人 | 男性 | 0 | 0 | 40 | 美国 |
32556 | 27 | 私营 | 257302 | 专科(学术) | 12 | 已婚(民用配偶) | 技术支持 | 妻子 | 白人 | 女性 | 0 | 0 | 38 | 美国 |
32557 | 40 | 私营 | 154374 | 高中毕业 | 9 | 已婚(民用配偶) | 机械操作员-检查员 | 丈夫 | 白人 | 男性 | 0 | 0 | 40 | 美国 |
32558 | 58 | 私营 | 151910 | 高中毕业 | 9 | 丧偶 | 行政文职 | 未婚者 | 白人 | 女性 | 0 | 0 | 40 | 美国 |
32559 | 22 | 私营 | 201490 | 高中毕业 | 9 | 未婚 | 行政文职 | 子女 | 白人 | 男性 | 0 | 0 | 20 | 美国 |
32560 | 52 | 自雇人士(法人) | 287927 | 高中毕业 | 9 | 已婚(民用配偶) | 行政管理 | 妻子 | 白人 | 女性 | 15024 | 0 | 40 | 美国 |
重复行
最常出现的值
age | workclass | fnlwgt | education | education-num | marital-status | occupation | relationship | race | sex | capital-gain | capital-loss | hours-per-week | native-country | 重复数量 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
8 | 25 | 私营 | 195994 | 1-4年级 | 2 | 未婚 | 私人家庭服务 | 非家庭成员 | 白人 | 女性 | 0 | 0 | 40 | 危地马拉 | 3 |
0 | 19 | 私营 | 97261 | 高中毕业 | 9 | 未婚 | 农林渔业 | 非家庭成员 | 白人 | 男性 | 0 | 0 | 40 | 美国 | 2 |
1 | 19 | 私营 | 138153 | 大学在读 | 10 | 未婚 | 行政文职 | 子女 | 白人 | 女性 | 0 | 0 | 10 | 美国 | 2 |
2 | 19 | 私营 | 146679 | 大学在读 | 10 | 未婚 | 行政管理 | 子女 | 黑人 | 男性 | 0 | 0 | 30 | 美国 | 2 |
3 | 19 | 私营 | 251579 | 大学在读 | 10 | 未婚 | 其他服务 | 子女 | 白人 | 男性 | 0 | 0 | 14 | 美国 | 2 |
4 | 20 | 私营 | 107658 | 大学在读 | 10 | 未婚 | 技术支持 | 非家庭成员 | 白人 | 女性 | 0 | 0 | 10 | 美国 | 2 |
5 | 21 | 私营 | 243368 | 学前班 | 1 | 未婚 | 农林渔业 | 非家庭成员 | 白人 | 男性 | 0 | 0 | 50 | 墨西哥 | 2 |
6 | 21 | 私营 | 250051 | 大学在读 | 10 | 未婚 | 专业特长 | 子女 | 白人 | 女性 | 0 | 0 | 10 | 美国 | 2 |
7 | 23 | 私营 | 240137 | 5-6年级 | 3 | 未婚 | 搬运工-清洁工 | 非家庭成员 | 白人 | 男性 | 0 | 0 | 55 | 墨西哥 | 2 |
9 | 25 | 私营 | 308144 | 学士 | 13 | 未婚 | 工艺维修 | 非家庭成员 | 白人 | 男性 | 0 | 0 | 40 | 墨西哥 | 2 |