概览

YData 提供

数据集统计

变量数量14
观测数量32561
缺失单元格4262
缺失单元格 (%)0.9%
重复行24
重复行 (%)0.1%
内存总大小18.1 MiB
平均记录内存大小583.0 B

变量类型

数值型6
分类型8

数据集

描述根据人口普查数据预测年收入是否超过5万美元。也称为“人口普查收入”数据集。数据由 Barry Becker 从1994年的人口普查数据库中提取。使用以下条件提取了一组相对干净的记录:((AAGE>16) && (AGI>100) && (AFNLWGT>1)&& (HRSWK>0))。预测任务是判断一个人年收入是否超过5万美元。
创建者Barry Becker
作者Ronny Kohavi 和 Barry Becker
URLhttps://archive.ics.uci.edu/ml/datasets/adult

变量描述

age定义 0
workclass定义 1
fnlwgt定义 2
education定义 3
education-num定义 4
marital-status定义 5
occupation定义 6
relationship定义 7
race定义 8
sex定义 9
capital-gain定义 10
capital-loss定义 11
hours-per-week定义 12
native-country定义 13

警告

数据集有 24 (0.1%) 重复行重复
educationeducation-num 总体高度相关高相关性
education-numeducation 总体高度相关高相关性
relationshipsex 总体高度相关高相关性
sexrelationship 总体高度相关高相关性
workclass 极度不平衡 (52.8%)不平衡
race 极度不平衡 (65.6%)不平衡
native-country 极度不平衡 (84.5%)不平衡
workclass 有 1836 (5.6%) 个缺失值缺失
occupation 有 1843 (5.7%) 个缺失值缺失
native-country 有 583 (1.8%) 个缺失值缺失
capital-gain 有 29849 (91.7%) 个零值零值
capital-loss 有 31042 (95.3%) 个零值零值

重现

分析开始2025-03-26 00:46:00.392880
分析完成2025-03-26 00:46:04.653175
持续时间4.26 秒
软件版本ydata-profiling v0.0.dev0
下载配置config.json

变量

age
实数 (ℝ)

唯一值73
唯一值 (%)0.2%
缺失0
缺失 (%)0.0%
无穷大0
无穷大 (%)0.0%
均值38.581647
最小值17
最大值90
零值0
零值 (%)0.0%
负数0
负数 (%)0.0%
内存大小254.5 KiB
2025-03-26T00:46:04.706089image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/

分位数统计

最小值17
第5百分位数19
Q128
中位数37
Q348
第95百分位数63
最大值90
范围73
四分位距 (IQR)20

描述性统计

标准差13.640433
变异系数 (CV)0.35354718
峰度-0.16612746
均值38.581647
中位数绝对偏差 (MAD)10
偏度0.55874337
求和1256257
方差186.0614
单调性非单调
2025-03-26T00:46:04.803098image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
固定大小分箱直方图 (bins=50)
计数频率 (%)
36 898
 
2.8%
31 888
 
2.7%
34 886
 
2.7%
23 877
 
2.7%
35 876
 
2.7%
33 875
 
2.7%
28 867
 
2.7%
30 861
 
2.6%
37 858
 
2.6%
25 841
 
2.6%
其他值 (63)23834
73.2%
计数频率 (%)
17 395
1.2%
18 550
1.7%
19 712
2.2%
20 753
2.3%
21 720
2.2%
22 765
2.3%
23 877
2.7%
24 798
2.5%
25 841
2.6%
26 785
2.4%
计数频率 (%)
90 43
0.1%
88 3
 
< 0.1%
87 1
 
< 0.1%
86 1
 
< 0.1%
85 3
 
< 0.1%
84 10
 
< 0.1%
83 6
 
< 0.1%
82 12
 
< 0.1%
81 20
0.1%
80 22
0.1%

workclass
分类型

不平衡  缺失 

唯一值8
唯一值 (%)< 0.1%
缺失1836
缺失 (%)5.6%
内存大小2.1 MiB
私营
22696 
自雇人士(非法人)
2541 
地方政府
 
2093
州政府
 
1298
自雇人士(法人)
 
1116
其他值 (3)
 
981

长度

最大长度17
中位数长度8
平均长度9.2745972
最小长度8

字符与 Unicode

总字符数284962
唯一字符数28
唯一类别数1 ?
唯一书写系统数1 ?
唯一 Unicode 区块数1 ?
Unicode 标准为每个码点分配字符属性,这可用于分析文本变量。

唯一

唯一0 ?
唯一 (%)0.0%

样本

第1行州政府
第2行自雇人士(非法人)
第3行私营
第4行私营
第5行私营

常见值

计数频率 (%)
私营22696
69.7%
自雇人士(非法人)2541
 
7.8%
地方政府2093
 
6.4%
州政府1298
 
4.0%
自雇人士(法人)1116
 
3.4%
联邦政府960
 
2.9%
无报酬14
 
< 0.1%
从未工作7
 
< 0.1%
(缺失)1836
 
5.6%

长度

2025-03-26T00:46:05.013416image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
类别长度直方图

常见值 (图示)

2025-03-26T00:46:05.074780image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
计数频率 (%)
私营22696
73.9%
自雇人士(非法人)2541
 
8.3%
地方政府2093
 
6.8%
州政府1298
 
4.2%
自雇人士(法人)1116
 
3.6%
联邦政府960
 
3.1%
无报酬14
 
< 0.1%
从未工作7
 
< 0.1%

最常出现的字符

计数频率 (%)
e33249
11.7%
30725
10.8%
t27861
9.8%
a27061
9.5%
v27054
9.5%
i26367
9.3%
r23670
8.3%
P22696
8.0%
- 14227
 
5.0%
o9006
 
3.2%
其他值 (18)43046
15.1%

最常出现的类别

计数频率 (%)
(未知)284962
100.0%

每类别最常出现的字符

(未知)
计数频率 (%)
e33249
11.7%
30725
10.8%
t27861
9.8%
a27061
9.5%
v27054
9.5%
i26367
9.3%
r23670
8.3%
P22696
8.0%
- 14227
 
5.0%
o9006
 
3.2%
其他值 (18)43046
15.1%

最常出现的书写系统

计数频率 (%)
(未知)284962
100.0%

每书写系统最常出现的字符

(未知)
计数频率 (%)
e33249
11.7%
30725
10.8%
t27861
9.8%
a27061
9.5%
v27054
9.5%
i26367
9.3%
r23670
8.3%
P22696
8.0%
- 14227
 
5.0%
o9006
 
3.2%
其他值 (18)43046
15.1%

最常出现的区块

计数频率 (%)
(未知)284962
100.0%

每区块最常出现的字符

(未知)
计数频率 (%)
e33249
11.7%
30725
10.8%
t27861
9.8%
a27061
9.5%
v27054
9.5%
i26367
9.3%
r23670
8.3%
P22696
8.0%
- 14227
 
5.0%
o9006
 
3.2%
其他值 (18)43046
15.1%

fnlwgt
实数 (ℝ)

唯一值21648
唯一值 (%)66.5%
缺失0
缺失 (%)0.0%
无穷大0
无穷大 (%)0.0%
均值189778.37
最小值12285
最大值1484705
零值0
零值 (%)0.0%
负数0
负数 (%)0.0%
内存大小254.5 KiB
2025-03-26T00:46:05.167035image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/

分位数统计

最小值12285
第5百分位数39460
Q1117827
中位数178356
Q3237051
第95百分位数379682
最大值1484705
范围1472420
四分位距 (IQR)119224

描述性统计

标准差105549.98
变异系数 (CV)0.55617497
峰度6.218811
均值189778.37
中位数绝对偏差 (MAD)59894
偏度1.4469801
求和6.1793734 × 109
方差1.1140798 × 1010
单调性非单调
2025-03-26T00:46:05.261800image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
固定大小分箱直方图 (bins=50)
计数频率 (%)
164190 13
 
< 0.1%
203488 13
 
< 0.1%
123011 13
 
< 0.1%
113364 12
 
< 0.1%
121124 12
 
< 0.1%
148995 12
 
< 0.1%
126675 12
 
< 0.1%
188246 11
 
< 0.1%
155659 11
 
< 0.1%
102308 11
 
< 0.1%
其他值 (21638)32441
99.6%
计数频率 (%)
12285 1
 
< 0.1%
13769 1
 
< 0.1%
14878 1
 
< 0.1%
18827 1
 
< 0.1%
19214 1
 
< 0.1%
19302 5
< 0.1%
19395 2
 
< 0.1%
19410 1
 
< 0.1%
19491 1
 
< 0.1%
19520 1
 
< 0.1%
计数频率 (%)
1484705 1
< 0.1%
1455435 1
< 0.1%
1366120 1
< 0.1%
1268339 1
< 0.1%
1226583 1
< 0.1%
1184622 1
< 0.1%
1161363 1
< 0.1%
1125613 1
< 0.1%
1097453 1
< 0.1%
1085515 1
< 0.1%

education
分类型

高相关性 

唯一值16
唯一值 (%)< 0.1%
缺失0
缺失 (%)0.0%
内存大小2.1 MiB
高中毕业
10501 
大学在读
7291 
学士
5355 
硕士
1723 
专科(职业)
1382 
其他值 (11)
6309 

长度

最大长度13
中位数长度12
平均长度9.433709
最小长度4

字符与 Unicode

总字符数307171
唯一字符数32
唯一类别数1 ?
唯一书写系统数1 ?
唯一 Unicode 区块数1 ?
Unicode 标准为每个码点分配字符属性,这可用于分析文本变量。

唯一

唯一0 ?
唯一 (%)0.0%

样本

第1行学士
第2行学士
第3行高中毕业
第4行11年级
第5行学士

常见值

计数频率 (%)
高中毕业10501
32.3%
大学在读7291
22.4%
学士5355
16.4%
硕士1723
 
5.3%
专科(职业)1382
 
4.2%
11年级1175
 
3.6%
专科(学术)1067
 
3.3%
10年级933
 
2.9%
7-8年级646
 
2.0%
职业学校576
 
1.8%
其他值 (6)1912
 
5.9%

长度

2025-03-26T00:46:05.350694image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
类别长度直方图
计数频率 (%)
高中毕业10501
32.3%
大学在读7291
22.4%
学士5355
16.4%
硕士1723
 
5.3%
专科(职业)1382
 
4.2%
11年级1175
 
3.6%
专科(学术)1067
 
3.3%
10年级933
 
2.9%
7-8年级646
 
2.0%
职业学校576
 
1.8%
其他值 (6)1912
 
5.9%

最常出现的字符

计数频率 (%)
32561
 
10.6%
e29415
 
9.6%
o26424
 
8.6%
- 21964
 
7.2%
l20564
 
6.7%
a19059
 
6.2%
r18619
 
6.1%
c18584
 
6.1%
S17792
 
5.8%
g17792
 
5.8%
其他值 (22)84397
27.5%

最常出现的类别

计数频率 (%)
(未知)307171
100.0%

每类别最常出现的字符

(未知)
计数频率 (%)
32561
 
10.6%
e29415
 
9.6%
o26424
 
8.6%
- 21964
 
7.2%
l20564
 
6.7%
a19059
 
6.2%
r18619
 
6.1%
c18584
 
6.1%
S17792
 
5.8%
g17792
 
5.8%
其他值 (22)84397
27.5%

最常出现的书写系统

计数频率 (%)
(未知)307171
100.0%

每书写系统最常出现的字符

(未知)
计数频率 (%)
32561
 
10.6%
e29415
 
9.6%
o26424
 
8.6%
- 21964
 
7.2%
l20564
 
6.7%
a19059
 
6.2%
r18619
 
6.1%
c18584
 
6.1%
S17792
 
5.8%
g17792
 
5.8%
其他值 (22)84397
27.5%

最常出现的区块

计数频率 (%)
(未知)307171
100.0%

每区块最常出现的字符

(未知)
计数频率 (%)
32561
 
10.6%
e29415
 
9.6%
o26424
 
8.6%
- 21964
 
7.2%
l20564
 
6.7%
a19059
 
6.2%
r18619
 
6.1%
c18584
 
6.1%
S17792
 
5.8%
g17792
 
5.8%
其他值 (22)84397
27.5%

education-num
实数 (ℝ)

高相关性 

唯一值16
唯一值 (%)< 0.1%
缺失0
缺失 (%)0.0%
无穷大0
无穷大 (%)0.0%
均值10.080679
最小值1
最大值16
零值0
零值 (%)0.0%
负数0
负数 (%)0.0%
内存大小254.5 KiB
2025-03-26T00:46:05.411657image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/

分位数统计

最小值1
第5百分位数5
Q19
中位数10
Q312
第95百分位数14
最大值16
范围15
四分位距 (IQR)3

描述性统计

标准差2.5727203
变异系数 (CV)0.25521299
峰度0.62344407
均值10.080679
中位数绝对偏差 (MAD)1
偏度-0.31167587
求和328237
方差6.6188899
单调性非单调
2025-03-26T00:46:05.475838image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
固定大小分箱直方图 (bins=16)
计数频率 (%)
9 10501
32.3%
10 7291
22.4%
13 5355
16.4%
14 1723
 
5.3%
11 1382
 
4.2%
7 1175
 
3.6%
12 1067
 
3.3%
6 933
 
2.9%
4 646
 
2.0%
15 576
 
1.8%
其他值 (6)1912
 
5.9%
计数频率 (%)
1 51
 
0.2%
2 168
 
0.5%
3 333
 
1.0%
4 646
 
2.0%
5 514
 
1.6%
6 933
 
2.9%
7 1175
 
3.6%
8 433
 
1.3%
9 10501
32.3%
10 7291
22.4%
计数频率 (%)
16 413
 
1.3%
15 576
 
1.8%
14 1723
 
5.3%
13 5355
16.4%
12 1067
 
3.3%
11 1382
 
4.2%
10 7291
22.4%
9 10501
32.3%
8 433
 
1.3%
7 1175
 
3.6%
唯一值7
唯一值 (%)< 0.1%
缺失0
缺失 (%)0.0%
内存大小2.2 MiB
已婚(民用配偶)
14976 
未婚
10683 
离婚
4443 
分居
 
1025
丧偶
 
993
其他值 (2)
 
441

长度

最大长度22
中位数长度19
平均长度15.414054
最小长度8

字符与 Unicode

总字符数501897
唯一字符数25
唯一类别数1 ?
唯一书写系统数1 ?
唯一 Unicode 区块数1 ?
Unicode 标准为每个码点分配字符属性,这可用于分析文本变量。

唯一

唯一0 ?
唯一 (%)0.0%

样本

第1行未婚
第2行已婚(民用配偶)
第3行离婚
第4行已婚(民用配偶)
第5行已婚(民用配偶)

常见值

计数频率 (%)
已婚(民用配偶)14976
46.0%
未婚10683
32.8%
离婚4443
 
13.6%
分居1025
 
3.1%
丧偶993
 
3.0%
已婚(配偶不在场)418
 
1.3%
已婚(武装部队配偶)23
 
0.1%

长度

2025-03-26T00:46:05.556044image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
类别长度直方图

常见值 (图示)

2025-03-26T00:46:05.622737image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
计数频率 (%)
已婚(民用配偶)14976
46.0%
未婚10683
32.8%
离婚4443
 
13.6%
分居1025
 
3.1%
丧偶993
 
3.0%
已婚(配偶不在场)418
 
1.3%
已婚(武装部队配偶)23
 
0.1%

最常出现的字符

计数频率 (%)
e70787
14.1%
r68351
13.6%
i46512
9.3%
- 41517
8.3%
d33554
 
6.7%
32561
 
6.5%
s31252
 
6.2%
v30102
 
6.0%
a28568
 
5.7%
o20853
 
4.2%
其他值 (15)97840
19.5%

最常出现的类别

计数频率 (%)
(未知)501897
100.0%

每类别最常出现的字符

(未知)
计数频率 (%)
e70787
14.1%
r68351
13.6%
i46512
9.3%
- 41517
8.3%
d33554
 
6.7%
32561
 
6.5%
s31252
 
6.2%
v30102
 
6.0%
a28568
 
5.7%
o20853
 
4.2%
其他值 (15)97840
19.5%

最常出现的书写系统

计数频率 (%)
(未知)501897
100.0%

每书写系统最常出现的字符

(未知)
计数频率 (%)
e70787
14.1%
r68351
13.6%
i46512
9.3%
- 41517
8.3%
d33554
 
6.7%
32561
 
6.5%
s31252
 
6.2%
v30102
 
6.0%
a28568
 
5.7%
o20853
 
4.2%
其他值 (15)97840
19.5%

最常出现的区块

计数频率 (%)
(未知)501897
100.0%

每区块最常出现的字符

(未知)
计数频率 (%)
e70787
14.1%
r68351
13.6%
i46512
9.3%
- 41517
8.3%
d33554
 
6.7%
32561
 
6.5%
s31252
 
6.2%
v30102
 
6.0%
a28568
 
5.7%
o20853
 
4.2%
其他值 (15)97840
19.5%

occupation
分类型

缺失 

唯一值14
唯一值 (%)< 0.1%
缺失1843
缺失 (%)5.7%
内存大小2.2 MiB
专业特长
4140 
工艺维修
4099 
行政管理
4066 
行政文职
3770 
销售
3650 
其他值 (9)
10993 

长度

最大长度18
中位数长度16
平均长度13.873983
最小长度6

字符与 Unicode

总字符数426181
唯一字符数32
唯一类别数1 ?
唯一书写系统数1 ?
唯一 Unicode 区块数1 ?
Unicode 标准为每个码点分配字符属性,这可用于分析文本变量。

唯一

唯一0 ?
唯一 (%)0.0%

样本

第1行行政文职
第2行行政管理
第3行搬运工-清洁工
第4行搬运工-清洁工
第5行专业特长

常见值

计数频率 (%)
专业特长4140
12.7%
工艺维修4099
12.6%
行政管理4066
12.5%
行政文职3770
11.6%
销售3650
11.2%
其他服务3295
10.1%
机械操作员-检查员2002
6.1%
运输-搬家1597
 
4.9%
搬运工-清洁工1370
 
4.2%
农林渔业994
 
3.1%
其他值 (4)1735
5.3%
(缺失)1843
5.7%

长度

2025-03-26T00:46:05.710030image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
类别长度直方图
计数频率 (%)
专业特长4140
13.5%
工艺维修4099
13.3%
行政管理4066
13.2%
行政文职3770
12.3%
销售3650
11.9%
其他服务3295
10.7%
机械操作员-检查员2002
6.5%
运输-搬家1597
 
5.2%
搬运工-清洁工1370
 
4.5%
农林渔业994
 
3.2%
其他值 (4)1735
5.6%

最常出现的字符

计数频率 (%)
e42979
 
10.1%
r40333
 
9.5%
a39289
 
9.2%
30718
 
7.2%
- 29219
 
6.9%
i28751
 
6.7%
c26001
 
6.1%
l22136
 
5.2%
s20302
 
4.8%
t17359
 
4.1%
其他值 (22)129094
30.3%

最常出现的类别

计数频率 (%)
(未知)426181
100.0%

每类别最常出现的字符

(未知)
计数频率 (%)
e42979
 
10.1%
r40333
 
9.5%
a39289
 
9.2%
30718
 
7.2%
- 29219
 
6.9%
i28751
 
6.7%
c26001
 
6.1%
l22136
 
5.2%
s20302
 
4.8%
t17359
 
4.1%
其他值 (22)129094
30.3%

最常出现的书写系统

计数频率 (%)
(未知)426181
100.0%

每书写系统最常出现的字符

(未知)
计数频率 (%)
e42979
 
10.1%
r40333
 
9.5%
a39289
 
9.2%
30718
 
7.2%
- 29219
 
6.9%
i28751
 
6.7%
c26001
 
6.1%
l22136
 
5.2%
s20302
 
4.8%
t17359
 
4.1%
其他值 (22)129094
30.3%

最常出现的区块

计数频率 (%)
(未知)426181
100.0%

每区块最常出现的字符

(未知)
计数频率 (%)
e42979
 
10.1%
r40333
 
9.5%
a39289
 
9.2%
30718
 
7.2%
- 29219
 
6.9%
i28751
 
6.7%
c26001
 
6.1%
l22136
 
5.2%
s20302
 
4.8%
t17359
 
4.1%
其他值 (22)129094
30.3%

relationship
分类型

高相关性 

唯一值6
唯一值 (%)< 0.1%
缺失0
缺失 (%)0.0%
内存大小2.1 MiB
丈夫
13193 
非家庭成员
8305 
子女
5068 
未婚者
3446 
妻子
1568 

长度

最大长度15
中位数长度14
平均长度10.119744
最小长度5

字符与 Unicode

总字符数329509
唯一字符数26
唯一类别数1 ?
唯一书写系统数1 ?
唯一 Unicode 区块数1 ?
Unicode 标准为每个码点分配字符属性,这可用于分析文本变量。

唯一

唯一0 ?
唯一 (%)0.0%

样本

第1行非家庭成员
第2行丈夫
第3行非家庭成员
第4行丈夫
第5行妻子

常见值

计数频率 (%)
丈夫13193
40.5%
非家庭成员8305
25.5%
子女5068
 
15.6%
未婚者3446
 
10.6%
妻子1568
 
4.8%
其他亲属981
 
3.0%

长度

2025-03-26T00:46:05.783388image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
类别长度直方图

常见值 (图示)

2025-03-26T00:46:05.840862image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
计数频率 (%)
丈夫13193
40.5%
非家庭成员8305
25.5%
子女5068
 
15.6%
未婚者3446
 
10.6%
妻子1568
 
4.8%
其他亲属981
 
3.0%

最常出现的字符

计数频率 (%)
32561
 
9.9%
n30012
 
9.1%
i27673
 
8.4%
a25925
 
7.9%
- 22659
 
6.9%
d21707
 
6.6%
l14354
 
4.4%
b13193
 
4.0%
H13193
 
4.0%
u13193
 
4.0%
其他值 (16)115039
34.9%

最常出现的类别

计数频率 (%)
(未知)329509
100.0%

每类别最常出现的字符

(未知)
计数频率 (%)
32561
 
9.9%
n30012
 
9.1%
i27673
 
8.4%
a25925
 
7.9%
- 22659
 
6.9%
d21707
 
6.6%
l14354
 
4.4%
b13193
 
4.0%
H13193
 
4.0%
u13193
 
4.0%
其他值 (16)115039
34.9%

最常出现的书写系统

计数频率 (%)
(未知)329509
100.0%

每书写系统最常出现的字符

(未知)
计数频率 (%)
32561
 
9.9%
n30012
 
9.1%
i27673
 
8.4%
a25925
 
7.9%
- 22659
 
6.9%
d21707
 
6.6%
l14354
 
4.4%
b13193
 
4.0%
H13193
 
4.0%
u13193
 
4.0%
其他值 (16)115039
34.9%

最常出现的区块

计数频率 (%)
(未知)329509
100.0%

每区块最常出现的字符

(未知)
计数频率 (%)
32561
 
9.9%
n30012
 
9.1%
i27673
 
8.4%
a25925
 
7.9%
- 22659
 
6.9%
d21707
 
6.6%
l14354
 
4.4%
b13193
 
4.0%
H13193
 
4.0%
u13193
 
4.0%
其他值 (16)115039
34.9%

race
分类型

不平衡 

唯一值5
唯一值 (%)< 0.1%
缺失0
缺失 (%)0.0%
内存大小2.0 MiB
白人
27816 
黑人
3124 
亚裔太平洋岛民
 
1039
印第安人-爱斯基摩人
 
311
其他
 
271

长度

最大长度19
中位数长度6
平均长度6.5389884
最小长度6

字符与 Unicode

总字符数212916
唯一字符数23
唯一类别数1 ?
唯一书写系统数1 ?
唯一 Unicode 区块数1 ?
Unicode 标准为每个码点分配字符属性,这可用于分析文本变量。

唯一

唯一0 ?
唯一 (%)0.0%

样本

第1行白人
第2行白人
第3行白人
第4行黑人
第5行黑人

常见值

计数频率 (%)
白人27816
85.4%
黑人3124
 
9.6%
亚裔太平洋岛民1039
 
3.2%
印第安人-爱斯基摩人311
 
1.0%
其他271
 
0.8%

长度

2025-03-26T00:46:05.923188image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
类别长度直方图

常见值 (图示)

2025-03-26T00:46:05.977787image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
计数频率 (%)
白人27816
85.4%
黑人3124
 
9.6%
亚裔太平洋岛民1039
 
3.2%
印第安人-爱斯基摩人311
 
1.0%
其他271
 
0.8%

最常出现的字符

计数频率 (%)
32561
15.3%
i29477
13.8%
e29437
13.8%
t28087
13.2%
h28087
13.2%
W27816
13.1%
a6552
 
3.1%
c4163
 
2.0%
l4163
 
2.0%
k3435
 
1.6%
其他值 (13)19138
9.0%

最常出现的类别

计数频率 (%)
(未知)212916
100.0%

每类别最常出现的字符

(未知)
计数频率 (%)
32561
15.3%
i29477
13.8%
e29437
13.8%
t28087
13.2%
h28087
13.2%
W27816
13.1%
a6552
 
3.1%
c4163
 
2.0%
l4163
 
2.0%
k3435
 
1.6%
其他值 (13)19138
9.0%

最常出现的书写系统

计数频率 (%)
(未知)212916
100.0%

每书写系统最常出现的字符

(未知)
计数频率 (%)
32561
15.3%
i29477
13.8%
e29437
13.8%
t28087
13.2%
h28087
13.2%
W27816
13.1%
a6552
 
3.1%
c4163
 
2.0%
l4163
 
2.0%
k3435
 
1.6%
其他值 (13)19138
9.0%

最常出现的区块

计数频率 (%)
(未知)212916
100.0%

每区块最常出现的字符

(未知)
计数频率 (%)
32561
15.3%
i29477
13.8%
e29437
13.8%
t28087
13.2%
h28087
13.2%
W27816
13.1%
a6552
 
3.1%
c4163
 
2.0%
l4163
 
2.0%
k3435
 
1.6%
其他值 (13)19138
9.0%

sex
分类型

高相关性 

唯一值2
唯一值 (%)< 0.1%
缺失0
缺失 (%)0.0%
内存大小1.9 MiB
男性
21790 
女性
10771 

长度

最大长度7
中位数长度5
平均长度5.661589
最小长度5

字符与 Unicode

总字符数184347
唯一字符数7
唯一类别数1 ?
唯一书写系统数1 ?
唯一 Unicode 区块数1 ?
Unicode 标准为每个码点分配字符属性,这可用于分析文本变量。

唯一

唯一0 ?
唯一 (%)0.0%

样本

第1行男性
第2行男性
第3行男性
第4行男性
第5行女性

常见值

计数频率 (%)
男性21790
66.9%
女性10771
33.1%

长度

2025-03-26T00:46:06.049728image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
类别长度直方图

常见值 (图示)

2025-03-26T00:46:06.098342image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
计数频率 (%)
男性21790
66.9%
女性10771
33.1%

最常出现的字符

计数频率 (%)
e43332
23.5%
a32561
17.7%
32561
17.7%
l32561
17.7%
M21790
11.8%
F10771
 
5.8%
m10771
 
5.8%

最常出现的类别

计数频率 (%)
(未知)184347
100.0%

每类别最常出现的字符

(未知)
计数频率 (%)
e43332
23.5%
a32561
17.7%
32561
17.7%
l32561
17.7%
M21790
11.8%
F10771
 
5.8%
m10771
 
5.8%

最常出现的书写系统

计数频率 (%)
(未知)184347
100.0%

每书写系统最常出现的字符

(未知)
计数频率 (%)
e43332
23.5%
a32561
17.7%
32561
17.7%
l32561
17.7%
M21790
11.8%
F10771
 
5.8%
m10771
 
5.8%

最常出现的区块

计数频率 (%)
(未知)184347
100.0%

每区块最常出现的字符

(未知)
计数频率 (%)
e43332
23.5%
a32561
17.7%
32561
17.7%
l32561
17.7%
M21790
11.8%
F10771
 
5.8%
m10771
 
5.8%

capital-gain
实数 (ℝ)

零值 

唯一值119
唯一值 (%)0.4%
缺失0
缺失 (%)0.0%
无穷大0
无穷大 (%)0.0%
均值1077.6488
最小值0
最大值99999
零值29849
零值 (%)91.7%
负数0
负数 (%)0.0%
内存大小254.5 KiB
2025-03-26T00:46:06.164487image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/

分位数统计

最小值0
第5百分位数0
Q10
中位数0
Q30
第95百分位数5013
最大值99999
范围99999
四分位距 (IQR)0

描述性统计

标准差7385.2921
变异系数 (CV)6.8531527
峰度154.79944
均值1077.6488
中位数绝对偏差 (MAD)0
偏度11.953848
求和35089324
方差54542539
单调性非单调
2025-03-26T00:46:06.261312image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
固定大小分箱直方图 (bins=50)
计数频率 (%)
0 29849
91.7%
15024 347
 
1.1%
7688 284
 
0.9%
7298 246
 
0.8%
99999 159
 
0.5%
3103 97
 
0.3%
5178 97
 
0.3%
4386 70
 
0.2%
5013 69
 
0.2%
8614 55
 
0.2%
其他值 (109)1288
 
4.0%
计数频率 (%)
0 29849
91.7%
114 6
 
< 0.1%
401 2
 
< 0.1%
594 34
 
0.1%
914 8
 
< 0.1%
991 5
 
< 0.1%
1055 25
 
0.1%
1086 4
 
< 0.1%
1111 1
 
< 0.1%
1151 8
 
< 0.1%
计数频率 (%)
99999 159
0.5%
41310 2
 
< 0.1%
34095 5
 
< 0.1%
27828 34
 
0.1%
25236 11
 
< 0.1%
25124 4
 
< 0.1%
22040 1
 
< 0.1%
20051 37
 
0.1%
18481 2
 
< 0.1%
15831 6
 
< 0.1%

capital-loss
实数 (ℝ)

零值 

唯一值92
唯一值 (%)0.3%
缺失0
缺失 (%)0.0%
无穷大0
无穷大 (%)0.0%
均值87.30383
最小值0
最大值4356
零值31042
零值 (%)95.3%
负数0
负数 (%)0.0%
内存大小254.5 KiB
2025-03-26T00:46:06.354421image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/

分位数统计

最小值0
第5百分位数0
Q10
中位数0
Q30
第95百分位数0
最大值4356
范围4356
四分位距 (IQR)0

描述性统计

标准差402.96022
变异系数 (CV)4.6156076
峰度20.376802
均值87.30383
中位数绝对偏差 (MAD)0
偏度4.5946291
求和2842700
方差162376.94
单调性非单调
2025-03-26T00:46:06.444932image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
固定大小分箱直方图 (bins=50)
计数频率 (%)
0 31042
95.3%
1902 202
 
0.6%
1977 168
 
0.5%
1887 159
 
0.5%
1485 51
 
0.2%
1848 51
 
0.2%
2415 49
 
0.2%
1602 47
 
0.1%
1740 42
 
0.1%
1590 40
 
0.1%
其他值 (82)710
 
2.2%
计数频率 (%)
0 31042
95.3%
155 1
 
< 0.1%
213 4
 
< 0.1%
323 3
 
< 0.1%
419 3
 
< 0.1%
625 12
 
< 0.1%
653 3
 
< 0.1%
810 2
 
< 0.1%
880 6
 
< 0.1%
974 2
 
< 0.1%
计数频率 (%)
4356 3
 
< 0.1%
3900 2
 
< 0.1%
3770 2
 
< 0.1%
3683 2
 
< 0.1%
3004 2
 
< 0.1%
2824 10
< 0.1%
2754 2
 
< 0.1%
2603 5
< 0.1%
2559 12
< 0.1%
2547 4
 
< 0.1%

hours-per-week
实数 (ℝ)

唯一值94
唯一值 (%)0.3%
缺失0
缺失 (%)0.0%
无穷大0
无穷大 (%)0.0%
均值40.437456
最小值1
最大值99
零值0
零值 (%)0.0%
负数0
负数 (%)0.0%
内存大小254.5 KiB
2025-03-26T00:46:06.535275image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/

分位数统计

最小值1
第5百分位数18
Q140
中位数40
Q345
第95百分位数60
最大值99
范围98
四分位距 (IQR)5

描述性统计

标准差12.347429
变异系数 (CV)0.30534633
峰度2.9166868
均值40.437456
中位数绝对偏差 (MAD)3
偏度0.22764254
求和1316684
方差152.459
单调性非单调
2025-03-26T00:46:06.629778image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
固定大小分箱直方图 (bins=50)
计数频率 (%)
40 15217
46.7%
50 2819
 
8.7%
45 1824
 
5.6%
60 1475
 
4.5%
35 1297
 
4.0%
20 1224
 
3.8%
30 1149
 
3.5%
55 694
 
2.1%
25 674
 
2.1%
48 517
 
1.6%
其他值 (84)5671
 
17.4%
计数频率 (%)
1 20
 
0.1%
2 32
 
0.1%
3 39
 
0.1%
4 54
 
0.2%
5 60
 
0.2%
6 64
 
0.2%
7 26
 
0.1%
8 145
0.4%
9 18
 
0.1%
10 278
0.9%
计数频率 (%)
99 85
0.3%
98 11
 
< 0.1%
97 2
 
< 0.1%
96 5
 
< 0.1%
95 2
 
< 0.1%
94 1
 
< 0.1%
92 1
 
< 0.1%
91 3
 
< 0.1%
90 29
 
0.1%
89 2
 
< 0.1%

native-country
分类型

不平衡  缺失 

唯一值41
唯一值 (%)0.1%
缺失583
缺失 (%)1.8%
内存大小2.2 MiB
美国
29170 
墨西哥
 
643
菲律宾
 
198
德国
 
137
加拿大
 
121
其他值 (36)
 
1709

长度

最大长度27
中位数长度14
平均长度13.49975
最小长度5

字符与 Unicode

总字符数431695
唯一字符数45
唯一类别数1 ?
唯一书写系统数1 ?
唯一 Unicode 区块数1 ?
Unicode 标准为每个码点分配字符属性,这可用于分析文本变量。

唯一

唯一1 ?
唯一 (%)< 0.1%

样本

第1行美国
第2行美国
第3行美国
第4行美国
第5行古巴

常见值

计数频率 (%)
美国29170
89.6%
墨西哥643
 
2.0%
菲律宾198
 
0.6%
德国137
 
0.4%
加拿大121
 
0.4%
波多黎各114
 
0.4%
萨尔瓦多106
 
0.3%
印度100
 
0.3%
古巴95
 
0.3%
英国90
 
0.3%
其他值 (31)1204
 
3.7%
(缺失)583
 
1.8%

长度

2025-03-26T00:46:06.717807image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
类别长度直方图
计数频率 (%)
美国29170
91.2%
墨西哥643
 
2.0%
菲律宾198
 
0.6%
德国137
 
0.4%
加拿大121
 
0.4%
波多黎各114
 
0.4%
萨尔瓦多106
 
0.3%
印度100
 
0.3%
古巴95
 
0.3%
英国90
 
0.3%
其他值 (31)1204
 
3.8%

最常出现的字符

计数频率 (%)
t88030
20.4%
e59820
13.9%
31978
 
7.4%
a31774
 
7.4%
i31372
 
7.3%
n30568
 
7.1%
d29801
 
6.9%
- 29503
 
6.8%
s29416
 
6.8%
S29396
 
6.8%
其他值 (35)40037
9.3%

最常出现的类别

计数频率 (%)
(未知)431695
100.0%

每类别最常出现的字符

(未知)
计数频率 (%)
t88030
20.4%
e59820
13.9%
31978
 
7.4%
a31774
 
7.4%
i31372
 
7.3%
n30568
 
7.1%
d29801
 
6.9%
- 29503
 
6.8%
s29416
 
6.8%
S29396
 
6.8%
其他值 (35)40037
9.3%

最常出现的书写系统

计数频率 (%)
(未知)431695
100.0%

每书写系统最常出现的字符

(未知)
计数频率 (%)
t88030
20.4%
e59820
13.9%
31978
 
7.4%
a31774
 
7.4%
i31372
 
7.3%
n30568
 
7.1%
d29801
 
6.9%
- 29503
 
6.8%
s29416
 
6.8%
S29396
 
6.8%
其他值 (35)40037
9.3%

最常出现的区块

计数频率 (%)
(未知)431695
100.0%

每区块最常出现的字符

(未知)
计数频率 (%)
t88030
20.4%
e59820
13.9%
31978
 
7.4%
a31774
 
7.4%
i31372
 
7.3%
n30568
 
7.1%
d29801
 
6.9%
- 29503
 
6.8%
s29416
 
6.8%
S29396
 
6.8%
其他值 (35)40037
9.3%

交互

2025-03-26T00:46:03.896278image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:01.718915image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:02.144245image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:02.669860image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:03.091383image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:03.501714image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:03.965047image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:01.792626image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:02.218378image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:02.741612image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:03.161787image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:03.569941image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:04.035892image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:01.867046image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:02.292231image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:02.814152image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:03.233461image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:03.639040image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:04.105355image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:01.938943image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:02.366417image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:02.885461image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:03.304024image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:03.707611image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:04.173135image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:02.008085image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:02.532566image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:02.954259image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:03.369205image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:03.771077image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:04.236962image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:02.075416image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:02.600766image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:03.022586image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:03.434739image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:46:03.831224image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/

相关性

2025-03-26T00:46:06.781364image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
agecapital-gaincapital-losseducationeducation-numfnlwgthours-per-weekmarital-statusnative-countryoccupationracerelationshipsexworkclass
age1.0000.1250.0580.1110.066-0.0780.1430.2820.0300.0960.0270.2730.1230.092
capital-gain0.1251.000-0.0670.1120.119-0.0060.0930.0370.0000.0700.0080.0430.0480.051
capital-loss0.058-0.0671.0000.0420.075-0.0070.0600.0590.0000.0330.0110.0640.0710.023
education0.1110.1120.0421.0001.0000.0170.0890.0890.1290.1960.0720.1210.0930.100
education-num0.0660.1190.0751.0001.000-0.0360.1670.0770.1420.2250.0690.1080.0720.092
fnlwgt-0.078-0.006-0.0070.017-0.0361.000-0.0220.0230.0550.0190.0660.0170.0280.023
hours-per-week0.1430.0930.0600.0890.167-0.0221.0000.1180.0290.1310.0590.1610.2400.097
marital-status0.2820.0370.0590.0890.0770.0230.1181.0000.0640.1300.0830.4880.4620.076
native-country0.0300.0000.0000.1290.1420.0550.0290.0641.0000.0680.4210.0780.0560.030
occupation0.0960.0700.0330.1960.2250.0190.1310.1300.0681.0000.0800.1770.4340.215
race0.0270.0080.0110.0720.0690.0660.0590.0830.4210.0801.0000.0970.1180.055
relationship0.2730.0430.0640.1210.1080.0170.1610.4880.0780.1770.0971.0000.6490.089
sex0.1230.0480.0710.0930.0720.0280.2400.4620.0560.4340.1180.6491.0000.143
workclass0.0920.0510.0230.1000.0920.0230.0970.0760.0300.2150.0550.0890.1431.000

缺失值

2025-03-26T00:46:04.349894image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
按列显示空值情况的简单可视化。
2025-03-26T00:46:04.463815image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
空值矩阵是一种数据密集型显示,可以快速直观地发现数据完整性中的模式。
2025-03-26T00:46:04.598186image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
相关性热力图衡量空值相关性:一个变量的存在或缺失对另一个变量的存在影响有多大。

样本

ageworkclassfnlwgteducationeducation-nummarital-statusoccupationrelationshipracesexcapital-gaincapital-losshours-per-weeknative-country
039州政府77516学士13未婚行政文职非家庭成员白人男性2174040美国
150自雇人士(非法人)83311学士13已婚(民用配偶)行政管理丈夫白人男性0013美国
238私营215646高中毕业9离婚搬运工-清洁工非家庭成员白人男性0040美国
353私营23472111年级7已婚(民用配偶)搬运工-清洁工丈夫黑人男性0040美国
428私营338409学士13已婚(民用配偶)专业特长妻子黑人女性0040古巴
537私营284582硕士14已婚(民用配偶)行政管理妻子白人女性0040美国
649私营1601879年级5已婚(配偶不在场)其他服务非家庭成员黑人女性0016牙买加
752自雇人士(非法人)209642高中毕业9已婚(民用配偶)行政管理丈夫白人男性0045美国
831私营45781硕士14未婚专业特长非家庭成员白人女性14084050美国
942私营159449学士13已婚(民用配偶)行政管理丈夫白人男性5178040美国
ageworkclassfnlwgteducationeducation-nummarital-statusoccupationrelationshipracesexcapital-gaincapital-losshours-per-weeknative-country
3255132私营3406610年级6已婚(民用配偶)搬运工-清洁工丈夫印第安人-爱斯基摩人男性0040美国
3255243私营84661专科(职业)11已婚(民用配偶)销售丈夫白人男性0045美国
3255332私营116138硕士14未婚技术支持非家庭成员亚裔太平洋岛民男性0011台湾
3255453私营321865硕士14已婚(民用配偶)行政管理丈夫白人男性0040美国
3255522私营310152大学在读10未婚保护服务非家庭成员白人男性0040美国
3255627私营257302专科(学术)12已婚(民用配偶)技术支持妻子白人女性0038美国
3255740私营154374高中毕业9已婚(民用配偶)机械操作员-检查员丈夫白人男性0040美国
3255858私营151910高中毕业9丧偶行政文职未婚者白人女性0040美国
3255922私营201490高中毕业9未婚行政文职子女白人男性0020美国
3256052自雇人士(法人)287927高中毕业9已婚(民用配偶)行政管理妻子白人女性15024040美国

重复行

最常出现的值

ageworkclassfnlwgteducationeducation-nummarital-statusoccupationrelationshipracesexcapital-gaincapital-losshours-per-weeknative-country重复数量
825私营1959941-4年级2未婚私人家庭服务非家庭成员白人女性0040危地马拉3
019私营97261高中毕业9未婚农林渔业非家庭成员白人男性0040美国2
119私营138153大学在读10未婚行政文职子女白人女性0010美国2
219私营146679大学在读10未婚行政管理子女黑人男性0030美国2
319私营251579大学在读10未婚其他服务子女白人男性0014美国2
420私营107658大学在读10未婚技术支持非家庭成员白人女性0010美国2
521私营243368学前班1未婚农林渔业非家庭成员白人男性0050墨西哥2
621私营250051大学在读10未婚专业特长子女白人女性0010美国2
723私营2401375-6年级3未婚搬运工-清洁工非家庭成员白人男性0055墨西哥2
925私营308144学士13未婚工艺维修非家庭成员白人男性0040墨西哥2