概览

YData 提供

数据集统计

变量数量3
观测值数量1000
缺失单元格0
缺失单元格 (%)0.0%
重复行0
重复行 (%)0.0%
内存总大小23.6 KiB
平均记录内存大小24.1 B

变量类型

文本2
分类1

复现

分析开始时间2025-03-26 00:45:33.220882
分析完成时间2025-03-26 00:45:33.390066
持续时间0.17 秒
软件版本ydata-profiling v0.0.dev0
下载配置config.json

变量

俄语
文本

不同值995
不同值 (%)99.5%
缺失值0
缺失值 (%)0.0%
内存大小7.9 KiB
2025-03-26T00:45:33.596274image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/

长度

最大长度19
中位长度13
平均长度6.117
最小长度1

字符和 Unicode

总字符数6117
不同字符数43
不同类别数1 ?
不同脚本数1 ?
不同块数1 ?
Unicode 标准为每个码点分配字符属性,可用于分析文本变量。

唯一值

唯一值990 ?
唯一值 (%)99.0%

样本

第 1 行и
第 2 行в
第 3 行не
第 4 行он
第 5 行на
计数频率 (%)
знать2
 
0.2%
много2
 
0.2%
что2
 
0.2%
пора2
 
0.2%
мало2
 
0.2%
как1
 
0.1%
это1
 
0.1%
весь1
 
0.1%
а1
 
0.1%
с1
 
0.1%
其他值 (987)987
98.5%
2025-03-26T00:45:33.916593image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/

最常见的字符

计数频率 (%)
о645
 
10.5%
т526
 
8.6%
а484
 
7.9%
е395
 
6.5%
с364
 
6.0%
и345
 
5.6%
н339
 
5.5%
ь316
 
5.2%
р306
 
5.0%
в263
 
4.3%
其他值 (33)2134
34.9%

最常见的类别

计数频率 (%)
(未知)6117
100.0%

每种类别中最常见的字符

(未知)
计数频率 (%)
о645
 
10.5%
т526
 
8.6%
а484
 
7.9%
е395
 
6.5%
с364
 
6.0%
и345
 
5.6%
н339
 
5.5%
ь316
 
5.2%
р306
 
5.0%
в263
 
4.3%
其他值 (33)2134
34.9%

最常见的脚本

计数频率 (%)
(未知)6117
100.0%

每种脚本中最常见的字符

(未知)
计数频率 (%)
о645
 
10.5%
т526
 
8.6%
а484
 
7.9%
е395
 
6.5%
с364
 
6.0%
и345
 
5.6%
н339
 
5.5%
ь316
 
5.2%
р306
 
5.0%
в263
 
4.3%
其他值 (33)2134
34.9%

最常见的块

计数频率 (%)
(未知)6117
100.0%

每种块中最常见的字符

(未知)
计数频率 (%)
о645
 
10.5%
т526
 
8.6%
а484
 
7.9%
е395
 
6.5%
с364
 
6.0%
и345
 
5.6%
н339
 
5.5%
ь316
 
5.2%
р306
 
5.0%
в263
 
4.3%
其他值 (33)2134
34.9%

英语
文本

不同值961
不同值 (%)96.1%
缺失值0
缺失值 (%)0.0%
内存大小7.9 KiB
2025-03-26T00:45:34.107725image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/

长度

最大长度130
中位长度39
平均长度13.169
最小长度1

字符和 Unicode

总字符数13169
不同字符数75
不同类别数1 ?
不同脚本数1 ?
不同块数1 ?
Unicode 标准为每个码点分配字符属性,可用于分析文本变量。

唯一值

唯一值924 ?
唯一值 (%)92.4%

样本

第 1 行and, though
第 2 行in, at
第 3 行not
第 4 行he
第 5 行on, it, at, to
计数频率 (%)
to256
 
11.0%
see33
 
1.4%
in20
 
0.9%
be20
 
0.9%
as18
 
0.8%
for16
 
0.7%
come15
 
0.6%
of14
 
0.6%
the13
 
0.6%
a12
 
0.5%
其他值 (1240)1914
82.1%
2025-03-26T00:45:34.399553image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/

最常见的字符

计数频率 (%)
e1370
 
10.4%
1334
 
10.1%
t1048
 
8.0%
o1021
 
7.8%
a788
 
6.0%
r730
 
5.5%
, 673
 
5.1%
n656
 
5.0%
i616
 
4.7%
s611
 
4.6%
其他值 (65)4322
32.8%

最常见的类别

计数频率 (%)
(未知)13169
100.0%

每种类别中最常见的字符

(未知)
计数频率 (%)
e1370
 
10.4%
1334
 
10.1%
t1048
 
8.0%
o1021
 
7.8%
a788
 
6.0%
r730
 
5.5%
, 673
 
5.1%
n656
 
5.0%
i616
 
4.7%
s611
 
4.6%
其他值 (65)4322
32.8%

最常见的脚本

计数频率 (%)
(未知)13169
100.0%

每种脚本中最常见的字符

(未知)
计数频率 (%)
e1370
 
10.4%
1334
 
10.1%
t1048
 
8.0%
o1021
 
7.8%
a788
 
6.0%
r730
 
5.5%
, 673
 
5.1%
n656
 
5.0%
i616
 
4.7%
s611
 
4.6%
其他值 (65)4322
32.8%

最常见的块

计数频率 (%)
(未知)13169
100.0%

每种块中最常见的字符

(未知)
计数频率 (%)
e1370
 
10.4%
1334
 
10.1%
t1048
 
8.0%
o1021
 
7.8%
a788
 
6.0%
r730
 
5.5%
, 673
 
5.1%
n656
 
5.0%
i616
 
4.7%
s611
 
4.6%
其他值 (65)4322
32.8%

词性
分类

不同值37
不同值 (%)3.7%
缺失值0
缺失值 (%)0.0%
内存大小7.9 KiB
名词
374 
动词
232 
形容词
127 
副词
112 
介词
 
37
其他值 (32)
118 

长度

最大长度26
中位长度4
平均长度5.885
最小长度3

字符和 Unicode

总字符数5885
不同字符数24
不同类别数1 ?
不同脚本数1 ?
不同块数1 ?
Unicode 标准为每个码点分配字符属性,可用于分析文本变量。

唯一值

唯一值20 ?
唯一值 (%)2.0%

样本

第 1 行连词
第 2 行介词
第 3 行助词
第 4 行代词
第 5 行介词

常见值

计数频率 (%)
名词374
37.4%
动词232
23.2%
形容词127
 
12.7%
副词112
 
11.2%
介词37
 
3.7%
代词36
 
3.6%
其他12
 
1.2%
连词12
 
1.2%
基数词11
 
1.1%
助词7
 
0.7%
其他值 (27)40
 
4.0%

长度

2025-03-26T00:45:34.480683image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
类别长度直方图
计数频率 (%)
名词378
36.0%
动词234
22.3%
形容词129
 
12.3%
副词118
 
11.2%
代词40
 
3.8%
介词39
 
3.7%
助词19
 
1.8%
数词18
 
1.7%
基数16
 
1.5%
连词15
 
1.4%
其他值 (15)43
 
4.1%

最常见的字符

计数频率 (%)
n984
16.7%
e698
11.9%
o588
10.0%
r497
8.4%
v481
8.2%
u456
7.7%
b373
 
6.3%
a309
 
5.3%
i283
 
4.8%
d268
 
4.6%
其他值 (14)948
16.1%

最常见的类别

计数频率 (%)
(未知)5885
100.0%

每种类别中最常见的字符

(未知)
计数频率 (%)
n984
16.7%
e698
11.9%
o588
10.0%
r497
8.4%
v481
8.2%
u456
7.7%
b373
 
6.3%
a309
 
5.3%
i283
 
4.8%
d268
 
4.6%
其他值 (14)948
16.1%

最常见的脚本

计数频率 (%)
(未知)5885
100.0%

每种脚本中最常见的字符

(未知)
计数频率 (%)
n984
16.7%
e698
11.9%
o588
10.0%
r497
8.4%
v481
8.2%
u456
7.7%
b373
 
6.3%
a309
 
5.3%
i283
 
4.8%
d268
 
4.6%
其他值 (14)948
16.1%

最常见的块

计数频率 (%)
(未知)5885
100.0%

每种块中最常见的字符

(未知)
计数频率 (%)
n984
16.7%
e698
11.9%
o588
10.0%
r497
8.4%
v481
8.2%
u456
7.7%
b373
 
6.3%
a309
 
5.3%
i283
 
4.8%
d268
 
4.6%
其他值 (14)948
16.1%

缺失值

2025-03-26T00:45:33.317007image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
按列显示的空值简单可视化。
2025-03-26T00:45:33.362515image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
空值矩阵是一种数据密集的显示方式,可让您快速直观地找出数据完成度中的模式。

样本

俄语英语词性
0иand, though连词
1вin, at介词
2неnot助词
3онhe代词
4наon, it, at, to介词
5я代词
6чтоwhat, that, why连词,代词
7тот那个形容词,代词
8быть动词
9сwith, and, from, of介词
俄语英语词性
990художник画家,艺术家名词
991знак标志,记号名词
992завод工厂名词
993кулак拳头名词
994использовать使用,利用动词
995стакан玻璃杯名词
996пахнуть动词
997отсюда从这里副词
998рот嘴巴名词
999пора是时候了;有时,偶尔 (参见 #279)其他