概览

YData 提供

数据集统计

变量数量5
观测值数量189
缺失单元格188
缺失单元格 (%)19.9%
重复行0
重复行 (%)0.0%
内存总大小7.5 KiB
内存中平均记录大小40.7 B

变量类型

URL1
类别型2
日期时间1
文本1

警告

notes 具有常量值 "据报被屏蔽"常量
source 高度不平衡 (81.6%)不平衡
notes 有 188 个 (99.5%) 缺失值缺失
url 具有唯一值唯一

重现

分析开始2025-03-26 00:45:37.429808
分析结束2025-03-26 00:45:37.651028
持续时间0.22 秒
软件版本ydata-profiling v0.0.dev0
下载配置config.json

变量

url
URL

唯一 

非重复值189
非重复值 (%)100.0%
缺失0
缺失 (%)0.0%
内存大小1.6 KiB
http://abrahadesta.wordpress.com/
 
1
http://aljazeera.net/
 
1
http://am.wikipedia.org/
 
1
http://am.wikipedia.org/wiki/%E1%8B%8B%E1%8A%93%E1%8B%8D_%E1%8C%88%E1%8C%BD
 
1
http://amharic.voanews.com/
 
1
其他值 (184)
184 
计数频率 (%)
http://abrahadesta.wordpress.com/1
 
0.5%
http://aljazeera.net/1
 
0.5%
http://am.wikipedia.org/1
 
0.5%
http://am.wikipedia.org/wiki/%E1%8B%8B%E1%8A%93%E1%8B%8D_%E1%8C%88%E1%8C%BD1
 
0.5%
http://amharic.voanews.com/1
 
0.5%
http://ancientgebts.org/1
 
0.5%
http://carpediemethiopia.blogspot.com/1
 
0.5%
http://citizenlab.org/1
 
0.5%
http://cpj.org/1
 
0.5%
http://egoportal.blogspot.com/1
 
0.5%
其他值 (179)179
94.7%
计数频率 (%)
http173
91.5%
https16
 
8.5%
计数频率 (%)
nazret.com8
 
4.2%
www.cafpde.org3
 
1.6%
www.hrw.org3
 
1.6%
am.wikipedia.org2
 
1.1%
www.awate.com2
 
1.1%
citizenlab.org2
 
1.1%
facebook.com2
 
1.1%
www.ethiopiafirst.com2
 
1.1%
portal.unesco.org2
 
1.1%
www.aigaforum.com2
 
1.1%
其他值 (134)161
85.2%
计数频率 (%)
/ 127
67.2%
/blog/index.php7
 
3.7%
/index.html2
 
1.1%
/index.htm2
 
1.1%
/story/201306250132-00228541
 
0.5%
/geography/en/ev.php-URL_ID=3559&URL_DO=DO_TOPIC&URL_SECTION=201.html1
 
0.5%
/wiki/%E1%8B%8B%E1%8A%93%E1%8B%8D_%E1%8C%88%E1%8C%BD1
 
0.5%
/library/eng-eth/index1
 
0.5%
/~ena/1
 
0.5%
/new/index.asp1
 
0.5%
其他值 (45)45
 
23.8%
计数频率 (%)
174
92.1%
blog=121
 
0.5%
blog=131
 
0.5%
blog=141
 
0.5%
blog=151
 
0.5%
blog=161
 
0.5%
blog=71
 
0.5%
blog=91
 
0.5%
c=ethiop&t=africa1
 
0.5%
feed=5&how=paged&what=all1
 
0.5%
其他值 (6)6
 
3.2%
计数频率 (%)
188
99.5%
ethiopia1
 
0.5%

category_code
类别型

非重复值15
非重复值 (%)7.9%
缺失0
缺失 (%)0.0%
内存大小1.6 KiB
NEWS
65 
HUMR
45 
POLR
32 
ECON
13 
ANON
其他值 (10)
26 

长度

最大长度5
中位数长度4
平均长度4
最小长度3

字符与Unicode

总字符数756
非重复字符21
非重复类别1 ?
非重复文字系统1 ?
非重复区块1 ?
Unicode 标准为每个码位分配字符属性,可用于分析文本变量。

唯一

唯一4 ?
唯一 (%)2.1%

样本

第1行CULTR
第2行NEWS
第3行MISC
第4行MISC
第5行NEWS

常见值

计数频率 (%)
NEWS65
34.4%
HUMR45
23.8%
POLR32
16.9%
ECON13
 
6.9%
ANON8
 
4.2%
CULTR7
 
3.7%
XED5
 
2.6%
MISC3
 
1.6%
HOST3
 
1.6%
PUBH2
 
1.1%
其他值 (5)6
 
3.2%

长度

2025-03-26T00:45:37.704205image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
类别长度直方图
计数频率 (%)
news65
34.4%
humr45
23.8%
polr32
16.9%
econ13
 
6.9%
anon8
 
4.2%
cultr7
 
3.7%
xed5
 
2.6%
misc3
 
1.6%
host3
 
1.6%
pubh2
 
1.1%
其他值 (5)6
 
3.2%

最常出现的字符

计数频率 (%)
N95
12.6%
R86
11.4%
E85
11.2%
S72
9.5%
W65
8.6%
O56
7.4%
U54
7.1%
H51
6.7%
M50
6.6%
L42
5.6%
其他值 (11)100
13.2%

最常出现的类别

计数频率 (%)
(未知)756
100.0%

每个类别中最常见的字符

(未知)
计数频率 (%)
N95
12.6%
R86
11.4%
E85
11.2%
S72
9.5%
W65
8.6%
O56
7.4%
U54
7.1%
H51
6.7%
M50
6.6%
L42
5.6%
其他值 (11)100
13.2%

最常出现的文字系统

计数频率 (%)
(未知)756
100.0%

每个文字系统中最常见的字符

(未知)
计数频率 (%)
N95
12.6%
R86
11.4%
E85
11.2%
S72
9.5%
W65
8.6%
O56
7.4%
U54
7.1%
H51
6.7%
M50
6.6%
L42
5.6%
其他值 (11)100
13.2%

最常出现的区块

计数频率 (%)
(未知)756
100.0%

每个区块中最常见的字符

(未知)
计数频率 (%)
N95
12.6%
R86
11.4%
E85
11.2%
S72
9.5%
W65
8.6%
O56
7.4%
U54
7.1%
H51
6.7%
M50
6.6%
L42
5.6%
其他值 (11)100
13.2%
非重复值6
非重复值 (%)3.2%
缺失0
缺失 (%)0.0%
内存大小1.6 KiB
最小值2014-04-15 00:00:00
最大值2018-04-10 00:00:00
无效日期0
无效日期 (%)0.0%
2025-03-26T00:45:37.768078image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
2025-03-26T00:45:37.834118image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
固定大小分箱直方图 (箱数=6)

source
类别型

不平衡 

非重复值5
非重复值 (%)2.6%
缺失0
缺失 (%)0.0%
内存大小1.6 KiB
citizenlab
178 
OONI
 
4
CIPIT
 
4
BBC
 
2
defenddefenders
 
1

长度

最大长度15
中位数长度10
平均长度9.7195767
最小长度3

字符与Unicode

总字符数1837
非重复字符20
非重复类别1 ?
非重复文字系统1 ?
非重复区块1 ?
Unicode 标准为每个码位分配字符属性,可用于分析文本变量。

唯一

唯一1 ?
唯一 (%)0.5%

样本

第1行citizenlab
第2行citizenlab
第3行citizenlab
第4行citizenlab
第5行citizenlab

常见值

计数频率 (%)
citizenlab178
94.2%
OONI4
 
2.1%
CIPIT4
 
2.1%
BBC2
 
1.1%
defenddefenders1
 
0.5%

长度

2025-03-26T00:45:37.908482image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
类别长度直方图

常见值 (图示)

2025-03-26T00:45:37.965303image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
计数频率 (%)
citizenlab178
94.2%
ooni4
 
2.1%
cipit4
 
2.1%
bbc2
 
1.1%
defenddefenders1
 
0.5%

最常出现的字符

计数频率 (%)
i356
19.4%
e183
10.0%
n180
9.8%
c178
9.7%
z178
9.7%
t178
9.7%
l178
9.7%
a178
9.7%
b178
9.7%
I12
 
0.7%
其他值 (10)38
 
2.1%

最常出现的类别

计数频率 (%)
(未知)1837
100.0%

每个类别中最常见的字符

(未知)
计数频率 (%)
i356
19.4%
e183
10.0%
n180
9.8%
c178
9.7%
z178
9.7%
t178
9.7%
l178
9.7%
a178
9.7%
b178
9.7%
I12
 
0.7%
其他值 (10)38
 
2.1%

最常出现的文字系统

计数频率 (%)
(未知)1837
100.0%

每个文字系统中最常见的字符

(未知)
计数频率 (%)
i356
19.4%
e183
10.0%
n180
9.8%
c178
9.7%
z178
9.7%
t178
9.7%
l178
9.7%
a178
9.7%
b178
9.7%
I12
 
0.7%
其他值 (10)38
 
2.1%

最常出现的区块

计数频率 (%)
(未知)1837
100.0%

每个区块中最常见的字符

(未知)
计数频率 (%)
i356
19.4%
e183
10.0%
n180
9.8%
c178
9.7%
z178
9.7%
t178
9.7%
l178
9.7%
a178
9.7%
b178
9.7%
I12
 
0.7%
其他值 (10)38
 
2.1%

notes
文本

常量  缺失 

非重复值1
非重复值 (%)100.0%
缺失188
缺失 (%)99.5%
内存大小1.6 KiB
2025-03-26T00:45:38.044987image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/

长度

最大长度18
中位数长度18
平均长度18
最小长度18

字符与Unicode

总字符数18
非重复字符13
非重复类别1 ?
非重复文字系统1 ?
非重复区块1 ?
Unicode 标准为每个码位分配字符属性,可用于分析文本变量。

唯一

唯一1 ?
唯一 (%)100.0%

样本

第1行据报被屏蔽
计数频率 (%)
reportedly1
50.0%
blocked1
50.0%
2025-03-26T00:45:38.183616image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/

最常出现的字符

计数频率 (%)
e3
16.7%
o2
11.1%
d2
11.1%
l2
11.1%
R1
 
5.6%
r1
 
5.6%
p1
 
5.6%
t1
 
5.6%
y1
 
5.6%
1
 
5.6%
其他值 (3)3
16.7%

最常出现的类别

计数频率 (%)
(未知)18
100.0%

每个类别中最常见的字符

(未知)
计数频率 (%)
e3
16.7%
o2
11.1%
d2
11.1%
l2
11.1%
R1
 
5.6%
r1
 
5.6%
p1
 
5.6%
t1
 
5.6%
y1
 
5.6%
1
 
5.6%
其他值 (3)3
16.7%

最常出现的文字系统

计数频率 (%)
(未知)18
100.0%

每个文字系统中最常见的字符

(未知)
计数频率 (%)
e3
16.7%
o2
11.1%
d2
11.1%
l2
11.1%
R1
 
5.6%
r1
 
5.6%
p1
 
5.6%
t1
 
5.6%
y1
 
5.6%
1
 
5.6%
其他值 (3)3
16.7%

最常出现的区块

计数频率 (%)
(未知)18
100.0%

每个区块中最常见的字符

(未知)
计数频率 (%)
e3
16.7%
o2
11.1%
d2
11.1%
l2
11.1%
R1
 
5.6%
r1
 
5.6%
p1
 
5.6%
t1
 
5.6%
y1
 
5.6%
1
 
5.6%
其他值 (3)3
16.7%

相关性

2025-03-26T00:45:38.226395image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
category_codesource
category_code1.0000.100
source0.1001.000

缺失值

2025-03-26T00:45:37.566067image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
按列显示的简单空值可视化。
2025-03-26T00:45:37.619687image/svg+xmlMatplotlib v3.10.0, https://matplotlib.net.cn/
空值矩阵是一种数据密集型显示,可让您快速直观地找出数据完成情况的模式。

样本

urlcategory_codedate_addedsourcenotes
0http://abrahadesta.wordpress.com/CULTR2014-04-15citizenlabNaN
1http://aljazeera.net/NEWS2014-04-15citizenlabNaN
2http://am.wikipedia.org/MISC2014-04-15citizenlabNaN
3http://am.wikipedia.org/wiki/%E1%8B%8B%E1%8A%93%E1%8B%8D_%E1%8C%88%E1%8C%BDMISC2014-04-15citizenlabNaN
4http://amharic.voanews.com/NEWS2014-04-15citizenlabNaN
5http://ancientgebts.org/HUMR2014-04-15citizenlabNaN
6http://carpediemethiopia.blogspot.com/POLR2014-04-15citizenlabNaN
7http://citizenlab.org/NEWS2014-04-15citizenlabNaN
8http://cpj.org/NEWS2014-04-15citizenlabNaN
9http://egoportal.blogspot.com/POLR2014-04-15citizenlabNaN
urlcategory_codedate_addedsourcenotes
179https://www.citizenlab.org/NEWS2014-04-15citizenlabNaN
180https://www.dropbox.com/s/n65b3d67f82asn2/Leaked%20National%20Entrance%20Exam_English.pdf?dl=0FILE2016-05-30OONINaN
181https://#/JawarmdNEWS2016-05-30OONINaN
182https://#/pages/Addis-Neger/49967100821NEWS2014-04-15citizenlabNaN
183https://www.hrw.org/HUMR2014-04-15citizenlabNaN
184https://www.mereja.com/NEWS2016-09-09CIPITNaN
185https://www.oromiamedia.org/NEWS2016-05-30OONINaN
186https://www.privacyinternational.org/HUMR2014-04-15citizenlabNaN
187https://www.torproject.org/NEWS2014-04-15citizenlabNaN
188https://www.twitter.com/HOST2014-04-15citizenlabNaN