mk-mode BLOG

このブログは自作の自宅サーバに構築した Debian GNU/Linux で運用しています。
PC・サーバ構築等の話題を中心に公開しております。(クローンサイト: GitHub Pages

ブログ開設日2009-01-05
サーバ連続稼働時間
Reading...
Page View 合計
Reading...
今日
Reading...
昨日
Reading...

ブログ - 1,000 投稿を記念して集計!

[ ブログ ] [ MeCab, Ruby ]

こんばんは。

先日、2009年1月5日に当ブログを開設してから 1,000 ポスト目の記事を公開することができました。(ちなみに、この投稿は 1,024 ポスト目です)

毎月アクセス解析・集計して当ブログ投稿したり、ホームページでリアルタイムに閲覧できるようにしたりしていますが、今回は 1,000 ポストという節目なので少し別の視点で集計してみました。

個人的な記録ですので、興味がなければスルーしてください。

ちなみに、集計は Markdown で記載している全ての記事(テキスト)ファイルを Ruby で読み込んで集計しました。(形態素解析には “MeCab” を使用)

1. カテゴリ別投稿数

当ブログのサイドバーでも確認できるが再掲してみた。(投稿数の降順)
当ブログがどのような趣向なのかが分かる。
(当投稿は集計に含んでいなので、サイドバーの「ブログ」カテゴリの件数と1件だけ合わない)

カテゴリ投稿数
サーバ構築332
プログラミング262
PC_Tips194
ブログ177
数学86
ホームページ67
日々の話題60
株式51
ロト643
自作PC35
玄箱27
SNS18
ルービックキューブ5

2. タグ別投稿数

こちらも、当ブログのサイドバーでも確認できるが再掲してみた。(投稿数の降順)
当ブログがどのような趣向なのかが分かる。
(当投稿は集計に含んでいなので、サイドバーの “MeCab”, “Ruby” タグの件数と1件だけ合わない)

タグ投稿数
Ruby265
Linux121
WordPress102
MySQL101
Windows97
CentOS79
Fedora61
Rails54
Debian43
C言語39
Octopress39
ScientificLinux37
LinuxMint34
Cygwin31
PHP26
Apache24
Mail23
Twitter22
nanoc17
Nginx17
HTML13
JavaScript12
W3C11
Google10
CSS9
レジストリ9
Webカメラ9
シェル8
FreeBSD7
Vim7
VMware7
Unix7
Facebook7
VisualBasic7
Java6
Markdown6
カレンダー6
アフィリエイト6
Samba6
SQLServer6
P1836
Antec6
Git6
R6
ウィルス対策6
画像6
FTP6
正規表現5
Postfix5
バッチ5
XML5
端末5
Atom5
SSH5
VirtualBox5
Feed5
DNS4
MariaDB4
VisualC#4
TEX4
Unicorn4
Intel4
スパム対策4
jekyll3
プラグイン3
Excel3
munin3
D945GCLF3
NTP3
XHTML3
Knoppix3
tmux3
VisualC++3
ASUS3
GitHub2
タグクラウド2
Dovecot2
bitly2
Lokka2
Yahoo2
SMTP2
OAuth2
SEO2
NFS2
C#2
Dirac2
Noah2
Fortran2
Python2
PXE2
MeCab2
Namazu1
VBScript1
FreeNAS1
RedHatEnterpriseLinux1
VisualStudio1
Scala1
SQL1
エミュレータ1
ENERMAX1
atom1
Perl1
テスト1
RSpec1
Ubuntu1
モバイル1
形態素解析1
Sinatra1
TeX1
Proxy1
Core2Duo1
Office1
物理1
SCYTHE1
サーバ構築1
SSL1
WebDeveloper1
zsh1
tDiary1
Disqus1
OGP1
thin1
ファイアウォール1

3. 本文行数別投稿数(空白行は除く)

1投稿当たりの行数(空白行は除く)別に集計。
170 行未満の投稿が多いようだ。

行数投稿数
0〜921
10〜19123
20〜29154
30〜39104
40〜4977
50〜5975
60〜6958
70〜7944
80〜8947
90〜9942
100〜10926
110〜11938
120〜12929
130〜13916
140〜14924
150〜15914
160〜16920
170〜1795
180〜1898
190〜1997
200〜2096
210〜2196
220〜2295
230〜2395
240〜2493
250〜2596
260〜2693
270〜2794
280〜2892
290〜2992
300〜3092
310〜3194
330〜3391
350〜3592
360〜3693
370〜3791
380〜3891
390〜3991
410〜4193
420〜4292
440〜4492
460〜4691
470〜4794
480〜4891
490〜4993
500〜5092
520〜5293
530〜5393
540〜5492
550〜5592
560〜5695
570〜5791
600〜6091
1430〜14391

4. 本文文字数別投稿数

1投稿当たりの文字数(改行は除く)別に集計。
300 〜 400 文字以上 3,000 〜 3,100 文字以内が多いようだ。

文字数投稿数
100〜1992
200〜2994
300〜39916
400〜49936
500〜59952
600〜69944
700〜79926
800〜89929
900〜99925
1000〜109918
1100〜119928
1200〜129919
1300〜139926
1400〜149926
1500〜159917
1600〜169923
1700〜179922
1800〜189921
1900〜199923
2000〜209921
2100〜219913
2200〜229921
2300〜239922
2400〜249912
2500〜259923
2600〜269918
2700〜279920
2800〜289921
2900〜299913
3000〜309924
3100〜319917
3200〜329912
3300〜339913
3400〜349915
3500〜35999
3600〜369910
3700〜37996
3800〜389915
3900〜399914
4000〜409912
4100〜419913
4200〜42993
4300〜439911
4400〜44994
4500〜45997
4600〜469911
4700〜47994
4800〜489910
4900〜49993
5000〜50997
5100〜51997
5200〜529911
5300〜53994
5400〜54994
5500〜55995
5600〜56992
5700〜57997
5800〜58992
5900〜59998
6000〜60991
6100〜61993
6200〜62996
6300〜63993
6400〜64993
6500〜65992
6600〜66994
6900〜69995
7000〜70992
7100〜71991
7200〜72991
7300〜73991
7400〜74991
7500〜75993
7600〜76992
7700〜77991
7800〜78991
7900〜79992
8100〜81993
8200〜82994
8300〜83992
8400〜84991
8500〜85991
8700〜87991
8900〜89991
9000〜90991
9300〜93992
9400〜94992
9600〜96991
9700〜97991
10000〜100993
10100〜101992
10200〜102993
10300〜103993
10400〜104992
10500〜105992
10700〜107994
10800〜108993
10900〜109994
11000〜110994
11200〜112992
11400〜114993
11600〜116991
12000〜120991
12100〜121991
12200〜122992
12400〜124991
13000〜130991
13300〜133991
13400〜134991
13500〜135991
13900〜139991
14500〜145991
16300〜163991
17200〜172991
18100〜181991
18900〜189991
24800〜248991

5. 1投稿当たり単語数別集計

形態素解析による単語認識で、1投稿当たりの単語数を集計。
当然ながら、行数・文字数に比例した結果となった。

単語数投稿数
0〜991
100〜19928
200〜29999
300〜39967
400〜49959
500〜59976
600〜69958
700〜79956
800〜89967
900〜99951
1000〜109958
1100〜119945
1200〜129947
1300〜139942
1400〜149925
1500〜159932
1600〜169922
1700〜179923
1800〜189911
1900〜199911
2000〜209914
2100〜219911
2200〜22994
2300〜239913
2400〜249911
2500〜25995
2600〜269910
2700〜27994
2800〜28999
2900〜29995
3000〜30993
3100〜31992
3200〜32993
3300〜33994
3500〜35991
3600〜36992
3700〜37993
3800〜38995
3900〜39994
4000〜40998
4100〜41995
4200〜42997
4300〜43993
4400〜44992
4600〜46991
4800〜48991
4900〜49991
5000〜50991
5700〜57991
5900〜59991
6300〜63991
7100〜71991
9700〜97991

6. 品詞別出現回数

形態素解析による単語認識で、全投稿内の品詞別出現回数を集計。
やはり、「名詞」がダントツで多いようだ。(使用する形態素解析エンジンにもよるだろうが。当方は “MeCab” を使用)

品詞出現回数
名詞920,217
助詞106,616
記号71,021
動詞50,886
助動詞35,665
副詞4,797
接頭詞3,712
接続詞3,568
連体詞2,737
形容詞2,673
感動詞1,114
フィラー73

7. 単語別出現回数

形態素解析による単語認識で、全投稿内の単語別(品詞別)出現回数を集計。
使用する形態素解析エンジンにもよるだろうが、判別がシビアなため上位に出現する単語は「単語」とは程遠いものだ。
また、単語別(品詞別)なので全部で 30,000 種類もあった。

単語品詞出現回数
.名詞35459
-名詞31402
$gt;名詞26001
記号22796
/名詞22771
td名詞22198
助詞18434
_名詞17620
<名詞17171
記号16372

参考

Ruby で形態素解析エンジン MeCab を使用する方法については、以下の過去記事を参照。

アクセス解析の観点での集計は、当方サイト「ブログ」メニューから確認できる。


「集計した結果がどう」というより、「集計する作業」自体が楽しかっただけのような気もします。
普段から行なっているアクセス解析の方が有用性が高いです。

以上。

Comments