mk-mode BLOG

このブログは自作の自宅サーバに構築した Debian GNU/Linux で運用しています。
PC・サーバ構築等の話題を中心に公開しております。(クローンサイト: GitHub Pages

ブログ開設日2009-01-05
サーバ連続稼働時間
Reading...
Page View 合計
Reading...
今日
Reading...
昨日
Reading...

Windows - MeCab で形態素解析!

[ pc_tips ] [ Windows ]

こんばんは。

文章を意味のある単語に区切り、辞書を利用して品詞や内容を判別することを「形態素解析」と言います。 形態素解析は、主にかな漢字変換や機械翻訳に使われている記述です。

今回はまず、近い将来目論んでいることのために、Windows のコマンドプロンプトで試してみました。

以下、導入・試行方法の記録です。

記録

0.前提条件

インストールするのは、WindowsXP SP3 です。

1.ダウンロード

MeCab: Yet Another Part-of-Speech and Morphological Analyzer のダウンロードリンクから “mecab-0.992.exe"(当記事執筆時点の最新)をダウンロードします。 Windows版の場合はこのインストーラにIPA辞書も含まれているようです。

2.インストール

ダウンロードした “mecab-0.992.exe” を実行します。 今回はコマンドプロンプトで使用することが目的なので、途中で聞かれる「辞書の文字コード選択」では「SHIFT-JIS」を選択します。

3.実行

デスクトップに作成された MeCab のショートカットアイコンをダブルクリックするだけです。

4.形態素解析の実行

開いたDOS画面に文章を入力&エンター押下で形態素解析が実行されます。 以下のような感じになります。

WINDOWS_MECAB_1

出力フォーマットは左から順に以下のようになっているようです。

1
2
表層形\t品詞,品詞細分類1,品詞細分類2,品詞細分類3,
       活用形,活用型,原形,読み,発音

おもしろいですね。 近い将来、当方のサーバの MySQL に保存している全ツイート内容や全ブログ記事を Ruby を使って解析・集計してみたいとも思っています。

以上。

Comments