You are currently viewing OpenSearch kuromojiを利用したインデックスを作成する

OpenSearch kuromojiを利用したインデックスを作成する

以前の記事で日本語の形態素解析にkuromojiを利用したOpenSearch環境を作成しました。
今度はkuromojiを利用したインデックスを作成してみたいと思います。

インデックスの定義

OpenSearch ダッシュボードからDevToolを選択します。

kuromoji対応のインデックスを作成してみる

まずはインデックス作成用のJSONになります。

PUT test_index
{
    "settings": {
        "analysis": {
            "analyzer": {
                "kuromoji_text": {
                    "tokenizer": "kuromoji_tokenizer"
                }
            }
        }
    },
    "mappings": {
        "properties": {
            "test_text": {
                "type": "text",
                "analyzer": "kuromoji_text",
                "index": true
            }
        }
    }
}

インデックスが作成されました

アナライズしてみる

以下のテキストを解析してみます。
文章はwikipediaの東京スカイツリーの説明文冒頭を引用しました。
https://ja.wikipedia.org/wiki/%E6%9D%B1%E4%BA%AC%E3%82%B9%E3%82%AB%E3%82%A4%E3%83%84%E3%83%AA%E3%83%BC

GET test_index/_analyze
{
  "tokenizer": "kuromoji_tokenizer", 
  "text": "東京スカイツリー(とうきょうスカイツリー、英: TOKYOSKYTREE)は、東京都墨田区押上一丁目1番2号に所在する電波塔(送信所)。東京のランドマークの一つ。高さは634mで、タワーとしては世界第1位[注釈1]。建築物としてはブルジュ・ハリファ、PNB118(ムルデカ118)に次ぐ世界第3位となる。商業施設「東京ソラマチ」やオフィスビル「東京スカイツリーイーストタワー」が併設されており、東京スカイツリータウンを構成している。東武鉄道及び東武グループのシンボル的存在である。押上駅・とうきょうスカイツリー駅と直結している。2012年2月29日に完成し、同年5月22日に電波塔・観光施設として開業した。東京スカイツリーについての名称・ロゴマーク・シルエットデザイン・完成予想コンピュータグラフィックスといった知的財産は東武グループの一社である東武タワースカイツリー株式会社等の著作権および商標権により保護されている。このため公式案内では「東京スカイツリー®」と®マークが記載されている[2]。"
}

Analyze結果を確認する

解析結果を見てみると、「東京」「スカイ」「ツリー」のように、ある程度単語として日本語が区切られていることがわかります。
ただ「に」や「として」などの付属語も分割されているため、不要な部分は取り除くなどのチューニングが必要になってきます。

ひとまず以上です

とりあえずkurmojiを適用するところまで行ってみました。
次回は色々とチューニングを試してみたいと思います。

コメントを残す