以前の記事で日本語の形態素解析にkuromojiを利用したOpenSearch環境を作成しました。
今度はkuromojiを利用したインデックスを作成してみたいと思います。
インデックスの定義
OpenSearch ダッシュボードからDevToolを選択します。
kuromoji対応のインデックスを作成してみる
まずはインデックス作成用のJSONになります。
PUT test_index
{
"settings": {
"analysis": {
"analyzer": {
"kuromoji_text": {
"tokenizer": "kuromoji_tokenizer"
}
}
}
},
"mappings": {
"properties": {
"test_text": {
"type": "text",
"analyzer": "kuromoji_text",
"index": true
}
}
}
}
インデックスが作成されました
アナライズしてみる
以下のテキストを解析してみます。
文章はwikipediaの東京スカイツリーの説明文冒頭を引用しました。
https://ja.wikipedia.org/wiki/%E6%9D%B1%E4%BA%AC%E3%82%B9%E3%82%AB%E3%82%A4%E3%83%84%E3%83%AA%E3%83%BC
GET test_index/_analyze
{
"tokenizer": "kuromoji_tokenizer",
"text": "東京スカイツリー(とうきょうスカイツリー、英: TOKYOSKYTREE)は、東京都墨田区押上一丁目1番2号に所在する電波塔(送信所)。東京のランドマークの一つ。高さは634mで、タワーとしては世界第1位[注釈1]。建築物としてはブルジュ・ハリファ、PNB118(ムルデカ118)に次ぐ世界第3位となる。商業施設「東京ソラマチ」やオフィスビル「東京スカイツリーイーストタワー」が併設されており、東京スカイツリータウンを構成している。東武鉄道及び東武グループのシンボル的存在である。押上駅・とうきょうスカイツリー駅と直結している。2012年2月29日に完成し、同年5月22日に電波塔・観光施設として開業した。東京スカイツリーについての名称・ロゴマーク・シルエットデザイン・完成予想コンピュータグラフィックスといった知的財産は東武グループの一社である東武タワースカイツリー株式会社等の著作権および商標権により保護されている。このため公式案内では「東京スカイツリー®」と®マークが記載されている[2]。"
}
Analyze結果を確認する
解析結果を見てみると、「東京」「スカイ」「ツリー」のように、ある程度単語として日本語が区切られていることがわかります。
ただ「に」や「として」などの付属語も分割されているため、不要な部分は取り除くなどのチューニングが必要になってきます。
ひとまず以上です
とりあえずkurmojiを適用するところまで行ってみました。
次回は色々とチューニングを試してみたいと思います。
created by Rinker
¥4,180
(2024/10/27 14:06:47時点 楽天市場調べ-詳細)
created by Rinker
¥3,300
(2024/10/27 14:16:59時点 楽天市場調べ-詳細)