とあるIT屋の独白

ITや経営について主に書きます

テキストマイニングについて

社内業務の効率化というと、最近では機械学習の活用というのが選択肢の一つとして挙げられるようになりました。例えば以下の記事は、リクルーティングサービスなどを手掛けるWantedlyの方が書いているものなのですが、名刺の画像認識やプロフィールの自動作成などに活用していたりします。

 

【マイクロサービスとしての機械学習――Wantedly Peopleの事例から】

https://codezine.jp/article/detail/10533

 

上記の記事にもありますが、機械学習は導入すればすぐ効率化できるというわけではなく、そもそものデータの収集や人間が想定した結果になるような日々のチューニングが必要となるわけです。

もっと手軽に効率化など実現できないか、ということで対象の業務がテキストデータを扱っている場合は、まずはテキストマイニングから始めてみるというのもよいと思います。下記の記事にある通り、テキストの分類やキーワードの抽出などが主に行うことができます。

 

テキストマイニング

https://www.macromill.com/service/data_analysis/d025.html

 

昔に私が作ったTwitterのワード分析はkuromojiというライブラリを使ってます。

http://toaruit.hatenablog.com/entry/2016/07/14/013416

kuromojiはJavaのライブラリで文章の品詞分解を簡単にできたりします。

 

Java形態素解析器「Kuromoji」を試してみる】

http://www.mwsoft.jp/programming/lucene/kuromoji.html

 

テキストマイニングでライブラリが充実しているのが、Pythonです。googleで検索すると色々でてきますが、下記の書籍の中で一通りできそうなことが書かれているので参考になると思います。

Pythonによるテキストマイニング入門

Pythonによるテキストマイニング入門