とあるIT屋の独白

ITや経営について主に書きます

非構造化データについて考えてみる

少し前の記事ですが、決算情報を分析して情報として提供しているゼノデータという会社が、時事通信と提携するというニュースがありました。

【過去100万本のニュースをAI解析・国内企業の将来予測へ ゼノデータ、時事通信と業務提携で合意】
https://markezine.jp/article/detail/30805

テキストデータを活用して、より精緻な業績予測等を行うという面白い取り組みと感じます。ニュース記事やブログ記事等などの、いわゆる非構造化データはまだまだ活用できる余地があると、個人的には考えています。
非構造化データはテキストデータ以外にも画像や、動画なども含まれます。これらは分析において貴重な情報ではあるものの、大きな容量であったり管理の仕方をどうすれば良いかという点が、まず課題として挙がってきます。

【非構造化データ管理の課題と解決策】
https://www.fujitsu.com/jp/products/computing/storage/lib-f/market/vol046/

苦労して集めたにも関わらず分析できるように加工しないと、それは宝の持ち腐れとなります。加工の一例としては、以前に本ブログで紹介したテキストマイニングの手法などを使って、分解しデータ化して活用する取り組みです。
https://toaruit.hatenablog.com/entry/2018/07/16/135104
私も以前に少し自然文の単語抽出について遊びでやってみましたが、中々思い通りの結果にならず、この分野の難しさを感じています。なので、ゼノデータのようなちゃんと分析できる環境が整えられるというのは、高度な技術が必要と思われます。
非構造化データを構造化するということは、その次のステップである機械学習をかけて予測する等の元ネタとしても使えます。下記の記事によると、SNS のデータ分析を上手くやると、かなりの確率で株価の先行指標となりうるとのことで、こういう活用の仕方もあるんだと感じました。

【非構造化データとは何か】
https://note.mu/yukionoguchi/n/n0d4ad97d5d30