スモールデータでデータ活用を始めてみよう--武蔵野大学データサイエンス学部の中西准教授

2022年04月13日更新

データ活用を進めてみようとしたとしても、よく聞く話としては、そのようなデータがない、もしくは少ないデータしかないので意味がないというお話をよく聞きます。しかし、データがないというのは思い違いか認識不足であり、データが使える状態になっていないというのと同義だと考えます。また、少ないデータしかないからデータ分析を始めないというのは大きな機会を損失していると思います。

まず、データがないというのは思い違いか認識不足というお話だが、このDXというキーワードが叫ばれる時代において、誰もがデジタルに触れている状態でデータが発生しないということはあり得ないと思います。問題はデータがあることを意識していないことです。このような場合は、自身、自社がどのようなデジタルツールを使い、どこにデータが発生しているのかを棚卸しすることが必要です。

もしくは、データが使える状態になっていないという問題です。実はこれがデータ活用において一番の問題です。データサイエンティストの仕事の8割が前処理、つまりデータを使えるようにする作業なのです。この部分に関しては何か簡単な方法が魔法のように存在するわけではなく、地道な作業が必要です。

このように言うと、それだけの工数をかけてやるのは勿体無いからデータ活用をやめようとおっしゃる方もいらっしゃるかもしれません。ここで、アクセンチュアが2017年に発表した資料を紹介しましょう。2035年の各国の経済規模について、従来予想の経済成長を示す「ベースライン」と、人工知能（AI）が市場に浸透した場合に期待される経済成長を示す「AI Steady State」とのGVA（粗付加価値）成長率(GDP成長率とほぼ相当すると考えて良い)を比較しています。

特に日本はベースラインと比べ、AI Steady Stateは3倍になる可能性を示唆しています。AI Steady Stateの状態というのはデータ活用が十分行われている状態と考えてもよいでしょう。つまり、データ活用を行わない限り、日本の経済は低迷したままで終わってしまうと言ってもよいわけです。

データを使えるようにする前処理はかなり労力が多く、コストのかかる作業ではありますが、データを活用したビジネスを展開する第一歩としては絶対避けては通ることはできないタスクとなります。データを使えるようにする前処理は、自身、自社の課題によって操作は変わってくると考えてもよいでしょう。どのようなデータをどのような頻度で使える状態にするのかは、例え同じ業態だったとしても課題が違えば変わってきます。

どのようにデータを使えるようにするかわからないということは、自身・自社の課題を深く理解していない証拠ということもできます。データ分析、データ活用を始める第一歩としてはやはり、自身・自社の課題を深く理解して、どのような課題に対して、データ分析・活用を適用して解決していくかということが重要になります。それが明らかになってはじめて、眠っているデータを使えるデータと変化させることができるようになるのです。

ビジネスにおけるゴールとは？

もう1つ聞かれる声としては、データを活用して解決したい課題も決まっており、データも使える状態になっているけれど、データ数が少なすぎてこれで本当によいかという声である。結論としては、少ないデータ、スモールデータだとしても積極的に分析、活用を進めていくべきだと考えます。

ひと昔前にビッグデータという言葉が流行り、世の中ではデータ分析といったら、膨大なデータ量を扱うことが通常だという幻想が蔓延しているように思います。もちろん統計を学んだ方にとっても大数の法則など、データ数が増えれば統計的に有意な結果を得ることができることを知っていることから、どうしてもデータ数の多さというのが気になります。

もちろん、学術的に考えるのであれば、質の良いデータを大量に用意をして分析する方が、より精度の高い有意な結果を得ることができることは確かで、間違いはありません。

しかし、ビジネスにおいて、データ分析・活用をしてより精度の高い有意な結果を得ることがゴールなのでしょうか。本来ならば、データ分析・活用によって、何かの示唆を得て意思決定を行うことによって、自身・自社の課題を解決していくことが目的なのではないでしょうか。そのように考えていけば、少ないデータとしても何らかの気になる傾向が出ることがあれば、それだけで、ビジネス上で意思決定する一助になると考えられます。

データ分析・活用をビジネスで生かしていくということは、第1回の「データサイエンスはビジネスを科学する」で述べた通り、ビジネスにサイエンス(科学)の要素を入れて、自身・自社の課題に基づき解決していくことと述べました。サイエンスの要素を入れていくことは、もちろん統計的に有意な結果を用いていくことも重要ではありますが、それ以前にデータを用いて客観的に把握するということも重要なことです。

機械学習のニュースの影響も

ビジネスの現場において、自身・自社のビジネスの日々のタスクに時間が割かれて、自身・自社の課題を客観的に把握するだけの観察に労力を割くことは実質的に難しいと考えます。そのような考えの中で、デジタルデータが日々の業務の中で自然に取得できる状況というのは、客観的に把握するための観察をデジタルデータが担っていると考えてもよいかと思います。

そのように考えていくとスモールデータだとしても、目の前にあるデータは、自身・自社の現状を表現した重要な観察記録として考えるべきなのです。この観察記録としてのデータを、データが少ないから使わないというのは非常に勿体無い話だと思いませんか。

もう1つ、スモールデータで話が進まないという観点として人工知能(AI)、特に注目されている機械学習のニュースのせいでもあると思います。一般的に、AI、機械学習のニュースを見ると「大量のデータを学習させて」のような決まり文句が入っていると思います。もちろん、機械学習のほとんどのアルゴリズムは学習をさせるために、ある程度まとまったデータセットを求めることが多いかと思います。そのようなことから、少ないデータセットしかない場合に、諦めてしまうことが多いということです。

大量データではなく、まずはスモールデータの価値を理解する

解決策は、大量のデータを必要とする機械学習アルゴリズムにこだわらないということです。AI、機械学習はデータ分析・活用のツールの1つと考えてください。一部の機械学習のアルゴリズムではスモールデータでもうまくフィットするアルゴリズムもありますし、そもそもAI、機械学習を使わなくても、スモールデータで実現できる手法はあります。

Smaill Data

重要なことは、スモールデータだとしても、そのデータを自身・自社のビジネスを客観的に把握した重要な観察結果であることを認識するべきなのです。そのようなデータであるからこそ、自身が気づかなかった、自身・自社のビジネスの無駄や問題が新たに浮き彫りにすることも可能となります。

猛スピードで目まぐるしく変わる社会において、より素早い意思決定を行うためには、自身の感覚や観察から導かれる勘やコツでは限界があることは確かです。そんな中でスモールデータであったとしても、それらのデータを分析・活用をすることで振り返り、意思決定を行うループが出来上がれば、それらを繰り返すことで、ビッグデータを生み出し、より確実な意思決定につなげることが可能になると思います。

まずは、スモールデータから始めてみませんか？

【関連リンク】
連載：中西崇文「AI最前線」
> データサイエンスはビジネスを科学する–武蔵野大学データサイエンス学部の中西准教授

データサイエンス

データ活用

誰でも簡単に
「社内外のデータ収集」と
「非構造化データの構造化」で
データを資産化

AirLakeは、データ活用の機会と効果を拡張する
ノーコードクラウドデータプラットフォームです。

お問い合わせ

中西崇文

武蔵野大学データサイエンス学部データサイエンス学科長准教授ほか。1978年、三重県伊勢市生まれ。筑波大学大学院システム情報工学研究科にて博士（工学）の学位取得。経済産業省「流通・物流分野における情報の利活用に関する研究会」委員、総務省「ICTインテリジェント化影響評価検討会議」構成員。専門はデータマイニング、感性情報処理など。著書に『Pythonハンズオンによるはじめての線形代数』(森北出版)がある。