ビッグデータは一気に誰もが知る言葉になった。
しかし、ビッグデータで何ができるのか。どうやって活用するのかを我々はしっかりと知っているわけではない。企業がデータの9割を活用できていないという現実をどう受け止めるのか。
一気に流行り出したビッグデータ
ビッグデータという言葉が一周回って注目を浴びている。2013年くらいにビッグデータや統計学という言葉が急に注目を浴びた。そのブームの中で出てきたビッグデータは文脈としてビッグデータというよりもただのデータのレベルでしかなかった。ビッグデータは一般的に人間が処理できない量のデータを指しており、一般的な企業の持つ顧客データは電卓で計算することも可能だし、それはビッグデータという概念からは遠い。100年前だってそれは分析が可能なデータだ。
そうした言葉だけが先行していたビッグデータが次は正しい文脈で登場してきたのは人工知能という概念の台頭がきっかけだ。チェス、将棋、そして囲碁で世界チャンピオンを破った人工知能は一気に”人間を超える”という言説が現実味を帯びてきた。この人工知能が成長するのに必要不可欠なのがビッグデータであり、巨大なデータがなければ人間にはとうてい適わない。
大量のデータを解析することで人工知能のようなとうてい想像もつかない(それは人工知能を作る天才エンジニアですら想像がつかない)現象が起こることが分かった瞬間に多くのビジネスマンはビッグデータに興味を持ち始めた。ビッグデータ市場は2020年までに6兆円に達するのだという。その数字は、広告市場の1割以上である。マス広告のように人間の経験と勘で出稿していた広告は1割以上がビッグデータになるのかもしれない。(もちろん、ビッグデータの全てが広告におけるものではない)
企業のデータの9割は活用されていない
ところが、企業の保有するデータの9割は全く活用されていないのだという。それは、利用されていないというレベルの話ではない。そもそも集計されデータベースに保存されてすらいないのだ。もはや取り出せない状態で活用がされていない。Googleなどデータの巨人であれば全てのデータをあらゆる形で利用するだろう。ところが、Facebookですらほとんどの処理を一般的なノートPCで処理できるレベルで行っているという。たしかに、広告の出稿は『年齢・地域』などに対して絞り込むものであり、Facebookに日々投稿される文章がデータとしてその人の趣味嗜好を特定することに用いられることはない。
データの難しいところは、データの量が増えるごとに処理が桁外れに膨大になるという点である。リチウムテクノロジーズのマイケル・ウー博士は『データから抽出できる情報は、データ量の増加に伴い漸近的に減少する』ということを述べている。データが増えるごとに処理が複雑になるためそう簡単に新しい事実が見つかるというわけでもない。
問題はデータの投資対効果
多くの企業はデータの活用方法が分かっていない。それは、全くもって分からないというわけでもなく、そもそもデータの活用が投資として割に合うものではないのではないかと考えているということである。多くの企業がデータを活用して顧客に迫る何かを取り出したいと考えているがそれよりも現状コストの方が大きくなっている。
もちろん、データをうまく活用している企業も存在する。AMEXはユーザーの行動から解約の予測と防止をすることに成功している。他にも、ウォルマートはユーザーの検索行動の予測からECの売上を数千億円単位で伸ばし、UPSは配送ルートを最適化し1500万リットルの燃料を削減した。こうした成功もある一方で全ての企業がうまくデータを活用しているわけではない。
データは活用方法で全てが決まる
データを活用すると言えば簡単な話に聞こえる。しかし、その活用の仕方によって結果は大きく変わる。言い換えれば活用の仕方が稚拙であれば何も生まないということである。多くの場合のデータ解析はエクセルの四則演算レベルのものでしかない。男性は買う確率が高いとか、女性は滞在時間が短いとか、そういったことはあくまで電卓でできるレベルの処理でしかないだろう。
2012年、猫の画像を認識する機械学習の国際的なコンペティションが開催され、2位まではエラー率26%付近を0.5%ほどの差で争っていたところ、ディープラーニングという技術を用いたトロント大学はエラー率16%という圧倒的な成績で優勝を収めた。用いているデータは同じだ、しかし解析の方法だけでこれだけの差が出る。
ただデータを見るだけのことをするのはビッグデータとは言わないだろう。データを活用して人間の目にはとうてい見えないような事実を弾き出すのがビッグデータである。人間を超えたときそれはやっとビッグデータになる。その道はまだまだ遠いかもしれない。