おすすめ本・セール情報

「ビッグデータ」がもたらす「因果関係」から「相関関係」へのシフト—理由なんてどうでもいいんです

スポンサーリンク

ビッグデータ関連では非常によくまとまった一冊。とりあえずこれ読んでおけばOKでしょう。「MAKERS」のような、新しい価値観を提示してくれる系です。

 

ビッグデータが世界を変える

・Googleは、合計4億5000万にも上る膨大な数式モデルを使って検索語を分析し、CDCが提供している2007年、2008年の実際のインフルエンザ症例とGoogleの予測を比較検討した。そこで彼らは大変なことに気づく。特定の検索語45個と、ある数式モデルを組み合わせたとき、Googleの予測と公式データの間に高い相関関係が見られたのだ。

・現時点でビッグデータの捉え方は、次のようにまとめることができる。「小規模ではなしえないことを大きな規模で実行し、新たな知の抽出や価値の創出によって、市場、組織、さらには市民と政府の関係などを変えること」。それがビッグデータである。ただし、これは始まりにすぎない。

・確率や相関関係が重視される世の中では、専門知識の重みが薄れる。専門家が不要になるわけではないが、これからはデータが紡ぎ出す「ご宣託」との知恵比べになる。

・世の中の組織というものは、ある前提の下で成り立っている。「意思決定に用いる情報は量こそ少ないが、精度が高くて因果関係がはっきりしている」という前提だ。ところが、データ量が膨大になり、簡単に処理できて、多少の不正確さは問われなくなると、話はまるで違ってくる。しかも、データの量が量ゆえに、意思決定が人間ではなく機械に任されても不思議ではない。

これからわれわれ個人にとって怖いのは「プライバシー」よりも「確率」となる。心臓発作を起こすとか、住宅ローンの返済が焦げ付くとか、罪を犯すといった可能性も、アルゴリズムが予測する。となれば、「人間の神聖なる自由意志」か、はたまた「データによる独裁」かという、倫理問題にまで発展する。(中略)おそらくビッグデータの時代には、個人の尊厳を守る新たなルールが必要になる。

・標本抽出は、情報処理が制約まみれだった時代の産物だ。世の中のデータを集めても、そのデータを分析する道具がない時代だったからだ。だから標本は、過去の遺物でもある。

・データを丸ごと使うと、膨大な情報に埋もれていた物事が浮かび上がってくる。例えば、クレジットカードの不正利用検知の仕組みは、「利用パターンの変則性」を見つけるのが鍵だ。だから標本ではなくデータ全体を処理しなければ、変則性も見えてこない。

・ビッグデータ時代には、最終的にわれわれ自身の変化が求められるはずだ。すなわち、無秩序や不確実性にじたばたしない姿勢が要求されるのだ。

・オンラインDVDレンタルのネットフリックスでは、新規受注の4分の3が推奨作品である。Amazonの成功に続けとばかりに、数千単位のウェブサイトが製品やコンテンツ、友達、グループをユーザーに推奨するようになった。しかもサイト側は、ユーザーがなぜこうした商品や人物に関心を抱くかなど、まっtかう知らずに推奨しているのだ。

Amazonの推薦システムは、前提となる理由など知らないまま、興味深い相関関係を引き出す。「理由」ではなく「答え」がわかれば、それで十分なのだ。

・人間が直感で思い付く因果関係は、一般常識とはかけ離れており、世の中に対する理解を深める手段にはならない。せいぜい物事を認識する近道にすぎない。洞察力が備わったかのような幻想を抱くものの、現実には依然として周囲が何も見えていない状態なのだ。これまれわれわれは、すべてのデータを処理することは不可能という理由から標本抽出という近道を選んできた。これと同様に、じっくり時間をかけて知恵を絞らなくてもいいように脳が選んだ近道が、適当な因果関係をでっち上げるという行為なのである。

・かつては、あるデータを本来の用途に使ったら目的を達成したものと考え、いつ捨ててもよかった。本来の価値が発揮されたように思われたからだ。ビッグデータ時代はデータがダイヤモンド鉱山になる。本来の価値を発揮した後でも、その魅力は簡単に色あせない。

・将来の使い回しを装丁したデータ収集の好例は、いうまでもなくGoogleだ。ストリートビュー製作用の自動車が街を走り回って建物や道路の写真を撮影して物議を醸したが、GPSデータも取り込み、地図製作用の情報もチェックし、Wi-Fiネットワークの名前まで収集していた。ストリートビューの撮影1回で、実にさまざまな情報を入手している。

・今後は投資家もデータのオプション価値に注目するようになる。データをもつ企業や簡単に収集できる企業の株価は上がる一方、そうではない企業は時価総額が減少する可能性もある。

・今後、分野ごとのエキスパートの影響力は弱まる。オンラインメディアの「ハフィントンポスト」や「ゴーカー」、「フォーブス」では、掲載するコンテンツを人間の編集者が判断しているだけでなく、定期的にデータが決定しているという。データは、年季の入ったジャーナリストの勘よりも的確に人々の興味のあるテーマを見つけ出してしまうのだ。

中規模の企業は、残念ながらビッグデータの恩恵が少ない。ボストン・コンサルティンググループのフィリップ・エバンスは「超大手には規模のメリットがあり、小規模企業にはコストとイノベーションのメリットがある」と指摘する。

・テキサス大学オースティン校の研究チームは、ネットフリックスが公開したデータを別のデータベースであるIMDbの公開情報と比較した。すると、ある匿名ユーザーによる作品評価が、IMDbのユーザー評価と一致することに気づいた。悪いことにIMDbのほうは本名が記載されていたのである。また、研究チームは、無名作品6本を評価しただけで、どのネットフリックスユーザーか平均84%の確率で特定できることも明らかにしてしまった。仮に作品を評価した日付もわかれば、50万人近くいるユーザーの中から、99%の精度で個人を特定できてしまう。

米国の州ごとにある仮釈放審査委員会の半数以上が、仮釈放の判断材料にデータ分析による予測を採用しているのだ。また、「予知型の治安維持」を採用する警察署も増えている。ビッグデータ分析を駆使して、特別な監視が必要な築や団体、個人を特定しているのである。その根拠はといえば、「犯罪の可能性が高い」とアルゴリズムが弾き出したのです。

・米国の国土安全保障省では、「FAST」なる研究プロジェクトを進めている。バイタルサインやしぐさ、生理学的な活動パターンなどを監視してテロリストを未然に発見する取り組みだ。人間の行動に着目し、悪事を働こうとする意図を見抜こうというわけだ。DHSによれば、実験では70%の精度で検出できたという。

・あくまでも良からぬ行為の防止が狙いなら、受け入れても良さそうな気がする。しかし、まだ起こってもいない行為の責任を取らせたり、精彩を加えたりする道具にビッグデータ予測が使われるとすれば、やはり危険この上ない。

・自分の行動は自分で責任を負う—それが法律の原則だ。(中略)ビッグデータ時代になると、正義の考え方自体を見直す必要がある。別の言い方をするなら、人間が自分で自分の行動を選択する自由意志の尊重である。

・それでは、データから結論を導く世界では、人間や直感に何らかの役割は残されているのか。誰もがデータに依存し、ビッグデータのツールを使うようになれば、人間に残された最後の砦は「予測不能な物事」だろう。いいかえれば、第六感、リスクを冒すこと、偶然の巡り合わせ、過ちといった人間らしさである。

・人間のすばらしいところをアルゴリズムやコンピュータチップに聞いてもムダだ。絶対に答えられない。なぜならそれはデータとして取り込めないものだからだ。それは「そこにあるもの」ではなく、「そこにないもの」なのだ。

 

因果関係から相関関係へ

特に面白いのは、「結論さえわかれば理由はいらない」という話。

ビッグデータの時代には、暮らし方から世界との付き合い方まで問われることになる。特に顕著なのは、相関関係が単純になる結果、社会が因果関係を求めなくなる点だ。「結論」さえわかれば、「理由」はいらないのである。

社会が因果関係を求めなくなる、というのは実に根本的なシフトのように思えます。いったいどういうことなのでしょうか。もう少し詳しく引用してみましょう。

 

世の中、因果関係で説明できないことは山ほどあるが、悲しいかな、人間というものは、原因がわからないとすっきりしない。

しかし因果関係に執着しないのが、ビッグデータの世界だ。重要なのは「理由」ではなく「結論」である。データ同士の間に何らかの相関関係が見つかれば新たなひらめきが生まれるのだ。

相関関係は、正確な「理由」を教えてくれないが、ある現象が見られるという「事実」に気づかせてくれる。基本的にはそれで十分なのだ。

例えば、膨大な電子カルテのデータから「オレンジジュースとアスピリンの組み合わせで癌が治る」ことが言えるなら、正確な理由はどうあれ、この組み合わせが癌に効くという事実の方がはるかに重要となる。

航空運賃の決まり方など詳しく知らなくても、航空券の買い時さえわかれば財布にやさしい。それで十分だ。

ビッグデータの世界では、ある現象の理由を何が何でも知る必要はない。データがすべてを物語っているからだ。

どうでしょう、これ、すごい面白い観点だと思います。

ビッグデータの時代においては、その名の通り、膨大なデータの分析が可能になります。これまで可視化されてこなかったデータがすべて利用可能になり、そこからは「今まで見えなかった相関関係」が見えるようになります。

たとえばJawboneのようなウェアラブルガジェットを通して、人々が身体に関する情報(脈拍、血圧、食事…)を収集するようになれば、そこからは新たな相関関係が見いだせるはずです。たとえば「渋谷に住む20代は摂取カロリーが平均の25%高い」「世田谷区に住む60代は血圧が低い」「鹿児島の男性は脈拍が平均より5%早い」などなど…。それこそ時代が進んでくれば、書中にあるように「オレンジジュースとアスピリンの組み合わせで癌が治る」みたいな話も出てくるはずです。

 

本書が興味深いのは、ぼくらがこの相関関係の「理由」を重要視しなくなる、と主張している点です。

ぼくらは「理由を知りたい」という強い欲求を持っています。「渋谷に住む20代は摂取カロリーが平均の25%高い」とデータが指し示したとすると、真っ先にぼくらは「なんで?」と思い、「ファーストフードをよく食べるからかな?睡眠が短いのかな?」と、理由を推定します。

ビッグデータの時代においては、この自然な欲求が抑制され、ぼくらが「データがそう指し示しているんだから、理由はひとまずどうでもいい」と思えるようになる、と本書は指摘しているのです。これは大きな価値観のシフトです。今後50年くらいのスパンで見れば、確かにそうなっていくのかもしれません。

特に顕著なのは、相関関係が単純になる結果、社会が因果関係を求めなくなる点だ。

 

著者が指摘しているように、現実的には、「世の中、因果関係で説明できないことは山ほどある」のです。ビッグデータの時代は、そういう「説明できないこと」がどんどん露わになっていく時代ともいえるのでしょう。

それは、データが人間の知性・認識の限界を凌駕し、詩的に言えば「新たな神」になる時代といってもいいかもしれません。

 

極論を述べて考えてみましょう。

たとえばみなさんが「あなたは末期がんで、余命一ヶ月です」と宣告されたとします。

そのとき、みなさんは「理由」、すなわち「因果関係」を模索します。「食事が悪かったのか」「放射能の影響か」「神が与えた罰なのか」「遺伝子の影響なのか」…。しかし、あなたが末期がんになった「わかりやすい理由」など、いくら考えてもわからないでしょう(癌の種類にもよるでしょうけれど)。

ビッグデータの時代においては、無数のデータが「あなたが癌になったこと」についての「相関関係」を導き出します。たとえば「50代男性で、渋谷区に住んでおり、システムエンジニアをしていた人は40%の確率で癌になる」という相関関係が出てくるかもしれません。

「社会が因果関係を求めなくなる」とすれば、みなさんはここで「自分が癌になったわかりやすい理由」を模索するのをやめ、データがもたらす「ご宣託」に納得する、ということです。「あぁ、データによればそういうことなのか。じゃあ自分が癌になるのも仕方ない…死を受け入れよう」と。データがまさに、新しい神になる時代です。

 

というのは…ちょっと極論すぎますが、ビッグデータの時代というのは、このように自分の運命がデータによって導き出され、それに従うという時代にもなりえるのです。

ビッグデータ予測の時代は、自由あふれる手付かずの未来を認めない。まっさらキャンパスどころか、実はすでに未来の下絵がうっすらと描かれているのである。

しかも、特別なテクノロジーを持った人間だけにその下絵が見えるのである。人間が運命をみずから形作ることはできないのか。確率によって可能性は命を絶たれるのだ。

 

あぁ、なんて恐ろしい未来なのでしょう。…しかし、第十章287ページで出している著者の結論は、人間の力を信じたものとなっています。ぼくも同感。どんな結論になっているかは、ぜひ書中でご確認くださいませ。この論理の流れは、実にエキサイティングですよ。

 

匿名化データでも特定できる

あらゆるデータが収集され、利用される「ビッグデータ」の時代においては、プライバシーのリスクが拡大します。ここ最近、情報流出事件も頻繁に起きていますよね。ぼくらが預けるデータ量が増えれば増えるほど、あの手のリスクは間違いなく高まります。

ぼくの場合は、たとえば遺伝情報という究極の個人情報すらも、オンライン空間にアップしています。ID/PASSがないと閲覧できませんが、こういうものが流出すると、なんか怖いものがあります(いや、まぁ自分で公開しちゃってるんですが…)。

関連記事:「GeneLife(Yahoo!ヘルスケア)」で遺伝子を検査したので結果を晒してみる

これからの時代、データはほとんど無意識的に収集されていきます

iPhoneは位置情報をこっそり取得していましたし、Googleはぼくらの家の写真を撮るため、世界中を駆け回っています。ストリートビューは写真だけでなく、Wifiの通信内容も収集しており、問題になっていました(今年の三月に罰金が下されています)。YouTubeやHuluの閲覧データも収集されておりますし、各サイトのクリックデータも、知らず知らずに収集されています。

さらに、ビッグデータの時代においては、収集されるデータが増えるだけでなく、分析も進みます。ここら辺が恐ろしくて、書中では強烈なエピソードがいくつか紹介されています。匿名でネットを使っていようがなんだろうが、本人特定できてしまう、という話です。

2006年8月、AOLは昔の膨大な検索データを一般公開した。研究者が分析すれば、おもしろい発見があるはずという善意でのデータ提供だった。(中略)ユーザー名やIPアドレスといった個人情報は、数字だけの識別子に置き換えられた。こうしておけば分析の際に、匿名性を保ちつつも同じユーザーの検索データをまとめられるからだ。

数日後、「ニューヨークタイムズ」は「60代の独身男性」とか「健康にいいお茶」、「ジョージア州リルバーン、造園業」といった検索語句を組み合わせて、ユーザー番号「4417749」が、ジョージア州リルバーン在住の未亡人テルマ・アーノルドさん(62歳)であることを突き止めてしまった。

突然訪ねてきた「ニューヨークタイムズ」の記者から自分自身に関する情報を見せられたアーノルドさんは、「どういうこと?これみんな私のことじゃない、誰かに覗かれているのかしら」といぶかしがった。この記事をきっかけに、激しい抗議が巻き起こり、AOLの関係者が処分される自体にまで発展した。

データ分析によって、匿名という壁が破られて、自宅にピンポーンときちゃったわけですね。

本書ではその他にも

・ネットフリックスが匿名化されたデータを用いて開発者コンペを実施したが、そのデータがもとで、保守的な中西部地方に住むレズビアンの女性が特定されてしまった。女性はネットフリックスを訴えた(これですかね)。

・IMDb(実名)とネットフリックス(匿名)のレビューデータを照らし合わせることにより、匿名ユーザーであっても、IMDbの実名に紐付けることができた。

なんて事例が紹介されています。

以下、再び本書より。

AOLのケースでは、検索の内容でユーザーの身元が割れてしまった。ネットフリックスのケースでは、別の情報源とのデータ比較によって身元が明らかにされた。どちらの企業も、ビッグデータの前では匿名化が簡単に破られかねない現実を甘く見ていたようだ。取り込むデータ自体が増えている上に、データ同士の結合も増えているからだ。

ツイッターの匿名アカウントもまた、データを分析することで個人特定が十分可能だと思われます。関連して、ちょっと前に職場の同僚や家族が「おすすめユーザー」に表示される事件がありましたね(同じIPアドレスのユーザーを推薦していたようです。この機能は現在は停止されています)。

ぼくに粘着している匿名ウンコのみなさんも、フェイスブックなどの各種サービスのデータと組み合わせたりすれば、身元判明しちゃうかもしれませんよ。さ、パソコンの前で震えていてください。

ソーシャルメディアはウソの付けない時代をつくりましたが(フェイスブックが離婚の原因になっている、というのは有名な話です)、ビッグデータの時代に入り、さらにウソがバレる時代になるのでしょう。

ビッグデータ時代というものは、ユートピア的にいえば、テクノロジーが人間の悪徳に勝利する時代、とも言えるかもしれません。本書では「特定の個人が罪を犯す確率すらもわかるようになる」という刺激的な指摘も展開されています。

匿名の仮面をかぶって人を誹謗中傷するような人はウンコだと思うので、個人的にはビッグデータ時代は悪いものではないと思います。公明正大に生きていくしかないので、そうしましょう。

 

ビッグデータは編集者を殺すのか?

コンテンツ産業に携わる人間としてビビってしまうのは、ビッグデータが「職人」を殺すかもしれないという話。

 

たとえばAmazonのエピソード。

Amazonは昔々、「書評」を担当する編集者を雇っており、おすすめの書籍を紹介していたそうな。

が、あるときグレッグ・リンデンというエンジニア(当時24歳)が、このおすすめを「データ分析」にもとづいて実施する、というアイデアを思い付き、早速実装しました。そうです、今も使われている「この商品を買った人はこんな商品も買っています」という関連商品のレコメンドですね。

スクリーンショット 2013 05 25 8 10 16

で、このグレッグの仕事は想像以上にパフォーマンスを発揮し、ついに書評チームは解散に至ります。人間が機械に負けたわけです。

リンデンは、書評委員の推薦から販売につながったケースとコンピュータの推薦から販売につながったケースとを比較した。差は歴然だった。データから導き出したコンテンツの方が、100倍も大きな売上を生み出していたのだ。

やがて人間の手による書評がオンラインで公開されるたびに、書評委員らに正確な売上データが突きつけられた。ついに書評チームは解散を余儀なくされる。

うーん、人が選ぶよりデータに語ってもらった方が、100倍!の売上が出るというのは恐ろしい話です…。このブログも案外機械が書いた方がよかったりして。

 

「ザ・ナンバーズ・ドットコム」の事例も衝撃的なのでご紹介。

「ザ・ナンバーズ・ドットコム」では、膨大なデータと強力な数式モデルを駆使して、撮影に入る前の段階の映画作品から得られる収入を予測し、独立系の映画プロデューサーに情報提供している。同社のデータベースには、過去数十年の米国映画のデータが約3,000万件登録されている。

(中略)このようにして複雑な相関関係を見つけ出し、作品の収入を予測する。プロデューサーはこの情報を制作会社や投資家に見せて資金提供を依頼するのだ。

映画の売上を制作する前に予測!いやはや、そんなことまでできるようになっているんですね。

MITスローンのエリック・ブリンジョルフソン教授の研究によれば、データに基づく意思決定を行うことで、そうでない場合よりも6%程度生産性を向上させられるとか。

 

本書によれば、ビッグデータが浸透した時代においては、「各分野のエキスパートの影響力は弱まる」とのこと。

データによる物事の判断は、人間の判断を補完し、ときに上回ることもある」。これがビッグデータの最大の衝撃だろう。そのような形が普通になれば、統計学者やデータアナリストはともかく、それ以外の分野のエキスパートは輝きを失うはずだ。

 

ぼくが主に関わっている分野でも、

・ツイッターの話題を分析し、書くべき話題を自動でレコメンドするシステム
・刊行中の書籍データを分析し、「売れる本」をレコメンドするシステム
・各種イベントのデータを分析し、「集客できるイベント」の内容・日時・会場などをレコメンドするシステム

なんてところが普通に登場しそう。こうなると、人間が介在する余地は当然減っていきます。特に「話題を先取りする」ことに関しては、これからはビッグデータに任せるのが賢いやり方になるんでしょうね。

テキストコンテンツの分野においては、自分の直感とセンスのみにたよって仕事をするような「職人的」な編集者は、データによって取って代わられてしまいそうな予感もします。

作品づくりの意思決定においては「100%アナログ」ではなく、「50%デジタル:50%アナログ」くらいで考えるのが、次世代の編集者に求められることなのでしょう。

 

ぼくもアクセスアップのために、積極的にビッグデータ的アプローチを活用していこうと思います。ちょいと試しにいくつか施策を打ってみます。乞うご期待。

 

 

本書はありがちな短期的な視座の解説本ではなく、50年、100年先の未来を描き出そうとしている意欲作です。語弊を承知で表現すると、SF小説的なビジネス書。ぜひぜひ時間を取って読んでみてください。ぼくもゆっくり再読します。

 

 

(プレゼント付き)自力で稼ぐ力を付ける!1年間の無料メール講座。

イケハヤです。

収入に不満がある

不労所得がほしい

自力で稼げるようになりたい

そんなあなたのために!

「ゼロから自力で稼ぐ力を付ける」をテーマにした無料メール講座を作りました。

一応注意すると、甘い話は書いてありませんよ。けっこう厳しめに教えてます。

優しく教えても、なかなか変わりませんからね……。

途中で嫌になって解約する人もけっこういますw

 

無料でいつでも解約できるのでご安心を!

このメール講座をしっかり受講し、提案される行動を取ってもらえれば……。

1年間で月2〜3万円稼げるようになるはずです

人によっては、もっといけるとも思います。

本メール講座では、以下のような内容を収録しています。

  • 有料販売している教材のプレゼント
  • 稼ぐためのマインドセット
  • 情報商材詐欺にあわないための知識
  • 初心者がまずやるべきこと
  • ツイッターの使い方(課題達成者には無料コンサル1回
  • ブログアフィリエイトの始め方
  • コンテンツ販売で稼ぐノウハウ
  • YouTubeで稼ぐ方法
  • 最新おすすめ副業徹底解説
  • 副業を始めるときのベストな考え方
  • 資産運用の基礎的な知識
  • 絶対にやっておくべき節約術

 

などなど……。

伝えておくべき内容が出てきたときは、号外で最新情報も提供します。

繰り返しですが、すべて無料です。

noteなどで有料販売している教材をちょくちょくプレゼントしてるので、ぶっちゃけかなりお得です……。

最初のメール講座にもプレゼント教材(ブログ、SNS、YouTube「最初の1円」を稼ぐためのルートガイド)入れてあるので、ぜひご活用ください〜。

 

 

 

【YouTube攻略の秘訣を教えるメール講座】

メール講座が非常に反響がいいので、追加でもうひとつ作りました。

YouTubeで稼ぎたい方はこちらもどぞ!

 

Secured By miniOrange