メルカリ様の基調講演を聴いて

先日、株式会社メルカリ様でエンジニアリングマネージャをされている木村氏の講演を拝聴してきました。

テレビコマーシャルでも拝見しましたが、売りたいものを出品するまでに15秒!というのは非常にインパクトがあります。
売りたいものを写真撮影すると、その商品名からカテゴリまでを画像認識で推定して勝手に紐付けしてくれるので、
ユーザは「写真を撮ってアップロード」「商品状態を入力」「価格を入力」・・・それだけでもうOKと。

その技術の実現のためにディープラーニングが使われているわけですが、メルカリ様には顧客が登録した商品画像を10億枚保持しているようで。
正直「羨ましい!」という気もしたのですが、AI活用は「データを効率的に集めるプラットフォームを作る」という所から戦いが始まっていますからね。
メルカリ様は見事なデータの利活用を果たしただけの話であり、羨んでいても仕方ありません(笑)

もう1点、開発体制についてのお話もあったのですが、AI関連のPJにおいては、きちんと「アルゴリズム作成チーム」と「システム作りチーム」を切り分けましょう、というお話がありました。
AI開発といってもフロントエンド開発、バックエンド開発、DB設計からネットワーク設計まで行なってシステム化しないと売り物になりませんからね。

これには大変同意するのですが、「そういう体制が組める」企業が現状、相当少ないんじゃないかと思います。
(無論、不足しているのはアルゴリズム作成チームです。)

とはいえ、そんな細かな理論まで知らなくともPythonやRの便利なパッケージは増えましたし、
「簡単なコーディングスキル」
「簡単な機械学習の知識」
「簡単な数学(主に線形代数、統計学)の知識」
があれば十分アルゴリズム作成チームとしてやっていけるような気がするのですが・・・。

その他諸々のお話含め、こちらとして思うところの多い、有意義な講演でした。

その「平均値」は信用できる?

データ”分析”とまでは行かなくても、データ”集計”の機会は殆どの方が仕事でもプライベートでも当たり前のように行っているはずです。
それは仕事での原価管理・工数管理に始まり、プライベートでの家計簿記録・体重管理に至るまで様々です。

そして、そのデータ集計指標の代表格といえば、やはり「平均値」でしょう。
数値が集まったら、とりあえず平均値の算出。それは間違いでは無いと思います。

・・・しかし、データ集計を平均値の算出だけで終わらせて満足してしまう事例があまりにも多いと感じています。
理由があって「平均値だけで充分」と判断しているなら良いのですが、「このデータにおいてはあまり”平均値”で比較するべきでないな」・・・という場合も往々にしてあります。

「平均値」は現在、小学5年生で習うのですが、それ以外にも「中央値」「最頻値」「ヒストグラム」など、そういったデータ集計の指標は義務教育として中学生までに受けています。それなのになぜか「平均値」以外の指標がビジネスの現場にあまり使われていないように思います。
データを平均値だけで推し量ってしまうと、データの一側面だけしか見ていないことになり、真実を見誤ります。

例えば、こんな事例。

会社別の平均年収調査

※以前、この例題を元に、実際にExcelで簡単なデータ分析を行ってみた記事を8回に分けて書きました。

「四季報」などには、会社ごとの「平均年収」データが掲載されています。
例えば、
A社:600万円
B社:700万円
C社:650万円
だとします。

他の平均年齢や男女比の情報は考えないとして、この情報だけでB社が一番稼げそう!・・・と考えてしまっていいのでしょうか。
無論、そんな事はありません。
B社は社長などの役員が大量に貰っていて平均値が引き上げられているだけかもしれませんし、逆にA社は管理職も一般職も対して給与が変わらず、一般職だけで見たら一番給与が高い可能性もあります。
つまり「データのばらつきが不均一」の場合は、平均値という指標はさほど当てにならない、と言えます。

もう一例挙げてみます。

学校クラス別のテスト点数結果

ある学校のテストの平均点は50点で、A君が45点を取ってきたとします。

これだけ見ると、「ちょっと悪かった」と判断してしまいがちですが、実は全員のテストの点数を見ると、
100点、45点、43点、41点、41点、40点、40点
というようになっている場合もある訳です。
平均点以下だけど、実はクラスで2位だった・・・という。
(流石に極端すぎる例ではありますが)

これも、データのばらつきが不均衡であるがゆえに起こる現象ですね。

こういった事例以外にも、データが不均衡なのにも関わらず、「平均値」を当てに物事の判断している例が多々あると思います。
数値データを集計する際には今一度立ち止まって、「このデータは平均値で比較してしまって良いのだろうか?」と自問してみることをお勧めします。

ニュース拾い読み

「人工知能ってなに?」あなたはこの質問に答えられますか

Is this AI? We drew you a flowchart to work it out

AIにまつわる書籍、記事は大量にありますが、結局はAIのこれといった定義は無い・・・というのが通説です。

様々な辞書で「人工知能」と調べると、以下のように書いてあります。
■コンピューターに知的な活動をさせることを目的とする研究と技術。
■言語の理解や推論、問題解決などの知的行動を人間に代わってコンピューターに行わせる技術。
■人間の知的機能を代行できるようにモデル化されたソフトウエア・システム。
などなど・・・。

おおよそ、「人間のような知性を持つ機械」という感じでしょうか。
しかし、「人間のような知性」というのが、研究者によって定義が違うわけです。

時代によっても変わりますしね。
たとえば中の温度によって冷却の強さを変える冷蔵庫があります。
これが「人工知能」かと言われれば、「違う」という見方が大半でしょう。
が、30年前であれば、こんなに賢い冷蔵庫は無いわけで・・・「人工知能って凄い!」と思ってしまう、そんな時代だったわけです。
AlphaGoや今日の自動運転技術に至るまでの最新技術も、30年後は、「この程度でAI?」なんて言われてしまう時代になるのでしょう。

「人工知能」という言葉は、もう今となっては一意に定義できないくらいに世界中に広まり膨れ上がってしまいました。
そもそも今更、こんなことで議論するのはナンセンスなのでしょうね。

[書籍紹介]深層学習教科書 ディープラーニングG検定公式テキスト

G検定を受験予定なのですが、その勉強のために購入した書籍です。
当初、単なる試験合格のための書籍として購入したものでした。
しかし、AIの歴史、仕組み、倫理に至るまで非常によく纏められていて、単なる試験勉強としての書籍に非ず・・・でありました。
個人的に、「こういう背景があったからこういった技術が生まれた」「この技術のこの部分を改良して新たな技術が生まれた」という歴史的な流れがとても判りやすく、勉強になりました。

私がとりわけ興味深かったのは最後の第9章。
AI関連のPJをやるにあたり、その著作権や責任の所在に関してはきちんと決めておかなければなりません。
この章を読みながら、ここに書いてある事も知らずに今までAIに携わっていたのかと考えるとぞっとしてしまいました(笑)

G検定の取得を考えている方にはもちろん、単にAIについて知りたい!という方にも強くオススメできる書籍です。

※初版には、
・p.21の図2.5において、探索順序に「8」が無く「10」が2つある
・p.30上部の中見出しが「MIni-Max法」と、2文字目が大文字になっている
と、私の発見した限り2点の軽微なミスがあります。

ニュース拾い読み

音楽性について定量的に評価!?データサイエンティストが曲を解析、AIをつかって音楽性を解き明かす
https://techable.jp/archives/86439

ひとえに音楽と言っても、リズムがあり、メロディがあり、そして何の楽器を使っているのか、曲の長さはどうか、歌詞はどうか・・・など、多くの要素を含んでいます。
そこから今回は6つの要素に絞っているようですが、表を見ても「speechiness」「instrumentalness」・・・と、何の項目なのかはよく分からないですね(笑)
それらを総合的に鑑み、統計的に傾向を調べる事で、楽曲ごと、もしくはアーティストごとの類似性を見るということのようです。

歌詞だけなら、多くのアーティストの歌詞を形態素分析して、似た作詞センスを持つ作詞家を調べる、なんていうのは簡単にできそうです。
そこから、AIにサザン風の歌詞を書かせる、中島みゆきさん風の歌詞を書かせる・・・なんて実験はちょっと面白そうだなと思います。

「曲先で詩をつけてくれるAI」「詩先で曲をつけてくれるAI」「作詞作曲後の作品を編曲してくれるAI」、そこそこの精度でこれらが実現すれば、どれも人間の持つアーティスティックな部分を補助してくれる良いツールになりそうな気がしますね。
まさに人間とAIの判りやすい「共存共栄」の姿であります。