読者です 読者をやめる 読者になる 読者になる

まりぱらおーぐ

主にコンピューター周辺の話を中心に、気ままに書いていきます。

【U-NEXT ☓ Oisix 】データ分析と機械学習 事例発表

勉強会メモ コンビューター 機械学習 ソフトウェア

勉強会に参加してきました

oi-study.connpass.com

この手のログが手元にたくさんたまってきたので、書けたものは公開します。

勉強会の背景

  • U-NEXT さんと、Oisix で共通の悩みがある。
  • 勉強会を開催して知見を共有したり意見も聞きたい。

私の感想

  • まず私の感想
    • 非常にいい勉強会にだった。
    • 機械学習には正解がないということを改めて思い知った。
    • 自分はまだまだ勉強不足。

Oisix事例発表-「顧客属性推定とレコメンド」

  • 資料

  • 発表者

    • Oisix 鈴木さん(Nickname:MAX)
    • 2016年4月入社。銀行員を過去はやっていたが、ITをやりたくて入社した。
    • 昔は、システムトレードをやっていた。
  • オイシックス

    • 豊かな食生活をできるだけ多くの人に
    • 高付加価値食品ECサイト
    • 社是は浸透していると思う
    • 社員は200名。急成長中
  • 顧客属性推定とレコメンド

    • パーソナライズプロジェクトの一環
      • お客様に寄り添う = 理解する
        • 家族構成、ライフスタイルなどで分類
      • 購買されたあとは、定期ボックスを作ってそれがECの起点になる
      • 売り場をパーソナライズする -商品提案
      • 顧客をクラスタ分析し、商品をバスケット分析する組み合わせ。
      • クラスタ分析は、子供がいる家庭の購入商品を学習させて、同様商品を提案することが目的。
      • バスケット分析は、ポテト買った人は、クラッカーも買うよねというようなこと。
    • システム構成
      • OracleDBがメイン、顧客情報、受注情報など
      • MySQLは、履歴など
      • TERASURE に集めて分析している
    • 分析ステップ
      • データの整備
        • DBが更新されていなかったことがあった。データ更新は重要。
      • アンケートの収集
        • データを元に教師データを作成
        • アンケートデータを元にセグメントに分けた
          • 料理すると回答したなかに、実際にしてない人がいたようだ。
          • アンケートの質問項目を検討する
      • 外れ値の除外
        • 殆ど買われていない商品などを除外
        • ノイズを除外した
      • 分類モデルの作成
        • ロジステック回帰
        • 回帰係数を決める
        • 毎回制度は高かったが、5000個の重みを求めるのに1200人
        • 説明変数に対して適切なデータセットを用意する。定石どおり、5倍程度のデータを用意する
      • 分類モデルの適応
        • 標準偏差を求めている。パラメータを保管しておく。
      • バスケット分析
        • 購買がない人には提案できない。似たカテゴリになってしまう。
        • できること/できないことを理解する -> 他の方法も使う
      • 商品の提示
        • 購入後に表示する
        • AB実験を実施集計
          • 売り場ごとに差が出た。
      • まとめ

        • 具体事例の紹介をした。
        • パーソナライズプロジェクトの一環
        • 自分のことを知ってくれている感を出す。
        • 季節性とか、嗜好、分類がある
        • 顧客DNA 商品DNA
        • 嫌いな商品のフィルタリングなどなどしている
      • 質問

        • ヤフービッグデーターを活用している
        • マーケティングと常にやりとりしている
        • 1〜2名で、1〜2ヶ月で実装
        • 機械学習をやっているところにコンサルティングを依頼している
        • クラスタリングの知見 -> 子供がいるいない、年齢、子供以内場合は、料理するしないを分類しているが、そこにたどり着くまではいろいろやってみた。
        • クラスタ分析の分類数とかは、そこまで考えていなかった。
        • 評価は、やってみている。CVR値の向上は見られた
        • レコメンドの集計処理は、購買サイクルと連携して週1回行っている。
        • 季節性までまチューニングはしていない。
        • 子供という仮説は、もともと課題としてはあったことでそれを機械学習で検証できた。

U-NEXT事例「U-NEXT事例発表-パーソナライズのこれまでとこれから」

  • 発表者

    • U-NEXT カキモトさん
      • コンテンツプラットフォーム事業部
      • エンジニアになり損ねた
    • U-NEXT 田中さん
      • 大学院まで行っていたからなんかできるんじゃない?
  • U-NEXT

    • オンラインレンタル
    • 12万のビデオ、20万の書籍

    • キュレーションする

      • 棚組をする
      • 特定クラスタ、特定ジャンルを楽しめるように専門家の人に作成してもらっている
      • 2,300 特集
      • 全部見れないからレコメンド
  • レコメンドシステム

    • 推薦システム
    • より好きそうな特集、より好きそうな作品を左上に寄せている
  • U-NEXT のレコメンドシステム

    • ビジネス要求
      • 毎月2,000円貰っていて、動画の視聴を継続させることが大事。
      • 100人いたら100通りの画面が欲しい
      • 1日に1回更新して欲しい
      • パフォーマンスは損なわない(100ms以内)
      • でも準備期間はない
    • 考えたこと
      • データを置く場所を確保
      • 小さく初めて試行錯誤
      • 評価できるようにする
    • 構成
      • TREASURE DATA を使っている
      • 行動ログを元にしている
      • レコメンドエンジンは自分たちで
    • 結果
      • 27.5%視聴時間がアップ
      • 60.8%がレコメンドされた作品
  • U-NEXTのレコメンドシステムの作り方

    • 作った人がいなかった。

      • どういう人が作れるのか
      • 結局、勉強して試行錯誤
        • 資料は、「推薦システムのアルゴリズム」が参考になった
    • レコメンドの方法

      • 嗜好性の近さ
        • ユーザーベース、アイテムベース
      • 内容の近さ
    • やってみた
      • 動画の評価を使ってみた
        • データの絶対量が少なかった
      • 動画再生ログを使った
        • ユーザーの近さではできなかった
        • アイテムの近さを選んだ
    • 内容ベースのレコメンド
      • コールドスタート問題
      • レコメンドとしては、まだまだ。
      • 分析
        • Apache Spark を活用
        • Kuromoji で形態要素分析
      • atilika さんに強力を得ている
        • 3Dで見せるモノを作って非エンジニアにみてもらっている
        • デモ
  • 評価

    • 評価として、A/Bテストはやらないと
    • 非エンジニアの為にGUIを開発
  • Q&A

    • 内容については、社内でフォーマットが統一されているのでそのまま活用
    • キーワード抽出をしている
      • 例えば、品詞を省くとか
    • 初期の機械学習の協業はうまくいかなかった
    • システム開発は、行きあたらばったりで進めているところがある
    • ユーザー属性
      • 視聴だけのログを使っている。登録時のデータは、そのアカウントが家族で使われていたりして分類が意味をなさないで使っていない。
    • ユーザー講堂
      • 新規作品に重みをつけている
      • シャッフルをしている 更新感の演出をしている
    • 今は曜日について考慮していない、今後の課題

イベントの今後

  • 開催を継続したいとのこと

Copyright © 2002-2015 まりぱらおーぐ All Rights Reserved.