まりぱらおーぐ

主にコンピューター周辺の話を中心に、気ままに書いていきます。

Deep Learning オールスターズ 2017 に参加してきました

f:id:o_chicchi:20170626202555j:plain

Deep Learning オールスターズ 2017

2017年6月25日(日)に、TECH PLAY(旧dots)で開催された Deep Learning オールスターズ 2017 の勉強会に参加してきました。

司会は、TECH PLAY 小沢さん。

広い会場にいっぱい人がいるのが印象的でした。

f:id:o_chicchi:20170626203325p:plain

techplay.jp

TECH PLAY には、Deep Learning の部活動があるそうです。登壇された舛岡英人氏が運営されているとのことです。

techplay.jp

「史上初!あのチームラボがGPUを使い倒した結果」

  • 登壇者
    • チームラボ株式会社 加藤 哲朗氏
    • チームラボ株式会社 林 輝大氏
    • 株式会社 IDCフロンティア 金杉 有見子氏

デジタルアートにおける Deep Learning

  • 登壇者

    • チームラボ株式会社 加藤 哲朗氏
  • 資料

    • 公開待ち
  • Product

    • Technology X Creative
    • 受託をやっている。JRのAccureの自動販売機など。
    • 子供向けのデジタル水族館
      • 子供が描いた絵を取り込むと泳ぐ。
  • 参考

www.teamlab.art

  • Deep Learning のデジタルアートの事例

    • レストランの空間演出、銀座のSAGAYAでやっている
      • レストランのテーブルをカメラで撮影して、皿を認識してテーブルにプロジェクションマッピングをする
      • Single shot Multi box Detector を使用している
        • ライブラリは、Caffe を使用
        • データセット 10000枚
        • TITAN × 1枚で、学習に2日程度
      • 皿にとかにフォークやナイフを載っても問題ないようにチューニング
    • やってみて
      • 膨大な量のデータセットを用意しなくても fine-tuning で十分な精度の識別器が作れる
    • プロジェクトの特徴
      • 映像、オーダーメイドの皿、コース料理、センサーシステムが同時に作り上がっていく過程で生じる変更に伴う苦労
        • 皿の変更要求の判断が難しい
        • 学習にかかる時間
    • 改良
      • 簡単にお皿を登録できる仕組みの開発
      • プロジェクタの映像による影響をなくす
        • 赤外線カメラへの変更
  • 参考

www.team-lab.com

レコメンドパッケージによる Deep Learning

  • 登壇者

    • チームラボ株式会社 林 輝大氏
  • 資料

    • 公開待ち
  • Webでのレコメンドパッケージを作成、運用している

    • 協調フィルタリングを利用したレコメンド
      • ログのない商品をレコメンドする精度が悪い
  • 社内で論文読み会をやっている

    • その中でCDLの話があった
  • CDL とは?

    • Collaborative Deep Learning
    • コンテンツの特徴
  • 参考

  • ログの使用について

    • クリックデータを加工する必要があった。
    • 商品画像、商品説明を学習させた
  • 課題

    • 定量的な評価指標をどうするか
    • MFが並列性能が悪い
    • CDLのチューニング
    • 大規模データの処理を考える

クラウドGPU

  • 登壇者

    • 株式会社 IDCフロンティア 金杉 有見子氏
  • メモ

    • IDCフロンティアは、Yahooの子会社。その昔、ソフトバンクが買収した会社の一つ。ケーブル&ワイヤレスIDCの時代にPSINet、東京インターネットを合併した。
    • 昔いた会社で、PSINetの時代に使っていたので、なんとなく懐かしかった。
  • 資料

    • 公開待ち
  • 安いので是非使って下さい

www.idcf.jp

  • 参考

ニューラルネットワークのその次へ

  • 登壇者

    • Retty株式会社 氏原 淳志氏
      • クラフトビール担当
        • Rettyさんって、担当あるんですよね。いつも面白いと思います。
      • 昔は、タンパク質の立体構造解析をやっていた。全然いうことをきいてくれない。
      • プログラムは、自分の意志で動くという点が良い。
  • 資料

  • メモ
    • Rettyでは機械学習を既に使っていて多数の記事がある。

qiita.com

  • 機械学習を始めたきっかけ

    • Tensorflow を出たときに使ってみて、CTO に見せてそれ以来やっている
  • ニューラルネットワーク以外にも、あるよ

    • Deep Forest
  • 説明をする前提

    • 決定木
    • Random Forest
  • Deep Forest

    • Random Forest を複数・多層にして使う
  • Character CNN と比較

  • Mondrian Forest

Deep Learningの世界に飛び込む前の命綱

  • 登壇者

    • TIS株式会社 嘉村 準弥氏 戦略技術センター
  • 資料

  • 最近興味のある書籍

  • chakki
    • Elephant Sense
    • Karura
    • chazutsu

github.com

  • 論文輪講
    • arcXivTimes

github.com

  • 取り組んだこと

    • 文章のネガポジ判定を行った。
    • 公開データセットの映画レビューデータを使った。
  • 手法

    • Naive Bayes
    • ベースラインの手法に関する論文
  • 実装

    • Scikit-learn を用いた。
    • Bag of Bigrams を使用。
  • Deep Learning

    • LSTM
    • 実装は、Keras(バックエンドは、Tensorflow)
  • 性能が出ない

    • 学習を調査するにあったて、プロットしてみた。
    • 噂の過学習をしていた。
  • 過学習の解決

    • パラメータをいろいろいじってみた。
    • 性能は上がったが、理由が不明。
  • 振り返り

    • ベースラインに近づけるのも難しかった
    • 延々とパラメーター調整に取り組むことの危険性
  • 終わりに

    • 自然言語処理において、真っ先に、Deep Learning に飛び込むのは得策ではないのかな

ファッションアイテム検索における深層学習の活用

  • 登壇者

    • 株式会社VASILY 中村 拓磨氏
    • アクセンチュアから転職して VASILY に在籍
  • 参考

https://itunes.apple.com/jp/app/%E3%83%95%E3%82%A1%E3%83%83%E3%82%B7%E3%83%A7%E3%83%B3%E3%82%B3%E3%83%BC%E3%83%87%E3%82%A3%E3%83%8D%E3%83%BC%E3%83%88-iqon-%E3%82%A2%E3%82%A4%E3%82%B3%E3%83%B3/id497264307?mt=8&uo=4&at=1010ln2

  • 資料
  • アイテム検索における画像認識の価値

    • アイテム類似度において写真は重要
    • ファッションの用語は流行などがあるのでデータベースのメンテナンスがいる
  • 画像の種類

    • 商品画像とスナップ画像
  • 深層学習を適用する理由

    • 単純にいえば、ラクだ、等。
    • ドメインが違う画像も同様に扱える
    • 特徴抽出を自動化できる
  • 活用

    • Iterm2Item
    • Snap2Ttem
    • Item2Snap
    • 感覚的なアイテム検索
  • IBIS2016 で発表した

http://tech.vasily.jp/entry/ibis2016tech.vasily.jp

  • 今後

    • 深層学習の活用
    • 識別モデル/教師あり学習で学習を安定化・制御する必要あり
    • Triplet loss による類似度学習の改善
    • 衣装のコーディネートを自動生成
  • MIRU2017 で発表予定

    • 広島は遠いですが
  • 参考

http://tech.vasily.jp/entry/detection_and_retrievaltech.vasily.jp

3Dデータへの深層学習の適用

  • 登壇者

    • 株式会社カブク 足立 昌彦氏(CTO)
    • Simeji の原作者
  • 参考

ascii.jp

  • 資料

    • 公開待ち
  • TensorFlow User Group を応援している

tfug-tokyo.connpass.com

  • 今回の目的

    • 調べるネタの提供
  • kabuku

    • 3Dプリンタで作る
    • 特注品マーケット
    • 労働集約型ビジネス

www.kabuku.co.jp

Chainerで知るDeep Learning進化の歴史

  • 登壇者
    • 株式会社レトリバ 舛岡 英人氏

  • Chainer

    • 登場以前は独自実装が多かった。
  • TensorFlowはスゴイ

    • 公開されてすぐ、たくさんforkされていた

cupy.chainer.org

caffe2.ai

qiita.com

関係ありそうなリンク

qiita.com

blog.livedoor.jp

qiita.com

感想

大きな記事になってしまいました。

まだまだ、学習しはじめのおじさんですが、今回の勉強会は非常に興味深かったです。 時間の関係で懇親会に参加できず、いろいろ聞けなかったのが残念です。

自分でも色々試してみたいと思います。

また、資料公開された、あるいは、間違ってるとかあったら教えて下さい...^^;;

SAP on Cloud についてなんとなく

f:id:o_chicchi:20170612072953j:plain

はじめに

私は、メインの仕事は、SAP のいわゆる Basis と呼ばれるBtoBの業務基盤系の仕事してます。たいして、最近、この仕事、好きではないところが悩みなんですが。

また、主に、Basis ってだけで、開発とかAWSの基盤設計、設定みたいなこととか、他のことも多数やります。こっちの方が楽しいですね。それは、SAPのサ(以下、これ以上書くと暴言になるので割愛)

その仕事の中で、最近のクラウド環境に載せる SAP について、数日前に社内向けに資料作って、ニュースリリースとか調べたのでブログにもまとめておきます。特に、非公開な話でもないので。

ちなみに、資料作成自体も勤務時間にやっていません。様々な事情で自主活動なので。

各クラウドサービスの状況

各クラウドサービスの最近の状況のうち、SAP的(エンタープライズサービス的)に重要そうなところをそれぞれまとめてみます。 SAP HANA Enterprise Cloud の話は、ここでは触れません。パブリッククラウドのみです。

Amazon Web Services

あと、SAP on AWS のイベントを AWSの目黒オフィスでやるみたいですね。このあたりは、AWSのイベントページを確認するとよさそうです。

aws.amazon.com

Microsoft Azure

  • メモリ4TBのインスタンスも既に利用可能になっている

azure.microsoft.com

  • Mシリーズは、ベアメタルインスタンスのため、年額課金となることに注意。開発環境では、Gシリーズの方がよさそうってことかな。

ascii.jp

Google Cloud Platform

  • 東京リージョンの開設(2016/10)

ascii.jp

  • Google × SAPの戦略的提携発表(2017/3)

  • SAP認定を受けたインスタンスが登場(SAPNote.2456432)(2017/5)

  • 海外の事例で、HANAの稼働実績あり

IBM Bulemix

  • Softlayerとのメニュー統合 (2017/2)
  • HANA稼働インスタンスは以下のリンクから

最近では、あまり動きがないようです。IBM との戦略的協業は発表されているものの、Watson との連携だけ。 ちなみ、Watson は、Bluemix にあるものだけが、Watson ではないので念のため。詳しくは、IBMさんに聞いて下さい。

SAP Cloud Platform

  • SAP HANA Cloud Platform からの名称変更(2017/2)

www.publickey1.jp

news.sap.com

  • Google Cloud Platform への展開の発表(2017/3)

  • 東京データセンターでの運用開始(2017/4)

cloud.watch.impress.co.jp

まとめ

最近、以下の記事が公開されました。SAPの方向性を示しているようです。

ascii.jp

あと、SAP×クラウドのまとめは以下が詳しいですね。

www.beex-inc.com

簡単な Bluemix Watson 入門 (2) NLC

本記事について

Qiitaに掲載した以下の記事を、一部修正の上、こちらにも掲載しています。記事作成者自身による投稿です。

qiita.com

はじめに

Watson サービスの中で分類器として用意されている NLC(Natural Language Classifier) 試してみた私のメモです。

まずは、簡単に試すために、Toolkit からテストしてみます。

以下を作業する前に、Bluemix 上で、NLC サービスをカタログから選択して、サービスを作成していることを前提とします。

ToolKit から、NLC の学習を行う

サービスを選択すると以下の画面になります。「Access the beta toolkit」を選択します。

f:id:o_chicchi:20170103150417j:plain

「Sign in with Bluemix」を選択して、サインインします。許可を求められたら、「確認」を選択します。

f:id:o_chicchi:20170103150429j:plain

「Add training data」を選択します。

f:id:o_chicchi:20170103150437j:plain

訓練用のCSVのカンマ区切りデータを用意して、Create classifier の横にあるアップロードを選択します。

f:id:o_chicchi:20170103150448j:plain

テストなので以下のようなデータを準備 (後述書籍より)

f:id:o_chicchi:20170103150458j:plain

アップロードが完了すると以下のようになります。「Create Classifier」を選択します。

f:id:o_chicchi:20170103150507j:plain

「Create」を選択します。

f:id:o_chicchi:20170103150515j:plain

学習した内容のテスト

右下の矢印ボタンを選択します。

f:id:o_chicchi:20170103150525j:plain

下記の画面になるので値を入れて、「Classify」を選択すると、結果が表示されます。下記の例ですと、Theater の分類の可能性が高いことになります。

f:id:o_chicchi:20170103150538j:plain

コマンドラインで試す

コマンドラインでは、以下のように入れて扱います。

  • NLC分類器の作成

curl -u "{username}":"{password}" -F training_data=@{CSVのファイル名} -F training_metadata="{\"language\":\"ja\",\"name\":\"My Classifier\"}" "https://gateway.watsonplatform.net/natural-language-classifier/api/v1/classifiers"

  • NLC分類器の学習状況の取得

curl -u "{username}":"{password}" "https://gateway.watsonplatform.net/natural-language-classifier/api/v1/classifiers/{classifier_id}"

  • NLC分類器のテスト
    • 質問文はエンコードされている必要があります

curl -G -u "{username}":"{password}" "https://gateway.watsonplatform.net/natural-language-classifier/api/v1/classifiers/{classifier_id}/classify?text={質問文}"

あとがき

Conversation に引き続き、NLC をやってみました。NLC は、それほど難しくなかったです。次に、R&R をやってみたいと思います。

参考

変更履歴

2017/01/03 公開

簡単な Bluemix Watson 入門 (1) Conversation

本記事について

Qiitaに掲載した以下の記事を、一部修正の上、こちらにも掲載しています。記事作成者自身による投稿です。

qiita.com

はじめに

teratail Bluemix アドベントカレンダーにお誘いいただいたので、最近、Bluemix の Watson やっているなかで、Conversation をやったことがないので、入門と称した私の作業メモです。

このくらい簡単ですが。

Bluemix のアカウントは持っていて、ログオンできている前提です。意外とそのあたりが面倒ですが。 私は、米国南部リージョンを使用。

WorkSpaceを作成

WorkSpaceを作成します。

f:id:o_chicchi:20170103120749j:plain

WorkSpace ができるので、「Get Started」を押します。

f:id:o_chicchi:20170103120609j:plain

Intent を登録

まずは、Intent の登録を求められるので、注文の文例を登録してみます。5つ入れないと警告がでるようです。

f:id:o_chicchi:20170103120953j:plain

右上の Create を押す

f:id:o_chicchi:20170103121536j:plain

こんな感じでできます

f:id:o_chicchi:20170103121610j:plain

Entity を作成します

画面の上の方にあるメニューから、「Entities」を選びます

f:id:o_chicchi:20170103121925j:plain

Create New を押します

f:id:o_chicchi:20170103122017j:plain

エントリを入れていきます。多めに候補を入れてみましょう。

f:id:o_chicchi:20170103122109j:plain

こんな感じでできます

f:id:o_chicchi:20170103122134j:plain

Dialog の設定

会話を Dialog タブを選んで設定していきます

Create を選択します

f:id:o_chicchi:20170103122202j:plain

conversation_start(create new condition) を選びます。

f:id:o_chicchi:20170103122220j:plain

会話内容をいれていきます。

f:id:o_chicchi:20170103122300j:plain

Anything else の項目が作成されるので、そこにも、該当しなかった項目のときのために、適当にメッセージを入れます。

f:id:o_chicchi:20170103122311j:plain

conversation start の項目を選択すると、横と下に「+」が出るので、下の「+」を押します。

f:id:o_chicchi:20170103122350j:plain

項目が増えるので、下記のような構成になるように編集します。

f:id:o_chicchi:20170103122402j:plain

テスト

ブラウザ画面の右上に下記のようなアイコンが出るので選択します。

f:id:o_chicchi:20170103122432j:plain

会話してみます。

f:id:o_chicchi:20170103122444j:plain

あとがき

意外にハマって楽しかったですね。今度は、Web画面とかとの連携を試してみたいところです。

参考

変更履歴

2016/12/19 公開

2016/12/22 文章がおかしかったところを修正

【U-NEXT ☓ Oisix 】データ分析と機械学習 事例発表

勉強会に参加してきました

oi-study.connpass.com

この手のログが手元にたくさんたまってきたので、書けたものは公開します。

勉強会の背景

  • U-NEXT さんと、Oisix で共通の悩みがある。
  • 勉強会を開催して知見を共有したり意見も聞きたい。

私の感想

  • まず私の感想
    • 非常にいい勉強会にだった。
    • 機械学習には正解がないということを改めて思い知った。
    • 自分はまだまだ勉強不足。

Oisix事例発表-「顧客属性推定とレコメンド」

  • 資料

  • 発表者

    • Oisix 鈴木さん(Nickname:MAX)
    • 2016年4月入社。銀行員を過去はやっていたが、ITをやりたくて入社した。
    • 昔は、システムトレードをやっていた。
  • オイシックス

    • 豊かな食生活をできるだけ多くの人に
    • 高付加価値食品ECサイト
    • 社是は浸透していると思う
    • 社員は200名。急成長中
  • 顧客属性推定とレコメンド

    • パーソナライズプロジェクトの一環
      • お客様に寄り添う = 理解する
        • 家族構成、ライフスタイルなどで分類
      • 購買されたあとは、定期ボックスを作ってそれがECの起点になる
      • 売り場をパーソナライズする -商品提案
      • 顧客をクラスタ分析し、商品をバスケット分析する組み合わせ。
      • クラスタ分析は、子供がいる家庭の購入商品を学習させて、同様商品を提案することが目的。
      • バスケット分析は、ポテト買った人は、クラッカーも買うよねというようなこと。
    • システム構成
      • OracleDBがメイン、顧客情報、受注情報など
      • MySQLは、履歴など
      • TERASURE に集めて分析している
    • 分析ステップ
      • データの整備
        • DBが更新されていなかったことがあった。データ更新は重要。
      • アンケートの収集
        • データを元に教師データを作成
        • アンケートデータを元にセグメントに分けた
          • 料理すると回答したなかに、実際にしてない人がいたようだ。
          • アンケートの質問項目を検討する
      • 外れ値の除外
        • 殆ど買われていない商品などを除外
        • ノイズを除外した
      • 分類モデルの作成
        • ロジステック回帰
        • 回帰係数を決める
        • 毎回制度は高かったが、5000個の重みを求めるのに1200人
        • 説明変数に対して適切なデータセットを用意する。定石どおり、5倍程度のデータを用意する
      • 分類モデルの適応
        • 標準偏差を求めている。パラメータを保管しておく。
      • バスケット分析
        • 購買がない人には提案できない。似たカテゴリになってしまう。
        • できること/できないことを理解する -> 他の方法も使う
      • 商品の提示
        • 購入後に表示する
        • AB実験を実施集計
          • 売り場ごとに差が出た。
      • まとめ

        • 具体事例の紹介をした。
        • パーソナライズプロジェクトの一環
        • 自分のことを知ってくれている感を出す。
        • 季節性とか、嗜好、分類がある
        • 顧客DNA 商品DNA
        • 嫌いな商品のフィルタリングなどなどしている
      • 質問

        • ヤフービッグデーターを活用している
        • マーケティングと常にやりとりしている
        • 1〜2名で、1〜2ヶ月で実装
        • 機械学習をやっているところにコンサルティングを依頼している
        • クラスタリングの知見 -> 子供がいるいない、年齢、子供以内場合は、料理するしないを分類しているが、そこにたどり着くまではいろいろやってみた。
        • クラスタ分析の分類数とかは、そこまで考えていなかった。
        • 評価は、やってみている。CVR値の向上は見られた
        • レコメンドの集計処理は、購買サイクルと連携して週1回行っている。
        • 季節性までまチューニングはしていない。
        • 子供という仮説は、もともと課題としてはあったことでそれを機械学習で検証できた。

U-NEXT事例「U-NEXT事例発表-パーソナライズのこれまでとこれから」

  • 発表者

    • U-NEXT カキモトさん
      • コンテンツプラットフォーム事業部
      • エンジニアになり損ねた
    • U-NEXT 田中さん
      • 大学院まで行っていたからなんかできるんじゃない?
  • U-NEXT

    • オンラインレンタル
    • 12万のビデオ、20万の書籍

    • キュレーションする

      • 棚組をする
      • 特定クラスタ、特定ジャンルを楽しめるように専門家の人に作成してもらっている
      • 2,300 特集
      • 全部見れないからレコメンド
  • レコメンドシステム

    • 推薦システム
    • より好きそうな特集、より好きそうな作品を左上に寄せている
  • U-NEXT のレコメンドシステム

    • ビジネス要求
      • 毎月2,000円貰っていて、動画の視聴を継続させることが大事。
      • 100人いたら100通りの画面が欲しい
      • 1日に1回更新して欲しい
      • パフォーマンスは損なわない(100ms以内)
      • でも準備期間はない
    • 考えたこと
      • データを置く場所を確保
      • 小さく初めて試行錯誤
      • 評価できるようにする
    • 構成
      • TREASURE DATA を使っている
      • 行動ログを元にしている
      • レコメンドエンジンは自分たちで
    • 結果
      • 27.5%視聴時間がアップ
      • 60.8%がレコメンドされた作品
  • U-NEXTのレコメンドシステムの作り方

    • 作った人がいなかった。

      • どういう人が作れるのか
      • 結局、勉強して試行錯誤
        • 資料は、「推薦システムのアルゴリズム」が参考になった
    • レコメンドの方法

      • 嗜好性の近さ
        • ユーザーベース、アイテムベース
      • 内容の近さ
    • やってみた
      • 動画の評価を使ってみた
        • データの絶対量が少なかった
      • 動画再生ログを使った
        • ユーザーの近さではできなかった
        • アイテムの近さを選んだ
    • 内容ベースのレコメンド
      • コールドスタート問題
      • レコメンドとしては、まだまだ。
      • 分析
        • Apache Spark を活用
        • Kuromoji で形態要素分析
      • atilika さんに強力を得ている
        • 3Dで見せるモノを作って非エンジニアにみてもらっている
        • デモ
  • 評価

    • 評価として、A/Bテストはやらないと
    • 非エンジニアの為にGUIを開発
  • Q&A

    • 内容については、社内でフォーマットが統一されているのでそのまま活用
    • キーワード抽出をしている
      • 例えば、品詞を省くとか
    • 初期の機械学習の協業はうまくいかなかった
    • システム開発は、行きあたらばったりで進めているところがある
    • ユーザー属性
      • 視聴だけのログを使っている。登録時のデータは、そのアカウントが家族で使われていたりして分類が意味をなさないで使っていない。
    • ユーザー講堂
      • 新規作品に重みをつけている
      • シャッフルをしている 更新感の演出をしている
    • 今は曜日について考慮していない、今後の課題

イベントの今後

  • 開催を継続したいとのこと

Copyright © 2002-2015 まりぱらおーぐ All Rights Reserved.