Yahoo! JAPANデータサイエンスワークショップ

高倍率の抽選が運良く当たってYahoo! JAPANデータサイエンスワークショップに行ってきました。 内容の簡単なメモです。 (不正確なところもあるかも)

イントロ 塚本さん

  • 富士通OB
  • Yahoo: 70% 程度広告収入、25%程度コンシューマ(ヤフオクとか)収入、あわせて四千億そこそこ
  • データサイエンスの応用
    • 広告技術(CTR最大化)とかニュースパーソナラライズとかに
    • 例: 音声認識エンジンをディープラーニングに。エンジンは自前
      • AMだけじゃなくて発話区間検出にDeep Learning
    • ニュース関係とかのレコメンデーション、パーソナライゼーション
    • その他サーチサジェスチョンとか
  • 国際会議に結構出している: KDD, EMNLP, UbiCOmp, WWW, SIGGRAPH etc.

分散表現に基づく文書要約 (Summarization Based on Embedding Distributions) 小林さん

  • 東芝OB, 言語処理・機械学習の研究
  • 今日はEMNLP15の論文を紹介
  • 分散表現->類似度->重要文抽出
  • 文書要約を、文字数制限などを制約条件として要約のよさを表す関数を最大化する問題として定義
  • 劣モジュラ最適化: 劣モジュラ性とは連続関数でいう凸性の集合関数版(?)、greedy algorithmでほぼ最適解が求まるのでよいらしい
  • 文書要約の場合は、information gain みたいなもんが最初の文を選ぶときの増分よりその後の文を足していくときの増分のほうが小さい
  • 要素の重み(単語数またはバイト数とか)で正規化した利得でgreedy algorithmを動かす。
  • 従来手法: TF-IDFで重みをつけて文の類似度の和を計算し文選択、分散表現で文の類似度の和を計算
  • 本研究: 文書の類似度に基づく目的関数を提案。文と文書の類似度のN-bestが最適な要約とは限らないので。
  • 元文書と要約のコサイン類似度で要約の「よさ」を定義、ただこいつは劣モジュラ関数ではない
  • アプローチ: 単語ごとの分散表現を点集合のまま類似度を扱い、単一の文書ベクトルは作らない
  • 直感: 分布が似ているとは近傍点が近くにあること->最近傍点までの距離の和(を負にしたもの)で利得関数を定義
  • 距離になんかスケーリング関数gをかけると劣モジュラ性が満たされる。g(x) = ln(x) にするとKLダイバージェンスに近い利得関数になり直感的にもうれしい
  • データセット: Opnosis Dataset、ROUGE-N指標 (ROUGEはBLEUっぽいやつ)
  • 今後の課題: 検索クエリを考慮した類似度、 Earth Mover’s Distance (EMD)との関係=g(x)をリニアにすると面白い。
  • 実数表現の技術が言語処理に使えるようになる

爆速機械学習サービス応用: 実践編 田頭(たがみ)さん

  • ディスプレイ広告やニュースレコメンドなどやりつつ論文書いたり採用活動や社内向けセミナー
  • 「課題解決」のために機械学習は大事だが、ビジネスドメインの知識やシステムの知識と組み合わせることで有用性が増す
    • OSやネットワークのエンジニア基礎知識や他分野の知識に助けられることも多い
  • 面白さ: データ量、計算資源(Hadoop, stormクラスタ, GPUマシン)、ビジネスインパクト (YDN=広告事業は数百億のビジネス規模)
  • 会社の収益に貢献して研究資金を稼ごう、と考えているそうだ。投資対効果でテーマを考える。稼いだ資金と時間でやりたいことをやる=技術的チャレンジや論文、対外発表。
  • 人類の知に貢献したい。
  • 今日は KDD 論文の紹介
  • 2stepの広告配信システム: 転置インデックスにクエリを投げて広告の候補を出し(40ms)、CTR prediction modelで候補を絞る(10ms)
  • インデックスの作り方、クエリの作り方が問題
  • クエリをよいものを作り、インデックスはふつう
  • ウェブページの情報やユーザ情報(genderなど?)をtransltorでクエリにする
  • A/Bテストで結果を出す。論文のためにA/Bテストのリソースをもらった(!)

LT

Yahoo!ショッピングと分散表現 齋藤さん

  • ショッピングのランキングアルゴリズム
  • 広告: ランキング問題として解いている、NDCG, MRRなどのランク指標を最大化
  • skipgram を入力に CNN で学習するとよいらしい
  • 着想: NNの学習をとばしてクエリとのコサイン類似度でランキングしてしまえばよいのでは? -> No, 後段処理は要ります

Yahoo 音声認識 三宅さん

  • 自社開発の音声認識 (!!!)
  • 18 アプリに利用
  • 最近: DNN, keyword wakeup
  • 音声区間検出にもDNNを使っている
  • DNN-HMM の特徴量は440次元のメルフィルタバンク(40次元 * 前後5フレームずつ) 。DCTやCMNはかけてMFCCにする前のデータを使う。
  • DNN AM: 1024 unit * 5 layers
  • コーデックは Speex, Flac

Yahooトップページでの機械学習 深澤さん

  • スマホのトップページが最近変わった
  • ユーザの行動ログを使った推薦記事のパーソナライズ
  • CTRデータが見える前に影響力の大きい記事を選ぶ、記事のPV予測 (cold start problem)
  • 事前情報+初期データからPVを予測するRNNを構築
  • 重複記事判定: AEを使ったNNを構築、記事カテゴリを判別
  • 画像クロッピング (サムネイルの切り出し): 顔検出、顕著性の検出

検索ライブラリSenju 宇野さん

  • 自前で作ったもの
  • なぜOSSに頼らなかったか
  • Senju 特徴
    • sparse vector に対して高速な類似検索 WAND
    • Boolean Index ターゲット広告に特価
  • コンテンツに類似した広告を作る -> クエリがコンテンツなので単語数が多い。30単語以上使う
  • 問題は疎ベクトルどうしの類似検索になる
  • 既存のOSSはキーワード検索が前提でクエリがでかいと遅い、マッチセットは厳密評価、厳密解。
    • 広告ではトップNしかいらない。pruning大事

ヤフオクと機械学習 やまかつさん

  • 検索ランキング、レコメンド、安全対策(詐欺とか) etc.
  • ヤフオク内の商品検索のランキング、relevance順以外のソートもある
  • 問題設定: CTRの最大化、だがオークションの特性上クリックされてもコンバージョンにつながるとは限らない。入札されても少額落札はいや。
  • 売り上げの最大化をしたい
  • 3つモデル: CTR, CVR (CV=入札), Δprice (入札による価格増分) 3つの積で期待取扱高を定義 特許出願中 webDB forumに出る