たくろぐ!

29歳プログラマーの思うことと備忘録

Treasure Dataで使うべきUDFってなんぞや

ログデータを分析する

Treasure Data(以下TD)で分析する対象のデータは業務データよりログデータが多いのでは?
- アクセス日時
- アクセス元IP
- リファラ
- アクセス先URL
- ユーザエージェント
こんなんを分析するということらしい。
もちろん、業務データとログデータを組み合わせてどんな場合にどんなものが売れたかみたいなことも分析するから一概にログデータが全てということではない。
個人的にログデータを使うことが多いのではと思った理由は以下。

データを加工するということ

単にデータを取得するみたいなことではなく、雑多なデータの関連性を見つけるためにデータを加工するためのクエリが多い。
雑多なデータというのは、ログデータに多いと思う。

Google Analyticsがイメージしやすい

Webマーケターだった経験から個人的にGoogle Analyticsをイメージすると理解できた。
たとえば、TD_FIRSTという関数を使うと、リファラーと流入先URLが取得できる、
逆にTD_LAST関数は離脱URLと離脱先が取得できる。
まさにGoogle Analyticsの世界やないか。

UDF(User Defined Functions)ってなに?

直訳すると、ユーザが定義した関数ってことになる。
TDではあらかじめよく使う関数が作られててそれを利用すればデータ分析できるみたいな。
ここで言うユーザはTDのことだとおもうんだな、うん。
TDはこのUDFをむっちゃ持ってて、それをうまく使えよな!ってブログに書いてる。

クエリ集 - Treasure Data

導入としては以下が読みやすい。

http://yebisupress.dac.co.jp/2015/12/24/tdwebloganalytics/

まとめ

TD_から始まる関数はTreasure DataのUDFだぞ。
これを使えばユーザの行動が分析できて仮説に基づいた施作が打ち放題!