もりはやメモφ(・ω・ )

インフラなエンジニアからSREへ

GlueとAthenaの備忘メモ

AWSのGlueとAthenaを勉強しており、現時点のメモを残しておきます。 (完全に自分用になっています)

やりたいこと

RDS上の特定のテーブルのスナップショットを、Athenaで検索できる状態でS3上にGlueで出力させる。 出力タイミングは日次&アドホック

glue

## add morihaya
year   = int(time.strftime('%Y',time.localtime()))
month  = int(time.strftime('%m',time.localtime()))
day    = int(time.strftime('%d',time.localtime()))
hour   = int(time.strftime('%H',time.localtime()))

dpath = "s3://aws-glue-morihaya" + "/" + "year=" + str(year) + "/" + "month=" + str(month) +  "/" + "day=" + str(day) + "/" + "hour=" + str(hour)

glueの残メモ

RDS -> parquet形式@S3だとsnappyで圧縮をしてくれるが、avroにすると無圧縮になる。。。

Athena