Subscribed unsubscribe Subscribe Subscribe

枕を欹てて聴く

香炉峰の雪は簾を撥げて看る

TumblrのSITEINFO

LDR Tumblr

TumblrのSITEINFO

こんな感じでどうなんだろう。ただ、Tumblrは元のHTMLが比較的簡単にいじれるから難しい。
もとのものから大々的に変更されたものだとだめかな。

{
      url: '^http://.*?\.tumblr\.com/post/',
      xpath: '//div[starts-with(concat(@class,@id),"post")]/*[(contains(@class,"video")) or (contains(@class,"photo")) or (contains(@class,"conversation")) or (contains(@class,"regular")) or (contains(@class,"link")) or (contains(@class,"quote")) or (contains(@class,"audio"))]'
},

まだいろいろとだめなところがありそうなので、Wikiには載せてません。
動かないTumblrとかあったら教えてほしいです。ちまちま修正しようかと思ってます。

思ったこと

最近SITEINFOによるlistという方式に限界を感じる。
取得したページ本体から情報をいくつか読みとって、それでxpathを決めるのがいいのかもしれない。
というか
GRDDLでメタデータを取得するLDRize | 3.14
でみたGRDDLってこういうときのためにあるのかも。