正規表現
- tbodyの抜き出し
- trの抜き出し
- tdの抜き出し
の順
trに関しては、その日の結果があるtrを含めて3つのtrで構成されているので、
日付が見つかるまでfindとgroupで順次検索指定いき、みつかったらそこからはべたにtdの抜き出し。
正規表現はこんな感じにした
private static final Pattern TBODY_PATTERN = Pattern.compile("<tbody>.*?</tbody>" , Pattern.CASE_INSENSITIVE|Pattern.MULTILINE|Pattern.DOTALL
とりあえずtrのPatternを定数化
もっとうまい表現があるかも。
.?でないのは、空タグ対応のつもりだったり。(意味ないけど)
はまった点は、Pattern.DOTALLの指定。
これがないと改行とマッチしてくれない。
というかMULTILINEの指定だけでいいじゃんか・・・
なんて思ったり。
そんなこんなで無事tbodyの取得が出来たわけで。
あとは分割して言ってObject化