HTMLのDL - mokkouyou2001の日記

さて。。。たまにはSeasar2の関係ないことを。

といってもAPの一部なんだけど、
HTMLのページをごっそり保存したい。という話。
たとえば、IEの名前をつけて保存をまるまる行いたい。
ただ、アプリはFedora7上で動いてる。

さて、通常、自分のやろうと思うことぐらい、
他の人がすでに解決している。

というのを師匠に言われて以来、座右の銘にしているわけですが、
いまいちぱっとする検索結果が出てこないので、
結局ごりごりロジックを書いているわけですが、

ページ保存
リンク解析
画像等のリソース保存(命名はIE準拠)
ページのリンクを書き換え

まず第一段階として
Content-typeの判別は意外に面倒なわけで・・・
すなおにResponseに設定されていれば、メソッド一発なんだけど、
大概の場合セットされていない。

というわけで判別処理のメモ

public static final String ENCODE_NONE = "NONE"; private String getURLFileEncoding(URL url) throws IOException { URLConnection connection = url.openConnection(); connection.connect(); //１）Content-Typeを取得 String contentEncoding = connection.getContentEncoding(); if(contentEncoding != null) { return contentEncoding; } //中身を見る。 InputStream inputStream = null; BufferedReader reader = null; try { inputStream = connection.getInputStream(); reader = new BufferedReader(new InputStreamReader(inputStream)); String line = null; StringBuilder sb = new StringBuilder(); boolean first = true; while( ( line = reader.readLine()) != null) { line = line.toLowerCase(); //２）BOMを読み取る。 //最初の行だけ if(first) { first = false; if(isBOM(line)) { return "UTF-8"; } //３)UTF-16はいいや。 } sb.append(line); //headの終了もしくは対応忘れを考慮してbodyまでを読み込む if(line.contains("</head>") || line.contains("<body>")) { break; } } String header = sb.toString(); //<>の集まりに分解する。適当なパース List<String> tags = StringUtil.splitTag(header); for (Iterator iterator = tags.iterator(); iterator.hasNext();) { String tag = (String) iterator.next(); //４）xml定義を見る //<?xml if(tag.contains("?xml") && tag.contains("encoding=")) { String encoding = StringUtil.parseEncoding(tag); if(Charset.isSupported(encoding)) { return encoding.toUpperCase(); } } //５）<meta http-equiv="Content-Type" if(tag.contains("meta") && tag.contains("content-type")) { //実際はcontent="text/html; charset=UTF-8"だが、charset=として以下利用 //属性を取るわけではなく、code=の後ろを取るだけのメソッド（空白等は考慮） String encoding = StringUtil.getAttributeValue(tag, "charset"); if(Charset.isSupported(encoding)) { return encoding.toUpperCase(); } } } return ENCODE_NONE; } catch (Exception e) { e.printStackTrace(); return ENCODE_NONE; } finally { IOUtil.close(reader); IOUtil.close(inputStream); } }
こんな感じで判定している。
固定文字を返しているのはnullチェックがめんどいから。

BOMは胡散臭いこんな感じでチェック

	public static final int[] BOM = new int[]{65533, 65403, 65407};
	private static final boolean isBOM(String text) {
		if(text == null || text.length() == 0) {
			return false;
		}
		for (int i = 0; i < BOM.length; i++) {
			int c = text.charAt(i);
			if(c != BOM[i]) {
				return false;
			}
		}
		return true;
	}

果たして、htmlでBOMくっついていることあるのか不明・・・
UTF-16もどうしたもんだか・・・

普通にストリーム開いてコピーでもいいんだけどね。きっと（commons利用でも）

他の方法

考えられる限りだと、

上記ストリームのコピー
wget
ActiveXでのIE利用

なんだけど、
wgetだと、サーブレットとかの場合、htmlとして名前指定で保存できない。（指定が悪い？）
なんか画像とかも1ファイルにしようとするし・・・

ActiveXだと、そもそもLinuxだし・・・

ストリームコピーだと、
euc-jpの時結構いや〜な結果になってしまった経験もあるし・・・

というわけでなんだかな〜状態が続いています。