2005年05月17日

HTML Syntax Parser

日曜日の午後、ちょっと暇だったのでHTML Syntax Parserなんぞを作ってみました。 Heimdallrのソースに組み込まれている超簡易Parserを拡張し、他の言語のHTML Parserのインターフェースを参考にしつつ次のような特徴を持ったParserに仕立て上げました。

  • C++
  • Shift_JISなどのマルチバイト文字が扱える。
  • 文字型としてcharとwchar_tの両方が扱える。
  • ストリームからの読み込みができる。

こういうParserは、正直なところboostライブラリを作れるようなスーパープログラマが作ったものを使いたいのですが、残念ながら上記の特徴を持ったParserが見つからなかったので自前で作ることにしました(実はありますなんて言われたら大ショック!)。

低レベルな解析を行うSyntax Parserですので、「開始タグがあって普通のデータがあってコメントがあって・・・」といったようなSyntaxしか見ません。開始タグと終了タグの要素名が一致しているかどうかなんてまったく気にしません。

というわけでさほど高度な解析を行うわけではありませんが、これがあれば、形式が決まっているHTMLデータ(例えばmixiが出力するHTMLデータ)の解析はかなり楽にできます。これでHeimdallrのプラグインネタが色々増えました。さて、何を作りましょうかねぇ・・・。

しかし暇だからといって日曜日の午後を潰してこんなものを作ろうとするあたりジンセイオワッテマスね。

投稿者 MASATO : 2005年05月17日 00:14 | トラックバック
コメント
コメントする









名前、アドレスを登録しますか?