PHPでHTMLをパースする

HTMLコンテンツを抜き出して加工するという手法を「スクレイピング(scraping)」と呼ぶそうだ。
PHP
HTML Parser for PHP-4という便利なライブラリがある。
[HTML]
htmlparser.incを
include (“htmlparser.inc”);
[/HTML]

phphtmlparserにサンプルソースが付いています。
読めばすぐにわかると思います。

NODE_TYPE_ELEMENT 開始タグ
NODE_TYPE_ENDELEMENT 終了タグ
NODE_TYPE_TEXT 平文

PHP