PHPでHTMLをパースする
HTMLコンテンツを抜き出して加工するという手法を「スクレイピング(scraping)」と呼ぶそうだ。
PHP
HTML Parser for PHP-4という便利なライブラリがある。
[HTML]
htmlparser.incを
include (“htmlparser.inc”);
[/HTML]
phphtmlparserにサンプルソースが付いています。
読めばすぐにわかると思います。
NODE_TYPE_ELEMENT 開始タグ
NODE_TYPE_ENDELEMENT 終了タグ
NODE_TYPE_TEXT 平文