Simple HTML DOM Parserのサンプル
2011/04/21
Simple HTML DOM Parserを使った解析のサンプル。
htmlソースのDOM化
urlから直接取れば良いんだけど文字化けすることもあるので一手間かける。
- // simple_html_dom.phpファイルの読み込み
- include_once('simple_html_dom.php');
- // UTF-8で処理 – 他の文字コード処理するかもしれないからdefineしておく。
- define("CHAR_SET","UTF-8");
- // 文字化け対策のおまじない的(?)なもの。
- mb_language("Japanese");
- // 解析したいURL。ファイル名でも可。
- $url = "https://tips.recatnap.info/";
- // [$url]からファイルの中身を取得
- $sorce = file_get_contents( $url );
- // [$sorce]をエンコード(?) – 文字化け対策
- $sorce = mb_convert_encoding($sorce, CHAR_SET, "auto");
- // [$sorce]をDOM化。
- $gHtml = str_get_html($sorce);
直書きの(?)HTMLソースをDOM化
- // simple_html_dom.phpファイルの読み込み
- include_once('simple_html_dom.php');
- // UTF-8で処理 – 他の文字コード処理するかもしれないからdefineしておく。
- define("CHAR_SET","UTF-8");
- // 文字化け対策のおまじない的(?)なもの。
- mb_language("Japanese");
- // HTMLソース
- $sorce = "<html>xxxxx</html>";
- // [$sorce]をエンコード(?) – 文字化け対策
- $sorce = mb_convert_encoding($sorce, CHAR_SET, "auto");
- // [$sorce]をDOM化。
- $gHtml = str_get_html($sorce);
色々取得
「htmlソースの取得」で作った「$gHtml」を使う。
aタグのhref属性の値の全部を配列へ
bodyタグ内にあるaタグのhref属性を全部取得。
- if( count($gHtml->find('body a')) > 0){
- // bodyタグのaタグの個数が0個超過(1個以上)の場合
- $tag = $gHtml->find('body a');
- }else{
- echo 'bodyタグ内のaタグは0個以下' . "\n";
- return FALSE;
- }
- $href = array();
- foreach ( $tag as $val ){
- $href[] = $val->href . "\n";
- }
imgタグのalt属性であれこれと分類
- if( count($gHtml->find('body img')) > 0){
- // bodyタグのimgタグの個数が0個超過(1個以上)の場合
- $tag = $gHtml->find('body img');
- }else{
- echo 'bodyタグ内のimgタグは0個以下' . "\n";
- return FALSE;
- }
- $alt = array();
- foreach ( $tag as $val ){
- if( !isset($val->alt) ){
- echo 'alt属性が存在しない' . "\n";
- }else if( $val->alt == null ){
- echo 'alt属性の値は何も入っていない' . "\n";
- }else if( isset($val->alt) ){
- // alt属性に値が入っている。
- $alt[] = $val->alt;
- }
- }
1つめのh2タグの文字を取得
- if( count($gHtml->find('body h2')) > 0){
- // bodyタグのh2タグの個数が0個超過(1個以上)の場合
- $tag = $gHtml->find('body h2', 0);
- // ※2番目が欲しければ「$tag = $gHtml->find('body h2', 1);」とする。
- }else{
- echo 'bodyタグ内のh2タグは0個以下' . "\n";
- }
- $h2 = $tag->plaintext;
その他
回りくどいことはせずにタグなしの状態にして取得
「htmlソースの取得」と違うのは最後の行だけ。
「$sorce」に直接HTMLファイルを書き込むのもOK。
- // simple_html_dom.phpファイルの読み込み
- include_once('simple_html_dom.php');
- // UTF-8で処理 – 他の文字コード処理するかもしれないからdefineしておく。
- define("CHAR_SET","UTF-8");
- // 文字化け対策のおまじない的(?)なもの。
- mb_language("Japanese");
- // 解析したいURL。ファイル名でも可。
- $url = "https://tips.recatnap.info/";
- // [$url]からファイルの中身を取得
- $sorce = file_get_contents( $url );
- // [$sorce]をエンコード(?) – 文字化け対策
- $sorce = mb_convert_encoding($sorce, CHAR_SET, "auto");
- // [$sorce]からタグを取り除いたテキストのみ。
- $gHtml = str_get_html($sorce)->plaintext;