PCスキルの小技・忘却防止メモ

ExcelにHTML、CSSとかjavascriptなどPCに関連するお勉強・小技のメモ

Simple HTML DOM Parserのサンプル

2011/04/21

Simple HTML DOM Parserを使った解析のサンプル。

htmlソースのDOM化

urlから直接取れば良いんだけど文字化けすることもあるので一手間かける。

// simple_html_dom.phpファイルの読み込み
include_once('simple_html_dom.php');
// UTF-8で処理 – 他の文字コード処理するかもしれないからdefineしておく。
define("CHAR_SET","UTF-8");
// 文字化け対策のおまじない的（？）なもの。
mb_language("Japanese");
// 解析したいURL。ファイル名でも可。
$url = "https://tips.recatnap.info/";
// [$url]からファイルの中身を取得
$sorce = file_get_contents( $url );
// [$sorce]をエンコード（？） – 文字化け対策
$sorce = mb_convert_encoding($sorce, CHAR_SET, "auto");
// [$sorce]をDOM化。
$gHtml = str_get_html($sorce);

直書きの（？）HTMLソースをDOM化

// simple_html_dom.phpファイルの読み込み
include_once('simple_html_dom.php');
// UTF-8で処理 – 他の文字コード処理するかもしれないからdefineしておく。
define("CHAR_SET","UTF-8");
// 文字化け対策のおまじない的（？）なもの。
mb_language("Japanese");
// HTMLソース
$sorce = "<html>xxxxx</html>";
// [$sorce]をエンコード（？） – 文字化け対策
$sorce = mb_convert_encoding($sorce, CHAR_SET, "auto");
// [$sorce]をDOM化。
$gHtml = str_get_html($sorce);

色々取得

「htmlソースの取得」で作った「$gHtml」を使う。

aタグのhref属性の値の全部を配列へ

bodyタグ内にあるaタグのhref属性を全部取得。

if( count($gHtml->find('body a')) > 0){
// bodyタグのaタグの個数が0個超過（1個以上）の場合
$tag = $gHtml->find('body a');
}else{
echo 'bodyタグ内のaタグは0個以下' . "\n";
return FALSE;
}
$href = array();
foreach ( $tag as $val ){
$href[] = $val->href . "\n";
}

imgタグのalt属性であれこれと分類

if( count($gHtml->find('body img')) > 0){
// bodyタグのimgタグの個数が0個超過（1個以上）の場合
$tag = $gHtml->find('body img');
}else{
echo 'bodyタグ内のimgタグは0個以下' . "\n";
return FALSE;
}
$alt = array();
foreach ( $tag as $val ){
if( !isset($val->alt) ){
echo 'alt属性が存在しない' . "\n";
}else if( $val->alt == null ){
echo 'alt属性の値は何も入っていない' . "\n";
}else if( isset($val->alt) ){
// alt属性に値が入っている。
$alt[] = $val->alt;
}
}

1つめのh2タグの文字を取得

if( count($gHtml->find('body h2')) > 0){
// bodyタグのh2タグの個数が0個超過（1個以上）の場合
$tag = $gHtml->find('body h2', 0);
// ※2番目が欲しければ「$tag = $gHtml->find('body h2', 1);」とする。
}else{
echo 'bodyタグ内のh2タグは0個以下' . "\n";
}
$h2 = $tag->plaintext;

その他

回りくどいことはせずにタグなしの状態にして取得

「htmlソースの取得」と違うのは最後の行だけ。
「$sorce」に直接HTMLファイルを書き込むのもOK。

// simple_html_dom.phpファイルの読み込み
include_once('simple_html_dom.php');
// UTF-8で処理 – 他の文字コード処理するかもしれないからdefineしておく。
define("CHAR_SET","UTF-8");
// 文字化け対策のおまじない的（？）なもの。
mb_language("Japanese");
// 解析したいURL。ファイル名でも可。
$url = "https://tips.recatnap.info/";
// [$url]からファイルの中身を取得
$sorce = file_get_contents( $url );
// [$sorce]をエンコード（？） – 文字化け対策
$sorce = mb_convert_encoding($sorce, CHAR_SET, "auto");
// [$sorce]からタグを取り除いたテキストのみ。
$gHtml = str_get_html($sorce)->plaintext;

新着（ニュース関連以外）

2018-07-26

冬真っただ中の年賀状の「新春」

年賀状で「新春」とか書くけど・・・何故なんだろうと8月を目前にした今、疑問に思った。

2018-05-16

PHP 画像の回転とヘッダ情報の関連：Orientationとimagerotate()とimagejpeg()

PHPで画像のヘッダ情報（？）の「Orientation」を元に画像回転させたい。

2018-03-05

WinPCにAndroid Studioをインストールする

Android Studioをインストール。エミュレータを軽くするトコまで終わらせたかったけど、挫折した。

2018-02-23

ServiceWorkerについてのメモ

プッシュ通知について調べてた時にでてきたServiceWorker。そのServiceWorkerについてのメモ。

2017-12-13

jqueryでdomを配列で受け取るためのメモ

jqueryで取得したDOM要素をオブジェクトじゃなくて、配列で受け取りたい

ニュース関連の新着

各種記事（昨日：2021/10/26）盛り合わせ：SEOとか。

各種記事（昨日：2021/10/25）盛り合わせ：SEOとか。

各種記事（昨日：2021/10/22）盛り合わせ：SEOとか。

各種記事（昨日：2021/10/21）盛り合わせ：SEOとか。

各種記事（昨日：2021/10/20）盛り合わせ：SEOとか。

各種記事（昨日：2021/10/19）盛り合わせ：SEOとか。

各種記事（昨日：2021/10/18）盛り合わせ：SEOとか。

各種記事（昨日：2021/10/16）盛り合わせ：SEOとか。