読者です 読者をやめる 読者になる 読者になる

或阿呆のブログ

Pythonを好んで使っているプログラマです。Ruby,Perl,PowerShell,VBAなどでもたまに書いています。おバカなことが大好きです。

スクレイピングするなら何言語?スクレイピングをするのにWindowsPowerShellってのも意外といけるかもしれない!

2017/3/24 Pythonの紹介書籍を追加。

何言語でスクレイピングをするか?

以前は、スクレイピングをするには、Perl,Python,Rubyあたりを使っていた。JavaScriptVBAってのも意外とありだと思う。。。
それぞれ、私なりの見解と参考書籍を挙げておきます。

Perl

一番歴史があると思われる。やろうと思うことを実現する道具は一通り揃っている。が、CPANのライブラリ頼みになってしまうので、開発中止になっているモジュールも多々ある。参考書籍もやや古い。今からスクレイピングをやろうとするなら、Perlを選択するのは良い選択ではないと思う。

以下は文句なしの名著なんだけど、いかんせん、古すぎる。

Python

スクレイピングするのに使えるライブラリがいくつかある。BeautifulSoupを使っておけば、何とかなる。お勧めの言語。参考書籍にまともなものが無かったので、Pythonを選択する人は少なかったかと思うが、以下の素晴らしい書籍が発売されたので、今後はもっと利用が増えるんじゃないだろうか?

待望の、Pythonで書かれたスクレイピングの書籍が続々と刊行

Ruby

Pythonと同様スクレイピングするのに使えるライブラリがいくつかある。Nokogiriは便利過ぎる。ただ、私はRubyの文法がわかりづらいし書きづらいので好きではない。やれることはPythonと同等だと思う。好みで、PythonにするかRubyにするかを選べばいいと思う。Rubyには神書籍がある。これさえ読んでおけば、スクレイピングのみならずクローリングの手法を一通り学べるんではないか。ここだけは、Pythonより明らかに優れている。

JavaScript

スクレイピングするのに使えるライブラリがいくつかある。だが、環境を揃えるのにかなり手間がかかる。ウェブページにスクレイピング結果を乗せたいなど、特段の事情が無ければ、PythonRubyにしておいたほうが明らかに無難だろう。以下の書籍は悪くないんだけどな~。かなり面白いんだけどな~。そもそも、スクレイピングをサクッとやりたいにも関わらず、こんなに面倒くさい作業が多いと萎える。

VBA

Webページのコンテンツを直接取ってくるのではなくて、IEのオブジェクトを使って間接的に取ってくる感じ。上述のスクリプト言語を使うよりかなり面倒くさい。ただ、スクレイピングで得た情報をエクセルの資料化するのが出来るのが利点。また、Excelが標準でインストールされている端末って多いから、環境構築は楽かも。

以下の書籍でも紹介されている。

WindowsPowerShell

Perl,Ruby,Pythonに比較して、ライブラリは多少貧相。でも、すごく小難しいことをやらん限り、十分足りるでしょう。Windows7以降は、標準でインストールされているから、環境構築は不要。ちなみに、取得結果をcvsに出力するなどが容易。今のところは、まだまだだが、今後に大いに期待できる言語だと思う。

それ用の書籍が無いのが残念。以下の書籍で、ちょっと言及されている。

これからはWindowsPowerShellでしょう。

だってさ、漫画喫茶とかネカフェでも、インストール不要で実行可能なわけじゃん。これはでかい。

Google Adsenseのポリシー違反の通知が来た

アダルト?な内容が含まれるとのことで怒られた。

アダルトって、どこまでがアダルトなんだというのが難しいが、以下も含まれるらしい。

性的なパフォーマンスに関する助言やアドバイス
性に関する医療サービス
妊娠、出産、家族計画についての性に関する医療アドバイス
性感染症に関するディスカッション

なるほど。。。

確かに含まれるかも。

ちなみに、対象のページは2年前くらいに投稿したもの。
それが、時間の経過とともに、検索順位が上がって行き、そこそこのアクセスを集めるようになって警告された。

ということは、他のページににも、警告される潜在的なリスクがあるかも。
ということで、いろいろなページを削除した。

計30ページくらい削除しただろうか?
あぁ、もったいない。

Google Adsenseのポリシー違反については、皆様いろいろ悩まれていると聞く。
実は、違反コンテンツの内容は、ページ毎に判断しているらしいので、
該当のページだけアドセンス広告を外せば問題無いらしい。

ただし、ブログのテンプレートなどで広告を張り付けている場合は、
そういった対処が難しい。

はぴらきさんが、Adsenseコードのカスタマイズについて面白いコードを書いていらっしゃった。
参考になる。

hapilaki.hateblo.jp

VBScriptをサクラエディタで実行

2017/03/24 サクラエディタの書籍が刊行されていたためアップデート。

こんなに簡単な実行方法があったんだとびっくり。

とりあえず、.vbsのファイルを作成して、サクラエディタで開く。

f:id:oneshotlife_tom:20130827104541j:plain

CTRL+bで実行

f:id:oneshotlife_tom:20130827104725j:plain

こりゃびっくりだわ・・・

最速攻略 VBScriptサンプル大全集 Windows7/Vista/XP/2000対応

最速攻略 VBScriptサンプル大全集 Windows7/Vista/XP/2000対応

最速攻略 VBScriptサンプル大全集

最速攻略 VBScriptサンプル大全集