読者です 読者をやめる 読者になる 読者になる

或阿呆のブログ

Pythonを好んで使っているプログラマです。Ruby,Perl,PowerShell,VBAなどでもたまに書いています。おバカなことが大好きです。

スクレイピングするなら何言語?スクレイピングをするのにWindowsPowerShellってのも意外といけるかもしれない!

スクレイピング PowerShell

2017/3/24 Pythonの紹介書籍を追加。

何言語でスクレイピングをするか?

以前は、スクレイピングをするには、Perl,Python,Rubyあたりを使っていた。JavaScriptVBAってのも意外とありだと思う。。。
それぞれ、私なりの見解と参考書籍を挙げておきます。

Perl

一番歴史があると思われる。やろうと思うことを実現する道具は一通り揃っている。が、CPANのライブラリ頼みになってしまうので、開発中止になっているモジュールも多々ある。参考書籍もやや古い。今からスクレイピングをやろうとするなら、Perlを選択するのは良い選択ではないと思う。

以下は文句なしの名著なんだけど、いかんせん、古すぎる。

Python

スクレイピングするのに使えるライブラリがいくつかある。BeautifulSoupを使っておけば、何とかなる。お勧めの言語。参考書籍にまともなものが無かったので、Pythonを選択する人は少なかったかと思うが、以下の素晴らしい書籍が発売されたので、今後はもっと利用が増えるんじゃないだろうか?

待望の、Pythonで書かれたスクレイピングの書籍が続々と刊行

Ruby

Pythonと同様スクレイピングするのに使えるライブラリがいくつかある。Nokogiriは便利過ぎる。ただ、私はRubyの文法がわかりづらいし書きづらいので好きではない。やれることはPythonと同等だと思う。好みで、PythonにするかRubyにするかを選べばいいと思う。Rubyには神書籍がある。これさえ読んでおけば、スクレイピングのみならずクローリングの手法を一通り学べるんではないか。ここだけは、Pythonより明らかに優れている。

JavaScript

スクレイピングするのに使えるライブラリがいくつかある。だが、環境を揃えるのにかなり手間がかかる。ウェブページにスクレイピング結果を乗せたいなど、特段の事情が無ければ、PythonRubyにしておいたほうが明らかに無難だろう。以下の書籍は悪くないんだけどな~。かなり面白いんだけどな~。そもそも、スクレイピングをサクッとやりたいにも関わらず、こんなに面倒くさい作業が多いと萎える。

VBA

Webページのコンテンツを直接取ってくるのではなくて、IEのオブジェクトを使って間接的に取ってくる感じ。上述のスクリプト言語を使うよりかなり面倒くさい。ただ、スクレイピングで得た情報をエクセルの資料化するのが出来るのが利点。また、Excelが標準でインストールされている端末って多いから、環境構築は楽かも。

以下の書籍でも紹介されている。

WindowsPowerShell

Perl,Ruby,Pythonに比較して、ライブラリは多少貧相。でも、すごく小難しいことをやらん限り、十分足りるでしょう。Windows7以降は、標準でインストールされているから、環境構築は不要。ちなみに、取得結果をcvsに出力するなどが容易。今のところは、まだまだだが、今後に大いに期待できる言語だと思う。

それ用の書籍が無いのが残念。以下の書籍で、ちょっと言及されている。

これからはWindowsPowerShellでしょう。

だってさ、漫画喫茶とかネカフェでも、インストール不要で実行可能なわけじゃん。これはでかい。

Google Adsenseのポリシー違反の通知が来た

運営ネタ

アダルト?な内容が含まれるとのことで怒られた。

アダルトって、どこまでがアダルトなんだというのが難しいが、以下も含まれるらしい。

性的なパフォーマンスに関する助言やアドバイス
性に関する医療サービス
妊娠、出産、家族計画についての性に関する医療アドバイス
性感染症に関するディスカッション

なるほど。。。

確かに含まれるかも。

ちなみに、対象のページは2年前くらいに投稿したもの。
それが、時間の経過とともに、検索順位が上がって行き、そこそこのアクセスを集めるようになって警告された。

ということは、他のページににも、警告される潜在的なリスクがあるかも。
ということで、いろいろなページを削除した。

計30ページくらい削除しただろうか?
あぁ、もったいない。

Google Adsenseのポリシー違反については、皆様いろいろ悩まれていると聞く。
実は、違反コンテンツの内容は、ページ毎に判断しているらしいので、
該当のページだけアドセンス広告を外せば問題無いらしい。

ただし、ブログのテンプレートなどで広告を張り付けている場合は、
そういった対処が難しい。

はぴらきさんが、Adsenseコードのカスタマイズについて面白いコードを書いていらっしゃった。
参考になる。

hapilaki.hateblo.jp

VBScriptをサクラエディタで実行

2017/03/24 サクラエディタの書籍が刊行されていたためアップデート。

こんなに簡単な実行方法があったんだとびっくり。

とりあえず、.vbsのファイルを作成して、サクラエディタで開く。

f:id:oneshotlife_tom:20130827104541j:plain

CTRL+bで実行

f:id:oneshotlife_tom:20130827104725j:plain

こりゃびっくりだわ・・・

最速攻略 VBScriptサンプル大全集 Windows7/Vista/XP/2000対応

最速攻略 VBScriptサンプル大全集 Windows7/Vista/XP/2000対応

最速攻略 VBScriptサンプル大全集

最速攻略 VBScriptサンプル大全集

ダーツの試合推移をエクセルからHTMLに出力するプログラムを書いた。。。

プログラミング

これ、サンプルね!!!

ぬん吉とぬん太の対戦

第1ラウンド先攻:ぬん吉のスロー

マーク数
◎(20) /(20) ◎(20)
得点表
ぬん吉 num ぬん太
20
19
18
17
16
15
BULL
80 得点 0

第1ラウンド後攻:ぬん太のスロー

マーク数
◎(19) ◎(19) ◎(19)
得点表
ぬん吉 num ぬん太
20
19
18
17
16
15
BULL
80 得点 114

第2ラウンド先攻:ぬん吉のスロー

マーク数
◎(20) ◎(15) ◎(15)
得点表
ぬん吉 num ぬん太
20
19
18
17
16
15
BULL
185 得点 114

第2ラウンド後攻:ぬん太のスロー

マーク数
/(19) /(19) /(19)
得点表
ぬん吉 num ぬん太
20
19
18
17
16
15
BULL
185 得点 171

第3ラウンド先攻:ぬん吉のスロー

マーク数
/(19) ×(19) ◎(20)
得点表
ぬん吉 num ぬん太
20
19
18
17
16
15
BULL
245 得点 171

第3ラウンド後攻:ぬん太のスロー

マーク数
◎(18) ◎(18) ◎(18)
得点表
ぬん吉 num ぬん太
20
19
18
17
16
15
BULL
245 得点 279

第4ラウンド先攻:ぬん吉のスロー

マーク数
/(20) - -
得点表
ぬん吉 num ぬん太
20
19
18
17
16
15
BULL
265 得点 279

第4ラウンド後攻:ぬん太のスロー

マーク数
/(20) ×(20) /(18)
得点表
ぬん吉 num ぬん太
20
19
18
17
16
15
BULL
265 得点 297

第5ラウンド先攻:ぬん吉のスロー

マーク数
◎(17) ◎(17) ◎(18)
得点表
ぬん吉 num ぬん太
20
19
18
17
16
15
BULL
316 得点 297

第5ラウンド後攻:ぬん太のスロー

マーク数
/(16) - -
得点表
ぬん吉 num ぬん太
20
19
18
17
16 /
15
BULL
316 得点 297

第6ラウンド先攻:ぬん吉のスロー

マーク数
/(16) /(16) /(16)
得点表
ぬん吉 num ぬん太
20
19
18
17
16 /
15
BULL
316 得点 297

第6ラウンド後攻:ぬん太のスロー

マーク数
×(BULL) ×(BULL) /(BULL)
得点表
ぬん吉 num ぬん太
20
19
18
17
16 /
15
BULL
316 得点 347

第7ラウンド先攻:ぬん吉のスロー

マーク数
◎(17) /(17) /(BULL)
得点表
ぬん吉 num ぬん太
20
19
18
17
16 /
15
/ BULL
384 得点 347

第7ラウンド後攻:ぬん太のスロー

マーク数
/(BULL) /(BULL) /(BULL)
得点表
ぬん吉 num ぬん太
20
19
18
17
16 /
15
/ BULL
384 得点 422

第8ラウンド先攻:ぬん吉のスロー

マーク数
/(17) /(17) -
得点表
ぬん吉 num ぬん太
20
19
18
17
16 /
15
/ BULL
418 得点 422

第8ラウンド後攻:ぬん太のスロー

マーク数
×(16) ◎(17) /(15)
得点表
ぬん吉 num ぬん太
20
19
18
17
16
15 /
/ BULL
418 得点 422

第9ラウンド先攻:ぬん吉のスロー

マーク数
- ◎(15) /(BULL)
得点表
ぬん吉 num ぬん太
20
19
18
17
16
15 /
× BULL
463 得点 422

第9ラウンド後攻:ぬん太のスロー

マーク数
/(BULL) /(BULL) ×(15)
得点表
ぬん吉 num ぬん太
20
19
18
17
16
15
× BULL
463 得点 472
試合終了!!!

マーク数まとめ

round 1-1st 1-2nd 1-3rd 2-1st 2-2nd 3-3rd
1 ◎(20) /(20) ◎(20) ◎(19) ◎(19) ◎(19)
2 ◎(20) ◎(15) ◎(15) /(19) /(19) /(19)
3 /(19) ×(19) ◎(20) ◎(18) ◎(18) ◎(18)
4 /(20) - - /(20) ×(20) /(18)
5 ◎(17) ◎(17) ◎(18) /(16) - -
6 /(16) /(16) /(16) ×(BULL) ×(BULL) /(BULL)
7 ◎(17) /(17) /(BULL) /(BULL) /(BULL) /(BULL)
8 /(17) /(17) - ×(16) ◎(17) /(15)
9 - ◎(15) /(BULL) /(BULL) /(BULL) ×(15)

ダーツを本格的にはじめました

ダーツのカテゴリなんかも作ってみちゃったりした。後々は、ダーツのブログを別個に作ってそちらに移行させたいと思う。ひとまず、当ブログに書き溜めておこう。

私がダーツに知り合ったのはかれこれ10年以上も前になる。25歳のときだったと思う。初めて就職した会社の仕事の都合上で新横浜に住むことになった。そのとき、マイミクの誰かがダーツをやっているというのを見て、その練習現場に興味本位でお邪魔したことがきっかけ。ダーツライブというオンラインのシステムを使ったソフトダーツがあるということを知った。手軽にゲームが出来、日本中*1のプレイヤーとデータを共有しながら楽しめるということは画期的だと思った。おそらく流行るだろうなと思った。

それから1年、私はそれなりのペースでダーツをやっていった。そこまでのめり込むわけでもなく、そこまで強くなるでもなく、細々と続けていた。ちなみに、私が通っていたダーツバーは、Yokohama honey's cafeというところで、横浜でも知る人ぞ知る、強豪プレイヤーが集まるお店だった。当時よく来ていたお客さんの中にはプロになった人もいるくらいだ。

そして、仙台に転勤することを境にダーツ熱は冷めていった。仙台はあまりダーツが盛んではなかった。もちろん、仙台の街中へ行けば、それなりにダーツバーがあるのだが、それほどレベルが高いわけでも無く、かつ、自宅から遠いということもあり、あまり投げに行くことも出来なくなってしまった。

それから8年くらい経過し、友人が黒川郡大和町にダーツバーが出来たという連絡をよこした。2016年10月くらいのこと。大和町は、車で15分で行ける。ふっかさんというお店だ。もともとはダーツバーじゃないんだが、ダーツマシンを置いてから、それを目当てに来るお客さんが増えて、今ではそれなりにお客さんがいる。強いプレイヤーは居ないのだが、皆真面目で、なかなかセンスも良い。いずれみんな強くなるだろうという予感を感じさせてくれた。Yokohama honey's cafeでは、強いプレイヤーにダーツを教えて貰う側だったが、ふっかさんでは、皆でダーツをしながらあれやこれやを考える。初心者も多いので、教える側になることも多くなった。能動的にダーツをやるようになって、ダーツが楽しくなった。気に入ったので、今では毎日ダーツをやっている。ダーツ漬けの日々だ。

これからが非常に楽しみだ。

*1:後々は世界中

英語って合理的な言語だよな

Google bloggerのエディタを見ていて思った。スペルチェックという機能がある。bloggerは元々海外で始まったサービスだ。海外ではそこそこ使用者が多い様子。日本では一向に流行る気配がない。なので、日本向けにローカライズされていない部分が多々あるという推測が成り立つ。

英語の文章は、アルファベット27文字といくつかの記号で構成される。単語と単語には空白が入る。日本語と比べると、文字と文字の組み合わせパターンが非常に少なく、かつシンプルだということがわかる。だからこそ、スペルチェックなんていう機能が実装出来るんだろう。日本語で、文章の文法が正しいかどうかのチェックする機能を提供するには、そう簡単には行かないだろう。。。

英語が、正解中で普及している理由の一つがわかった気がする。

ロカビリー聴き放題のインターネットラジオがめっちゃ助かる。

昔はCDとか買っていたんだけど、今は買えない。何といっても高い。すぐ飽きるし。ラジオならDJが曲をセレクトしてくれるから楽。聴いたことない曲もたくさん。ロカビリー大好き。
例えば、これな!
www.internet-radio.com

DC電源 ユニバーサルアダプタ コネクタ ジャック #Amazon

Amazon

これやばい。。。ほとんどのPCの電源に対応していそう。

パソコンの薄型万能電源アダプター #Amazon

Amazon

中古パソコンをよく手に入れるのだが、電源アダプターが合わないことが多いので。。。