perlでスクレイピング「Mojolicious::LiteとStarmanで閲覧用Webアプリを作成する」

スクレイピングしたデータは、見やすい形にしておくのがいいと思います。場合によると思いますが、ブラウザで見られるようにしてあると便利な場合があります。そこで、perlでWebアプリを作成します。ただ、スクレイピングデータを見るためにだけのWebアプ…

2010-08-30

perlでスクレイピング「URL操作」

perl スクレイピング

URLに規則性がある場合対象とするサイトのURLを見てみると規則性がある場合があります。例えば、なにかを一覧しているページでは、URLに「page=002」といったパラメータが付いている場合があります。この一覧ページはページングされていて、「page=002」…

2010-08-29

perlでスクレイピング「データ保存のためのディレクトリ操作」

perl スクレイピング

スクレイピングで取得してきたデータは保存します。ただ単に保存するだけでなく、何かしら整理して保存した方が後から参照しやすくなります。例えば、複数のサイトから毎日画像データを取得する場合、取得してきた画像を「サイト毎」「日付毎」に保存した…

2010-08-28

perlでスクレイピング「HTML解析してデータを取得」

perl スクレイピング

HTMLからデータを取ってくることは正規表現でもできます。しかし、ちょっとでも表記が変わってしまうとうまく動作しなくなってしまいます。また、正規表現を読み解くのは結構面倒くさいので、保守するのも大変です。 javascriptにはDOMやXPathがあります。…

2010-08-27

perlでスクレイピング「正規表現でデータを取得」

perl スクレイピング

取得してきたHTMLから必要な箇所だけを抽出します。 perlには正規表現の機能があります。正規表現を使って必要なデータを取って来れます。例えば下記のようなHTMLを取得したとします。 <html> <head> <title>Test Page</title> </head> <body> <div id="content"> <h1>Test Page</h1> <h2>主なトピックス</h2> <ul class="clr"> <li><span class="dateRight">8月30日</span><a href="/topics/title1.html">Title1</a></li></ul></div></body></html>