読者です 読者をやめる 読者になる 読者になる

スクレイピング

perlでスクレイピング「Mojolicious::LiteとStarmanで閲覧用Webアプリを作成する」

スクレイピングしたデータは、見やすい形にしておくのがいいと思います。 場合によると思いますが、ブラウザで見られるようにしてあると便利な場合があります。 そこで、perlでWebアプリを作成します。 ただ、スクレイピングデータを見るためにだけのWebアプ…

perlでスクレイピング「URL操作」

URLに規則性がある場合 対象とするサイトのURLを見てみると規則性がある場合があります。 例えば、なにかを一覧しているページでは、URLに「page=002」といったパラメータが付いている場合があります。 この一覧ページはページングされていて、「page=002」…

perlでスクレイピング「データ保存のためのディレクトリ操作」

スクレイピングで取得してきたデータは保存します。 ただ単に保存するだけでなく、何かしら整理して保存した方が後から参照しやすくなります。 例えば、複数のサイトから毎日画像データを取得する場合、 取得してきた画像を「サイト毎」「日付毎」に保存した…

perlでスクレイピング「HTML解析してデータを取得」

HTMLからデータを取ってくることは正規表現でもできます。 しかし、ちょっとでも表記が変わってしまうとうまく動作しなくなってしまいます。 また、正規表現を読み解くのは結構面倒くさいので、保守するのも大変です。 javascriptにはDOMやXPathがあります。…

perlでスクレイピング「正規表現でデータを取得」

取得してきたHTMLから必要な箇所だけを抽出します。 perlには正規表現の機能があります。 正規表現を使って必要なデータを取って来れます。 例えば下記のようなHTMLを取得したとします。 <html> <head> <title>Test Page</title> </head> <body> <div id="content"> <h1>Test Page</h1> <h2>主なトピックス</h2> <ul class="clr"> <li><span class="dateRight">8月30日</span><a href="/topics/title1.html">Title1</a></li></ul></div></body></html>

perlでスクレイピング「HTTPでページを取ってくる」

perlでのスクレイピング関連をメモしていきたいと思います。 まずスクレイピングするときに行なう処理は、ページを取ってくることです。 普段は、URLをブラウザのURL欄に入力し、ブラウザがHTTPでサーバにアクセスしてページを取得しています。 この処理をpe…