機械学習プロジェクトのデータセットを入手する4つのユニークな方法

機械学習やデータサイエンスには、優れたデータセットが不可欠です。プロジェクトに必要なデータを入手する方法を学びましょう...

データサイエンス・プロジェクトにおいて、データの不足はしばしば大きなフラストレーションのひとつとなります。しかし、データサイエンティストとして、どのようなプロジェクトでもデータを収集する方法を知っておくことは、習得すべき重要なスキルである。

データサイエンティストや機械学習エンジニアは、現在、最新のデータ収集技術を駆使して、アルゴリズムの学習に必要なデータをより多く取得しています。初めてデータサイエンスや機械学習のプロジェクトを始めようとする場合、データにもアクセスできるようにする必要があります。

どうすればこのプロセスを簡単にできるか？ここでは、データを収集するために使用できる最新のテクニックをいくつか紹介しましょう。

データサイエンス・プロジェクトにもっとデータが必要な理由

機械学習アルゴリズムは、データに基づいて、より正確で精度の高い予測を行うことができます。これらのアルゴリズムは、データセットを用いて学習される。このトレーニングは、幼児が初めて見る物の名前を教え、次にそれを見たときに個別に認識できるようにするのと同じようなものです。

人間は、新しい物体を知るのに、ほんの数例でいいのです。これは機械の場合ではなく、機械はある物体に慣れるために何百もの類似した例を必要とします。

この例や学習対象は、データである必要があります。そして、専用の機械学習アルゴリズムがトレーニングセットと呼ばれるデータセットを実行し、より多くのことを学習することで、より精度を高めていく。

つまり、アルゴリズムを学習させるのに十分なデータを提供できなければ、機械が学習するのに十分なデータがないため、プロジェクトの最後に正しい結果を得ることができないかもしれないのです。

そのため、結果の精度を高めるために十分なデータを取得する必要があり、以下、そのための最新の戦略について見ていく。

1ウェブから直接データをクローリング

ウェブクローリングは、ウェブからデータを自動的に取得する方法である。ウェブクローリングの最も基本的な形態は、ウェブサイトからローカルファイルに要素をコピー＆ペーストすることかもしれません。

しかし、ウェブクローリングでは、特別なスクリプトを書いたり、特別なツールを使って、ウェブページから直接データをクロールすることもある。また、より詳細なデータ収集のためにSerpstackのようなアプリケーションプログラミングインターフェース（api）を使用することもあります。

ウェブ上の海賊版は知的財産の喪失につながるという考え方もありますが、これは悪意のある人がいる場合にのみ起こることです。ウェブクローリングは合法であり、顧客や競合他社に関する***情報を収集することで、企業がより良い意思決定を行えるようにします。

関連：Webクリッピングとは、Webサイトからデータを収集する方法です。

例えば、オンラインショップからデータを収集し、価格や在庫状況を比較するスクリプトを書くことができます。少し専門的になりますが、オーディオファイルや画像などの生メディアもオンラインで収集することができます。

Pythonのパーサーライブラリbeautifulsoup4htmlを使ったウェブクローリングについては、以下のサンプルコードをご覧ください。

from bs4 import BeautifulSoupfrom urllib.request import urlopenurl = "Enter the full URL of the target webpage here"targetPage = urlopen(url)htmlReader = targetPage.read().decode("utf-8")webData = BeautifulSoup(htmlReader, "html.parser")print(webData.get_text())

サンプルコードを実行する前に、ライブラリーをインストールする必要があります。コマンドラインから仮想環境を作成し、pip install beautifulsoup4 を実行してライブラリをインストールします。

2 ウェブフォーム経由

また、データ収集にオンラインフォームを利用することもでき、これはデータを収集する対象グループがある場合に最も有効です。

ウェブフォームを送信するデメリットとして、必要なデータを収集できない可能性があります。小規模なデータサイエンス・プロジェクトやチュートリアルには非常に便利ですが、多数の匿名ユーザーにリーチしようとすると、制約が生じる場合があります。

有料のオンラインデータ収集サービスもありますが、少々お金をかけても構わないという方以外は、ほとんどが高額なため、個人での利用はお勧めできません。

人々からデータを収集するためのさまざまなWebフォームがあります。Google Formsは、連絡先、人口統計データ、その他の個人情報を収集するために使用することができます。

フォームを作成したら、あとはメールやSMSなど、あらゆる手段でターゲットにリンクを送るだけです。

しかし、googleformsは一般的なWebフォームの一例に過ぎず、データを収集するのに優れた機能を持つ代替手段は数多く存在します。

iii. ソーシャルメディアを通じて

また、Facebook、LinkedIn、Instagram、Twitterなどのソーシャルメディアを通じてデータを収集することも可能です。ソーシャルメディアからのデータ取得は、他の方法に比べて少し専門的です。完全に自動化されており、さまざまなAPIツールを使用することになります。

ソーシャルメディアは比較的未整理で、データ量も膨大なため、データの抽出が難しいのです。このようなデータセットは、適切に整理されれば、オンライン感情分析、市場動向分析、オンラインブランディングを含むデータサイエンス・プロジェクトに役立つ可能性があります。

例えば、Twitterはソーシャルメディアのデータソースの一例であり、そのtweepythonapiパッケージを使って多数のデータセットを収集することができます（pip install tweepyコマンドでインストール可能）。

基本的な例として、Twitterのホームページからツイートを抽出するコードのブロックを以下に示します。

import tweepyimport remyAuth = tweepy.OAuthHandler(paste c***umer_key here, paste c***umer_secret key here)auth.set_access_token(paste access_token here, paste access_token_secret here)authenticate = tweepy.API(myAuth)target_tweet = api.home_timeline()for targets in target_tweet: print(targets.text)

docs.tweepy.org のドキュメントサイトから tweepy のドキュメントにアクセスし、詳しい使い方を確認することができます。TwitterのAPIを使用するには、開発者：twitter.comを指してウェブサイトを経由する必要があります。

Facebookもデータ収集のための強力なソーシャルメディア・プラットフォームです。Facebook Graphics APIと呼ばれる特別なAPIエンドポイントを使用します。このAPIにより、開発者はFacebookプラットフォーム上の特定のユーザー行動に関するデータを収集することができます。詳細は、developers.facebook.comのFacebook Graph APIドキュメントで確認できます。

APIを使ったソーシャルメディアデータ収集の詳細な説明は、この記事の範囲外です。もっと詳しく知りたい方は、各プラットフォームのドキュメントを確認すると、より深い知識を得ることができます。

APIエンドポイントに接続するスクリプトを書くだけでなく、Scraping Expertやその他多くのソーシャルメディアデータ収集サードパーティツールを使用することができます。しかし、これらのWebツールのほとんどは、コストがかかります。

4 公式ソースからの既存データセットの収集

また、権威ある情報源から既存のデータセットを収集することも可能です。この方法は、公式データベースにアクセスし、そこから有効なデータセットをダウンロードするものである。ウェブクローリングなどとは異なり、このオプションは非常に高速で、専門的な知識もほとんど必要ありません。

この種のソースのデータセットは、通常、CSV、JSON、HTML、Excelのフォーマットで提供される。権威あるデータソースの例としては、世界銀行、UNDAF、その他がある。

データソースによっては、現在のデータを非公開にして一般に公開しない場合もあるが、そのアーカイブはダウンロードできることが多い。

機械学習プロジェクトのための公式データソースを増やす

このリストは、プロジェクトでさまざまな種類のデータを取得するための良い出発点となるはずです。

EUオープンデータポータル
カグルのデータセット
Googleデータセット検索
データセンター
AWS上のオープンデータ用レジストリ
ヨーロッパ** 機関データと地図
マイクロソフトリサーチオープンデータ
GitHub上の優れた公開データセットリポジトリ
Data.Gov：米国**の公共データの本拠地

これ以外にもソースはあり、注意深く探せばデータサイエンス・プロジェクトに最適なデータを手に入れることができます。

これらの最新の技術を組み合わせることで、より良い結果を得ることができます。

データ収集のためのツールが限られていたり、理解しにくかったりすると、データ収集が面倒になることがあります。旧来の伝統的な方法も有効であり、場合によっては避けられないこともありますが、現代の方法はより迅速で信頼性の高いものとなっています。

しかし、これらの最新のデータ収集方法を組み合わせることで、単一の方法に頼るよりも良い結果を生む可能性があります。

2021-03-29 21:16 に公開
閲覧 ( 23 )
分類：プログラミング