获取机器学习项目数据集的4种独特方法

好的数据集对于机器学习和数据科学是必不可少的。学习如何获取项目所需的数据。...

数据不足往往是大多数数据科学项目的主要挫折之一。然而，作为一名数据科学家，知道如何为任何你想从事的项目收集数据是你需要掌握的一项重要技能。

4 Modern Ways to Get Datasets for Your Data Science Project-Featured

数据科学家和机器学习工程师现在使用现代数据收集技术来获取更多的数据用于训练算法。如果你打算开始你的第一个数据科学或机器学习项目，你需要能够获得数据以及。

你怎样才能让这个过程对你自己来说容易些呢？让我们来看看可以用来收集数据的一些现代技术。

为什么你的数据科学项目需要更多的数据

机器学习算法依赖于数据变得更精确、更精确和更具预测性。这些算法使用数据集进行训练。这个训练过程有点像是第一次教一个蹒跚学步的孩子一个物体的名字，然后让他们在下一次看到它时单独识别它。

人类认识一个新物体只需要几个例子。对于一台机器来说情况并非如此，因为它需要成百上千个类似的例子来熟悉一个对象。

这些例子或训练对象需要以数据的形式出现。然后，一个专用的机器学习算法通过称为训练集的数据集运行，并对其进行更多的学习，从而变得更精确。

这意味着如果你不能提供足够的数据来训练你的算法，你可能无法在项目结束时得到正确的结果，因为机器没有足够的数据来学习。

因此，有必要获得足够的数据来提高结果的准确性。下面我们来看看一些可以用来实现这一目标的现代策略。

1直接从网页抓取数据

Collecting data via web scraping

Web抓取是一种从Web获取数据的自动化方法。在其最基本的形式中，web抓取可能涉及将网站上的元素复制并粘贴到本地文件中。

然而，web抓取还涉及到编写特殊脚本或使用专用工具直接从网页中抓取数据。它还可能涉及使用应用程序编程接口（api）如Serpstack进行更深入的数据收集。

尽管有些人认为网络盗版可能会导致知识产权的损失，但这种情况只有在人们恶意的时候才会发生。网络抓取是合法的，通过收集客户和竞争对手的***息，帮助企业做出更好的决策。

相关：什么是网络剪贴？如何从网站收集数据

例如，您可以编写一个脚本来从在线商店收集数据，以比较价格和可用性。虽然这可能是一个更技术，你可以收集原始媒体，如音频文件和图像在网上以及。

请看下面的示例代码，一窥Python的beautifulsoup4html解析器库的web抓取。

from bs4 import BeautifulSoupfrom urllib.request import urlopenurl = "Enter the full URL of the target webpage here"targetPage = urlopen(url)htmlReader = targetPage.read().decode("utf-8")webData = BeautifulSoup(htmlReader, "html.parser")print(webData.get_text())

在运行示例代码之前，您需要安装库。从命令行创建虚拟环境，并通过运行pip install beautifulsoup4安装库。

2通过web窗体

Collecting data via web forms

您还可以利用在线表单进行数据收集。当您有一个目标人群要从中收集数据时，这是最有用的。

发送web表单的一个缺点是，您可能无法收集所需的数据。对于小型的数据科学项目或教程来说，它非常方便，但是在尝试接触大量匿名用户时，可能会遇到限制。

虽然有付费的在线数据收集服务，但不推荐个人使用，因为它们大多太贵了，除非你不介意在项目上花点钱。

从人们那里收集数据有各种各样的web表单。其中之一是Google表单，你可以通过表单.google.com. 您可以使用Google表单来收集联系信息、人口统计数据和其他个人详细信息。

一旦你创建了一个表单，你所需要做的就是通过邮件、短信或任何可用的方式将链接发送给你的目标受众。

然而，googleforms只是流行web表单的一个例子。有很多替代品也可以做出色的数据收集工作。

三。通过社交媒体

Collecting data over social media

你也可以通过Facebook、LinkedIn、Instagram和Twitter等社交媒体收集数据。从社交媒体获取数据比其他任何方法都要技术化一些。它是完全自动化的，涉及到使用不同的API工具。

社交媒体很难从中提取数据，因为它相对没有组织，而且有大量的数据。如果组织得当，这种数据集可以在涉及在线情感分析、市场趋势分析和在线品牌化的数据科学项目中有用。

例如，Twitter就是一个社交媒体数据源的例子，您可以使用它的tweepythonapi包收集大量数据集，您可以使用pip install tweepy命令安装它。

作为一个基本示例，提取Twitter主页Tweets的代码块如下所示：

import tweepyimport remyAuth = tweepy.OAuthHandler(paste c***umer_key here, paste c***umer_secret key here)auth.set_access_token(paste access_token here, paste access_token_secret here)authenticate = tweepy.API(myAuth)target_tweet = api.home_timeline()for targets in target_tweet: print(targets.text)

你可以参观docs.tweepy.org文件网站访问tweepy文档了解更多关于如何使用它的详细信息。要使用Twitter的API，您需要通过指向开发者：twitter.com网站。

Facebook是另一个收集数据的强大社交媒体平台。它使用一个称为Facebook图形API的特殊API端点。这个API允许开发者在Facebook平台上收集特定用户行为的数据。您可以访问Facebook Graph API文档开发者.facebook.com了解更多。

关于使用API收集社交媒体数据的详细说明超出了本文的范围。如果您有兴趣了解更多信息，可以查看每个平台的文档，以获得关于它们的深入知识。

除了编写连接到API端点的脚本外，还可以使用社交媒体数据收集第三方工具，如Scraping Expert和其他许多工具。然而，大多数这些网络工具都是有代价的。