在NLP项目中使用Hugging Face的Datasets 库

数据科学是关于数据的。网络上有各种来源可以为您的数据分析或机器学习项目获取数据。最受欢迎的来源之一是 Kaggle，我相信我们每个人都必须在我们的数据旅程中使用它。

最近，我遇到了一个新的来源来为我的 NLP 项目获取数据，我很想谈谈它。这是 Hugging Face 的数据集库，一个快速高效的库，可以轻松共享和加载数据集和评估指标。因此，如果您从事自然语言理解 (NLP) 工作并希望为下一个项目提供数据，那么 Hugging Face 就是您的最佳选择。😍

本文的动机：Hugging Face 提供的数据集格式与我们的 Pandas dataframe不同，所以最初使用 Hugging Face 数据集可能看起来令人生畏😱。但是 Hugging Face 有很好的文档，虽然信息量很大。😄 这篇文章绝不是详尽无遗的，如果你想对你的数据集做更多的事情，我强烈建议你查看他们的文档。

让我们先了解一下 Hugging Face 和数据集库，然后通过一个例子来了解如何使用这个库中的数据集。😎

Hugging Face 🤗 是自然语言处理 (NLP) 技术的开源提供商。您可以使用最先进的Hugging Face 模型（在 Transformers 库下）来构建和训练您自己的模型。您可以使用拥抱人脸数据集库来共享和加载数据集。您甚至可以将此库用于评估指标。

数据集库

根据 Hugging Face 网站，Datasets 库目前拥有 100 多个公共数据集。😳 数据集不仅有英语，还有其他语言和方言。👌 它支持大多数这些数据集的数据加载器，并且只需一行代码就可以实现，这使得加载数据成为一项轻松的任务。🏄🏻 根据网站上提供的信息，除了可以轻松访问数据集之外，该库还有以下有趣的功能：

在大型数据集的发展使得数据集自然地将用户从 RAM 限制中解放出来，所有数据集都使用高效的零序列化成本后端 (Apache Arrow) 进行内存映射。
智能缓存：永远不要将数据处理多次。
轻量级和快速的透明和 pythonic API（多处理/缓存/内存映射）。
与 NumPy、pandas、PyTorch、Tensorflow 2 和 JAX 的内置互操作性。

哇！这是相当多的好处。👏

在本文中，我将展示我们通常在数据科学或分析任务中执行的一些步骤，以了解我们的数据或将我们的数据转换为所需的格式。所以，让我们快速深入这个库并编写一些简单的 Python 代码。🐍 请注意，本文仅涵盖数据集而非指标。

数据集版本：1.7.0

使用pip安装

 !pip install datasets

导入包

 from datasets import list_datasets, load_dataset
 from pprint import pprint

从数据集库中，我们可以导入list_datasets来查看这个库中可用的数据集列表。打印模块提供了“漂亮打印”的功能。

截至2021年6月7日，数据集库有928个数据集。我们可以使用以下代码看到可用的数据集列表:

 datasets = list_datasets()
 print("Number of datasets in the Datasets library: ", len(datasets), "\n\n")
 
 #list of datasets in pretty-print format
 pprint(datasets, compact=True)

如果在下载数据集之前就想知道它的属性，该怎么办呢?我们可以使用一行代码来实现这一点。☝️只需将索引设置为数据集的名称，就可以了!

 #dataset attributes 
 squad = list_datasets(with_details=True)[datasets.index('squad')]
 
 #calling the python dataclass
 pprint(squad.__dict__)

加载数据集

 squad_dataset = load_dataset('squad')

这句代码下面发生了什么?🤔datasets.load_dataset()执行了以下操作:

从hugs Face GitHub repo或AWS桶中下载并导入SQuAD python处理脚本(如果它还没有存储在库中)。
运行SQuAD脚本下载数据集。处理和缓存的SQuAD在一个Arrow 表。
基于用户要求的分割返回一个数据集。默认情况下，它返回整个数据集。

让我们理解一下我们得到的数据集。

 print(squad_dataset)

数据集分为两部分:训练和验证。feature对象包含关于列的信息——列名和数据类型。我们还可以看到每次拆分的行数(num_rows)。很丰富!

我们也可以在加载数据集时指定分割。

 squad_train = load_dataset('squad', split='train')
 squad_valid = load_dataset('squad', split='validation')

这会将训练集保存在squad_train中，验证集保存在squad_valid中。

但是，您会意识到加载一些数据集会抛出一个错误，在检查错误时，可能得到需要第二个参数配置的错误。

下面是一个例子:

 amazon_us_reviews = load_dataset('amazon_us_reviews')

一些数据集包含几个配置，这些配置定义了需要被选择的数据集的子部分。

解决方案:

 amazon_us_reviews = load_dataset('amazon_us_reviews', 'Watches_v1_00')

这将使用配置加载amazon_us_reviews数据集。

让我们来看看我们的数据集。🏃🏻

我们看到了数据集信息中的行数。我们甚至可以用标准的len函数得到它。

 print("Length of training set: ", len(squad_train))

训练集长度:87599

检查数据集

要查看数据集的示例:

 print("First example from the dataset: \n")
 pprint(squad_train[0])

要获得带有几个示例的切片，代码与我们使用的pandas dataframe相同。

 print("Two examples from the dataset using slice operation: \n")
 pprint(squad_train[14:16])

想在列中看到值?用列名索引数据集。下面是“question”栏目的一部分。

 print("A column slice from the dataset: \n")
 pprint(squad_train['question'][:5])

可以看到，行切片给出了一个字典，而列切片给出了一个列表。getitem方法根据查询的类型返回不同的格式。例如，数据集[0]之类的条目将返回一个元素字典，数据集[2:5]之类的切片将返回一个元素列表字典，而数据集[' question ']之类的列或列的slice将返回一个元素列表。这起初看起来很令人惊讶，但hug Face做到了这一点，因为它实际上更容易用于数据处理，而不是为每个视图返回相同的格式。

请看这个有趣的例子:

 print(squad_train[‘question’][0])
 print(squad_train[0][‘question’])

输出:

 To whom did the Virgin Mary allegedly appear in 1858 in Lourdes France?
 To whom did the Virgin Mary allegedly appear in 1858 in Lourdes France?

两者都返回相同的输出。让我们验证!🕵

 print(squad_train['question'][0] == squad_train[0]['question'])

输出为True。好了!我们在使用pandas dataframe时经常犯的一个错误,但是在这里却不是！

注意:数据集由一个或几个Apache Arrow表支持，这些表是类型化的，允许快速检索和访问。您可以加载任意大小的数据集，而不必担心内存限制，因为数据集在RAM中不占用空间，并且在需要时直接从驱动器读取。

让我们进一步检查数据集。

 print("Features: ")
 pprint(squad_train.features)print("Column names: ", squad_train.column_names)

 print("Number of rows: ", squad_train.num_rows)
 print("Number of columns: ", squad_train.num_columns)
 print("Shape: ", squad_train.shape)

输出:

行数:87599
列数:5
形状:(87599 5)

注意，您也可以使用len函数获得行数。

数据集操作

添加/删除一个新列

添加一个名为“new_column”的列，条目为“foo”。

 new_column = ["foo"] * len(squad_train)
 squad_train = squad_train.add_column("new_column", new_column)
 print(squad_train)

现在让我们删除这一列。

 squad_train = squad_train.remove_columns("new_column")

重命名一个列

 squad_train = squad_train.rename_column("title", "heading")
 print(squad_train)

修改/更新数据集

要修改或更新数据集，可以使用dataset.map。map()是一个强大的方法，灵感来自于tf.data.Dataset map方法。我们可以将这个函数应用于一个例子，甚至一批例子，甚至生成新的行或列。

通过示例修改示例:

 updated_squad_train = squad_train.map(lambda example: {'question': 'Question: ' + example['question']})
 pprint(updated_squad_train['question'][:5])

输出

让我们使用现有列添加新列并删除旧列。

 updated_squad_train = squad_train.map(lambda example: {'new_heading': "Context: " + example['heading']}, remove_columns=['heading'])
 pprint(updated_squad_train.column_names)
 pprint(updated_squad_train['new_heading'][:5])

输出

列 " new_heading "已经使用列 " heading "的内容进行了填充，列" heading "已经从数据集中移除

您可以使用映射对数据集执行多个操作。根据你的需求尝试新事物。🙃

除此之外，您还可以批量处理数据。

我们总是希望我们的数据集是一个格式良好的表格，就像我们看到一个pandas dataframe一样。我们可以将数据集转换为相同的格式。

 import random
 import pandas as pd
 from IPython.display import display, HTMLdef display_random_examples(dataset=squad_train, num_examples=5):
     assert num_examples < len(dataset)
     
     random_picks = []
     for i in range(num_examples):
         random_pick = random.randint(0,len(dataset)-1)
         random_picks.append(random_pick)
     
     df = pd.DataFrame(dataset[random_picks])
     display(HTML(df.to_html()))
         
 display_random_examples(squad_train, 3)

输出是一个格式很好的表格。👌

这就是本文的全部内容。从这里开始，您可以根据项目需求对数据进行预处理，并构建模型或创建良好的可视化效果。不可能在一篇文章中涵盖所有内容。然而，通过阅读本文，您可以了解如何使用数据集库中的可用方法。如果需要对数据集做更多操作，请查看文档。还有很多很多的方法，比如排序，洗牌，分片，选择，过滤，连接数据集等等。您还可以为PyTorch、Tensorflow、Numpy和Pandas格式化数据集。

如果你想看代码，请参考这个链接到我的Github : https://github.com/chetnakhanna16/huggingface_datasets/blob/main/HuggingFace_Datatsets_Library_TDS.ipynb

作者：Chetna Khanna

原文地址：https://towardsdatascience.com/use-the-datasets-library-of-hugging-face-in-your-next-nlp-project-94e300cca850

deephub翻译组

标签：

在NLP项目中使用Hugging Face的Datasets 库

数据集库

加载数据集

检查数据集

数据集操作

发表评论

“在NLP项目中使用Hugging Face的Datasets 库”的评论:

关于作者

Deephub

相关阅读

文章导航