00264 处理文本数据


前言

本指南展示了处理文本数据集的特定方法。学习如何:

  • 使用 map() 对数据集进行分词。
  • 为 NLI 数据集将数据集标签与标签 ID 对齐。

有关如何处理任何类型数据集的指南,请查看通用处理指南

src link: https://huggingface.co/docs/datasets/nlp_process

Operating System: Ubuntu 22.04.4 LTS

参考文档

  1. Process text data

Map

map() 函数支持一次性处理一批示例,这可以加快分词速度。

从 🤗 Transformers 加载一个分词器:

>>> from transformers import AutoTokenizer

>>> tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

map() 函数中将 batched 参数设置为 True,以将分词器应用于批量示例:

>>> dataset = dataset.map(lambda examples: tokenizer(examples["text"]), batched=True)
>>> dataset[0]
{'text': 'the rock is destined to be the 21st century\'s new " conan " and that he\'s going to make a splash even greater than arnold schwarzenegger , jean-claud van damme or steven segal .', 
 'label': 1, 
 'input_ids': [101, 1996, 2600, 2003, 16036, 2000, 2022, 1996, 7398, 2301, 1005, 1055, 2047, 1000, 16608, 1000, 1998, 2008, 2002, 1005, 1055, 2183, 2000, 2191, 1037, 17624, 2130, 3618, 2084, 7779, 29058, 8625, 13327, 1010, 3744, 1011, 18856, 19513, 3158, 5477, 4168, 2030, 7112, 16562, 2140, 1012, 102], 
 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 
 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

map() 函数将返回的值转换为 PyArrow 支持的格式。但是,将张量显式返回为 NumPy 数组更快,因为这是 PyArrow 本机支持的格式。在分词文本时,设置 return_tensors="np"

>>> dataset = dataset.map(lambda examples: tokenizer(examples["text"], return_tensors="np"), batched=True)

Align

align_labels_with_mapping() 函数将数据集标签 ID 与标签名称对齐。并非所有 🤗 Transformers 模型都遵循原始数据集规定的标签映射,特别是对于 NLI 数据集。例如,MNLI 数据集使用以下标签映射:

>>> label2id = {"entailment": 0, "neutral": 1, "contradiction": 2}

为了将数据集标签映射与模型使用的映射对齐,创建一个标签名称和ID的字典来进行对齐。

>>> label2id = {"contradiction": 0, "neutral": 1, "entailment": 2}

将标签映射的字典传递给 align_labels_with_mapping() 函数,以及要对齐的列。

>>> from datasets import load_dataset

>>> mnli = load_dataset("glue", "mnli", split="train")
>>> mnli_aligned = mnli.align_labels_with_mapping(label2id, "label")

你还可以使用这个函数来分配自定义的标签到ID的映射。

结语

第二百六十四篇博文写完,开心!!!!

今天,也是充满希望的一天。


文章作者: LuYF-Lemon-love
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !
  目录