当前位置: 首页 > news >正文

水产食品企业网站模板磁力蜘蛛种子搜索

水产食品企业网站模板,磁力蜘蛛种子搜索,上海的外贸网站建设公司价格,上海 网站建设BertTokenizerFast类 1、特点 速度快:底层使用Rust实现,比纯python的BertTokenizer快得多(尤其是批量处理的时候),且支持多线程使用。 功能一致:与BertTokenizer的API完全兼容,可以直接替换使用…

BertTokenizerFast类

1、特点

        速度快:底层使用Rust实现,比纯python的BertTokenizer快得多(尤其是批量处理的时候),且支持多线程使用。

        功能一致:与BertTokenizer的API完全兼容,可以直接替换使用。支持所有的BERT变体。

        额外功能:提供更丰富的后处理选项(如截断、填充的精细控制)。支持直接返回token_type_ids、attention_mask等张量。

2、基本用法

from transformers import BertTokenizerFast# 初始化分词器,以chinese-bert-wwm模型为例
tokenizer = BertTokenizerFast.from_pretrained('chinese-bert-wwm')# 单条文本分词
text = ‘你好,明天!’
encoded_input = tokenizer(text, return_tensors='pt')  # 返回pytorch张量
"""
输出结果:
{'input_ids': tensor([[101, 3209, 1921, 8024, 872, 1962, 8013, 102]]),'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0]]),'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1]])
}
"""
# 批量文本分词
texts = ['明天,你好!', '你好,明天!']
batch_encoded = tokenizer(texts, padding=True, truncation=True, return_tensors='pt')
"""
输出结果:
{'input_ids': tensor([[101, 3209, 1921, 8024, 872, 1962, 8013, 102], [101, 872, 1962, 8024, 3209, 1921, 8013, 102]]),'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0]]),'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1]])
}
"""

3、关键参数

参数名作用
padding=True自动填充到批次中最长序列长度
trunction=True自动截断到模型最大长度(512)
return_tensors='pt'返回pytorch张量(可选"tf"为TensorFlow或"np"为numpy)
max_length=128显式指定最大长度
add_special_tokens是否添加[cls]和[sep],默认为True
return_offsets_mapping返回每个token在原始文本中的字符集起始和结束位置
skip_special_tokens在解码(将Token ID转回文本)时跳过特殊token(如[CLS]、[SEP]、[PAD]等),默认值为False,设为True后输出更干净的文本

 4、自定义tokens

tokenizer.add_tokens(['亚马逊', '速卖通'])  # 添加新的token
model.resize_token_embeddings(len(tokenizer))  # 调整模型嵌入层

5、偏移量映射(用于命名实体识别任务)

encoded_input = tokenizer(text, return_offsets_mapping=True)
print(encoded_input["offset_mapping"])  # 输出每个token在原文中的位置

6、快速解码

decoded_text = tokenizer.decode(encoded_input["input_ids"][0], skip_special_tokens=True)
http://www.dt0577.cn/news/15336.html

相关文章:

  • 丽水网站域名注册服务公司页面设计漂亮的网站
  • 建设银行的网站进不去怎么办数据分析师证书
  • 做自己的卡盟网站百度推广热线电话
  • 网络营销做女鞋的网站设计网站推广关键词排名优化
  • 设计一站式服务长沙网络推广外包
  • 芜湖做的好的招聘网站seo运营专员
  • 营商环境建设监督局网站免费推广网站大全集合
  • 安卓应用开发环境seo公司赚钱吗
  • 东莞网站推广优化seo文章关键词怎么优化
  • 自己做刷东西的网站美工培训
  • ppt素材网站建设流程图宁德市疫情
  • 免费做名片的网站下载优化大师app
  • 网站赌博做任务佣金违法怎么做小说推广挣钱
  • 网站设计算什么费用真实的优化排名
  • 廊坊网站推广外包怎么利用互联网推广
  • phpcms 网站 关闭外包seo服务收费标准
  • 公司网站域名申请流程千峰培训
  • 漯河网站建设b站视频推广app
  • 西樵乐从网站建设网络营销的四种方式
  • 手机网站建设动态学习软件
  • 传媒大学附近网站建设公司厦门百度竞价推广
  • 深圳较便宜的网站建设合肥网络推广营销
  • 网站建设小程序定制开发百度优化seo
  • wordpress微网站女性广告
  • 东莞市个性网站建设设计企业b2b平台排名
  • 动态网站建设作业网络广告策划
  • 美橙互联网站建设案例企业员工培训课程
  • 织梦做企业网站教程seo是什么意思电商
  • 北京公司网站制作费用厦门seo网站管理
  • 成都建站提供商我也要投放广告