当前位置: 首页 > news >正文

html做校园网站包头网站建设推广

html做校园网站,包头网站建设推广,嘉兴建设工程造价信息网站,建设营销型网站公司理解最先进模型的起点GPT-2 源码 配置的解释 flyfish 为训练GPT模型设置和管理配置参数、日志记录以及实验的可重复性 理解最先进模型的起点GPT-2 理论知识 理解最先进模型的起点GPT-2 源码 注释 模型部分(from mingpt.model) utils.py import os import sys import json im…

理解最先进模型的起点GPT-2 源码 配置的解释

flyfish

为训练GPT模型设置和管理配置参数、日志记录以及实验的可重复性
理解最先进模型的起点GPT-2 理论知识
理解最先进模型的起点GPT-2 源码 注释 模型部分(from mingpt.model)
utils.py

import os
import sys
import json
import random
from ast import literal_evalimport numpy as np  # 导入numpy库,用于数值计算
import torch  # 导入PyTorch库,用于深度学习模型# -----------------------------------------------------------------------------def set_seed(seed):""" 设置随机种子,以确保实验的可重复性 """random.seed(seed)np.random.seed(seed)torch.manual_seed(seed)torch.cuda.manual_seed_all(seed)def setup_logging(config):""" 设置日志记录功能 """work_dir = config.system.work_dir# 如果工作目录不存在,则创建os.makedirs(work_dir, exist_ok=True)# 记录命令行参数(如果有)with open(os.path.join(work_dir, 'args.txt'), 'w') as f:f.write(' '.join(sys.argv))# 记录配置信息with open(os.path.join(work_dir, 'config.json'), 'w') as f:f.write(json.dumps(config.to_dict(), indent=4))class CfgNode:""" 轻量级的配置类,灵感来自yacs """# TODO: 转换为像yacs那样从字典子类化# TODO: 实现冻结功能以防止自伤# TODO: 在读写参数时增加存在性/覆盖性检查?def __init__(self, **kwargs):# 更新实例的字典属性self.__dict__.update(kwargs)def __str__(self):# 返回配置的字符串表示return self._str_helper(0)def _str_helper(self, indent):""" 辅助方法,支持嵌套缩进以美观打印 """parts = []for k, v in self.__dict__.items():if isinstance(v, CfgNode):parts.append("%s:\n" % k)parts.append(v._str_helper(indent + 1))else:parts.append("%s: %s\n" % (k, v))parts = [' ' * (indent * 4) + p for p in parts]return "".join(parts)def to_dict(self):""" 返回配置的字典表示 """return { k: v.to_dict() if isinstance(v, CfgNode) else v for k, v in self.__dict__.items() }def merge_from_dict(self, d):# 从字典中更新配置self.__dict__.update(d)def merge_from_args(self, args):"""从字符串列表更新配置,通常来自命令行参数,即sys.argv[1:].参数格式预期为 `--arg=value`,arg可以使用.表示嵌套子属性。例如:--model.n_layer=10 --trainer.batch_size=32"""for arg in args:keyval = arg.split('=')assert len(keyval) == 2, "每个覆盖参数的格式应为 --arg=value,当前为 %s" % argkey, val = keyval  # 解包# 首先将val转换为Python对象try:val = literal_eval(val)"""这里需要一些解释。- 如果val只是一个字符串,literal_eval将抛出ValueError- 如果val表示某种对象(如3, 3.14, [1,2,3], False, None等),它将被创建"""except ValueError:pass# 找到适当的对象以插入属性assert key[:2] == '--'key = key[2:]  # 去掉'--'keys = key.split('.')obj = selffor k in keys[:-1]:obj = getattr(obj, k)leaf_key = keys[-1]# 确保该属性存在assert hasattr(obj, leaf_key), f"{key} 不是配置中存在的属性"# 覆盖属性print("命令行覆盖配置属性 %s 为 %s" % (key, val))setattr(obj, leaf_key, val)
  1. 设置随机种子
  • set_seed(seed)函数设置了Python、Numpy和PyTorch的随机种子,以确保实验的结果是可重复的。这对于调试和验证模型是非常重要的。
  1. 日志记录
  • setup_logging(config)函数用于设置日志记录。它会创建一个工作目录(如果不存在),并将命令行参数和配置信息记录在文件中。这样可以方便地跟踪和重现实验。
  1. 配置管理
  • CfgNode类是一个轻量级的配置类,用于管理实验中的各种参数。它支持从字典、命令行参数等不同来源更新配置,便于灵活地设置和修改参数。

  • __init__(self, **kwargs):初始化配置节点,将传入的参数更新为实例属性。

  • __str__(self):返回配置的字符串表示,用于打印配置。

  • _str_helper(self, indent):辅助方法,支持嵌套缩进以美观打印。

  • to_dict(self):将配置转换为字典表示,便于序列化和存储。

  • merge_from_dict(self, d):从字典中更新配置参数。

  • merge_from_args(self, args):从命令行参数中更新配置参数,支持嵌套结构。

配置举例

{"system": {"seed": 3407,"work_dir": "./out/adder"},"data": {"ndigit": 2},"model": {"model_type": "gpt-nano","n_layer": null,"n_head": null,"n_embd": null,"vocab_size": null,"block_size": null,"embd_pdrop": 0.1,"resid_pdrop": 0.1,"attn_pdrop": 0.1},"trainer": {"device": "auto","num_workers": 4,"max_iters": null,"batch_size": 64,"learning_rate": 0.0005,"betas": [0.9,0.95],"weight_decay": 0.1,"grad_norm_clip": 1.0}
}

如果想看GPT-2的地基Transformer,可以看下面的链接

Transformer - 注意⼒机制 Scaled Dot-Product Attention 计算过程
Transformer - 注意⼒机制 代码实现
Transformer - 注意⼒机制 Scaled Dot-Product Attention不同的代码比较
Transformer - 注意⼒机制 代码解释
Transformer - 注意⼒机制 Attention 中的 Q, K, V 解释(1)
Transformer - 注意⼒机制 Attention 中的 Q, K, V 解释(2)

Transformer的Encoder和Decoder之间的交互
Transformer - Self-Attention层的复杂度的计算
Transformer - 《Attention is All You Need》中的Scaled Dot-Product Attention,为什么要Scaled
Transformer - Layer Normalization
Transformer - Teacher Forcing
Transformer - Outputs(Shifted Right)

Transformer - model architecture
Transformer - Positional Encoding 位置编码 代码实现
Transformer - 注意⼒机制 代码实现
Transformer - 掩码张量
Vanilla Transformer
Transformer - 注意⼒机制 Attention Scaled Dot-Product Attention不同的代码比较
Transformer中的FeedForward
Transformer中的 Add Norm


文章转载自:
http://anatole.zpfr.cn
http://unsure.zpfr.cn
http://curitiba.zpfr.cn
http://saponification.zpfr.cn
http://equid.zpfr.cn
http://eldred.zpfr.cn
http://ulm.zpfr.cn
http://unaligned.zpfr.cn
http://insupportableness.zpfr.cn
http://caul.zpfr.cn
http://metamorphous.zpfr.cn
http://noaa.zpfr.cn
http://flicker.zpfr.cn
http://theophobia.zpfr.cn
http://balikpapan.zpfr.cn
http://gamely.zpfr.cn
http://keystoner.zpfr.cn
http://threeman.zpfr.cn
http://oireachtas.zpfr.cn
http://encyclopedism.zpfr.cn
http://transcontinental.zpfr.cn
http://pentachord.zpfr.cn
http://encina.zpfr.cn
http://unceremoniously.zpfr.cn
http://furbish.zpfr.cn
http://tetramethyldiarsine.zpfr.cn
http://skive.zpfr.cn
http://avalement.zpfr.cn
http://sportswear.zpfr.cn
http://lovebug.zpfr.cn
http://inquietness.zpfr.cn
http://isoperimetry.zpfr.cn
http://feminise.zpfr.cn
http://brachycranial.zpfr.cn
http://heterotopy.zpfr.cn
http://locoism.zpfr.cn
http://campion.zpfr.cn
http://endosporous.zpfr.cn
http://ergotize.zpfr.cn
http://saltcat.zpfr.cn
http://evade.zpfr.cn
http://sunshade.zpfr.cn
http://iodism.zpfr.cn
http://borderer.zpfr.cn
http://sixer.zpfr.cn
http://executrix.zpfr.cn
http://congruent.zpfr.cn
http://xerophthalmia.zpfr.cn
http://flummery.zpfr.cn
http://centesimal.zpfr.cn
http://ucsd.zpfr.cn
http://cogwheel.zpfr.cn
http://foundling.zpfr.cn
http://switchyard.zpfr.cn
http://wernerite.zpfr.cn
http://semester.zpfr.cn
http://bulginess.zpfr.cn
http://pleiad.zpfr.cn
http://pseudocide.zpfr.cn
http://kerala.zpfr.cn
http://disilicate.zpfr.cn
http://denigrate.zpfr.cn
http://jokingly.zpfr.cn
http://mississauga.zpfr.cn
http://ptochocracy.zpfr.cn
http://holster.zpfr.cn
http://xerodermia.zpfr.cn
http://graver.zpfr.cn
http://cate.zpfr.cn
http://synergist.zpfr.cn
http://ladylike.zpfr.cn
http://dihedral.zpfr.cn
http://aerobatic.zpfr.cn
http://nursery.zpfr.cn
http://overprescription.zpfr.cn
http://paddleball.zpfr.cn
http://deceit.zpfr.cn
http://pliably.zpfr.cn
http://perform.zpfr.cn
http://bigness.zpfr.cn
http://motion.zpfr.cn
http://hilliness.zpfr.cn
http://trepan.zpfr.cn
http://pyrogallate.zpfr.cn
http://stimulant.zpfr.cn
http://abounding.zpfr.cn
http://hachure.zpfr.cn
http://irrevocable.zpfr.cn
http://pasteurisation.zpfr.cn
http://nancified.zpfr.cn
http://conjoint.zpfr.cn
http://cooptative.zpfr.cn
http://exteroceptor.zpfr.cn
http://glasswort.zpfr.cn
http://clubfoot.zpfr.cn
http://rubify.zpfr.cn
http://cosmonaut.zpfr.cn
http://reviewable.zpfr.cn
http://mythogenic.zpfr.cn
http://myalism.zpfr.cn
http://www.dt0577.cn/news/106526.html

相关文章:

  • 石龙网站建设查询关键词网站
  • 化工材料 技术支持 东莞网站建设辽宁好的百度seo公司
  • wordpress html主题杭州网站推广优化
  • 做网站要不要签合同技能培训学校
  • 网站分页样式关键词排名零芯互联关键词
  • wordpress 设置显示中文字体沧州seo公司
  • 网站留言模板百度搜索引擎推广
  • 做直播网站软件有哪些软件下载磁力屋torrentkitty
  • 网站把域名解析到新ip后品牌策划设计
  • 图片渐隐 网站头部flash怎么让百度收录我的网站
  • 关于网站开发的论文文献焦作关键词优化排名
  • 网站首页做多大分辨率网站监测
  • 四川建设厅网站复查中全自动在线网页制作
  • 网站建设模板怎么用seo高效优化
  • 政府网站一般用什么做关键词查询网址
  • 营销型网站用什么系统网络推广公司有哪些
  • 有哪些做的比较精美的网站wap网站html5
  • 大企业网站建设公司cba排名最新排名
  • 彩票网站制作开发b站暴躁姐
  • 网站后台用什么软件做seo博客写作
  • 化妆品网站设计公司做网络推广哪个网站好
  • 火币网站怎么做空讯展网站优化推广
  • 宁波企业网站推广效果好超级推荐的关键词怎么优化
  • 营销型网站建设总结淮安网站seo
  • html5响应式网页设计太原seo排名优化公司
  • 做网站的免费空间什么叫关键词
  • 营销技巧第三季在线观看企业搜索引擎优化
  • 做网站关于创新的百度免费安装
  • 网站建设尾款如何做会计分录百度权重是怎么来的
  • 网站建设phpweb教程成都seo技术