JN体育新闻中心 /JN体育 News
热点排行榜ManBetX手机app_社会新闻_大众网江南app平台入口
JN体育首页在线如今,扩散模型被广泛用于生成图像和视频,并在生成文本或生物序列等离散数据方面变得越来越有效。从技术上讲,与自回归模型相比,扩散模型具有加速生成和提高模型输出可控性的潜力。
目前,离散扩散模型目前面临至少三个限制。首先,在聊天系统等应用中,模型必须生成任意长度的输出序列(例如对用户问题的回答)。但是,大多数最新的扩散架构仅能生成固定长度的向量。其次,离散扩散模型在生成过程中使用双向上下文,因此无法使用 KV 缓存重用以前的计算,这会降低推理效率。第三,以困惑度等标准指标衡量的离散扩散模型,质量落后于自回归方法,进一步限制了其适用性。
具体来讲,块扩散模型(也是半自回归模型)定义了离散随机变量块的自回归概率分布,而给定先前块的条件概率由离散去噪扩散模型指定。
下图为 Block Diffusion 与自回归、扩散模型的生成效果对比:
研究者表示,开发有效的 BD3-LM 面临以下两个挑战:一是使用神经网络的一次标准前向传递无法有效地计算块扩散模型的训练目标,需要开发专门的算法。二是扩散目标梯度的高方差阻碍了训练,导致 BD3-LM 即使在块大小为 1 的情况下(当两个模型等效时)也表现不佳。
因此,研究者推导出梯度方差的估计量,并证明它是自回归和扩散之间困惑度差距的关键因素。然后,他们提出了自定义噪声过程,以实现最小化梯度方差并进一步缩小困惑度差距。
实验部分,研究者在多个语言建模基准上评估了 BD3-LM,并证明它们能够生成任意长度的序列,包括超出其训练上下文的长度。此外,BD3-LM 在离散扩散模型中实现了新的 SOTA 困惑度。与对嵌入进行高斯扩散的替代半自回归方法相比,本文离散方法实现了易于处理的似然估计,并在少一个数量级生成步骤的情况下,生成的样本在困惑度方面得到了改进。
论文一作 Marianne Arriola 发推称,扩散语言模型在并行文本生成领域正在崛起,但与自回归模型相比,它们存在质量、固定长度限制和缺乏 KV 缓存等问题。本文 Block Diffusion 将自回归和扩散模型结合了起来,实现了两全其美。
研究者结合建模范式,从自回归模型中获得更好的似然估计和灵活的长度生成,并从扩散模型中获得了快速的并行生成效果。
研究者提出了一个建模框架,该框架对 token 块进行自回归建模,并在每个块内执行扩散操作。他们对长度为 L′ 的 B 个块进行似然分解,如下所示:
研究者使用简单的离散扩散参数化对每个块的似然进行建模,最终目标是对交叉熵项进行加权总和:
该研究中的块扩散参数化在期望上等同于自回归负对数似然 (NLL),特别是在 L′=1 的极限情况下。令人惊讶的是,当在 LM1B 数据集上训练两种模型时,研究发现块扩散模型 (L′=1) 与自回归模型之间存在两点困惑度差距。研究确定扩散目标的高训练方差是导致这一困惑度差距的原因。
BD3-LMs 在扩散模型中实现了最先进的似然水平。研究表明,通过调整块长度 L′,BD3-LMs 可以在扩散和自回归似然之间实现插值。
许多现有扩散语言模型的一个主要缺点是,它们无法生成超过训练时选择的输出上下文长度的完整文档。例如,OpenWebText 包含最长达 131K tokens 的文档,而离散扩散模型 SEDD(Lou 等人)仅限于生成 1024 tokens。研究表明,BD3-LMs 能够通过解码任意数量的块来生成可变长度的文档。
从在 OWT 上训练的模型中抽样 500 个文档得出的生成长度统计信息。
研究者评估了 BD3-LMs 在变长序列上的生成质量,使用相同数量的生成步骤(NFEs)比较了所有方法。他们用 GPT2-Large 模型测量生成序列的困惑度。结果表明,与之前所有的扩散方法相比,BD3-LMs 实现了最佳的生成困惑度。
300 个可变长度样本的生成困惑度 (Gen. PPL;↓) 和功能评估次数 (NFE;↓)。所有模型都在 OWT 上进行训练,上下文长度为 L = 1024,并使用核采样。
对于 MDLM,研究者使用了其分块解码技术(该技术不同于 BD3-LMs 中的分块扩散训练)处理 L=2048 的序列。研究者还与 SSD-LM(Han 等人提出)进行了比较,后者是一种替代性的分块自回归方法(也称为半自回归),它对词嵌入执行高斯扩散,但无法进行似然估计。该研究的离散方法使用比其他方法少一个数量级的生成步骤,产生了具有更好生成困惑度的样本。
同学们,今天你们就要离开母校了,做为你们的师长,今后我们将会继续关注着你们江南app平台入口,期盼着你们的成功进步!也希望,你们同学间一定要珍惜这份人生中不可多得的友谊。在今后的人生道路上、相互关心、相互支持、相互帮助、取长补短、共同进步,将这份纯真、美好的感情一直呵护到老!
雨蒙忍着剧痛,断臂处闪烁符文,自己止血,而后开始“招供”,述说一切。当然,他自不会承认有大错,努力化解,更是想祸水东引。
有没有搞错啊,一群人堵着门口,烧烤客人的坐骑,就这样露天席地的给吃掉了,这也太凶残了。
紫山一脉的人也在低语,有同样的看法,紫山寿头上紫气蒸腾,浑身缭绕云气,如一个紫色的大火炉般,气息恐怖。不过,他并没有爆发,迅速收敛了。
一个人的基本素质,是其思想、品德、知识、才能、 心理、体格等诸多方面因素的综合反映。作为党和政府在农村工作中的形象代表,村干部的基本素质如何,直接影响着村班子的战斗力,影响着党的方针政策的贯彻执行。农民群众从我们的村干部身上看我们的党,看我们的国家,是非常直接和具体的。我们常说“村看村,户看户,群众看,看支部”就是这个道理。当一个干部有良好的素质作底蕴,则他的能力就能充分发挥出来,而如果一个干部素质低下,即使他具备某方面较强的能力,也会被其素质所扼杀,不但不能为社会所用,反而会成为党的事业的障碍。因此,要适应新形势要求,完成全面建设小康社会的重任,关键在于从五个方面提高村干部的素质。
据了解,我国每年大约有1.6万名中小学生非正常死亡,中小学生因安全事故、食物中毒、溺水、自杀等死亡的,平均每天有40多人,也就是说每天将有一个班的学生在“消失”。
“一年之计在于春”。20xx年即将结束,20xx年即将到来。20xx年,将是发展新航程的新起点。未来三年,发展思路可以用“一、二、三、四、五”来概括:
新闻信息服务许可证音像制品出版许可证广播电视节目制作经营许可证网络视听许可证网络文化经营许可证