
一文了解Transformer全貌(图解Transformer)
2025年1月21日 · 自2017年Google推出Transformer以来,基于其架构的语言模型便如雨后春笋般涌现,其中Bert、T5等备受瞩目,而近期风靡全球的大模型ChatGPT和LLaMa更是大放异彩 …
如何最简单、通俗地理解Transformer? - 知乎
Transformer最开始应用于NLP领域的机器翻译任务,但是它的通用性很好,除了NLP领域的其他任务,经过变体,还可以用于视觉领域,如ViT(Vision Transformer)。 这些特点 …
如何从浅入深理解 Transformer? - 知乎
2017年8月31日 · Transformer升级之路:13、逆用Leaky ReRoPE Transformer升级之路:14、当HWFA遇见ReRoPE 预训练一下,Transformer的长序列成绩还能涨不少! VQ一 …
Transformer模型详解(图解最完整版) - 知乎
2024年5月8日 · Transformer 的整体结构,左图Encoder和右图Decoder 可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成,Encoder 和 Decoder 都包含 6 个 block。Transformer 的 …
MoE和transformer有什么区别和联系? - 知乎
2025年6月8日 · Transformer通过自注意力机制捕捉全局依赖关系。 MoE通过专家分工和稀疏计算提升模型的可扩展性。 (3) 应用场景 两者都广泛应用于自然语言处理(NLP)、计算机视 …
如何从浅入深理解 Transformer? - 知乎
我敢说100个宣称自己学过Transformer的同学; 真理解Transformer的,可能不足10人。 甚至哪怕你发了一篇基于Transformer的论文; 或者微调了一个基于Transformer的模型; 但对于一些 …
挑战 Transformer:全新架构 Mamba 详解
2025年1月21日 · 自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,但随着模型规模的扩展和需要处理的序列不断变长,Transformer 的局限性也逐渐凸显。一个很明显的 …
Transformer模型怎么用于regression的问题? - 知乎
Transformer模型最初是为了解决序列到序列的任务而提出的,最著名的应用便是自然语言处理中的机器翻译。 Transformer基于自注意力机制(Self-Attention)来处理输入序列,并通过多头注 …
Transformer两大变种:GPT和BERT的差别(易懂版)-2更
4 天之前 · Transformer 2017,一篇大名鼎鼎的论文《Attention Is All You Needed》正式发表,它第一次提出了注意力机制(Attention),并且在Attention的基础上创造了一个全新的NLP(自 …
transformer-based的模型比lss-based的模型的优势在哪里?
2025年1月14日 · Transformer 的注意力机制就像人类大脑,能快速找到场景中的关键点,聚焦于最重要的信息: 举个例子,在一个多车道场景中,Transformer 可以直接关注到障碍物或异常 …