B体育Bsport_(中国)最新官网入口-B体育app对好多任务来说并不适合-B体育Bsport_(中国)最新官网入口

新闻 /

你的位置:B体育Bsport_(中国)最新官网入口 > 新闻 > B体育app对好多任务来说并不适合-B体育Bsport_(中国)最新官网入口
B体育app对好多任务来说并不适合-B体育Bsport_(中国)最新官网入口
发布日期:2025-01-11 05:16    点击次数:196

B体育app对好多任务来说并不适合-B体育Bsport_(中国)最新官网入口

西风 发自 凹非寺量子位 | 公众号 QbitAIB体育app

时隔6年,一度被觉得濒死的“BERT”杀追忆了——

更当代的ModernBERT问世,更快、更准、高下文更长,发布即开源!

客岁一张“大言语模子进化树”动图在学术圈疯转,decoder-only枝繁叶茂,而照旧蒸蒸日上的encoder-only却似乎走向没落。

ModernBERT作家Jeremy Howard却说:

encoder-only被低估了。

他们最新拿出了参数永别为139M(Base)、395M(Large)的两个模子高下文长度为8192 token,相较于以BERT为首的大大量编码器,其长度是它们的16倍

ModernBERT杰出适用于信息检索(RAG)、分类、实体抽取等任务。

在检索、天然言语相识和代码检索测试中性能拿下SOTA:

效用也很高。

ModernBERT速率是DeBERTa的两倍;在更常见的输入长度搀和的情况下,速率可达4倍;长高下文推理比其它模子快约3倍。

关节它所占的内存还不到DeBERTa的五分之一。

Jeremy Howard暗示,目下对于生成式模子的热议粉饰了encoder-only模子的作用。

像GPT-4这么大模子,太大、太慢、罕见化、老本用功,对好多任务来说并不适合,还有Llama 3.1,参数皆达到了405B。这些模子运行慢慢,价钱不菲,何况不是你不错阻挡的。

GPT-4这么的生成模子还有一个阻挡:它们不行事前看到后头的token,只可基于之前已生成的或已知的信息来进行权衡,即只可向后看。

而像BERT这么的仅编码器模子不错同期筹商前后文信息,上前向后看皆行。

ModernBERT的发布眩惑数十万网友在线围不雅点赞。

抱抱脸连合创举东谈主兼CEO Clem Delangue皆来助威,直呼“爱了!!”。

为什么ModernBERT冠以“当代”之名?相较于BERT作念了哪些升级?

杀不死的encoder-only

ModernBERT的当代体目下三个方面:

当代化的Transformer架构杰出顺心效用当代数据边界与来源

底下逐个来看。

来源,ModernBERT深受Transformer++(由Mamba定名)的启发,这种架构的初度应用是在Llama2系列模子上。

ModernBERT团队用其转变后的版块替换了旧的BERT-like构建块,主要包括以下转变:

用旋转位置镶嵌(RoPE)替换旧的位置编码,进步模子相识词语之间相对位置策划的施展,也成心于推广到更长的序列长度。用GeGLU层替换旧的MLP层,转变了原始BERT的GeLU激活函数。通过移除无须要的偏置项(bias terms)简化架构,由此不错更有用地使用参数预算。在镶嵌层之后添加一个颠倒的归一化层,有助于雄厚磨真金不怕火。

接着,在进步速率/效用方面,ModernBERT应用了Flash Attention 2进行转变,依赖于三个关节组件:

一是使用轮换疑望力(Alternating Attention),提高处理效用。

二是使用Unpadding和Sequence Packing,减少打算奢华。

三是通过硬件感知模子遐想(Hardware-Aware Model Design),最大化硬件应用率。

这里就概略备张开了,感酷爱的童鞋不错自行查阅原论文。

最其后看磨真金不怕火和数据方面的转变。

团队觉得,encoders在磨真金不怕火数据方面的逾期,实质问题在于磨真金不怕火数据的万般性,即好多旧模子磨真金不怕火的语料库有限,时常只包括维基百科和竹素,这些数据只好单一的文本模态。

是以,ModernBERT在磨真金不怕火时使用了多种数据,包括网罗文档、编程代码和科学著述,覆盖了2万亿token,其中大部分是唯独无二的,而不是之前encoders中常见的20-40次的访佛数据。

磨真金不怕火经过,团队坚执使用原始BERT的磨真金不怕火配方,并作念了一些小升级,比如移除了下一句权衡指标,因为有商量标明这么的修复加多了支拨但莫得赫然的收益,还将掩码率从15%提高到30%。

具体来说,139M、395M两个规格的模子皆通过了三阶段磨真金不怕火。

来源第一阶段,在序列长度为1024的情况下磨真金不怕火1.7T tokens。然后是长高下文适合阶段,模子处理的序列长度加多到8192,磨真金不怕火数据量为250B tokens,同期通过缩小批量大小保执每批次处理的总tokens量大概调换。终末,模子在500亿个杰出采样的tokens上进行退火处理,驯服ProLong强调的长高下文推广理念念搀和。

一番操作下来,模子在长高下文任务上施展具有竞争力,且处理短高下文的才略不受损。

磨真金不怕火经过团队还对学习率进行了杰出处理。在前两个阶段,模子使用恒定学习率,而在终末的500亿tokens的退火阶段,遴荐了梯形学习率计谋(热身-雄厚-衰减)。

团队还使用两个技术,加快模子的磨真金不怕火经过,一个是常见的batch-size warmup,另一个是受微软Phi系列模子启发,应用现存的性能细腻的ModernBERT-base模子权重,通过将基础模子的权重“平铺”推广到更大的模子,提高权重运行化的效用。

作家显现将将公开checkpoints,以支持后续商量。

谁打造的?

前边提到的Jeremy Howard是这项使命的作家之一。

ModernBERT的三位中枢作家是:

Benjamin Warner、Antoine Chaffin、Benjamin ClaviéOn。

Jeremy Howard显现,形式来源是由Benjamin Clavié在七个月前启动的,随后Benjamin Warner、Antoine Chaffin加入共同成为形式正经东谈主。

Benjamin ClaviéOn、Benjamin Warner,同Jeremy Howard不异,来自Answer.AI。Answer.AI打造了一款能AI解题、见地阐释、顾忌和复盘测试的辅导应用,在北好意思较为流行。

Antoine Chaffin则来自LightOn,亦然一家作念生成式AI的公司。

团队暗示BERT天然看起来公共指摘的少了,但其实于今仍在被庸碌使用:

目下在HuggingFace平台上每月下载次数超6800万。恰是因为它的encoder-only架构非常适合搞定泛泛出现检索(举例用于RAG)、分类(举例内容审核)和实体提真金不怕火任务。

Jeremy Howard暗示来岁将磨真金不怕火这个模子的更大版块。

Blog:https://huggingface.co/blog/modernbertModernBERT-Base:https://huggingface.co/answerdotai/ModernBERT-baseModernBERT-Large:https://huggingface.co/answerdotai/ModernBERT-large论文:https://arxiv.org/pdf/2412.13663参考灭亡:https://x.com/jeremyphoward/status/1869786023963832509



相关资讯