全球热议:Transformer开山论文惊天「翻车」?图与代码不一致,神秘bug看傻了
今天,AI圈被一个惊天「翻车」刷屏了。
谷歌大脑的NLP奠基之作、提出Transformer架构的开山鼻祖级论文 《Attention Is All Your Need》 中的图,被网友扒出与代码并不一致。
(资料图片仅供参考)
论文地址:https://arxiv.org/abs/1706.03762
自2017年问世以来,Transformer已经成为AI领域的基石王者。就连大红大紫的ChatGPT真正的幕后大佬也是它。
2019年,谷歌还专门为它申请了专利。
归宗溯源,现在各类层出不穷的GPT(Generative Pre-trained Transformer),都起源于这篇17年的论文。
据Google Scholar,截止目前,这篇奠基之作已有7万多次的引用。
所以,ChatGPT的奠基石都不稳了?
作为「开山鼻祖」的论文,结构图竟是错的?Lightning AI创始人、机器学习研究者Sebastian Raschka发现,这篇论文中Transformer的图是错误的。
图中被圈出的地方,LayerNorms是在注意力和全连接层之后。在残差块之间放置层归一化,会导致输出层附近参数的预期梯度很大。
而且,这也与代码不一致。
代码地址:https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f1477bafb884748f08197c9cf1b10a4dd78e
不过有网友指出,Noam shazeer在几周后对代码进行了纠正。
随后,Sebastian称,在论文Layer Normalization in the Transformer Architecture中,Pre-LN表现得更好,可以解决梯度问题。
这是很多或者大多数架构在实践中所采用的,但它可能导致表征崩溃。
如果层归一化在注意力和全连接层之前被放置在残差连接之中,就会实现更好的梯度。
Sebastian提出,虽然关于使用Post-LN或Pre-LN的讨论仍在进行中,但也有一篇新论文提议把二者结合起来。
论文地址:https://arxiv.org/abs/2304.14802
在这种双残差Tranformer中,表征崩溃和梯度消失的问题都得到了解决。
网友热议针对论文中的疑点,有网友指出:中间不是已经有了PreLN和PostLN了吗?
Sebastian回答说,自己也觉得有点奇怪。或许2nd LN指的是最后一个输出层,而不是每个transformer块,但他对此也不确定。
有网友表示:「我们经常遇到与代码或结果不匹配的论文。大多数就是出于错误,但有时也会让人很奇怪。而这篇论文已经流传甚久了,为什么这种问题此前从没被人提出过,这真的很奇怪。」
Sebastian表示,公平地讲,最原始的代码是和图片一致的,但他们在2017年修改了代码版本,却没有更新图片。所以,这很令人困惑。
有网友表示,已经有论文在NormFormer中展示了一个不太复杂的架构,而他的团队最近也证实了他们的结果。而ResiDual论文没有在任何地方提到NormFormer,这让人很惊讶。
同时,评论区不断出现网友证实:Transformers中使用的LN,与CNN中使用的方式并不同。
所以,论文真的存在漏洞,还是乌龙事件?
让我们静观后续。
标签:
为您推荐
广告
- 全球热议:Transformer开山论文惊天「翻车」?图与代码不一致,神秘bug看傻了
- 本月MLF到期量1000亿元 业界预计央行将小幅加量或等量续作
- 从曹薰铉李昌镐到李世石申真谞 人口5000万的韩国围棋为何这么厉害?-全球看点
- 传奇投资者德鲁肯米勒:美国衰退将在本季度发生,“硬着陆”不可避免
- 杨志的性格特点四字成语_杨志的性格特点-当前视点
- 焦点速读:67岁兴平农民画家爱上玩泥巴 自家地头建雕塑“工作室”
- 全球速递!猪肉粉条各种做法
- 快解析-环球热文
- 联合能源集团(00467.HK):5月9日南向资金增持523.6万股
- 哈里王子遭爸爸和哥哥嫌弃,黯然离开加冕大典,只有姑姑心疼他
- 中国平安去年赔付超2800亿元 占全国近两成 意味着什么-天天百事通
- 听香港霓虹灯招牌师讲灯火阑珊下的城市往事 天天新消息
- 全球最资讯丨甘泉县十九届人大常委会第十七次主任会议召开
- 天天观速讯丨维生素e涂在脸上作用_维生素e的作用涂脸上
- 全球热点!欢迎新会员单位加入天津软协
- 世界报道:罗马诺:莱比锡可能今夏出售奥尔莫,皇马拜仁加入争夺战
- 稳外贸,再加把劲
- 韦伯望远镜发现系外恒星有3道尘埃环
- 错失“徽酒老二”,口子窖还能扳回一局吗?
- 【世界时快讯】汽车过这都得“跳舞”?霸州一地奇葩路
- 1苹果手机抖音自动回复怎么设置_抖音自动回复怎么设置
- 2个体户免征额是多少?起征点与免征额的区别是什么?个体户起征点是多少?
- 3美格智能(002881)5月9日主力资金净卖出1281.66万元 环球热点评
- 4全球信息:优利德:即将推出4GHz高带宽示波器和26.5GHz信号分析仪等新产品
- 5季节性电能 环球今热点
- 6qq飞车国庆活动_QQ飞车手游国庆节活动2021 世界热议
- 7今日印尼盾对人民币汇率价格查询(2023年5月9日)
- 8Failed to connect to zw.gozuowen.com port 80: Timed out 今日最新
- 9便利、安全、高效 煤矿智能化场景在神东不断“上新”
- 10热推荐:10万元存三年利息少1800,银行下调利率储户的钱流向哪里?
- 1近岸蛋白收监管工作函 去年上市募18.6亿民生证券保荐|世界热推荐
- 2山东养老金2023年最新消息预估 山东2023年养老金会涨多少钱一个月_天天快报
- 3毕业即失业,学历为什么越来越不值钱?|焦点热议
- 4全球最新:普洱茶会不会上火 普洱茶喝多了有什么坏处
- 5脑梗塞护理查房ppt_脑梗塞
- 6文旅部与澳门签署“一基地”联委会协议|全球独家
- 7【环球速看料】5月9日生意社新戊二醇基准价为10766.67元/吨
- 8“征先锋 義拥军”助力就业创业行动党支部赴大仪镇调研电商发展情况 焦点
- 9环球即时:鸡块炖土豆的家常做法 炖土豆的家常做法
- 10图片报:贝林厄姆已拒绝1400万欧续约合同,多特希望卖1.5亿欧_每日看点
广告
- 【世界新要闻】晨光新材(605399):5月8日北向资金增持5.49万股
- 世界滚动:北京疫情降级什么意思_你知道吗
- 水浒传托塔天王晁盖读音 水浒传晁盖的相关情节 世界新资讯
- 全球热点评!总决赛在杭州奥体震撼开打!浙江稠州金租男篮遗憾没能拿下首胜
- 全球滚动:大基金持续减持,半导体前路难测?“国家队”进入投资回收期,国产替代仍是行业最强逻辑
- 环球要闻:田螺姑娘的故事简介50字(田螺姑娘的故事简介)
- 全球快看:以生产“零事故”守护百姓餐桌安全
- 上海市政府常务会议研究推动制造业高质量发展,部署提升上海航运服务业能级
- 宾利汽车一季度的业绩创纪录,营业利润同比增长27%
- 全球热议:两部门:房地产经纪机构要合理降低住房买卖和租赁经纪服务费用
- 热搜爆了!杨幂官宣解约,对方曾挂牌新三板,还涉两家A股公司
- 雨木林风官网系统一键重装(木雨林风官网) 新资讯
- 环球快看点丨《云襄传》在哪个平台播 男女主什么时候在一起的?
- 西部建设股东户数连续3期下降 筹码集中以来股价累计上涨7.11% 报资讯
- 大美江苏,与你相约盛情5月
- 景业智能(688290)5月8日主力资金净买入14.01万元|播资讯
- 红相股份更正三年会计差错,被出具非标意见,或需对投资者进行赔偿|全球滚动
- 诺基亚C300/C110 5G手机亮相运营商网站:预装运行安卓12系统 天天亮点
- 普联软件5月8日盘中涨幅达5%
- 熊猫发行30周年1盎司币价格今天多少一克(2023年05月08日) 每日消息