你的位置:丁香成人网 > 孙悦车震门 > 小色哥 三年前的AI芯片作秀?谷歌陷学术怪异丑闻,吹哨东说念主被开除并已告状|算法|源代码

小色哥 三年前的AI芯片作秀?谷歌陷学术怪异丑闻,吹哨东说念主被开除并已告状|算法|源代码

发布日期:2024-11-04 22:48    点击次数:181

小色哥 三年前的AI芯片作秀?谷歌陷学术怪异丑闻,吹哨东说念主被开除并已告状|算法|源代码

机器之心报说念小色哥

机器之心剪辑部

2021 年,谷歌在 Nature 发表了一篇颇具争议的论文《A graph placement methodology for fast chip design》。(作家包括 Jeff Dean 和 Quoc V. Le 等知名研究者),其中建议了一种基于强化学习的芯片遐想方法。据先容,该芯片遐想方法可在不到六小时的时老实自动生成芯片布局,况兼遐想驱散在功耗、性能和芯单方面积等所相关键谈论上王人优于或比好意思东说念主类工程师,尔后者需要徒然数月的沉重努力智商达到类似效果。

事实上,谷歌在更早之前就仍是发布了该论文的预印本,咱们曾经作念过报说念,细目可参阅《6 小时完成芯片布局,谷歌用强化学习助力芯片遐想》。

谷歌其时默示,这项基于强化学习的快速芯片遐想方法对于资金病笃的初创企业大有裨益,可匡助初创企业设备我方的 AI 和其他专用芯片。况兼,这种方法有助于缩小芯片遐想周期,从而使得硬件不错更好地适合快速发展的时刻研究。

论文天然看起来大有出息,但三年来东说念主们一直质疑不绝。近日,最近一期 CACM 上,Synopsys 的隆起架构师 Igor Markov 纪念了东说念主们对这篇论文的种种质疑。

杜克大学陈稳重涵养在微博上分享这篇著作

机器之心简要翻译整理了这篇著作。

本文纰谬视力

谷歌在 Nature 杂志上发表了一篇对于 AI 芯片遐想的转换性论文。群众媒体歌唱其是一项重要冲破,但它遭到了领域人人的质疑,他们以为这篇论文好得令东说念主难以置信,而且空泛可复现的根据。当今,交叉磨真金不怕火的数据标明,由于活动、分析和呈报中的罪状,Nature 的这篇论文的真确度受到了严重毁伤。对谷歌这篇论文中的诓骗和研究不当活动的翔实指控已在加利福尼亚州提交。Nature 在实行我方的计策方面进展牢固。推迟除掉有问题的出书物正在污蔑科研过程。为了宝贵科学研究的淳厚真确,必须马上武断地遴选活动。

导语

Mirhoseini et al. 在 2021 年在 Nature 发表了一篇论文,其中使用了强化学习(RL)来遐想硅芯片。这篇论文得到了东说念主们的广阔关注,也因根据不及而激发了争议。这篇来自谷歌的论文潜伏了纰谬的方法要领和重现其驱散所需的大部分输入。

本文的元分析(meta-analysis)标明,有两项沉静评估填补了这一空缺。它们标明谷歌的这个强化学习方法赶不上东说念主类工程师,也赶不上一种已知的算法(模拟退火)和普遍可用的生意软件,同期速率也更慢。通过对数据进行交叉磨真金不怕火后,Igor Markov 默示,由于活动、分析和呈报中的罪状,Nature 的这篇论文的真确度受到了严重毁伤。在本文发表之前,谷歌反驳了其里面仍然存在的诓骗指控。

由于 AI 应用需要更大的算力,因此不错通过更好的芯片遐想来提高效力。发表于 Nature 杂志的这篇论文宣称兑现了 AI 芯片遐想的冲破。它惩办了优化芯片上电路元件位置的难题,并形貌了对五个张量处理单位(TPU)芯片块的应用。其还默示这个方法是其时学术界或工业界最好的。

该论文还将这些说法扩充到芯片遐想以外,默示强化学习在组合优化方面的阐发优于最先进的时刻。「卓著的方针需要卓著的根据」(卡尔・萨根),但该论文空泛公开测试示例的驱散,也莫得分享所使用的额外 TPU 芯片块。源代码 —— 在论文发表后七个月发布,以在当先的争议之后扶植该论文的发现 —— 短少重现方法和驱散所需的纰谬部分。

时势代码库仍是住手公开或删除,https://github.com/googleresearch/circuit_training

来自谷歌和学术界的十多位研究东说念主员对 Mirhoseini et al. 的实验建议过质疑,并对所呈报的研究驱散建议了担忧。此后,谷歌工程师屡次更新他们的开源代码,填补了一些缺失的部分,但依然不是一说念。谷歌这个软件库中的开源芯片遐想示例并未明晰地娇傲谷歌 RL 代码的坚忍性能。

昭彰,惟一公开宣称沉静复现 Mirhoseini et al. 的时刻是由加州大学圣地亚哥分校(UCSD)的研究东说念主员于 2022 年秋季设备的。他们对谷歌开源代码中短少的纰谬组件进行了逆向工程,并十足再行兑现了代码中缺失的模拟退火 (SA) 基线。谷歌莫得发布 Mirhoseini et al. 使用的额外 TPU 芯片遐想模块,排除了十足外部复现驱散的可能性。因此,UCSD 团队分享了他们在当代人人芯片遐想上的实验:SA 和生意电子遐想自动化 EDA 器用的阐发均优于谷歌的强化学习代码。

《纽约时报》和路透社的记者在 2022 年报说念了这场争议,并发现早在 Nature 杂志提交之前,一些谷歌的研究东说念主员(见表 1)就对他们认真查抄的声明建议了异议。

该论文的两位主要作家痛恨说,他们的研究一直存在诓骗指控。

2022 年,谷歌衔命了里面吹哨东说念主,并拒却批准发表一篇月旦 Mirhoseini et al. 研究的著作。这位吹哨东说念主依据吹哨东说念主保护法,对谷歌拿起了罪状衔命的诉讼:法庭文献翔实列出了与 Mirhoseini et al. 研究相关的诓骗和科学怪异活动的指控。

2021 年 Nature 杂志在统一期上刊登了一篇先容该论文的新闻不雅点著作,敦促复现该论文的驱散。讨论到复现的禁绝和复现尝试的驱散,著作的作家除掉了该著作。2023 年 9 月 20 日,Nature 杂志为该论文添加了在线编者注。

一年后(2024 年 9 月晚些时候),跟着这篇著作的发表,Nature 杂志的编者注已被移除,但出现了一份作家的附录。这份附录访佛了早先声明中磋议的作家对月旦的呈报部分的论点。

但对于 Nature 论文的主要心绪点还未得到惩办。格外是,论文驱散中对于一个额外的额外 TPU 块的未公开统计数据,并未扶植任何骨子性的论断。这只会加重对经受性呈报和误报的担忧。发布一个未表现预训诫数据的预训诫模子,也加重了对于数据欺凌的担忧。

接下来,本文列出了对该论文的初步怀疑,并标明其中很多怀疑自后得到了证实。然后,本文查抄了 Mirhoseini et al. 是否改进了现巧合刻,综合了作家的呈报,并磋议了该使命在实践中的可能用途。临了,本文得出论断并指出了计策含义。

这里咱们略过 Igor Markov 这篇著作中对原论文的先容,细目可参阅机器之心的报说念《6 小时完成芯片布局,谷歌用强化学习助力芯片遐想》。咱们重心来看对该研究的怀疑和指控。

当先的怀疑

尽管登上 Nature 的这项研究复杂而又令东说念主印象深切,但研究有着昭彰的不及。

例如来说,文中建议的强化学习(RL)被形貌为大致处理更等闲的组合优化问题(如旅行商问题)。但是,该研究并莫得通过对纰谬问题的公式化和易于竖立的测试示例来展示这少量,而是惩办了一个专科任务(芯片遐想的宏布局),仅针对谷歌额外的 TPU 电路遐想块提供了五个块的驱散,而可用的块远不啻这些。

此外,RL 公式仅仅优化了一个包含 HPWL 的简化函数,但并未针对灵通电路示例进行纯 HPWL 优化的评估,而这在其他文献中是老例操作。

不错说,这篇论文潜伏了实验的纰谬方面,存在严重的遗漏,主要表当今以下几点:

第少量:标题中提到「快速芯片遐想(fast chip design)」, 然则作家只形貌了遐想过程时分从几天或几周详几小时的改善,但并莫得提供针对每个遐想的具体时分,也莫得将遐想过程细分为不同阶段。著作中并没表现白,几天或几周的基线遐想过程是否包括了功能遐想变更的时分、闲置时分、使用较低效的 EDA 器用的时分等。这种形貌空泛翔实信息,使得读者难以汇注遐想时分实验缩小到了何种进程,以及这种改进的具体影响。

第二点:著作宣称强化学习(RL)在每个测试用例中的运行时分不跳跃六小时(针对五个 TPU 遐想块中的每一个),但这并莫得包括一说念的 20 个块。此外,RL 的运行时分仅涵盖了宏布局,而 RePlAce 和行业器用会抛弃通盘电路组件。

第三点:Mirhoseini et al. 专注于宏布局,但却莫得提供每个 TPU 芯片块中宏的数目、大小和时势,以及面积期骗率等纰谬遐想参数。

第四点:Mirhoseini et al. 只给出了五个 TPU 块的驱散,其统计昭彰不及,而且高方差谈论会产生噪声驱散(见表 2)。频繁情况下,使用更多的样本是常见的作念法(见上表 1)。

第五点:Mirhoseini et al. 莫得表现被强化学习(RL)超越的东说念主类芯片遐想师的禀赋水平。撇开可复现性不谈,这些驱散自后在 Cheng et al. 的研究中被解说是不错应答改进的。

第六点:Mirhoseini et al. 宣称改善了面积,但芯单方面积和宏面积在布局过程中并未调动,范例单位面积也莫得变化(参见表 2)。

第七点:对于驱散随时分推移而优化的迭代算法,应该公说念地比较每个测试用例在一样运行时分下哪个具有更好的质地谈论,或在一样质地下哪个具有更好的运行时分,或两者王人有所改进。Mirhoseini et al. 莫得提供这么的根据。格外是,如若基于机器学习的优化使用了卓著的谋略资源,那么在其最有竞争力的局势中,模拟退火(SA)优化也应当使用同等的谋略资源。这意味着在评估和比较这两种方法的效果时,应确保它们在资源使用上处于统一水平,以保证比较的自制性。

对于人人来说,Mirhoseini et al. 建议的方法似乎存在颓势,主要表当今:

H1. 与 SOTA 比较,建议的 RL 使用了过多的 CPU/GPU 资源。因此快速芯片遐想的说法需要仔细证实。

H2. 一一抛弃宏是最简便的方法之一。然则即使在深度 RL 的驱动下,一一抛弃看起来也很不便捷。

H3. Mirhoseini et al. 使用了与 20 多年前类似的电路分区(聚类)方法。尽人皆知,这些时刻与互连优化标的有所不同。

H4. Mirhoseini et al. 将宏的位置收尾在一个粗粒度的网格上,而最新的方章程幸免了这种收尾。在图 1(左)中,宏被解放抛弃,但谷歌的强化学习倾向于将宏散布开来,况兼不允许在如图 1(左)中心这么的大区域内抛弃单位。图 2 展示了这种各异。这标明,天然强化学习时刻在处理某些遐想任务上具有后劲,但其在处理大范畴电路遐想时可能需要依赖于简化的网格系统,这可能收尾了其优化效果和应用范围。

H5.Mirhoseini et al. 使用的力导向抛弃时刻,仍有很大的改进空间。

除了上述内容,还有值得怀疑的基准。Nature 杂志使用了多个基准来宣称所提时刻的优胜性。然则东说念主类基准莫得记载,况兼不可复现。

B1. Mirhoseini et al. 和表 1 中的纰谬驱散给出了五个 TPU 遐想模块的芯片谈论。但与 SA 的比较并莫得呈报这些芯片谈论。

B2. Mirhoseini et al. 提到,强化学习(RL)的驱散经过了模拟退火(SA)的后处理,但空泛消融研究来评估 SA 对芯片谈论的影响。

B3. 在 Mirhoseini et al. 的研究中,RePlAce 被用作基准,但这种使用方式与其预期用途不一致。

B4. Mirhoseini et al. 莫得形貌在模拟退火(SA)中何如动手化宏位置,这标明作家可能袭取了一种不错改进的简便方法。自后,Bae et al. 确定了 SA 基线中的更多弱点,而 Cheng et al. 也证实了这些问题。

更多根据

那篇 Nature 论文发表几个月后,那是在当先阶段的争议之后,Bae et al.、谷歌的文档和开源代码、Nature 同业评议、Yue et al. 给出了更多数据。

Nature 给出了对 Mirhoseini et al. 的同业评议文献以及作家的反驳。在漫长的往复疏导中,作家向审稿东说念主保证,宏的位置在 RL 抛弃后莫得被修改,证实了宏是粗粒度网格抛弃的。在几份投稿中,Bae et al. 兑现了 Nature 审稿东说念主的要求,并在 17 个公开芯片遐想示例上对谷歌的时刻进行了基准测试,驱散标明:先前的方法昭彰优于谷歌 RL。

好意思国和德国的一些涵养公开抒发了对这篇 Nature 论文的质疑。当研究东说念主员留意到谷歌开源版块中的颓势时,例如分组(聚类)过程,谷歌工程师发布了更多代码(但不是一说念),这反倒激发了更多问题。

又过了一年,当先的怀疑变大了,因为驱散标明,当宏布局不局限于网格时,东说念主类遐想师和商用 EDA 器用的阐发均优于谷歌这个方法。在 Cheng et al. 的表 2 中,作家预计了通过 RL 优化的代理资本函数与 Nature 论文表 1 中使用的芯片谈论的秩相关性。Cheng et al. 在表 3 中预计了基于 RL 的优化之后,芯片谈论的平均值和范例差。

本文的表 2 给出了一些纪念,不错看到通盘芯片谈论的秩相关性王人很低,而 TNS 和 WNS 的噪声进程很高。

因此,Mirhoseini et al. 对 TNS 和 WNS 的优化依赖于有颓势的代理,并产生了统计真义可疑的驱散。不错留意到,在 Ariane-NG45 以及 BlackParrot-NG45 上的 TNS 的 σ/|μ | > 0.5。除了媒体的月旦,Mirhoseini et al. 也受到了三位好意思国涵养的质疑。

未公开使用生意器用的 (x, y) 位置

UCSD 的那篇论文中给出了强有劲的根据和谷歌工程师的阐述,标明作家潜伏了一个纰谬细节:在对输中计表进行聚类时,谷歌代码中的 CT merge 会读取一个位置以根据位置重组集群。为了生成宏的 (x, y) 位置,论文的作家使用了 Synopsys 的生意 EDA 器用生成的通盘电路元件(包括宏)的动手 (x, y) 位置。

Mirhoseini et al. 的主要作家阐述使用了这一要领,并宣称这并不抨击。但在 Cheng et al. 的论文中,该要领可将纰谬谈论提高 7-10%。因此,Mirhoseini et al. 的驱散需要未被明确表现的算法要领,例如从生意软件中获取 (x, y) 数据。

Cheng et al. 的论文中还列举了更多未在论文中表现的时刻,其中还提到了 Nature 论文、其源代码与谷歌芯片遐想实验使用的代码之间的各异。这些各异包括代理资本函数中项的特定权重、与电路不同的连系矩阵构造,以及 Mirhoseini et al. 的论文中莫得源代码或齐全形貌的几个「黑箱」元素。Bae et al.、Cheng et al.、Macro Placement Repo 提供了缺失的形貌。此外,Mirhoseini et al. 的驱散与所用方法不符,因为论文中莫得提到一些纰谬组件。仅凭形貌无法复现其驱散和方法。

训诫数据和测试数据之间存在数据泄漏

根据 Mirhoseini et al. 的说法,「当咱们将策略蚁合走漏给更多种类的芯片遐想时,它就不太容易过度拟合。」

但谷歌 Team 1 自后在 Yue et al. 中标明,对「种种化 TPU 块」进行预训诫并莫得提高驱散质地。对「畴昔的网表版块」进行预训诫会略略提高质地。对 RL 进行预训诫并在类似遐想上对其进行评估可能是 Mirhoseini et al. 方法论中的一个严重颓势。由于谷歌莫得发布额外的 TPU 遐想或每个遐想的统计数据,是以无法比较训诫和测试数据。

可能的局限性

Mirhoseini et al. 莫得暴露其方法的主要局限性,但却默示其可在更等闲的组合优化中取得到手。Mirhoseini et al. 中的 Ariane 遐想娇傲了一样大小的宏模块:这是一个潜在的收尾,因为商用芯片遐想频繁会使用多种不同的宏尺寸。然则,他们莫得呈报每个 TPU 块的基本统计数据:宏的数目过火时势、遐想面积期骗率以及宏占用的面积分数。根据同业评议和谷歌工程师对 Cheng et al. 作家的指导,TPU 块的面积期骗率似乎低于典型的商用芯片遐想。

谷歌 RL 在 Bae et al. 和 Cheng et al. 中使用的 Adya 和 Markov 的具有挑战性的人人基准测试上阐发欠安(如图 2 所示),这标明存在未公开的局限性。

另一个可能的收尾是对预置(固定)宏的处理不当,这在行业布局中很常见,但 Mirhoseini et al. 莫得磋议过。通过侵犯预置宏,网格化可能会影响实践中的可用性。

在人人基准测试上的阐发欠安的原因也可能是由于对额外 TPU 遐想的过度拟合。

使用中等的模拟退火基线

谷歌 Team 2 的更强基准论文《Stronger baselines for evaluating deep reinforcement learning in chip placement》通过在 swap、shift 和 mirror 操作中添加 move 和 shuffle 操作,改进了谷歌 Team 1 在 Mirhoseini et al. 中使用的并行 SA。在优化一样的标的函数时,这种改进的 SA 频繁会在更短的时老实产生比 RL 更好的驱散。

Cheng et al. 通过沉静兑现 SA 复现了 Bae et al. 的定性论断,发现 SA 驱散的方差小于 RL 驱散。

此外,Bae et al. 为 SA 建议了一种简便快速的宏动手化启发式方法,并在比较 RL 与 SA 时可平衡谋略时分。

鉴于 SA 在 1980 到 1990 年代被等闲使用,与弱的 SA 基线比较,天然会导致新的 RL 时刻被高估。

这篇 Nature 论文是否提高了现巧合刻水平?

Nature 杂志的社论在磋议该论文时推测:「这是一项抨击的成就,将对加快供应链产生广阔的匡助。」

但在多家芯片遐想和 EDA 公司进行评估和复现尝试后,不错降服地得出论断,这篇 Nature 论文莫得取得任何抨击成就,因为畴昔的芯片遐想软件,格外是来自 Cadence Design Systems 的软件,不错更快地产生更好的布局。如若该论文的审稿东说念主或公众王人知说念这些事实,那么该论文对于改进 TPU 遐想的方针将是无理的。

这篇 Nature 论文宣称东说念主类比生意 EDA 器用产生了更好的驱散,但莫得给出证实。

谷歌 Team 2 和 UCSD 团队袭取不同的方法将 Mirhoseini et al. 中的方法与基线方法进行比较,积攒呈报了与生意 EDA 器用、东说念主类遐想师、学术软件以及 SA 的两个沉静自界说兑现的比较驱散。

谷歌 Team 2 苦守 Mirhoseini et al. 中的形貌,莫得提供动手布局信息。UCSD 团队试图复现谷歌实验所作念的事情以产生驱散(空泛 Mirhoseini et al. 的翔实信息)。

谷歌 Team 2 不错造访 TPU 遐想模块,并解说预训诫的影响实验上很小。

尽管 UCSD 团队无法造访谷歌的训诫数据和代码,但照旧得到了与 Mirhoseini et al. 类似的驱散,无需预训诫。他们还按照谷歌 Team 2 的提示再行兑现了 SA,并引入了几个新的芯片遐想示例(表 1)。

Nature 论文中 RePlAce 的使用方式与其预期用途不一致。Bae et al.、Cheng et al. 通过正确使用 RePlAce, 在 ICCAD 2004 基准测试中为 RePlAce 取得了出色的驱散。

Nature 论文中使用的模拟退火的兑现有在禁绝,摒除禁绝(在统一源代码库中)改进了驱散。如若正确兑现,SA 会使用更少的运行时分产生比谷歌 CT/RL 更好的惩办决策,况兼两者王人被赋予一样的代理资本函数。Bae et al.、Cheng et al. 解说了这少量。

与谷歌 CT/RL 比较,SA 抓续改进了线长和功率谈论。对于电路时序谈论 TNS 和 WNS,SA 产生的噪声较小,但与 RL 的驱散十分。回念念一下,SA 和 RL 优化的代理函数不包括时序谈论,这使得 SA 或 RL 兑现这些改进的断言显得很可疑。

谷歌 CT/RL 未能在东说念主类基线、生意 EDA 器用和 SA 的质地上有所提高。它也莫得改进运行时 SOTA(表 3),况兼作家莫得暴露每个遐想数据或遐想过程的时分。如若竖立 / 兑现稳当,RePlAce 和 SA 会提供更强的基线。

对这篇 Nature 论文月旦的反驳

尽管媒体进行了月旦并建议了时刻问题,但作家未能摒除 Mirhoseini et al. 的方法和驱散的复现的剩余禁绝。

UCSD 团队的工程努力克服了这些禁绝,他们跟进了谷歌 Team 2 月旦 Nature 论文的使命,然后分析了其中的很多问题。在 CT 代码库出现之前,谷歌 Team 2 就不错造访谷歌 TPU 遐想和论文中使用的源代码。Cheng et al. 和 Macro Placement Repo 的 UCSD 作家不错造访 CT 并受益于谷歌 Team 1 工程师的历久参与,但无法造访 Bae et al. 或 Mirhoseini et al. 中使用的 SA 代码或 CT 框架中缺失的其他纰谬代码片断。

然则,Bae et al.、Cheng et al. 的驱散与 Macro Placement Repo 互相印证,况兼他们的定性论断是一致的。UCSD 的 Ariane-NG45 驱散与 Google Team 1 工程师的驱散相等匹配,Cheng et al. 中标明 UCSD 生成的 Ariane-NG45 的 CT 训诫弧线与 Google Team 1 工程师生成的驱散相匹配。谷歌 Team 1 工程师仔细审查了该论文以及 2022 年秋季和 2023 年冬季的研究驱散,莫得建议异议。

Nature 论文的两位主要作家于 2022 年 8 月离开谷歌,但在 2023 年 3 月,他们对 Cheng et al. 的驱散建议了反对。莫得弥补原使命的颓势。这些反对观点立即在宏布局代码库的 FAQ 部分得到惩办。其中一个问题是 Cheng et al. 的实验中空泛预训诫。

预训诫

Cheng et al. 使用谷歌 Circuit CT 库中的代码和提示进行训诫,其中指出(2023 年 6 月):「以下驱散是重新动手训诫的驱散,因为面前无法分享预训诫模子。」

根据 Macro Placement Repo 中的 MacroPlacement FAQ,Cheng et al. 莫得使用预训诫,因为根据谷歌的 CT FAQ,不需要预训诫来重现 Mirhoseini et al. 的驱散。此外,谷歌莫得公布预训诫数据。

谷歌 Team 2 使用谷歌里面的代码评估预训诫,发现对与 SA 或 RePlAce 的比较莫得影响。

谷歌 Team 1 标明「不同 TPU 块」的预训诫并莫得改善驱散,只改善了运行时分。「畴昔的网表版块」的预训诫略有改善。CT 文档或论文自身莫得磋议、表现或发布此类先前版块。

换句话说,Nature 论文的主要作家但愿其他东说念主使用预训诫,但他们莫得满盈翔实地形貌它以进行复现,莫得发布它的代码或数据,况兼仍是标明它不会改善预训诫的驱散。

2024 年 9 月(发表几年后),作家秘书发布预训诫模子,但未发布预训诫数据。因此,咱们无法确保用于测试的特定示例未在预训诫中使用。

基准老旧

另一个反对观点是 Bae et al. 和 Cheng et al. 使用的人人电路基准测试据称使用了过时的基础设施。

事实上,这些基准仍是使用 HPWL 标的进行了评估,该标的不错在芯片遐想的几何 2D 缩放下准确缩放,况兼仍然适用于通盘时刻节点(第 2 节)。ICCAD 基准是由那篇论文的同业评审员 #3 要求的。当 Bae et al. 和 Cheng et al. 兑现了这个要求,在路由变得相关之前,谷歌 RL 际遇了艰辛:在 HPWL 优化中,RL 差了 20% 独揽(HPWL 是 CT/RL 优化的代理资本中最简便但最抨击的项)。

Cheng et al. 的实验中,莫得训诫到握住

Macro Placement Repo 中的 FAQ #15 立即惩办了这一问题:「CT GitHub 存储库提供的任何指南中王人莫得形貌『训诫到握住』。」

自后,他们的额外实验标明,「训诫直到握住会恶化一些纰谬芯片谈论,同期改善其他谈论,突显了代理资本和芯片谈论之间的不良相关性。总体而言,与 ISPD 2023 论文中呈报的模拟退火和东说念主类宏抛弃的驱散比较,直到握住的训诫不会发生质的变化。」Bae et al. 的 RL-vs-SA 实验早于 CT 框架,也早于 Mirhoseini et al. 宣称的训诫不到 6 小时就握住的方法。

Nature 论文使用的谋略资源相等兴奋且难以复现。由于 RL 和 SA 算法王人会在早期产生可行的惩办决策,然后逐渐改进代理函数,因此 Cheng et al. 的奋力而为的比较使用的谋略资源比 Mirhoseini et al. 的谋略资源要少,况兼 RL 和 SA 之间具有同等性。驱散:SA 打败 RL。

Bae et al. 使用与 Mirhoseini 一样的谋略资源对 RL 和 SA 进行了比较。Cheng et al. 的驱散与 Bae et al. 的驱散一致。如若赐与更多资源,SA 和 RL 不太可能进一步改善芯片谈论,因为其与 Mirhoseini 的代理函数相关性较差。

该论文的主要作家在 Goldie 和 Mirhoseini 在声明《Statement on reinforcement learning for chip design》中提到,该论文被多半援用,但他们莫得援用谷歌以外的任何积极的复现驱散来铲除通盘已知的禁绝。Bae et al. 和 Cheng et al. 莫得磋议在 IC 遐想中使用 RL 的其他方法,因此这里不再进行一般性论断。

谷歌这篇论文中的效力可用吗?

发表于 Nature 的这篇谷歌论文宣称这些方法可应用于最近的谷歌 TPU 芯片,这似乎佐证了他们宣称的东西:即这些方法改进了最新时刻水平。但除了间隙的一般性声明外,莫得呈报明确表现对出产级芯片的芯片谈论改进。

前文仍是标明,该论文和框架中的方法过时于 SOTA,例如 1980 年代的模拟退火(SA)。此外,谷歌的 Bae et al. 里面兑现的 SA 足以替代那篇 Nature 论文中建议的强化学习方法。谷歌既宣称在 TPU 遐想中使用了这个 RL 方法,但实验上这个方法又过时于 SOTA,为什么会这么?这篇著作试图给出一些解释。

鉴于芯旋即序谈论 TNS 和 WNS 在强化学习驱散中的方差较大,是以使用远远更长的运行时分,尝试使用不同的代理资本函数和超参数建筑进行屡次沉静就地尝试可能会改善最好驱散,但 SA 也能作念到这少量。使用里面方法(即使是较差的方法)是行业实践中称为 dogfooding(吃我方的狗粮)的常见方法。在大多数芯片中,一些块并不抨击(不会影响芯片速率),是很好的 dogfooding 候选。这不错解释谷歌为什么经受性地公布出产级使用」和呈报。(注:在芯片遐想领域,dogfooding 是指芯片遐想公司里面的工程团队会使用我方遐想的芯片进行测试和考证,以确保芯片知足预期的性能、功能和质地。这种方法不错匡助团队发现潜在的遐想颓势、优化用户体验,并提前惩办问题,而不是比及居品发布后才被客户发现。)强化学习的驱散由 SA30 进行事后处理,但 CT FAQ 否定了这种后处理 ——TPU 遐想过程中使用了后处理,但在将 RL 与 SA 进行比较时未使用。但由于闇练的 SA 永久胜过强化学习,因此 SA 十足不错替代强化学习(不错使用 SA 中的自适合温度诊治来适合动手位置)。

谷歌 Team 1 的后续研究标明(如图 7 所示),仅在对基本一样的遐想进行预训诫时,预训诫智商改善驱散。也许,谷歌在对 IC 遐想进行屡次矫正时间骗了强化学习 —— 这是一个灵验的布景,但这篇 Nature 论文中莫得形貌这少量。此外,重新动手运行时,商用 EDA 器用的速率比强化学习快几个数目级,因此预训诫 RL 并不成减轻差距。

谷歌 CT/RL 代码不错得到改进吗?

RL 和 SA 比 SOTA 慢几个数目级(表 3),但预训诫(CT 中莫得)仅能将 RL 的速率提高几倍。CT 代码库当今包含尝试过的改进步骤,但咱们尚未看到芯片谈论的重要提高。改进版 CT 库和论文仍然存在四个主要禁绝:

RL 优化的代理资本并不成反馈电路时序,因此改进 RL 可能无助于改进 TNS 和 WNS。在优化给定的代理函数时,SA 优于 RL。因此,即使使用更好的代理,RL 也可能会失败。RL 在粗粒度网格上抛弃宏会收尾它们的位置(图 2)。当东说念主类忽略粗网格时,他们会找到更好的宏位置。商用 EDA 器用也幸免了这种收尾,况兼优于谷歌的 CT/RL。行为预处理要领的聚类会导致抛弃和网表分区标的之间不匹配。

纪念

这篇元分析磋议了对 Mirhoseini et al. 那篇 Nature 论文的驱散的复现和评估,以过火中方法、驱散和声明的灵验性。他们发现,那篇论文中包含机器学习中的多种可疑作念法,包括不可访佛的研究实践、挑选好驱散、误报和可能的数据欺凌。

基于交叉磨真金不怕火的新数据,本文得出了具有满盈冗余度的论断:由于研究中兑现、分析和呈报中的罪状,该论文的真确度严重不及。遗漏、不一致、罪状和失实论述影响了他们的方法、数据、驱散妥协释。

对于那篇 Nature 论文的论断

谷歌 Team 2 不错造访谷歌的里面代码,而 Cheng et al. 对缺失的组件进行了逆向工程和 / 或再行兑现。谷歌 Team 2 和 UCSD 团队从类似的实验中得出了一致的论断,况兼每个团队王人进行了额外的不雅察。

这里交叉查抄了谷歌 Team 2 和 UCSD Team 呈报的驱散,并讨论了 CT 框架、Nature 同业评议和 Yue et al. ,然后纪念了这些使命得出的论断。这证实了对这些声明的很多初步怀疑,并发现了其他颓势。

因此,很昭彰,Mirhoseini et al. 的 Nature 论文在多个方面具有误导性,致使于读者无法信赖其最抨击的声明和论断。Mirhoseini et al. 莫得改进 SOTA,而原始论文的方法和驱散无法从提供的形貌中重现,这违背了 Nature 的既定剪辑计策。依赖额外的 TPU 遐想进行评估,以及实验呈报不及,接续阻滞着方法和驱散的可复现性。

痔疮 肛交

这篇 Nature 论文作家试图驳倒月旦,但未能到手。

令东说念主骇怪的是,自 Cheng et al. 发表论文以来,Mirhoseini et al. 的作家在一年半内莫得提供新的令东说念主信服的实证驱散。

对芯片遐想的影响

这里仅强调了那篇 Nature 论文方法中的不及之处。但 2024 年来自中国的一项研究效力《Benchmarking end-to-end performance of AI-based chip placement algorithms》使用他们新的沉静评估框架比较了七种羼杂尺寸布局时刻,其中有 20 个电路(其中七个带有宏)。

他们在芯片谈论上的端到端研究驱散标明,基于 ML 的时刻过时于 RePlAce(镶嵌在 OpenROAD 中)和其他基于优化的时刻:DREAMPlace(基于 GPU 的 RePlAce 算法变体)和 AutoDMP(围绕 DREAMPlace 的贝叶斯优化 wrapper)。尽管复现 Mirhoseini et al. 的方法具有昭彰的必要性,但 Wang et al. 的作家无法提供这么的驱散。

计策影响

表面论证和实证根据标明,各个领域发表的多半论文无法复现,而且可能不正确。比如 Nature 杂志这篇论文就加重了复现危急,阻滞了东说念主们对已发表研究的信任。

Retraction Watch 每年能跟踪到 5000 起撤稿事件,包括特出的研究怪异活动案例。其默示,「研究怪异活动是一个严重的问题,而且(可能)越来越严重」,这使得咱们更有必要将淳厚的罪状与特地夸大和怪异活动鉴别开来。机构需要给出呈报,包括在 Nature 撤稿示知中进行明确表现。

Nature 的剪辑计接应被等闲而严格地顺服。引自《Nature Portfolio》:

「出书的固有原则是,其他东说念主应该大致复现和模仿作家发表的方针。在 Nature Portfolio 期刊上发表论文的条目是,作家必须实时向读者提供材料、数据、代码和相关左券,而无需要求经验…… 出书后,如若读者际遇作家拒却顺服这些计策的情况,应接洽期刊的主编。」

具体到 Mirhoseini et al. 这篇论文,杂志社论坚称「时刻专长必须等闲分享」。但是,当稿件作家冷漠公开基准测试的要求并阻滞复刻下,他们的时刻方针应该受到怀疑(尤其是如若他们自后不同意与他们的使命进行比较)。

根据同业评议文献,这篇论文的吸收取决于代码和数据的发布,但在 Mirhoseini et al. 发表时或之后,这王人莫得发生。

这些作家还对那篇 Nature 论文进行了修改,宣称代码仍是可用。但发布的代码中仍然存在严重遗漏。这尤其令东说念主担忧,因为该论文不详了纰谬的比较和细节,况兼认真评估该时势的谷歌吹哨东说念主在加州法院宣誓指控存在诓骗活动。这使得复现变得愈加纰谬。

对于已发表的科学方针,得出明确无误的论断合乎每个东说念主的利益。作家、Nature 杂志的剪辑和审稿东说念主以及研究界王人欢喜担包袱。寻求真相是人人共同的义务。

https://cacm.acm.org/research/reevaluating-googles-reinforcement-learning-for-ic-macro-placement/

https://weibo.com/2199733231/OErfamQry小色哥



Powered by 丁香成人网 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024