1. <sub id="zp9ne"></sub>

    <nav id="zp9ne"></nav>
    <object id="zp9ne"><video id="zp9ne"></video></object>
    <sub id="zp9ne"></sub>

    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能學術 正文
    發私信給我在思考中
    發送

    0

    少于兩層的transformer,且只有注意力塊,GPT-3:你怕不是搞事情?

    本文作者:我在思考中 2022-05-05 11:03
    導語:少于兩層、且只有注意力塊的transformer在某些方面也能達到復雜transformer的效果。
    少于兩層的transformer,且只有注意力塊,GPT-3:你怕不是搞事情?
    只有一層或兩層、且只有注意力塊的transformer,在性能上有望達到96層、兼具注意力塊與MLP塊的GPT-3的效果嗎?

    作者 | Mordechai Rorvig

    編譯 | bluemin

    編輯 | 陳彩嫻

    在過去的兩年里,基于Transformer架構開發的大規模語言模型在性能(如語言流暢度)上達到了令人嘆為觀止的效果。

    但是,Transformer對單詞的處理方法是什么?學術界仍未有確定的答案。普遍的理解是,transformer模型能夠以某種方式同時關注多個單詞,以便立即進行“全局”分析。但它到底是如何工作的,或者這是否是transformer模型的真正處理方式,仍舊撲朔迷離。

    換言之,我們知道菜品的配料,但不知道配方。

    針對這一問題,一家叫做 Anthropic AI 公司的研究人員進行了兩項研究,希望從根本上理清transformer在處理和生成文本時的工作內容是什么。

    他們發現,少于兩層、且只有注意力塊的transformer在某些方面也能達到復雜transformer的效果,且能夠幫助理解背后的工作機制。



    1

    少于兩層的Transformer

    在12月發布的第一篇論文(如下)中, Anthropic AI 公司的科研人員研究了transformer的簡化版本,并全面解釋了它們的功能。

    這個工作得到了以色列理工學院 Yonatan Belinkov 的高度評價:“這篇論文很好地講述了transformer架構在非常簡單的情況下是如何工作的?!薄拔曳浅?春眠@項工作,它既有趣又有前途,并且有些獨特和新穎?!?/span>

    少于兩層的transformer,且只有注意力塊,GPT-3:你怕不是搞事情?

    論文地址:https://transformer-circuits.pub/2021/framework/index.html

    根據論文內容,他們所研究的簡化版transformer是先學習基本語言模式,再獲得語言處理的通用能力。哈佛大學的 Martin Wattenberg 教授評價,他們的研究使得transformer的競爭力得到大幅躍升,同時揭露transformer背后的工作原理。

    在3月8日發布的第二篇論文中,研究人員發現,他們所提出的簡化版transformer的能力在最復雜的transformer模型中也發揮了作用。他們在簡單模型中的發現可以應用到規模更大的模型中。雖然這些簡化模型的數學原理仍然高深莫測,但其結果為深入理解transformers提供了一條新途徑。

    少于兩層的transformer,且只有注意力塊,GPT-3:你怕不是搞事情?

    論文地址:https://transformer-circuits.pub/2022/in-context-learning-and-induction-heads/index.html

    理解 transformer 的難點在于其抽象性。傳統的程序遵循一個合乎情理的過程,例如,每當看到“green”(綠色的)這個詞,它們就會輸出“grass”(草)這個詞,而transformer將“green”這個詞轉換為數字,然后將它們乘以某些值。這些值(也稱為參數)決定了下一個單詞是什么。參數在訓練過程中得到了微調,模型會學習如何生成最佳輸出,但不清楚模型具體在學習什么。

    大多數機器學習程序將其數學部分封裝成模塊化要素,并稱之為“神經元”。transformer加入了另外一種要素,稱為attention head(注意頭),它們成組分層排列,就像神經元一樣。但head執行的操作與神經元不同。一般認為,head允許程序記住輸入的多個單詞,但這僅是一知半解。

    為了更好地理解transformer的工作原理,Anthropic AI的研究人員簡化了transformer的結構,去除了所有的神經元層和除一層或兩層以外的所有attention head層。這讓他們發現了transformer和他們已經完全理解的更簡單模型之間的聯系。

    我們可以看最簡單的語言模型——二元模型,它再現了基本的語言模式。例如,在對大量文本進行訓練時,二元模型會注意到“green”一詞后面最常出現的單詞(例如“grass”)并記住它。然后,在生成文本時,它會重現相同的模式。通過為每個輸入單詞記憶一個相關的后續單詞,它可以獲得非?;镜恼Z言知識。

    研究人員表明,具有一層attention head的 transformer 模型也具備同樣的能力:它再現了所記憶的內容。假設給定一個特定的輸入,比如“Doctor Smith went to the store because Doctor X…”(史密斯博士去商店是因為X博士)這個輸入被稱為提示或上下文。對我們來說,下一個詞X指向“Smith”是顯而易見的。

    在經過訓練的單層模型中,attention head可以通過兩個步驟進行預測。首先,它查看上下文中的最后一個單詞(Doctor),并在上下文中搜索它已經學習(在訓練期間)與最后一個單詞相關聯的特定單詞。然后,對于它找到的任意單詞,從中查找另一個它已經學會與找到的單詞相關聯的單詞,就像在二元模型中一樣,這可以是同一個詞。再將這個關聯的單詞作為模型的輸出。

    在上述例子中,研究人員表明,根據最后一個單詞“Doctor”,head通過訓練知道如何搜索一個常用名稱。在句子的前面找到“Smith”這個名字后,head會查看所學的與“Smith”關聯的內容,并將該單詞作為輸出。在這種情況下,模型已經學會將同一個詞“Smith”與找到的詞“Smith”相關聯。整個過程的最終效果是模型將“Smith”一詞從上下文復制到輸出。

    少于兩層的transformer,且只有注意力塊,GPT-3:你怕不是搞事情?

    圖注:從左到右分別為 Chris Olah、Catherine Olsson 與 Nelson Elhage

    不過,到目前為止,記憶只能采用一種模式。不妨想一下,當Smith的名字變成了一個虛構的名字,比如“Gigamuru”時會發生什么。對我們而言,預測下一個單詞輕而易舉,但模型在訓練期間不會識別出虛構的詞,因此不可能記住它與其他詞之間的任何關系,也不會生成它。



    2

    引入歸納頭

    Anthropic 團隊還發現,當他們研究一個更復雜的模型時,比如一個有兩層attention head的模型,出現了一種解決方案。它依賴于attention head獨有的能力:不僅可以將信息移動到輸出,還可以移動到上下文中的其他位置。這種能力可以使第一層的head利用前面單詞的信息,學習注釋上下文中的每個單詞。然后,第二個head可以搜索“Doctor”(在本例中為“Gigamuru”)之前的單詞,并像單層模型中的head一樣,將其移動到輸出。

    研究人員將后一層與前一層協作的attention head稱為induction head(歸納頭)。它不僅僅起到記憶的作用。根據Nelson Elhage的解釋,它還可以做一些看起來更像是抽象推理或算法實現的工作。

    induction head可以讓兩層模型發揮更大的作用,但它們與全尺度transformer的相關性尚不清楚,因為全尺度transformer有數百個attention head協同工作。在他們的第二篇論文中,研究人員表示這些發現得到了延續:induction head似乎對一些最復雜、多層結構的行為起到了關鍵作用。

    在這些行為中,算術能力尤為突出,因為模型只接受了完成文本的訓練。例如,如果給出重復提示:“問:48+76是多少?答:124,問:48+76是多少?答:“全尺度模型會得到正確答案?!?。在給出充足的非重復性示例后,它將能夠正確回答從未見過的算術問題。這種從語境中學習新能力的現象被稱為上下文學習。

    這種現象令人費解,因為從上下文中學習是不可能的。這是因為決定模型性能的參數只在訓練期間調整,而不是在模型處理輸入上下文時調整。

    induction head至少解決了部分難題。它們解釋了如何使上下文學習的簡單和重復形式成為可能,并且提供了所需的功能:能夠復制模型沒有訓練過的新單詞(如“Gigamuru”或“124”)。

    另一位來自Anthropic的合著者Catherine Olsson說:“induction head更有可能執行任何模式,即使它有些奇異或新穎?!?/span>

    研究人員進一步在多層次模型中識別出induction head,并表明它們參與了更新穎的上下文學習形式,比如學習語言間的翻譯。

    “這并不是要解釋整個機制,”OpenAI 的 Jacob Hilton 說?!爸皇莍nduction head似乎參與其中?!?/span>

    這些結果為我們理解transformer模型提供了一個立足點。它們不僅在獲取知識,還在學習如何處理他們根本沒有學到的事物。也許通過了解其工作機制,我們可以對“大放異彩”的transformer少些驚訝與感嘆。

    原文鏈接:

    https://www.quantamagazine.org/researchers-glimpse-how-ai-gets-so-good-at-language-processing-20220414/

    少于兩層的transformer,且只有注意力塊,GPT-3:你怕不是搞事情?

    雷峰網(公眾號:雷峰網)

    雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。

    少于兩層的transformer,且只有注意力塊,GPT-3:你怕不是搞事情?

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說