可解釋性仍然是現代深度學習應用的最大挑戰之一。計算模型和深度學習研究的最新進展使得能夠創建高度複雜的模型,其中包括數千個隱藏層和數千萬個神經元。雖然創建令人難以置信的高級深度神經網路模型相對簡單,但了解這些模型如何創建和使用知識仍然是一個挑戰。最近,Google Brain團隊的研究人員發表了一篇論文,提出了一種名為概念激活向量(CAV)的新方法,它為深度學習模型的可解釋性提供了一個新的視角。

可解釋性與準確性

要理解CAV技術,了解深度學習模型中可解釋性挑戰的本質非常重要。在當前一代深度學習技術中,模型的準確性與我們解釋其知識的能力之間存在著永久的摩擦。可解釋性 – 準確性摩擦是能夠完成複雜知識任務和理解這些任務是如何完成之間的摩擦。知識與控制,績效與責任,效率與簡單……選擇你最喜歡的困境,所有這些都可以通過平衡準確性和可解釋性之間的權衡來解釋。

您是否關心獲得最佳結果,或者您是否關心如何產生這些結果?這是數據科學家在每個深度學習場景中都需要回答的問題。許多深度學習技術本質上是複雜的,雖然它們在許多場景中都非常準確,但它們的解釋卻非常難以理解。如果我們可以在一個與準確性和可解釋性相關的圖表中繪製一些最著名的深度學習模型,我們將獲得如下內容:

深度學習模型中的可解釋性不是一個單一的概念,可以跨多個層次看到:

實現上圖中定義的每個層的可解釋性需要幾個基本構建塊。在最近的一篇論文中,谷歌的研究人員概述了他們認為可解釋性的一些基本構建塊。

Google總結了可解釋性原則如下:

– 了解隱藏層的作用:深層學習模型中的大部分知識都是在隱藏層中形成的。在宏觀層面理解不同隱藏層的功能對於解釋深度學習模型至關重要。

– 了解節點的激活方式:可解釋性的關鍵不在於理解網路中各個神經元的功能,而是在同一空間位置一起激發的互連神經元群。通過互連神經元組對網路進行分段將提供更簡單的抽象級別來理解其功能。

– 理解概念是如何形成的:了解神經網路形成的深度,然後可以組合成最終輸出的個體概念是可解釋性的另一個關鍵構建塊。

這些原則是Google新CAV技術背後的理論基礎。

概念激活向量

遵循上一節中討論的想法,可解釋性的自然方法應該是根據它所考慮的輸入特徵來描述深度學習模型的預測。一個典型的例子是邏輯回歸分類器,其中係數權重通常被解釋為每個特徵的重要性。然而,大多數深度學習模型對諸如像素值之類的特徵進行操作,這些特徵與人類容易理解的高級概念不對應。此外,模型的內部值(例如,神經激活)似乎是不可理解的。雖然諸如顯著圖之類的技術在測量特定像素區域的重要性方面是有效的,但是它們無法與更高級別的概念相關聯。

CAV背後的核心思想是衡量概念在模型輸出中的相關性。概念的CAV只是該概念的一組示例的值(例如,激活)方向上的向量。在他們的論文中,Google研究團隊概述了一種名為Testing with CAV(TCAV)的新線性可解釋方法,該方法使用方嚮導數來量化模型預測對CAV學習的基礎高級概念的敏感性。從概念上講,TCAV的定義有四個目標:

– 可訪問性:用戶幾乎不需要ML專業知識。

– 定製:適應任何概念(例如,性別),並不限於培訓期間考慮的概念。

– 插件就緒:無需重新訓練或修改ML型號即可工作。

– 全局量化:可以使用單一定量度量來解釋整個類或一組示例,而不僅僅是解釋單個數據輸入。

為實現上述目標,TCAV方法分為三個基本步驟:

1)為模型定義相關概念。

2)理解預測對這些概念的敏感性。

3)推斷每個概念對每個模型預測類的相對重要性的全局定量解釋。

TCAV方法的第一步是定義感興趣的概念(CAV)。TCAV通過選擇一組代表該概念的示例或找到標記為概念的獨立數據集來實現此目的。通過訓練線性分類器來學習CAV,以區分概念的示例和任何層中的示例所產生的激活。

第二步是生成一個TCAV分數,用於量化預測對特定概念的敏感性。TCAV通過使用方向性導數來實現這一點,該方嚮導數用于衡量ML預測對神經激活層的概念方向輸入變化的敏感性。

最後一步嘗試評估學習CAV的全局相關性,以避免依賴不相關的CAV。畢竟,TCAV技術的一個缺陷是有可能學習無意義的CAV。畢竟,使用隨機選擇的一組圖像仍然會產生CAV。基於這種隨機概念的測試不太可能有意義。為了應對這一挑戰,TCAV引入了統計顯著性檢驗,該檢驗針對隨機數量的訓練運行(通常為500次)評估CAV。該想法是,有意義的概念應該導致TCAV分數在訓練運行中表現一致。

TCAV在行動

與其他可解釋性方法相比,Google Brain團隊進行了多次實驗來評估TCAV的效率。在一項最引人注目的測試中,該團隊使用了一個顯著圖,試圖預測標題或圖像的相關性,以了解計程車的概念。顯著性圖的輸出如下所示:

使用這些圖像作為測試數據集,Google Brain團隊在Amazon Mechanical Turk上使用50人進行了實驗。每個工作人員執行一系列六個任務(3個對象類x 2s效率圖類型),所有這些任務都針對單個模型。任務順序是隨機的。在每項任務中,工作人員首先看到四個圖像及其相應的顯著性面具。然後,他們評估了他們認為圖像對模型的重要程度(10分制),標題對模型的重要程度(10分制),以及他們對答案的自信程度(5分制)。總共,特種飛行員評定了60個獨特的圖像(120個獨特的顯著圖)。

實驗的基本事實是圖像概念比標題概念更相關。然而,當觀察顯著性圖時,人們認為標題概念更重要(具有0%雜訊的模型),或者沒有辨別出差異(具有100%雜訊的模型)。相比之下,TCAV結果正確地表明圖像概念更重要。

TCAV是過去幾年中最具創新性的神經網路解釋方法之一。初始技術的代碼可以在GitHub上獲得,我們應該期望看到一些主流深度學習框架適應的想法。

本文轉自towardsdatascience,原文地址