-
當前位置:首頁 > 創(chuàng)意學院 > 技術 > 專題列表 > 正文
用于分類的神經網(wǎng)絡模型(用于分類的神經網(wǎng)絡算法)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關于用于分類的神經網(wǎng)絡模型的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關鍵詞,就能返回你想要的內容,越精準,寫出的就越詳細,有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com。
創(chuàng)意嶺作為行業(yè)內優(yōu)秀的企業(yè),服務客戶遍布全球各地,如需了解SEO相關業(yè)務請撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、神經網(wǎng)絡Hopfield模型
一、Hopfield模型概述
1982年,美國加州工學院J.Hopfield發(fā)表一篇對人工神經網(wǎng)絡研究頗有影響的論文。他提出了一種具有相互連接的反饋型人工神經網(wǎng)絡模型——Hopfield人工神經網(wǎng)絡。
Hopfield人工神經網(wǎng)絡是一種反饋網(wǎng)絡(Recurrent Network),又稱自聯(lián)想記憶網(wǎng)絡。其目的是為了設計一個網(wǎng)絡,存儲一組平衡點,使得當給網(wǎng)絡一組初始值時,網(wǎng)絡通過自行運行而最終收斂到所存儲的某個平衡點上。
Hopfield網(wǎng)絡是單層對稱全反饋網(wǎng)絡,根據(jù)其激活函數(shù)的選取不同,可分為離散型Hopfield網(wǎng)絡(Discrete Hopfield Neural Network,簡稱 DHNN)和連續(xù)型 Hopfield 網(wǎng)絡(Continue Hopfield Neural Network,簡稱CHNN)。離散型Hopfield網(wǎng)絡的激活函數(shù)為二值型階躍函數(shù),主要用于聯(lián)想記憶、模式分類、模式識別。這個軟件為離散型Hopfield網(wǎng)絡的設計、應用。
二、Hopfield模型原理
離散型Hopfield網(wǎng)絡的設計目的是使任意輸入矢量經過網(wǎng)絡循環(huán)最終收斂到網(wǎng)絡所記憶的某個樣本上。
正交化的權值設計
這一方法的基本思想和出發(fā)點是為了滿足下面4個要求:
1)保證系統(tǒng)在異步工作時的穩(wěn)定性,即它的權值是對稱的,滿足
wij=wji,i,j=1,2…,N;
2)保證所有要求記憶的穩(wěn)定平衡點都能收斂到自己;
3)使偽穩(wěn)定點的數(shù)目盡可能地少;
4)使穩(wěn)定點的吸引力盡可能地大。
正交化權值的計算公式推導如下:
1)已知有P個需要存儲的穩(wěn)定平衡點x1,x2…,xP-1,xP,xp∈RN,計算N×(P-1)階矩陣A∈RN×(P-1):
A=(x1-xPx2-xP…xP-1-xP)T。
2)對A做奇異值分解
A=USVT,
U=(u1u2…uN),
V=(υ1υ2…υP-1),
中國礦產資源評價新技術與評價新模型
Σ=diαg(λ1,λ2,…,λK),O為零矩陣。
K維空間為N維空間的子空間,它由K個獨立的基組成:
K=rαnk(A),
設{u1u2…uK}為A的正交基,而{uK+1uK+2…uN}為N維空間的補充正交基。下面利用U矩陣來設計權值。
3)構造
中國礦產資源評價新技術與評價新模型
總的連接權矩陣為:
Wt=Wp-T·Wm,
其中,T為大于-1的參數(shù),缺省值為10。
Wp和Wm均滿足對稱條件,即
(wp)ij=(wp)ji,
(wm)ij=(wm)ji,
因而Wt中分量也滿足對稱條件。這就保證了系統(tǒng)在異步時能夠收斂并且不會出現(xiàn)極限環(huán)。
4)網(wǎng)絡的偏差構造為
bt=xP-Wt·xP。
下面推導記憶樣本能夠收斂到自己的有效性。
(1)對于輸入樣本中的任意目標矢量xp,p=1,2,…,P,因為(xp-xP)是A中的一個矢量,它屬于A的秩所定義的K個基空間的矢量,所以必存在系數(shù)α1,α2,…,αK,使
xp-xP=α1u1+α2u2+…+αKuK,
即
xp=α1u1+α2u2+…+αKuK+xP,
對于U中任意一個ui,有
中國礦產資源評價新技術與評價新模型
由正交性質可知,上式中
當i=j,
當i≠j,
對于輸入模式xi,其網(wǎng)絡輸出為
yi=sgn(Wtxi+bt)
=sgn(Wpxi-T·Wmxi+xP-WpxP+T·WmxP)
=sgn[Wp(xi-xP)-T·Wm(xi-xP)+xP]
=sgn[(Wp-T·Wm)(xi-xP)+xP]
=sgn[Wt(xi-xP)+xP]
=sgn[(xi-xP)+xP]
=xi。
(2)對于輸入模式xP,其網(wǎng)絡輸出為
yP=sgn(WtxP+bt)
=sgn(WtxP+xP-WtxP)
=sgn(xP)
=xP。
(3)如果輸入一個不是記憶樣本的x,網(wǎng)絡輸出為
y=sgn(Wtx+bt)
=sgn[(Wp-T·Wm)(x-xP)+xP]
=sgn[Wt(x-xP)+xP]。
因為x不是已學習過的記憶樣本,x-xP不是A中的矢量,則必然有
Wt(x-xP)≠x-xP,
并且再設計過程中可以通過調節(jié)Wt=Wp-T·Wm中的參數(shù)T的大小來控制(x-xP)與xP的符號,以保證輸入矢量x與記憶樣本之間存在足夠的大小余額,從而使sgn(Wtx+bt)≠x,使x不能收斂到自身。
用輸入模式給出一組目標平衡點,函數(shù)HopfieldDesign( )可以設計出 Hopfield 網(wǎng)絡的權值和偏差,保證網(wǎng)絡對給定的目標矢量能收斂到穩(wěn)定的平衡點。
設計好網(wǎng)絡后,可以應用函數(shù)HopfieldSimu( ),對輸入矢量進行分類,這些輸入矢量將趨近目標平衡點,最終找到他們的目標矢量,作為對輸入矢量進行分類。
三、總體算法
1.Hopfield網(wǎng)絡權值W[N][N]、偏差b[N]設計總體算法
應用正交化權值設計方法,設計Hopfield網(wǎng)絡;
根據(jù)給定的目標矢量設計產生權值W[N][N],偏差b[N];
使Hopfield網(wǎng)絡的穩(wěn)定輸出矢量與給定的目標矢量一致。
1)輸入P個輸入模式X=(x[1],x[2],…,x[P-1],x[P])
輸入?yún)?shù),包括T、h;
2)由X[N][P]構造A[N][P-1]=(x[1]-x[P],x[2]-x[P],…,x[P-1]-x[P]);
3)對A[N][P-1]作奇異值分解A=USVT;
4)求A[N][P-1]的秩rank;
5)由U=(u[1],u[2],…,u[K])構造Wp[N][N];
6)由U=(u[K+1],…,u[N])構造Wm[N][N];
7)構造Wt[N][N]=Wp[N][N]-T*Wm[N][N];
8)構造bt[N]=X[N][P]-Wt[N][N]*X[N][P];
9)構造W[N][N](9~13),
構造W1[N][N]=h*Wt[N][N];
10)求W1[N][N]的特征值矩陣Val[N][N](對角線元素為特征值,其余為0),特征向量矩陣Vec[N][N];
11)求Eval[N][N]=diag{exp[diag(Val)]}[N][N];
12)求Vec[N][N]的逆Invec[N][N];
13)構造W[N][N]=Vec[N][N]*Eval[N][N]*Invec[N][N];
14)構造b[N],(14~15),
C1=exp(h)-1,
C2=-(exp(-T*h)-1)/T;
15)構造
中國礦產資源評價新技術與評價新模型
Uˊ——U的轉置;
16)輸出W[N][N],b[N];
17)結束。
2.Hopfield網(wǎng)絡預測應用總體算法
Hopfield網(wǎng)絡由一層N個斜坡函數(shù)神經元組成。
應用正交化權值設計方法,設計Hopfield網(wǎng)絡。
根據(jù)給定的目標矢量設計產生權值W[N][N],偏差b[N]。
初始輸出為X[N][P],
計算X[N][P]=f(W[N][N]*X[N][P]+b[N]),
進行T次迭代,
返回最終輸出X[N][P],可以看作初始輸出的分類。
3.斜坡函數(shù)
中國礦產資源評價新技術與評價新模型
輸出范圍[-1,1]。
四、數(shù)據(jù)流圖
Hopfield網(wǎng)數(shù)據(jù)流圖見附圖3。
五、調用函數(shù)說明
1.一般實矩陣奇異值分解
(1)功能
用豪斯荷爾德(Householder)變換及變形QR算法對一般實矩陣進行奇異值分解。
(2)方法說明
設A為m×n的實矩陣,則存在一個m×m的列正交矩陣U和n×n的列正交矩陣V,使
中國礦產資源評價新技術與評價新模型
成立。其中
Σ=diag(σ0,σ1,…σp)p⩽min(m,n)-1,
且σ0≥σ1≥…≥σp>0,
上式稱為實矩陣A的奇異值分解式,σi(i=0,1,…,p)稱為A的奇異值。
奇異值分解分兩大步:
第一步:用豪斯荷爾德變換將A約化為雙對角線矩陣。即
中國礦產資源評價新技術與評價新模型
其中
中國礦產資源評價新技術與評價新模型
j具有如下形式:
中國礦產資源評價新技術與評價新模型
其中ρ為一個比例因子,以避免計算過程中的溢出現(xiàn)象與誤差的累積,Vj是一個列向量。即
Vj=(υ0,υ1,…,υn-1),
則
中國礦產資源評價新技術與評價新模型
其中
中國礦產資源評價新技術與評價新模型
第二步:用變形的QR算法進行迭代,計算所有的奇異值。即:用一系列的平面旋轉變換對雙對角線矩陣B逐步變換成對角矩陣。
在每一次的迭代中,用變換
中國礦產資源評價新技術與評價新模型
其中變換
在每次迭代時,經過初始化變換V01后,將在第0列的主對角線下方出現(xiàn)一個非0元素。在變換V01中,選擇位移植u的計算公式如下:
中國礦產資源評價新技術與評價新模型
最后還需要對奇異值按非遞增次序進行排列。
在上述變換過程中,若對于某個次對角線元素ej滿足
|ej|⩽ε(|sj+1|+|sj|)
則可以認為ej為0。
若對角線元素sj滿足
|sj|⩽ε(|ej-1|+|ej|)
則可以認為sj為0(即為0奇異值)。其中ε為給定的精度要求。
(3)調用說明
int bmuav(double*a,int m,int n,double*u,double*v,double eps,int ka),
本函數(shù)返回一個整型標志值,若返回的標志值小于0,則表示出現(xiàn)了迭代60次還未求得某個奇異值的情況。此時,矩陣的分解式為UAVT;若返回的標志值大于0,則表示正常返回。
形參說明:
a——指向雙精度實型數(shù)組的指針,體積為m×n。存放m×n的實矩陣A;返回時,其對角線給出奇異值(以非遞增次序排列),其余元素為0;
m——整型變量,實矩陣A的行數(shù);
n——整型變量,實矩陣A的列數(shù);
u——指向雙精度實型數(shù)組的指針,體積為m×m。返回時存放左奇異向量U;
υ——指向雙精度實型數(shù)組的指針,體積為n×n。返回時存放右奇異向量VT;
esp——雙精度實型變量,給定的精度要求;
ka——整型變量,其值為max(m,n)+1。
2.求實對稱矩陣特征值和特征向量的雅可比過關法
(1)功能
用雅可比(Jacobi)方法求實對稱矩陣的全部特征值與相應的特征向量。
(2)方法說明
雅可比方法的基本思想如下。
設n階矩陣A為對稱矩陣。在n階對稱矩陣A的非對角線元素中選取一個絕對值最大的元素,設為apq。利用平面旋轉變換矩陣R0(p,q,θ)對A進行正交相似變換:
A1=R0(p,q,θ)TA,
其中R0(p,q,θ)的元素為
rpp=cosθ,rqq=cosθ,rpq=sinθ,
rqp=sinθ,rij=0,i,j≠p,q。
如果按下式確定角度θ,
中國礦產資源評價新技術與評價新模型
則對稱矩陣A經上述變換后,其非對角線元素的平方和將減少
綜上所述,用雅可比方法求n階對稱矩陣A的特征值及相應特征向量的步驟如下:
1)令S=In(In為單位矩陣);
2)在A中選取非對角線元素中絕對值最大者,設為apq;
3)若|apq|<ε,則迭代過程結束。此時對角線元素aii(i=0,1,…,n-1)即為特征值λi,矩陣S的第i列為與λi相應的特征向量。否則,繼續(xù)下一步;
4)計算平面旋轉矩陣的元素及其變換后的矩陣A1的元素。其計算公式如下
中國礦產資源評價新技術與評價新模型
5)S=S·R(p,q,θ),轉(2)。
在選取非對角線上的絕對值最大的元素時用如下方法:
首先計算實對稱矩陣A的非對角線元素的平方和的平方根
中國礦產資源評價新技術與評價新模型
然后設置關口υ1=υ0/n,在非對角線元素中按行掃描選取第一個絕對值大于或等于υ1的元素αpq進行平面旋轉變換,直到所有非對角線元素的絕對值均小于υ1為止。再設關口υ2=υ1/n,重復這個過程。以此類推,這個過程一直作用到對于某個υk<ε為止。
(3)調用說明
void cjcbj(double*a,int n,double*v,double eps)。
形參說明:
a——指向雙精度實型數(shù)組的指針,體積為n×n,存放n階實對稱矩陣A;返回時,其對角線存放n個特征值;
n——整型變量,實矩陣A的階數(shù);
υ——指向雙精度實型數(shù)組的指針,體積為n×n,返回特征向量,其中第i列為與λi(即返回的αii,i=0,1,……,n-1)對應的特征向量;
esp——雙精度實型變量。給定的精度要求。
3.矩陣求逆
(1)功能
用全選主元高斯-約當(Gauss-Jordan)消去法求n階實矩陣A的逆矩陣。
(2)方法說明
高斯-約當法(全選主元)求逆的步驟如下:
首先,對于k從0到n-1做如下幾步:
1)從第k行、第k列開始的右下角子陣中選取絕對值最大的元素,并記住此元素所在的行號和列號,再通過行交換和列交換將它交換到主元素位置上,這一步稱為全選主元;
2)
3)
4)αij-
5)-
最后,根據(jù)在全選主元過程中所記錄的行、列交換的信息進行恢復,恢復原則如下:在全選主元過程中,先交換的行、列后進行恢復;原來的行(列)交換用列(行)交換來恢復。
圖8-4 東昆侖—柴北緣地區(qū)基于HOPFIELD模型的銅礦分類結果圖
(3)調用說明
int brinv(double*a,int n)。
本函數(shù)返回一個整型標志位。若返回的標志位為0,則表示矩陣A奇異,還輸出信息“err**not inv”;若返回的標志位不為0,則表示正常返回。
形參說明:
a——指向雙精度實型數(shù)組的指針,體積為n×n。存放原矩陣A;返回時,存放其逆矩陣A-1;
n——整型變量,矩陣的階數(shù)。
六、實例
實例:柴北緣—東昆侖地區(qū)銅礦分類預測。
選取8種因素,分別是重砂異常存在標志、水化異常存在標志、化探異常峰值、地質圖熵值、Ms存在標志、Gs存在標志、Shdadlie到區(qū)的距離、構造線線密度。
構置原始變量,并根據(jù)原始數(shù)據(jù)構造預測模型。
HOPFIELD模型參數(shù)設置:訓練模式維數(shù)8,預測樣本個數(shù)774,參數(shù)個數(shù)8,迭代次數(shù)330。
結果分44類(圖8-4,表8-5)。
表8-5 原始數(shù)據(jù)表及分類結果(部分)
續(xù)表
二、神經網(wǎng)絡BP模型
一、BP模型概述
誤差逆?zhèn)鞑?Error Back-Propagation)神經網(wǎng)絡模型簡稱為BP(Back-Propagation)網(wǎng)絡模型。
Pall Werbas博士于1974年在他的博士論文中提出了誤差逆?zhèn)鞑W習算法。完整提出并被廣泛接受誤差逆?zhèn)鞑W習算法的是以Rumelhart和McCelland為首的科學家小組。他們在1986年出版“Parallel Distributed Processing,Explorations in the Microstructure of Cognition”(《并行分布信息處理》)一書中,對誤差逆?zhèn)鞑W習算法進行了詳盡的分析與介紹,并對這一算法的潛在能力進行了深入探討。
BP網(wǎng)絡是一種具有3層或3層以上的階層型神經網(wǎng)絡。上、下層之間各神經元實現(xiàn)全連接,即下層的每一個神經元與上層的每一個神經元都實現(xiàn)權連接,而每一層各神經元之間無連接。網(wǎng)絡按有教師示教的方式進行學習,當一對學習模式提供給網(wǎng)絡后,神經元的激活值從輸入層經各隱含層向輸出層傳播,在輸出層的各神經元獲得網(wǎng)絡的輸入響應。在這之后,按減小期望輸出與實際輸出的誤差的方向,從輸入層經各隱含層逐層修正各連接權,最后回到輸入層,故得名“誤差逆?zhèn)鞑W習算法”。隨著這種誤差逆?zhèn)鞑バ拚牟粩噙M行,網(wǎng)絡對輸入模式響應的正確率也不斷提高。
BP網(wǎng)絡主要應用于以下幾個方面:
1)函數(shù)逼近:用輸入模式與相應的期望輸出模式學習一個網(wǎng)絡逼近一個函數(shù);
2)模式識別:用一個特定的期望輸出模式將它與輸入模式聯(lián)系起來;
3)分類:把輸入模式以所定義的合適方式進行分類;
4)數(shù)據(jù)壓縮:減少輸出矢量的維數(shù)以便于傳輸或存儲。
在人工神經網(wǎng)絡的實際應用中,80%~90%的人工神經網(wǎng)絡模型采用BP網(wǎng)絡或它的變化形式,它也是前向網(wǎng)絡的核心部分,體現(xiàn)了人工神經網(wǎng)絡最精華的部分。
二、BP模型原理
下面以三層BP網(wǎng)絡為例,說明學習和應用的原理。
1.數(shù)據(jù)定義
P對學習模式(xp,dp),p=1,2,…,P;
輸入模式矩陣X[N][P]=(x1,x2,…,xP);
目標模式矩陣d[M][P]=(d1,d2,…,dP)。
三層BP網(wǎng)絡結構
輸入層神經元節(jié)點數(shù)S0=N,i=1,2,…,S0;
隱含層神經元節(jié)點數(shù)S1,j=1,2,…,S1;
神經元激活函數(shù)f1[S1];
權值矩陣W1[S1][S0];
偏差向量b1[S1]。
輸出層神經元節(jié)點數(shù)S2=M,k=1,2,…,S2;
神經元激活函數(shù)f2[S2];
權值矩陣W2[S2][S1];
偏差向量b2[S2]。
學習參數(shù)
目標誤差ϵ;
初始權更新值Δ0;
最大權更新值Δmax;
權更新值增大倍數(shù)η+;
權更新值減小倍數(shù)η-。
2.誤差函數(shù)定義
對第p個輸入模式的誤差的計算公式為
中國礦產資源評價新技術與評價新模型
y2kp為BP網(wǎng)的計算輸出。
3.BP網(wǎng)絡學習公式推導
BP網(wǎng)絡學習公式推導的指導思想是,對網(wǎng)絡的權值W、偏差b修正,使誤差函數(shù)沿負梯度方向下降,直到網(wǎng)絡輸出誤差精度達到目標精度要求,學習結束。
各層輸出計算公式
輸入層
y0i=xi,i=1,2,…,S0;
隱含層
中國礦產資源評價新技術與評價新模型
y1j=f1(z1j),
j=1,2,…,S1;
輸出層
中國礦產資源評價新技術與評價新模型
y2k=f2(z2k),
k=1,2,…,S2。
輸出節(jié)點的誤差公式
中國礦產資源評價新技術與評價新模型
對輸出層節(jié)點的梯度公式推導
中國礦產資源評價新技術與評價新模型
E是多個y2m的函數(shù),但只有一個y2k與wkj有關,各y2m間相互獨立。
其中
中國礦產資源評價新技術與評價新模型
則
中國礦產資源評價新技術與評價新模型
設輸出層節(jié)點誤差為
δ2k=(dk-y2k)·f2′(z2k),
則
中國礦產資源評價新技術與評價新模型
同理可得
中國礦產資源評價新技術與評價新模型
對隱含層節(jié)點的梯度公式推導
中國礦產資源評價新技術與評價新模型
E是多個y2k的函數(shù),針對某一個w1ji,對應一個y1j,它與所有的y2k有關。因此,上式只存在對k的求和,其中
中國礦產資源評價新技術與評價新模型
則
中國礦產資源評價新技術與評價新模型
設隱含層節(jié)點誤差為
中國礦產資源評價新技術與評價新模型
則
中國礦產資源評價新技術與評價新模型
同理可得
中國礦產資源評價新技術與評價新模型
4.采用彈性BP算法(RPROP)計算權值W、偏差b的修正值ΔW,Δb
1993年德國 Martin Riedmiller和Heinrich Braun 在他們的論文“A Direct Adaptive Method for Faster Backpropagation Learning:The RPROP Algorithm”中,提出Resilient Backpropagation算法——彈性BP算法(RPROP)。這種方法試圖消除梯度的大小對權步的有害影響,因此,只有梯度的符號被認為表示權更新的方向。
權改變的大小僅僅由權專門的“更新值”
中國礦產資源評價新技術與評價新模型
其中
權更新遵循規(guī)則:如果導數(shù)是正(增加誤差),這個權由它的更新值減少。如果導數(shù)是負,更新值增加。
中國礦產資源評價新技術與評價新模型
RPROP算法是根據(jù)局部梯度信息實現(xiàn)權步的直接修改。對于每個權,我們引入它的
各自的更新值
于在誤差函數(shù)E上的局部梯度信息,按照以下的學習規(guī)則更新
中國礦產資源評價新技術與評價新模型
其中0<η-<1<η+。
在每個時刻,如果目標函數(shù)的梯度改變它的符號,它表示最后的更新太大,更新值
為了減少自由地可調參數(shù)的數(shù)目,增大倍數(shù)因子η+和減小倍數(shù)因子η–被設置到固定值
η+=1.2,
η-=0.5,
這兩個值在大量的實踐中得到了很好的效果。
RPROP算法采用了兩個參數(shù):初始權更新值Δ0和最大權更新值Δmax
當學習開始時,所有的更新值被設置為初始值Δ0,因為它直接確定了前面權步的大小,它應該按照權自身的初值進行選擇,例如,Δ0=0.1(默認設置)。
為了使權不至于變得太大,設置最大權更新值限制Δmax,默認上界設置為
Δmax=50.0。
在很多實驗中,發(fā)現(xiàn)通過設置最大權更新值Δmax到相當小的值,例如
Δmax=1.0。
我們可能達到誤差減小的平滑性能。
5.計算修正權值W、偏差b
第t次學習,權值W、偏差b的的修正公式
W(t)=W(t-1)+ΔW(t),
b(t)=b(t-1)+Δb(t),
其中,t為學習次數(shù)。
6.BP網(wǎng)絡學習成功結束條件每次學習累積誤差平方和
中國礦產資源評價新技術與評價新模型
每次學習平均誤差
中國礦產資源評價新技術與評價新模型
當平均誤差MSE<ε,BP網(wǎng)絡學習成功結束。
7.BP網(wǎng)絡應用預測
在應用BP網(wǎng)絡時,提供網(wǎng)絡輸入給輸入層,應用給定的BP網(wǎng)絡及BP網(wǎng)絡學習得到的權值W、偏差b,網(wǎng)絡輸入經過從輸入層經各隱含層向輸出層的“順傳播”過程,計算出BP網(wǎng)的預測輸出。
8.神經元激活函數(shù)f
線性函數(shù)
f(x)=x,
f′(x)=1,
f(x)的輸入范圍(-∞,+∞),輸出范圍(-∞,+∞)。
一般用于輸出層,可使網(wǎng)絡輸出任何值。
S型函數(shù)S(x)
中國礦產資源評價新技術與評價新模型
f(x)的輸入范圍(-∞,+∞),輸出范圍(0,1)。
f′(x)=f(x)[1-f(x)],
f′(x)的輸入范圍(-∞,+∞),輸出范圍(0,
一般用于隱含層,可使范圍(-∞,+∞)的輸入,變成(0,1)的網(wǎng)絡輸出,對較大的輸入,放大系數(shù)較小;而對較小的輸入,放大系數(shù)較大,所以可用來處理和逼近非線性的輸入/輸出關系。
在用于模式識別時,可用于輸出層,產生逼近于0或1的二值輸出。
雙曲正切S型函數(shù)
中國礦產資源評價新技術與評價新模型
f(x)的輸入范圍(-∞,+∞),輸出范圍(-1,1)。
f′(x)=1-f(x)·f(x),
f′(x)的輸入范圍(-∞,+∞),輸出范圍(0,1]。
一般用于隱含層,可使范圍(-∞,+∞)的輸入,變成(-1,1)的網(wǎng)絡輸出,對較大的輸入,放大系數(shù)較小;而對較小的輸入,放大系數(shù)較大,所以可用來處理和逼近非線性的輸入/輸出關系。
階梯函數(shù)
類型1
中國礦產資源評價新技術與評價新模型
f(x)的輸入范圍(-∞,+∞),輸出范圍{0,1}。
f′(x)=0。
類型2
中國礦產資源評價新技術與評價新模型
f(x)的輸入范圍(-∞,+∞),輸出范圍{-1,1}。
f′(x)=0。
斜坡函數(shù)
類型1
中國礦產資源評價新技術與評價新模型
f(x)的輸入范圍(-∞,+∞),輸出范圍[0,1]。
中國礦產資源評價新技術與評價新模型
f′(x)的輸入范圍(-∞,+∞),輸出范圍{0,1}。
類型2
中國礦產資源評價新技術與評價新模型
f(x)的輸入范圍(-∞,+∞),輸出范圍[-1,1]。
中國礦產資源評價新技術與評價新模型
f′(x)的輸入范圍(-∞,+∞),輸出范圍{0,1}。
三、總體算法
1.三層BP網(wǎng)絡(含輸入層,隱含層,輸出層)權值W、偏差b初始化總體算法
(1)輸入?yún)?shù)X[N][P],S0,S1,f1[S1],S2,f2[S2];
(2)計算輸入模式X[N][P]各個變量的最大值,最小值矩陣 Xmax[N],Xmin[N];
(3)隱含層的權值W1,偏差b1初始化。
情形1:隱含層激活函數(shù)f( )都是雙曲正切S型函數(shù)
1)計算輸入模式X[N][P]的每個變量的范圍向量Xrng[N];
2)計算輸入模式X的每個變量的范圍均值向量Xmid[N];
3)計算W,b的幅度因子Wmag;
4)產生[-1,1]之間均勻分布的S0×1維隨機數(shù)矩陣Rand[S1];
5)產生均值為0,方差為1的正態(tài)分布的S1×S0維隨機數(shù)矩陣Randnr[S1][S0],隨機數(shù)范圍大致在[-1,1];
6)計算W[S1][S0],b[S1];
7)計算隱含層的初始化權值W1[S1][S0];
8)計算隱含層的初始化偏差b1[S1];
9))輸出W1[S1][S0],b1[S1]。
情形2:隱含層激活函數(shù)f( )都是S型函數(shù)
1)計算輸入模式X[N][P]的每個變量的范圍向量Xrng[N];
2)計算輸入模式X的每個變量的范圍均值向量Xmid[N];
3)計算W,b的幅度因子Wmag;
4)產生[-1,1]之間均勻分布的S0×1維隨機數(shù)矩陣Rand[S1];
5)產生均值為0,方差為1的正態(tài)分布的S1×S0維隨機數(shù)矩陣Randnr[S1][S0],隨機數(shù)范圍大致在[-1,1];
6)計算W[S1][S0],b[S1];
7)計算隱含層的初始化權值W1[S1][S0];
8)計算隱含層的初始化偏差b1[S1];
9)輸出W1[S1][S0],b1[S1]。
情形3:隱含層激活函數(shù)f( )為其他函數(shù)的情形
1)計算輸入模式X[N][P]的每個變量的范圍向量Xrng[N];
2)計算輸入模式X的每個變量的范圍均值向量Xmid[N];
3)計算W,b的幅度因子Wmag;
4)產生[-1,1]之間均勻分布的S0×1維隨機數(shù)矩陣Rand[S1];
5)產生均值為0,方差為1的正態(tài)分布的S1×S0維隨機數(shù)矩陣Randnr[S1][S0],隨機數(shù)范圍大致在[-1,1];
6)計算W[S1][S0],b[S1];
7)計算隱含層的初始化權值W1[S1][S0];
8)計算隱含層的初始化偏差b1[S1];
9)輸出W1[S1][S0],b1[S1]。
(4)輸出層的權值W2,偏差b2初始化
1)產生[-1,1]之間均勻分布的S2×S1維隨機數(shù)矩陣W2[S2][S1];
2)產生[-1,1]之間均勻分布的S2×1維隨機數(shù)矩陣b2[S2];
3)輸出W2[S2][S1],b2[S2]。
2.應用彈性BP算法(RPROP)學習三層BP網(wǎng)絡(含輸入層,隱含層,輸出層)權值W、偏差b總體算法
函數(shù):Train3BP_RPROP(S0,X,P,S1,W1,b1,f1,S2,W2,b2,f2,d,TP)
(1)輸入?yún)?shù)
P對模式(xp,dp),p=1,2,…,P;
三層BP網(wǎng)絡結構;
學習參數(shù)。
(2)學習初始化
1)
2)各層W,b的梯度值
(3)由輸入模式X求第一次學習各層輸出y0,y1,y2及第一次學習平均誤差MSE
(4)進入學習循環(huán)
epoch=1
(5)判斷每次學習誤差是否達到目標誤差要求
如果MSE<ϵ,
則,跳出epoch循環(huán),
轉到(12)。
(6)保存第epoch-1次學習產生的各層W,b的梯度值
(7)求第epoch次學習各層W,b的梯度值
1)求各層誤差反向傳播值δ;
2)求第p次各層W,b的梯度值
3)求p=1,2,…,P次模式產生的W,b的梯度值
(8)如果epoch=1,則將第epoch-1次學習的各層W,b的梯度值
(9)求各層W,b的更新
1)求權更新值Δij更新;
2)求W,b的權更新值
3)求第epoch次學習修正后的各層W,b。
(10)用修正后各層W、b,由X求第epoch次學習各層輸出y0,y1,y2及第epoch次學習誤差MSE
(11)epoch=epoch+1,
如果epoch≤MAX_EPOCH,轉到(5);
否則,轉到(12)。
(12)輸出處理
1)如果MSE<ε,
則學習達到目標誤差要求,輸出W1,b1,W2,b2。
2)如果MSE≥ε,
則學習沒有達到目標誤差要求,再次學習。
(13)結束
3.三層BP網(wǎng)絡(含輸入層,隱含層,輸出層)預測總體算法
首先應用Train3lBP_RPROP( )學習三層BP網(wǎng)絡(含輸入層,隱含層,輸出層)權值W、偏差b,然后應用三層BP網(wǎng)絡(含輸入層,隱含層,輸出層)預測。
函數(shù):Simu3lBP( )。
1)輸入?yún)?shù):
P個需預測的輸入數(shù)據(jù)向量xp,p=1,2,…,P;
三層BP網(wǎng)絡結構;
學習得到的各層權值W、偏差b。
2)計算P個需預測的輸入數(shù)據(jù)向量xp(p=1,2,…,P)的網(wǎng)絡輸出 y2[S2][P],輸出預測結果y2[S2][P]。
四、總體算法流程圖
BP網(wǎng)絡總體算法流程圖見附圖2。
五、數(shù)據(jù)流圖
BP網(wǎng)數(shù)據(jù)流圖見附圖1。
六、實例
實例一 全國銅礦化探異常數(shù)據(jù)BP 模型分類
1.全國銅礦化探異常數(shù)據(jù)準備
在全國銅礦化探數(shù)據(jù)上用穩(wěn)健統(tǒng)計學方法選取銅異常下限值33.1,生成全國銅礦化探異常數(shù)據(jù)。
2.模型數(shù)據(jù)準備
根據(jù)全國銅礦化探異常數(shù)據(jù),選取7類33個礦點的化探數(shù)據(jù)作為模型數(shù)據(jù)。這7類分別是巖漿巖型銅礦、斑巖型銅礦、矽卡巖型、海相火山型銅礦、陸相火山型銅礦、受變質型銅礦、海相沉積型銅礦,另添加了一類沒有銅異常的模型(表8-1)。
3.測試數(shù)據(jù)準備
全國化探數(shù)據(jù)作為測試數(shù)據(jù)集。
4.BP網(wǎng)絡結構
隱層數(shù)2,輸入層到輸出層向量維數(shù)分別為14,9、5、1。學習率設置為0.9,系統(tǒng)誤差1e-5。沒有動量項。
表8-1 模型數(shù)據(jù)表
續(xù)表
5.計算結果圖
如圖8-2、圖8-3。
圖8-2
圖8-3 全國銅礦礦床類型BP模型分類示意圖
實例二 全國金礦礦石量品位數(shù)據(jù)BP 模型分類
1.模型數(shù)據(jù)準備
根據(jù)全國金礦儲量品位數(shù)據(jù),選取4類34個礦床數(shù)據(jù)作為模型數(shù)據(jù),這4類分別是綠巖型金礦、與中酸性浸入巖有關的熱液型金礦、微細浸染型型金礦、火山熱液型金礦(表8-2)。
2.測試數(shù)據(jù)準備
模型樣本點和部分金礦點金屬量、礦石量、品位數(shù)據(jù)作為測試數(shù)據(jù)集。
3.BP網(wǎng)絡結構
輸入層為三維,隱層1層,隱層為三維,輸出層為四維,學習率設置為0.8,系統(tǒng)誤差1e-4,迭代次數(shù)5000。
表8-2 模型數(shù)據(jù)
4.計算結果
結果見表8-3、8-4。
表8-3 訓練學習結果
表8-4 預測結果(部分)
續(xù)表
三、幾種常見的循環(huán)神經網(wǎng)絡結構RNN、LSTM、GRU
傳統(tǒng)文本處理任務的方法中一般將TF-IDF向量作為特征輸入。顯而易見,這樣的表示實際上丟失了輸入的文本序列中每個單詞的順序。在神經網(wǎng)絡的建模過程中,一般的前饋神經網(wǎng)絡,如卷積神經網(wǎng)絡,通常接受一個定長的向量作為輸入。卷積神經網(wǎng)絡對文本數(shù)據(jù)建模時,輸入變長的字符串或者單詞串,然后通過滑動窗口加池化的方式將原先的輸入轉換成一個固定長度的向量表示,這樣做可以捕捉到原文本中的一些局部特征,但是兩個單詞之間的長距離依賴關系還是很難被學習到。
循環(huán)神經網(wǎng)絡卻能很好地處理文本數(shù)據(jù)變長并且有序的輸入序列。它模擬了人閱讀一篇文章的順序,從前到后閱讀文章中的每一個單詞,將前面閱讀到的有用信息編碼到狀態(tài)變量中去,從而擁有了一定的記憶能力,可以更好地理解之后的文本。
其網(wǎng)絡結構如下圖所示:
由圖可見,t是時刻,x是輸入層,s是隱藏層,o是輸出層,矩陣W就是隱藏層上一次的值作為這一次的輸入的權重。
如果反復把式 2 帶入到式 1,將得到:
其中f和g為激活函數(shù),U為輸入層到隱含層的權重矩陣,W為隱含層從上一時刻到下一時刻狀態(tài)轉移的權重矩陣。在文本分類任務中,f可以選取Tanh函數(shù)或者ReLU函數(shù),g可以采用Softmax函數(shù)。
通過最小化損失誤差(即輸出的y與真實類別之間的距離),我們可以不斷訓練網(wǎng)絡,使得得到的循環(huán)神經網(wǎng)絡可以準確地預測文本所屬的類別,達到分類目的。相比于卷積神經網(wǎng)絡等前饋神經網(wǎng)絡,循環(huán)神經網(wǎng)絡由于具備對序列順序信息的刻畫能力,往往能得到更準確的結果。
RNN的訓練算法為:BPTT
BPTT的基本原理和BP算法是一樣的,同樣是三步:
1.前向計算每個神經元的輸出值;
2.反向計算每個神經元的誤差項值,它是誤差函數(shù)E對神經元j的加權輸入的偏導數(shù);
3.計算每個權重的梯度。
最后再用隨機梯度下降算法更新權重。
具體參考: https://www.jianshu.com/p/39a99c88a565
最后由鏈式法則得到下面以雅可比矩陣來表達的每個權重的梯度:
由于預測的誤差是沿著神經網(wǎng)絡的每一層反向傳播的,因此當雅克比矩陣的最大特征值大于1時,隨著離輸出越來越遠,每層的梯度大小會呈指數(shù)增長,導致梯度爆炸;反之,若雅克比矩陣的最大特征值小于1,梯度的大小會呈指數(shù)縮小,產生梯度消失。對于普通的前饋網(wǎng)絡來說,梯度消失意味著無法通過加深網(wǎng)絡層次來改善神經網(wǎng)絡的預測效果,因為無論如何加深網(wǎng)絡,只有靠近輸出的若干層才真正起到學習的作用。 這使得循環(huán)神經網(wǎng)絡模型很難學習到輸入序列中的長距離依賴關系 。
關于RNN梯度下降的詳細推導可以參考: https://zhuanlan.zhihu.com/p/44163528
梯度爆炸的問題可以通過梯度裁剪來緩解,即當梯度的范式大于某個給定值時,對梯度進行等比收縮。而梯度消失問題相對比較棘手,需要對模型本身進行改進。深度殘差網(wǎng)絡是對前饋神經網(wǎng)絡的改進,通過殘差學習的方式緩解了梯度消失的現(xiàn)象,從而使得我們能夠學習到更深層的網(wǎng)絡表示;而對于循環(huán)神經網(wǎng)絡來說,長短時記憶模型及其變種門控循環(huán)單元等模型通過加入門控機制,很大程度上彌補了梯度消失所帶來的損失。
LSTM的網(wǎng)絡機構圖如下所示:
與傳統(tǒng)的循環(huán)神經網(wǎng)絡相比,LSTM仍然是基于xt和ht−1來計算ht,只不過對內部的結構進行了更加精心的設計,加入了輸入門it 、遺忘門ft以及輸出門ot三個門和一個內部記憶單元ct。輸入門控制當前計算的新狀態(tài)以多大程度更新到記憶單元中;遺忘門控制前一步記憶單元中的信息有多大程度被遺忘掉;輸出門控制當前的輸出有多大程度上取決于當前的記憶單元。
在經典的LSTM模型中,第t層的更新計算公式為
其中it是通過輸入xt和上一步的隱含層輸出ht−1進行線性變換,再經過激活函數(shù)σ得到的。輸入門it的結果是向量,其中每個元素是0到1之間的實數(shù),用于控制各維度流過閥門的信息量;Wi 、Ui兩個矩陣和向量bi為輸入門的參數(shù),是在訓練過程中需要學習得到的。遺忘門ft和輸出門ot的計算方式與輸入門類似,它們有各自的參數(shù)W、U和b。與傳統(tǒng)的循環(huán)神經網(wǎng)絡不同的是,從上一個記憶單元的狀態(tài)ct−1到當前的狀態(tài)ct的轉移不一定完全取決于激活函數(shù)計算得到的狀態(tài),還由輸入門和遺忘門來共同控制。
在一個訓練好的網(wǎng)絡中,當輸入的序列中沒有重要信息時,LSTM的遺忘門的值接近于1,輸入門的值接近于0,此時過去的記憶會被保存,從而實現(xiàn)了長期記憶功能;當輸入的序列中出現(xiàn)了重要的信息時,LSTM應當把其存入記憶中,此時其輸入門的值會接近于1;當輸入的序列中出現(xiàn)了重要信息,且該信息意味著之前的記憶不再重要時,輸入門的值接近1,而遺忘門的值接近于0,這樣舊的記憶被遺忘,新的重要信息被記憶。經過這樣的設計,整個網(wǎng)絡更容易學習到序列之間的長期依賴。
GRU是在LSTM上進行簡化而得到的,GRU的網(wǎng)絡結構如下所示:
Zt代表更新門,更新門的作用類似于LSTM中的遺忘門和輸入門,它能決定要丟棄哪些信息和要添加哪些新信息。
Rt代表重置門,重置門用于決定丟棄先前信息的程度。
要注意的是,h只是一個變量,因此在每個時刻,包括最后的線性組合,h都是在用以前的自己和當前的備選答案更新自己。舉例來說,這一個變量好比一杯酒,每次我們要把一部分酒倒出去,并把倒出去的酒和新加入的原料混合,然后在倒回來,這里的reset控制的就是要倒出去的,并且混合好之后再倒回來的酒的比例,而update控制的則是用多大的比例混合新原料和倒出來的之前調制好的酒。同理,也可以以此理解LSTM,LSTM的遺忘門功能上和reset相似,而輸入門與update相似,不同之處在于LSTM還控制了當前狀態(tài)的exposure,也就是輸出門的功能,這是GRU所沒有的。
1.百面機器學習
2. https://zhuanlan.zhihu.com/p/45649187
3. https://www.jianshu.com/p/39a99c88a565
四、神經網(wǎng)絡的分類
網(wǎng)絡分類人工神經網(wǎng)絡按其模型結構大體可以分為前饋型網(wǎng)絡也稱為多層感知機網(wǎng)絡)和反饋型網(wǎng)絡(也稱為Hopfield網(wǎng)絡)兩大類,前者在數(shù)學上可以看作是一類大規(guī)模的非線性映射系統(tǒng),后者則是一類大規(guī)模的非線性動力學系統(tǒng)。它們的結構模型如圖1、圖2所示,圖中圓圏代表神經元,其間的有向連線代表神經元突觸。按照學習方式,人工神經網(wǎng)絡又可分為有導師學習和無導師學習兩類;按工作方式則可分為確定性和隨機性兩類;按時間特性還可分為連續(xù)型或離散型兩類,等等。
以上就是關于用于分類的神經網(wǎng)絡模型相關問題的回答。希望能幫到你,如有更多相關問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內容。
推薦閱讀:
macbookpro主要用途(macbookpro主要用于什么)
最初計算機主要是用于什么(最初計算機主要是用于什么進行計算)