正文

視覺算法工程師培訓(xùn)（視覺算法工程師培訓(xùn)課程）

發(fā)布時間：2023-07-01 19:59:44 稿源：創(chuàng)意嶺閱讀： 1110

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于視覺算法工程師培訓(xùn)的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

本文目錄:

1、加入百度視覺算法工程師得需要什么用
2、計算機視覺算法工程師常見面試題2
3、計算機視覺算法工程師常見面試題1
4、機器視覺方面工程師在公司里具體要做哪些事情？需要掌握哪些知識

一、加入百度視覺算法工程師得需要什么用

1.算法工程師要求很高的數(shù)學(xué)水平和邏輯思維。其實語言是次要的，語言只是表達的方式而已。2 你想成為算法工程師還需要一定的英文水準，因為看中文書你完全體會不到原滋味。3 不要太拘泥于教材。高數(shù)，線性代數(shù)，離散數(shù)學(xué)，數(shù)據(jù)結(jié)構(gòu)

二、計算機視覺算法工程師常見面試題2

上采樣upsampling的主要目的是放大圖像，幾乎都是采用內(nèi)插值法，即在原有圖像像素的基礎(chǔ)上，在像素點值之間采用合適的插值算法插入新的元素。

線性插值法是指使用連接兩個已知量的直線來確定在這個兩個已知量之間的一個未知量的值的方法。

假設(shè)已知兩個坐標(x0,y0)和(x1,y1)，要得到[x0,x1]區(qū)間內(nèi)某一位置x在直線上的值。

該直線的方程可表示為：

這樣

雙線性插值是插值算法中的一種，是線性插值的擴展。利用原圖像中目標點四周的四個真實存在的像素值來共同決定目標圖中的一個像素值，其核心思想是在兩個方向分別進行一次線性插值。

已知的紅色數(shù)據(jù)點和待插值的綠色數(shù)據(jù)點

假如我們想得到未知函數(shù)f在點P= (x,y) 的值，假設(shè)我們已知函數(shù)f在

四個點的值。

在x與y方向上，z值成單調(diào)性特性的應(yīng)用中，此種方法可以做外插運算，即可以求解Q11~Q22所構(gòu)成的正方形以外的點的值。

總結(jié)：線性插值法利用原圖像中兩個點計算像素值進行插值，雙線性插值法利用原圖像中四個點計算目標像素值進行插值。

這是最簡單的一種插值方法，不需要計算，在待求象素的四鄰象素中，將距離待求象素最近的鄰象素灰度賦給待求象素。設(shè)i+u, j+v(i, j為正整數(shù)， u, v為大于零小于1的小數(shù)，下同)為待求象素坐標，則待求象素灰度的值 f(i+u, j+v)　如下圖所示：

如果(i+u, j+v)落在A區(qū)，即u<0.5, v<0.5，則將左上角象素的灰度值賦給待求象素，同理，落在B區(qū)則賦予右上角的象素灰度值，落在C區(qū)則賦予左下角象素的灰度值，落在D區(qū)則賦予右下角象素的灰度值。

最鄰近元法計算量較小，但可能會造成插值生成的圖像灰度上的不連續(xù)，在灰度變化的地方可能出現(xiàn)明顯的鋸齒狀。

雙線性內(nèi)插法是利用待求象素四個鄰象素的灰度在兩個方向上作線性內(nèi)插。

如下圖所示：

對于 (i, j+v)，f(i, j) 到 f(i, j+1) 的灰度變化為線性關(guān)系，則有：

f(i, j+v) = [f(i, j+1) - f(i, j)] * v + f(i, j)

同理對于 (i+1, j+v) 則有：

f(i+1, j+v) = [f(i+1, j+1) - f(i+1, j)] * v + f(i+1, j)

從f(i, j+v) 到 f(i+1, j+v) 的灰度變化也為線性關(guān)系，由此可推導(dǎo)出待求象素灰度的計算式如下：

f(i+u, j+v) = (1-u) * (1-v) * f(i, j) + (1-u) * v * f(i, j+1) + u * (1-v) * f(i+1, j) + u * v * f(i+1, j+1)

雙線性內(nèi)插法的計算比最鄰近點法復(fù)雜，計算量較大，但沒有灰度不連續(xù)的缺點，結(jié)果基本令人滿意。它具有低通濾波性質(zhì)，使高頻分量受損，圖像輪廓可能會有一點模糊。

該方法利用三次多項式S(x)求逼近理論上最佳插值函數(shù)sin(x)/x, 其數(shù)學(xué)表達式為：

待求像素(x, y)的灰度值由其周圍16個灰度值加權(quán)內(nèi)插得到，如下圖：

待求像素的灰度計算式如下：

f(x, y) = f(i+u, j+v) = ABC

其中:

三次曲線插值方法計算量較大，但插值后的圖像效果最好。

三、計算機視覺算法工程師常見面試題1

參考： https://www.zhihu.com/column/c_1170719557072326656

反卷積也稱為轉(zhuǎn)置卷積，如果用矩陣乘法實現(xiàn)卷積操作，將卷積核平鋪為矩陣，則轉(zhuǎn)置卷積在正向計算時左乘這個矩陣的轉(zhuǎn)置WT，在反向傳播是左乘W，與卷積操作剛好相反，需要注意的是，反卷積不是卷積的逆運算。

[知乎問題+caffe實現(xiàn)]

實現(xiàn)上采樣；近似重構(gòu)輸入圖像，卷積層可視化。

只要激活函數(shù)選擇得當，神經(jīng)元的數(shù)量足夠，至少有一個隱含層的神經(jīng)網(wǎng)絡(luò)可以 逼近閉區(qū)間上任意一個連續(xù)函數(shù)到任意指定的精度。

判別模型，直接輸出類別標簽，或者輸出類后驗概率p(y|x)

[ https://www.zhihu.com/question/268906476]

[ https://zhuanlan.zhihu.com/p/40024110]

[ https://zhuanlan.zhihu.com/p/159189617]

BN是在 batch這個維度上進行歸一化，GN是計算channel方向每個group的均值方差.

檢測結(jié)果與 Ground Truth 的交集比上它們的并集，即為檢測的準確率 IoU

內(nèi)存/顯存占用；模型收斂速度等

Hessian矩陣是n*n，在高維情況下這個矩陣非常大，計算和存儲都是問題。

mini-batch太小會導(dǎo)致收斂變慢，太大容易陷入sharp minima，泛化性不好。

可以把dropout看成是一種ensemble方法，每次做完dropout相當于從原網(wǎng)絡(luò)中找到一個更瘦的網(wǎng)絡(luò)。

pooling操作雖然能增大感受野，但是會丟失一些信息?？斩淳矸e在卷積核中插入權(quán)重為0的值，因此每次卷積中會skip掉一些像素點；

空洞卷積增大了卷積輸出每個點的感受野，并且不像pooling會丟失信息，在圖像需要全局信息或者需要較長sequence依賴的語音序列問題上有著較廣泛的應(yīng)用。

表達式為：

使用BN的原因是網(wǎng)絡(luò)訓(xùn)練中每一層不斷改變的參數(shù)會導(dǎo)致后續(xù)每一層輸入的分布發(fā)生變化，而學(xué)習(xí)的過程又要使每一層去適應(yīng)輸入的分布，因此不得不降低網(wǎng)絡(luò)的學(xué)習(xí)率，并且要小心得初始化（internal covariant shift）

如果僅通過歸一化方法使得數(shù)據(jù)具有零均值和單位方差，則會降低層的表達能力（如使用Sigmoid函數(shù)時，只使用線性區(qū)域）

BN的具體過程（注意第三個公式中分母要加上epsilon）

最好的解釋是通過1 * 1卷積核能實現(xiàn)多個channel間的解耦合，解耦cross-channel correlation和spatial correlation。

【但是因為解耦不徹底，因此后續(xù)有了mobile net的組卷積方式和shuffle net組卷積方式】

由于 1×1 并不會改變 height 和 width，改變通道的第一個最直觀的結(jié)果，就是可以將原本的數(shù)據(jù)量進行增加或者減少。改變的只是 height × width × channels 中的 channels 這一個維度的大小而已。

1*1卷積核，可以在保持feature map尺度不變的（即不損失分辨率）的前提下大幅增加非線性特性（利用后接的非線性激活函數(shù)），把網(wǎng)絡(luò)做的很deep。

備注：一個filter對應(yīng)卷積后得到一個feature map，不同的filter(不同的weight和bias)，卷積以后得到不同的feature map，提取不同的特征，得到對應(yīng)的specialized neuron。

例子：使用1x1卷積核，實現(xiàn)降維和升維的操作其實就是channel間信息的線性組合變化，3x3，64channels的卷積核后面添加一個1x1，28channels的卷積核，就變成了3x3，28channels的卷積核，原來的64個channels就可以理解為跨通道線性組合變成了28channels，這就是通道間的信息交互

注意：只是在channel維度上做線性組合，W和H上是共享權(quán)值的sliding window

并不能說明這個模型無效導(dǎo)致模型不收斂的原因可能有

A. 在實際場景下，應(yīng)盡量使用ADAM，避免使用SGD

B. 同樣的初始學(xué)習(xí)率情況下，ADAM的收斂速度總是快于SGD方法

C. 相同超參數(shù)數(shù)量情況下，比起自適應(yīng)的學(xué)習(xí)率調(diào)整方式，SGD加手動調(diào)節(jié)通常會取得更好效果

D. 同樣的初始學(xué)習(xí)率情況下，ADAM比SGD容易過擬合

A.保證每一層的感受野不變，網(wǎng)絡(luò)深度加深，使得網(wǎng)絡(luò)的精度更高

B.使得每一層的感受野增大，學(xué)習(xí)小特征的能力變大

C.有效提取高層語義信息，且對高層語義進行加工，有效提高網(wǎng)絡(luò)準確度

D.利用該結(jié)構(gòu)有效減輕網(wǎng)絡(luò)的權(quán)重

A.計算簡單

B.非線性

C.具有飽和區(qū)

D.幾乎處處可微

【relu函數(shù)在0處是不可微的。】

A.Adam的收斂速度比RMSprop慢

B.相比于SGD或RMSprop等優(yōu)化器，Adam的收斂效果是最好的

C.對于輕量級神經(jīng)網(wǎng)絡(luò)，使用Adam比使用RMSprop更合適

D.相比于Adam或RMSprop等優(yōu)化器，SGD的收斂效果是最好的

【SGD通常訓(xùn)練時間更長，容易陷入鞍點，但是在好的初始化和學(xué)習(xí)率調(diào)度方案的情況下，結(jié)果更可靠。如果在意更快的收斂，并且需要訓(xùn)練較深較復(fù)雜的網(wǎng)絡(luò)時，推薦使用學(xué)習(xí)率自適應(yīng)的優(yōu)化方法?！?span style="display:none">gqx創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計、營銷策劃公司

A.使用ReLU做為激活函數(shù)，可有效地防止梯度爆炸

B.使用Sigmoid做為激活函數(shù)，較容易出現(xiàn)梯度消失

C.使用Batch Normalization層，可有效的防止梯度爆炸

D.使用參數(shù)weight decay，在一程度上可防止模型過擬合

對結(jié)果存疑。認為二者皆可防止。

A.SGD

B.FTRL

C.RMSProp

D.L-BFGS

L-BFGS（Limited-memory BFGS，內(nèi)存受限擬牛頓法）方法：

所有的數(shù)據(jù)都會參與訓(xùn)練，算法融入方差歸一化和均值歸一化。大數(shù)據(jù)集訓(xùn)練DNN，容易參數(shù)量過大 (牛頓法的進化版本，尋找更好的優(yōu)化方向，減少迭代輪數(shù)）從LBFGS算法的流程來看，其整個的核心的就是如何快速計算一個Hesse的近似：重點一是近似，所以有了LBFGS算法中使用前m個近似下降方向進行迭代的計算過程；重點二是快速，這個體現(xiàn)在不用保存Hesse矩陣上，只需要使用一個保存后的一階導(dǎo)數(shù)序列就可以完成，因此不需要大量的存儲，從而節(jié)省了計算資源；重點三，是在推導(dǎo)中使用秩二校正構(gòu)造了一個正定矩陣，即便這個矩陣不是最優(yōu)的下降方向，但至少可以保證函數(shù)下降。

FTRL(Follow-the-regularized-Leader)是一種適用于處理超大規(guī)模數(shù)據(jù)的,含大量稀疏特征的在線學(xué)習(xí)的常見優(yōu)化算法，方便實用，而且效果很好，常用于更新在線的CTR預(yù)估模型；FTRL在處理帶非光滑正則項（如L1正則）的凸優(yōu)化問題上表現(xiàn)非常出色，不僅可以通過L1正則控制模型的稀疏度，而且收斂速度快；

A.LSTM在一定程度上解決了傳統(tǒng)RNN梯度消失或梯度爆炸的問題

B.CNN相比于全連接的優(yōu)勢之一是模型復(fù)雜度低，緩解過擬合

C.只要參數(shù)設(shè)置合理，深度學(xué)習(xí)的效果至少應(yīng)優(yōu)于隨機算法

D.隨機梯度下降法可以緩解網(wǎng)絡(luò)訓(xùn)練過程中陷入鞍點的問題

實際上，現(xiàn)在有很多針對小目標的措施和改良，如下：

最常見的是Upsample來Rezie網(wǎng)絡(luò)輸入圖像的大小；

用dilated/astrous等這類特殊的卷積來提高檢測器對分辨率的敏感度；（空洞卷積是針對圖像語義分割問題中下采樣會降低圖像分辨率、丟失信息而提出的一種卷積思路。利用添加空洞擴大感受野，讓原本3 x3的卷積核，在相同參數(shù)量和計算量下?lián)碛?x5（dilated rate =2）或者更大的感受野，從而無需下采樣。在保持參數(shù)個數(shù)不變的情況下增大了卷積核的感受野）

有比較直接的在淺層和深層的Feature Map上直接各自獨立做預(yù)測的，這個就是我們常說的尺度問題。

用FPN這種把淺層特征和深層特征融合的，或者最后在預(yù)測的時候，用淺層特征和深層特征一起預(yù)測；

SNIP（Scale Normalization for Image Pyramids）主要思路：

在訓(xùn)練和反向傳播更新參數(shù)時，只考慮那些在指定的尺度范圍內(nèi)的目標，由此提出了一種特別的多尺度訓(xùn)練方法。

四、機器視覺方面工程師在公司里具體要做哪些事情？需要掌握哪些知識

看做哪方面的視覺工程師，給別人做視覺系統(tǒng)集成的還是做視覺開發(fā)的是不同的。

1、要是做視覺系統(tǒng)集成的就是整天按照人家工藝的要求調(diào)試你要檢測物體的畫面，然后給客戶的提一些光源的要求還有機械上的要求，還有項目后期要不間斷的去現(xiàn)場。

2、要是做視覺開發(fā)的話就是天天聽客戶反饋然后無止境的思考算法，還有寫軟件。搞硬件的話就是研究光學(xué)成像問題。

圖像處理工程師需要掌握的知識有：

最基本圖形處理的開發(fā)與研究，熟悉圖像處理的各種算法，特別是圖像去燥、圖像增強、復(fù)原、質(zhì)量改善、檢測、色彩科學(xué)、圖像分割、圖像識別處理、圖像跟蹤、圖像的獲取及視頻處理。

具體應(yīng)用包括人臉識別、醫(yī)學(xué)影像處理、多點識別、文字檢測與是識別。特別的，結(jié)合不同應(yīng)用，還需要自然語言處理知識。

另外，要有優(yōu)秀的數(shù)學(xué)功底（特別是線性代數(shù)、優(yōu)化理論、統(tǒng)計知識）