最早的卷積神經網路(CNN)可以追溯至 1998 年 LeNet-5 [4]的架構,該模型在手寫數字識別上獲得成功,並奠定了後來大部分 CNN 模型的基本結構:卷積層、池化層與全連接層的疊加模式 。隨著科技的不斷創新,特別是 2012 年後,深度學習迎來了爆發期,先後出現了許多著名模型:AlexNet [7] 使用了 ReLU 激活函數、Dropout正則化,並利用 GPU 加速計算,大幅超越傳統方法;VGG [8]則透過堆疊多個小型3×3卷積核來實現極深層網路,證明了網路深度的重要性,並以較少的參數量有效提高了模型的非線性表達能力;Inception [9] (或稱 GoogLeNet) 引入了 Inception 模塊,在不增加太多計算量的基礎上,利用多種大小的卷積核並行提取特徵,有效利用計算資源;ResNet[5] 提出了殘差神經網路 (Residual Network),透過殘差連結(Residual Connection)解決了訓練極深層網路時出現的梯度消失/爆炸和網路退化問題,使網路層數可以達到數百層。
Transformer模型最早由知名論文《Attention is all you need》[3]提出,作者在文中提出了新穎的自注意力機制(Self-Attention)主要用來解決先前seq2seq中前後文關聯性遺失的問題,自注意力機制可以同時關注序列上的所有輸入的位置資訊,並計算它們之間的相互關聯性。Transformer最大的優勢就在於他可以關注到全域的資訊,相比於CNN透過卷積核關注局部區域形成鮮明對比。
Transformer 最早只應用於自然語言處理領域,直到 2020 年 Google 研究團隊發表了《An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale》[6],打破了 CNN 在視覺領域的統治地位。該研究展示並證明了一個純粹的Transformer架構應用於圖像塊序列上,也能在圖像分類任務中表現極佳。
為了將標準 Transformer 應用於二維圖像,ViT 僅做了少量關鍵調整:
- 圖像分割 (Image Patching):將圖像切割成固定大小(如 16×16)的區塊序列。
- 線性嵌入 (Linear Embedding):將每個圖像塊攤平並通過線性層轉換為向量 (Patch Embeddings)
- 引入位置資訊:由於 Transformer 本身不具備空間概念,因此額外加入了位置編碼 (Position Embeddings)。
- 分類標記:在序列開頭加入一個可學習的class token,用於最終的分類預測。
與 ResNet 相比,ViT 缺少了CNN特有的歸納偏置(Inductive Bias)。因此,ViT 在小數據集上表現平平,但當預訓練數據量足夠大(如 JFT-300M)時,其效果能達到甚至超越最先進的CNN模型,且在達到同等性能的情況下,所需的預訓練計算資源更少。
以下表1為CNN與Transformer核心差異的比較:
| 特徵 | 卷積神經網絡(CNN) | Transformer (ViT) |
| 核心機制 | 卷積運算(Convolution Operation) | 自注意力機制(Self-Attention) |
| 圖像處理方式 | 逐層疊加的局部感受野 (Local Receptive Fields) | 將圖像分割成塊 (Patches),視為序列 (Sequence) 處理 |
| 內建歸納偏置 (Inductive Bias) | 強:具備局部性 (Locality) 和平移不變性 (Translation Invariance) | 弱:假設輸入為序列,圖像特性需從數據中學習 |
| 全局上下文建模能力 | 差:需要通過深層堆疊才能獲得全局資訊 (Global Information) | 優異:透過自注意力機制直接建立遠距離像素間的關聯性 |
| 計算複雜度 | 低:與輸入圖像尺寸大致成線性關係 | 高:與輸入序列長度(圖像塊數)的平方成正比 |
| 對數據量的依賴 | 低:內建歸納偏置使其在中小規模數據集表現良好 | 高:需要大規模數據預訓練才能表現優異(Data Hungry) |
| 參數數量與效率 | 參數共享使模型通常較小且高效 | 由於缺乏參數共享,模型參數通常較多 |
| 應用優勢 | 處理高頻局部細節,如紋理、邊緣;適合中小規模數據,尤其在醫學影像中常見 | 處理長距離依賴關係,建模複雜的上下文資訊;適合大規模數據和需要全域理解的任務 |
表1、CNN與Transformer比較表
根據表1比較CNN與Transformer利用兩種架構的優勢互補,可以在[1]看出作者利用此方式設計出新的混合模型 (Hybrid Models) 。此類模型通常結合以下步驟:
- CNN 作為特徵提取器:首先利用 CNN 做為骨幹網路 (如 ResNet ) 高效且參數較少地提取密集的局部特徵圖。
- Transformer進行全域上下文整合:隨後將CNN輸出的特徵圖轉換為序列,輸入到Transformer編碼器中。
- 優勢互補:藉由Transformer的多頭自注意力機制,模型可以在全域視角上整合不同局部特徵之間的複雜關聯,有效解決單純CNN缺乏全域視野的侷限 。
這種融合架構的目標,正是在保留CNN處理高頻細節的效率與穩定性的同時,引入 Transformer 的強大上下文建模能力,為後續研究中複雜的多視角影像整合(需在不同視角間建立關聯)提供技術基礎。
另外根據[3]的研究顯示目前沒有一種通用的CNN方法可以適用於所有類型的骨折檢測現有的研究大多是針對特定的骨頭進行優化,還不能像人類醫師一樣處理全身所有類型骨折的通用系統。
- 參考文獻
[1] Dabboussi, M., Huard, M., Gousseau, Y., & Gori, P. (2025, September). Self-Supervised Multiview Xray Matching. In International Conference on Medical Image Computing and Computer-Assisted Intervention (pp. 578-588). Cham: Springer Nature Switzerland.
[3] Khatik, I., & Kadam, S. (2022). A systematic review of bone fracture detection models using convolutional neural network approach. Journal of Pharmaceutical Negative Results, 13(9), 153-158.
[3] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
[4] LECUN, Y., BOTTOU, L., BENGIO, Y., & HAFFNER, P. (1998). Gradient-Based Learning Applied to Document Recognition. PROCEEDINGS OF THE IEEE, 86(11).
[5] He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778).
[6] Dosovitskiy, A. (2020). An image is worth 16×16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929.
[7] Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems, 25.
[8] Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556.
[9] Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., … & Rabinovich, A. (2015). Going deeper with convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1-9).