✔ 1. どんなモデルか?
ResNet(Residual Network)は、2015年にマイクロソフトリサーチが発表した深層学習モデルです。
「スキップ結合(Residual Connection)」を採用することで、100層を超える超深層ネットワークでも学習が可能になり、
当時の画像認識精度を大きく向上させました。
✔ 2. なぜ生まれたのか?
- 層を深くすれば性能が上がると期待されていたものの、
- 実際は深くすると学習が進まなくなり、むしろ悪化する問題がありました(勾配消失・劣化問題)。
- そこで、スキップ結合を使って「元の情報をそのまま流す」設計を導入し、超深層化の壁を突破したのがResNetです。
✔ 3. 構造の特徴
- Residual Block(残差ブロック)
- 畳み込みなどの通常処理
F(x)
に対して、元の入力x
をそのまま足し合わせる。 - 数式:
y = F(x) + x
- 畳み込みなどの通常処理
- 深く積み重ねても安定
- 34層、50層、101層、152層…といった非常に深いネットワークでも学習が成立。
✔ 4. ビフォーアフター図解イメージ
従来の深層ネットワーク | ResNetによる改善 |
---|---|
層を深くすると学習が進まず性能劣化 | 深くしても情報が流れ、学習が安定 |
情報・勾配が途中で消えてしまう | 入力 x をそのまま足すことで情報を保持 |
数十層が限界 | 100層以上でも学習可能 |
✔ 5. 成果と影響
- 2015年 ImageNet 画像認識コンペ優勝(圧倒的な精度向上)
- VGG、GoogLeNetなどそれ以前の主流モデルを超える性能
- 以後、多くの画像系・音声系・言語系モデルで「スキップ結合」が標準採用される流れを作る
✔ 6. 代表的なバリエーション
- ResNet-18 / ResNet-34 / ResNet-50 / ResNet-101 / ResNet-152
- 数字は層の深さ
- ResNet-50以降は**Bottleneck Block(圧縮ブロック)**を採用し、計算コスト削減
✔ 7. どんな分野に使われているか
- 画像認識(医療画像、製造検査など)
- 物体検出(自動運転、監視カメラ)
- 画像セグメンテーション(工業、医療)
- その他、音声認識や自然言語処理にも着想が応用されている
コメント