Các Mô Hình Mạng Nơ-Ron Sâu (DNN) Trong Computer Vision

Post author:Nguyễn Kiêm Hùng
Post published:15/07/2025
Post category:Article / Trí tuệ nhân tạo (AI)
Post comments:0 Comments

Các Mô Hình Mạng Nơ-Ron Sâu (DNN) Trong Computer Vision

Mạng nơ-ron sâu (Deep Neural Networks – DNN) là nền tảng cốt lõi cho hầu hết các ứng dụng thị giác máy tính (Computer Vision – CV) hiện đại. Chúng cho phép máy móc nhận diện, phân loại, phát hiện, phân đoạn và thậm chí sinh ảnh với độ chính xác ngày càng cao. Dưới đây là các nhóm mô hình quan trọng nhất, kèm mô tả, ví dụ tiêu biểu và ứng dụng chính.

Mạng Nơ-Ron Tích Chập (Convolutional Neural Networks – CNN)

CNN là kiến trúc nền tảng, sử dụng các lớp tích chập (convolutional layers) để tự động trích xuất các đặc trưng không gian từ ảnh, từ cạnh – góc – kết cấu – đến hình dạng phức tạp.

Nguyên lý: Kết hợp các lớp convolution, pooling để giảm chiều không gian, và fully connected layer để phân loại.
Ưu điểm: Tính cục bộ, chia sẻ trọng số, số tham số ít hơn fully connected network.
Mô hình tiêu biểu:
- LeNet-5: Tiên phong cho nhận dạng chữ viết tay (MNIST).
- AlexNet: Mở đầu cho làn sóng CNN hiện đại, ImageNet 2012.
- VGGNet: Sâu, cấu trúc đồng nhất 3×3 Conv.
- GoogLeNet (Inception): Dùng các khối Inception với multi-scale kernel.
- ResNet: Thêm skip connection → huấn luyện được mạng cực sâu.
- DenseNet: Kết nối dày đặc các lớp → lan truyền gradient tốt.
- MobileNet: Tối ưu thiết bị di động, depthwise separable conv.
- EfficientNet: Tự động scale sâu–rộng–độ phân giải.
- ConvNeXt: “Hiện đại hóa” ResNet bằng các kỹ thuật từ ViT (kernel lớn, LayerNorm…).
Ứng dụng: Phân loại ảnh, trích xuất đặc trưng, nhận diện khuôn mặt, OCR.

Mạng Dư (Residual Networks – ResNet)

Đặc điểm: Thêm skip connections để tránh vanishing gradient, giúp huấn luyện mạng cực sâu (ResNet-50, 101, 152).
Ứng dụng: Phân loại, phát hiện, trích xuất đặc trưng cho nhiều pipeline.
Điểm mạnh: Khả năng hội tụ nhanh, dễ mở rộng.

Mạng Inception (GoogLeNet)

Đặc điểm: Sử dụng các mô-đun Inception chứa các convolution kernel đa tỷ lệ (1×1, 3×3, 5×5).
Ưu điểm: Multi-scale feature, giảm tham số so với việc xếp chồng kernel lớn.
Biến thể: Inception-v1, v2, v3, v4.

Mạng DenseNet

Đặc điểm: Mỗi lớp kết nối trực tiếp với mọi lớp trước → gradient lan truyền tốt.
Ưu điểm: Tái sử dụng đặc trưng, giảm overfitting.
Ứng dụng: Phân loại, phân đoạn, detection.

Mạng Phát Hiện Đối Tượng (Object Detection)

Nhiệm vụ: Xác định vị trí (bounding box) + nhãn đối tượng.

R-CNN: Đề xuất vùng → CNN → Phân loại SVM.
Fast R-CNN: Trích đặc trưng toàn ảnh → ROI pooling.
Faster R-CNN: Thêm Region Proposal Network (RPN) → tăng tốc.
YOLO (You Only Look Once): Phát hiện một lần duy nhất → thời gian thực.
SSD: Multi-scale detection → cân bằng tốc độ và độ chính xác.

Ứng dụng: Xe tự lái, giám sát, robotics.

Mạng Phân Đoạn Ảnh (Segmentation Networks)

Nhiệm vụ: Gán nhãn pixel cho từng vùng.

FCN (Fully Convolutional Networks): Thay FC layer bằng Conv → output map tự do kích thước.
U-Net: Encoder–Decoder với skip connections → giữ chi tiết.
Mask R-CNN: Mở rộng Faster R-CNN để sinh mask phân đoạn.
DeepLab: Atrous Conv + ASPP → thu thập thông tin đa tỉ lệ.

Ứng dụng: Y tế, bản đồ vệ tinh, nông nghiệp chính xác.

Vision Transformers (ViT)

Khác biệt: Không dùng convolution, mà chia ảnh thành patch → Self-Attention toàn cục.

Ưu điểm: Học quan hệ dài hạn, tốt với dữ liệu lớn.
Mô hình tiêu biểu:
- ViT: Tiên phong, Image patches như token.
- DeiT: Dữ liệu nhỏ vẫn train được.
- Swin Transformer: Self-Attention cục bộ → scale tốt.
- MAE: Masked Autoencoder → tự giám sát.
Ứng dụng: Phân loại, phát hiện, phân đoạn, multi-modal.

Mạng Kết Hợp (Hybrid Networks)

Đặc điểm: Kết hợp CNN và Transformer → tận dụng ưu điểm đôi bên.

Ví dụ: CoAtNet, MobileViT, ConvNeXt.
Ưu điểm: Trích xuất đặc trưng cục bộ + quan hệ toàn cục.
Xu hướng: Đang dẫn đầu các benchmark CV.

Mạng Sinh Ảnh (Generative Networks)

Vai trò: Sinh dữ liệu, tăng cường, khôi phục ảnh.

GAN (Generative Adversarial Network): Sinh ảnh chân thực, deepfake, style transfer.
VAE (Variational Autoencoder): Sinh ảnh và nén không gian tiềm ẩn.

Xu Hướng Mới

Mô hình Đa năng (Foundation Models): Huấn luyện khổng lồ → chuyển đổi nhiều nhiệm vụ. Ví dụ: CLIP, SAM (Segment Anything Model).
Neural Memory Networks: Lưu trữ kiến thức dài hạn.
Graph Neural Networks (GNNs): Xử lý dữ liệu quan hệ phức tạp (cảnh 3D, mesh).

Bảng Tổng Kết

Nhóm Mô Hình	Mục đích	Ví dụ tiêu biểu	Đặc điểm nổi bật
CNN Cổ điển	Phân loại, trích xuất	AlexNet, VGG, ResNet, MobileNet	Tích chập, pooling
CNN Phát hiện	Phát hiện đối tượng	Faster R-CNN, YOLO, SSD	Region Proposals, multi-scale
CNN Phân đoạn	Phân đoạn pixel	FCN, U-Net, Mask R-CNN, DeepLab	Encoder–Decoder, skip connections
Vision Transformers	Phân loại, phát hiện, phân đoạn	ViT, DeiT, Swin	Self-Attention toàn cục
Mạng Kết hợp	CNN + Transformer	CoAtNet, ConvNeXt, MobileViT	Tận dụng ưu thế kép
Mô hình sinh ảnh	Tạo dữ liệu, super-resolution	GAN, VAE	Sinh ảnh, augmentation
Foundation Models	Đa nhiệm CV	CLIP, SAM	Huấn luyện cực lớn, zero-shot

Lựa chọn mô hình phụ thuộc vào:

Bài toán cụ thể: Phân loại, phát hiện, phân đoạn, sinh ảnh.
Tài nguyên: GPU, bộ nhớ.
Yêu cầu triển khai: Thời gian thực hay không.
Độ chính xác mong muốn: Dùng CNN, Transformer hay mô hình lai.

Xu hướng hiện nay: Sự kết hợp giữa CNN & Transformer, song song với việc xuất hiện các mô hình đa năng (Foundation Models) mở ra nhiều khả năng đột phá mới cho thị giác máy tính.

Tags: Computer Vision, Deep Neural Networks, DNN

Nguyễn Kiêm Hùng

Hung K. Nguyen studied “Electronic Engineering” in both his bachelor’s and master’s degrees at the Vietnam National University, Hanoi, Vietnam. He received the bachelor’s degree in 2003. After receiving his bachelor’s degree, He worked as an internship in the Research Center of Electronics and Telecommunications. In 2006, He received the master’s degree in electronic engineering from VNU University of Engineering and Technology (VNU-UET). Before pursuing his Ph.D’s degree, He worked as a researcher at the Laboratory for Smart Integrated Systems in VNU University of Engineering and Technology for two years. In 2008, He went to Southeast University, Nanjing, China to get his Ph.D degree. He received the Ph.D. degree in Microelectronics and Solid State Electronics from Southeast University in 2013. After got his Ph.D’s degree, He returned to VNU University of Engineering and Technology to continue his research in VLSI design. He works currently as an assistant professor and senior researcher at VNU Key Laboratory for Smart Integrated Systems. His research interests mainly include multimedia processing, reconfigurable computing, and SoC designs.

H	B	T	N	S	B	C
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31