1. Giới thiệuTrong mạng neural, mô hình mạng neural tích chập (CNN) là 1 trong những mô hình để nhận dạng với phân mô hình ảnh. Trong đó, xác định đối tượng và dìm dạng khuôn mặt là 1 trong trong số những nghành mà CNN được thực hiện rộng rãi.CNN phân một số loại hình hình ảnh bằng giải pháp lấy 1 hình hình ảnh đầu vào, giải pháp xử lý và phân các loại nó theo các hạng mục cố định (Ví dụ: Chó, Mèo, Hổ, ...). Laptop coi hình hình ảnh đầu vào là 1 trong những mảng pixel và nó phụ thuộc vào vào độ sắc nét của hình ảnh. Dựa trên độ phân giải hình ảnh, máy tính xách tay sẽ thấy H x W x D (H: Chiều cao, W: Chiều rộng, D: Độ dày). Ví dụ: Hình hình ảnh là mảng ma trận RGB 6x6x3 (3 ở đó là giá trị RGB).
Về kỹ thuật, mô hình CNN nhằm training với kiểm tra, mỗi hình hình ảnh đầu vào sẽ chuyển nó sang một loạt những lớp tích chập với những bộ lọc (Kernals), tổng phù hợp lại các lớp được kết nối không hề thiếu (Full Connected) và áp dụng hàm Softmax để phân loại đối tượng có giá chỉ trị xác suất giữa 0 cùng 1. Hình dưới đây là cục bộ luồng CNN để xử lý hình hình ảnh đầu vào và phân loại các đối tượng dựa trên giá chỉ trị.
Xem xét 1 ma trận 5 x 5 có mức giá trị pixel là 0 với 1. Ma trận bộ lọc 3 x 3 như hình bên dưới.
Sau đó, lớp tích chập của ma trận hình ảnh 5 x 5 nhân với ma trận cỗ lọc 3 x 3 call là "Feature Map" như hình bên dưới.
Sự phối kết hợp của 1 hình hình ảnh với những bộ lọc không giống nhau rất có thể thực hiện nay các vận động như phát hiện nay cạnh, có tác dụng mờ và có tác dụng sắc nét bằng phương pháp áp dụng các bộ lọc. Ví dụ dưới đây cho thấy thêm hình hình ảnh tích chập không giống nhau sau khi áp dụng những Kernel không giống nhau.
3. Bước nhảy - StrideStride là số pixel biến đổi trên ma trận đầu vào. Lúc stride là một trong thì ta dịch chuyển các kernel 1 pixel. Lúc stride là 2 thì ta dịch chuyển các kernel đi 2 px và thường xuyên như vậy. Hình bên dưới là lớp tích chập vận động với stride là 2.
4. Đường viền - PaddingĐôi khi kernel không cân xứng với hình ảnh đầu vào. Ta tất cả 2 lựa chọn:
Chèn thêm các số 0 vào 4 đường giáp ranh biên giới của hình ảnh (padding).Cắt giảm hình ảnh tại phần đa điểm không phù hợp với kernel.5. Hàm phi tuyến đường - ReLUReLU viết tắt của Rectified Linear Unit, là một trong hàm phi tuyến. Với đầu ra output là: ƒ (x) = max (0, x).Tại sao ReLU lại quan lại trọng: ReLU ra mắt tính phi đường trong ConvNet. Vì dữ liệu trong trái đất mà họ tìm gọi là các giá trị đường tính không âm.
Có một số hà phi tuyến khác ví như tanh, sigmoid cũng hoàn toàn có thể được thực hiện thay đến ReLU. Phần đông người ta hay sử dụng ReLU vì chưng nó có năng suất tốt.6. Lớp gộp - Pooling LayerLớp pooling sẽ giảm sút số lượng tham số lúc hình ảnh quá lớn. Không gian pooling còn được gọi là lấy mẫu con hoặc lấy mẫu xuống làm giảm kích thước của mỗi bản đồ nhưng vẫn giữ lại tin tức quan trọng. Những pooling tất cả thể có tương đối nhiều loại không giống nhau:Max PoolingAverage PoolingSum PoolingMax pooling lấy thành phần lớn nhất từ ma trận đối tượng, hoặc rước tổng trung bình. Tổng tất cả các bộ phận trong map gọi là sum pooling