Mạng neuron nhân tạo(ANN: artificial neuron networks)là mạng được xây dựng bằng cách sao chép lại các nguyên lý tổ chức của hệ neuron của con người.Bộ óc của con người là một hệ neuron gồm có 1010 đến 1012 neuron được tổ chức có cấu trúc vào khoảng 200 mô hình khác nhau dưới dạng nhiều lớp.
Hình 1.cấu trúc cơ bản của một neuron
Cấu trúc cơ bản của một neuron của hệ neuron con người gồm:các đầu vào(dendrite),thân neuron(soma)và đầu ra(axon).Mỗi neuron có nhiều đầu vào và chỉ một đầu ra.thân neuron là phần tử xử lý có chức năng thu nhận tất cả các thông tin đến từ các đầu vào,tính toán và đưa ra quyết định ở ngõ ra để gởi thông tin đến các neuron khác.SYNAP là khớp nối giữa đầu vào của neuron này với đầu ra của neuron khác.
Tín hiệu điện áp được truyền từ neuron này sang neuron khác.tín hiệu điện áp dương được coi như là tín hiệu kích động(excitory)để kích động neuron gởi tín hiệu đến các neuron khác và điện áp âm được xem như là tín hiệu ức chế(inhibitory)để ức chế neuron gởi tín hiệu đến nhiều neuron khác.điện áp không thì không có tín hiệu kết nối giữa hai neuron.
Đối với hệ neuron con người có cấu trúc cơ bản gồm :lớp neuron đầu vào(lớp này được kết nối với các phần tử cảm biến như miệng ,mắt, mũi ,tai và da),các lớp neuron ẩn và lớp neuron đầu ra(lớp này được kết nối với các phần tử cơ như tay ,chân).
Cường độ kết nối SYNAP xác định lượng tín hiệu truyền đến đầu vào và giá trị cường độ synap được gọi là trọng số.
Người ta dùng mạng neuron nhân tạo để giải quyết các bài toán trong kỹ thuật(mục tiêu là mô phỏng hoạt động của não người)
Để xây dựng một mạng neuron nhân tạo giống như hệ neuron con người,vào năm 1943 Mc.culloch và Pitts đề ra cấu trúc cơ bản của một neuron thứ I trong mô hình của mạng neuron nhân tạo.
89 trang |
Chia sẻ: ngtr9097 | Lượt xem: 2261 | Lượt tải: 4
Bạn đang xem trước 20 trang tài liệu Đồ án Điều khiển cánh tay máy dùng mạng Neuron, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Chương 1
LÝ THUYẾT LIÊN QUAN
I . GIỚI THIỆU MẠNG NEURON:
I.1. MẠNG NEURON NHÂN TẠO:
Mạng neuron nhân tạo(ANN: artificial neuron networks)là mạng được xây dựng bằng cách sao chép lại các nguyên lý tổ chức của hệ neuron của con người.Bộ óc của con người là một hệ neuron gồm có 1010 đến 1012 neuron được tổ chức có cấu trúc vào khoảng 200 mô hình khác nhau dưới dạng nhiều lớp.
Hình 1.cấu trúc cơ bản của một neuron
Cấu trúc cơ bản của một neuron của hệ neuron con người gồm:các đầu vào(dendrite),thân neuron(soma)và đầu ra(axon).Mỗi neuron có nhiều đầu vào và chỉ một đầu ra.thân neuron là phần tử xử lý có chức năng thu nhận tất cả các thông tin đến từ các đầu vào,tính toán và đưa ra quyết định ở ngõ ra để gởi thông tin đến các neuron khác.SYNAP là khớp nối giữa đầu vào của neuron này với đầu ra của neuron khác.
Tín hiệu điện áp được truyền từ neuron này sang neuron khác.tín hiệu điện áp dương được coi như là tín hiệu kích động(excitory)để kích động neuron gởi tín hiệu đến các neuron khác và điện áp âm được xem như là tín hiệu ức chế(inhibitory)để ức chế neuron gởi tín hiệu đến nhiều neuron khác.điện áp không thì không có tín hiệu kết nối giữa hai neuron.
Đối với hệ neuron con người có cấu trúc cơ bản gồm :lớp neuron đầu vào(lớp này được kết nối với các phần tử cảm biến như miệng ,mắt, mũi ,tai và da),các lớp neuron ẩn và lớp neuron đầu ra(lớp này được kết nối với các phần tử cơ như tay ,chân).
Cường độ kết nối SYNAP xác định lượng tín hiệu truyền đến đầu vào và giá trị cường độ synap được gọi là trọng số.
Người ta dùng mạng neuron nhân tạo để giải quyết các bài toán trong kỹ thuật(mục tiêu là mô phỏng hoạt động của não người)
Để xây dựng một mạng neuron nhân tạo giống như hệ neuron con người,vào năm 1943 Mc.culloch và Pitts đề ra cấu trúc cơ bản của một neuron thứ I trong mô hình của mạng neuron nhân tạo.
Trong đó:xj(k):tín hiệu vào thứ j ở thời điểm k
Yi(k):tín hiệu ra thứ I ở thời điểm k
Wij :trọng số trên tín hiệu vào thứ j
Фi : ngưỡng tác động của neuron i
F: hàm tích hợp
A(.) :hàm tác động
Wij biểu diễn cường độ kết nối giữa neuron thứ j và neuron thứ i.wij >0 tương ứng với tín hiệu tác động,wij <0 tương ứng với tín hiệu ức chế và wij =0 thí không có sự kết hợp giữa hai neuron.
I.2.CÁC THÀNH PHẦN CƠ BẢN CỦA MẠNG NEURON NHÂN TẠO
Mạng neuron nhân tạo được đặc trưng bởi 3 yếu tố:phần tử xử lý,cấu trúc và ghép nối của các phần tử xử lý,phương pháp huấn luyện để cập nhập các trọng số wij.
I.2.1.Phần tử xử lý
Mỗi phần tử xử lý có nhiều đầu vào và một đầu ra.hàm tổng hợp fi có chức năng tổng hợp tất cả các thông tin từ ngõ vào.hàm tác động a(f) tạo tín hiệu ra
Xj :tín hiệu đầu vào phần tử xử lý thứ i
Wij: trọng số để kết nối giữa xj và phần tử xử lý thứ i
Фi: giá trị ngưỡng của phần tử xử lý thứ i
Fi : hàm tích hợp
Một số dạng thông dụng của hàm tích hợp:
Hàm tích hợp tuyến tính
Hàm tích hợp phi tuyến toàn phương
Một số dạng thông dụng của hàm tác động:
Hàm bước nhảy đơn vị:
Hàm dấu :
Hàm dốc :
Hàm tuyến tính :
Hàm sigmoid đơn cực :
Hàm sigmoid lưỡng cực :
Hình 2.đồ thị một số hàm tác động
A)hàm bước nhảy B)hàm dấu C)hàm dốc D)hàm tuyến tính
E)hàm sigmoid đơn cực F)hàm sigmoid lưỡng cực
I.2.2.Cấu trúc và ghép nối của các phần tử xử lý
Mô hình ghép nối của các mạng neuron nhân tạo có thể chia ra làm 2 loại:Mạng truyền thẳng(feedforward network) và mạng hồi tiếp(feedback network)
Mạng truyền thẳng là mạng được xây dựng bằng cách đầu ra của neuron của lớp đứng trước chính là đầu vào của các neuron đứng sau nó.Mạng truyền thẳng có mạng truyền một lớp và mạng truyền thẳng nhiều lớp.
Mạng hồi tiếp là mạng được xây dựng khi các đầu ra được định hướng lùi về làm các đầu vào cho các neuron ở cùng lớp hoặc các lớp đứng trước nó.mạng hồi tiếp trở thành mạng hồi qui(recurrent network) khi các đầu ra của lớp neuron ra là các đầu vào của lớp neuron vào(hay còn gọi là mạng hồi qui vòng kín)
Hình 3.các cấu trúc của mạng neuron
A.mạng truyền thẳng một lớp
B.mạng truyền thẳng nhiều lớp
C.nút đơn hồi tiếp
D.mạng hồi quy nhiều lớp
I.2.3.Huấn luyện mạng neuron
Yếu tố quan trọng thứ ba của các mạng neuron là huấn luyện mạng(trainning)hay còn gọi việc học(learning)cho các mạng sử dụng các luật học khác nhau.có hai cách học trong các mạng neuron:học thông số(parameter learning) và học cấu trúc(structure learning).học thông số là phương pháp học bằng cách cập nhật các trọng số,còn học cấu trúc là phương pháp học bằng cách thay bên trong cấu trúc mạng bao gồm các phần tử xử lý và các kiểu kết nối mạng.
Giả sử có một mạng neuron có n phần tử xử lý và mỗi phần tử xử lý có m trọng số thích nghi
Ma trận trong số w được xác định:
Trong đó: wi =(wi1,wi2,….,wim)T ,i = 1,2,….n.
Wij là trọng số ngõ vào thứ j của neuron thứi
Ma trận W chứa các phần tử thích nghi,học thông số là cập nhật ma trận trọng số W sao cho xấp xỉ với ma trận trọng số mong muốn của mạng.một cách tổng quát,học thông số có thể chia ra làm ba chế độ học:Học có giám sát ,Học tăng cường và Học không có giám sát.
Học có giám sát(supervised learning)
Hình 4.học có giám sát
Trong cách học có giám sát,mạng neuron được cung cấp với một dãy các cặp đầu vào ra mong muốn(x(1),d(1);x(2),d(2);…..;x(k),d(k)).
Khi mỗi đầu vào x(k) đặt vào mạng tại thời điểm k thì đầu ra mong muốn tương ứng d(k) cũng được cung cấp đến mạng.sai lệch giữa đầu ra thật sự y(k) và đầu ra mong muốn d(k) được giám sát trong bộ tín hiệu lỗi(error signal generator).Mạng dựa vào tín hiệu lỗi (error signal) để điều chỉnh các trọng số sao cho tín hiệu đầu ra thật sự y(k) tiến gần đến tín hiệu đầu ra mong d(k).
Hình 5.học tăng cường
Trong một vài tình huống nào đó,mạng được cung cấp các mẫu đầu vào nhưng không được cung cấp rõ rang các mẫu đầu r among muốn(chẳng hạn như mạng chỉ được cho biết đầu ra thật sự hiện có của nó là quá trình cao hoặc chỉ đúng 50%).trong trường này thì chỉ có một thông tin hồi tiếp chỉ định đầu ra của mạng là đúng hay sai.Học tăng cường là một dạng học có giám sát.
Trong cách học này,không có bất kỳ một thông tin hồi tiếp nào.mạng chỉ được cung cấp các mẫu đầu vào không có thông tin hồi tiếp,mạng tự điều chỉnh các trọng số bằng cách sử dụng các mẫu đầu ra thật sự của mạng.
Hình 6.học không có giám sát
Bây giờ chúng ta khảo sát một cấu trúc huấn luyện mạng tổng quát cho một phần tử xử lý thứ I trong một mạng neuron được mô tả trong hình 2.8
Hình 7.luật học các trọng số
Luật học các trọng số
Nếu học có giám sát : r = di – yi là tín hiệu sai lệch
Nếu học tăng cừong : r = di là tín hiệu tăng cường
Nếu học không có giám sát : r = yi là tín hiệu ra thực sự
Với các hàm fr(wi(k),x(k),di(k))khác nhau thì có luật học khác nhau
Luật học của Hebbian không có tín hiệu ra mong muốn di(k)nên phương pháp học của Hebbian là phương pháp học không giám sát.
I.3.phân loại mạng neuron
Phân loại theo cấu trúc liên kết gồm có mạng truyền thẳng và mạng hồi tiếp.
Phân loại theo số lớp gồm có mạng đơn và mạng đa lớp.
Phân loại theo phương pháp học gồm có học có giám sát ,học tăng cường và học không có giám sát.
I.4.một số mạng neuron thường gặp
Mạng perceptron một lớp (trình bày 2.2),mạng truyền thẳng nhiều lớp(trình bày 2.3),mạng RBF(Radial Basis Function Network),mạng Hopfield và mạng Kohonen.mạng RBF được Broomhed và Lpwe đưa ra vào năm 1988 và ngày càng chứng tỏ hiệu quả trong việc giải các bài toán thực tế.
Hình 8.mạng radial basic
Mạng hopfield là mạng hồi tiếp một lớp với các đặc tính:
Mỗi nút có một tín hiệu vào từ bên ngoài(external input) xi và một ngưỡng Фi.không có tự hồi tiếp wij =0, .đối xứng wij =wji
Luật cập nhật của mỗi nút:
Cập nhật không đồng bộ nghĩa là mỗi thời điểm chỉ cập nhật một nút.mạng Hopfield hiệu quả trong các bài toán tối ưu hóa tổ hợp.
Hình 9.mạng hopfied ba nút
Mạng Kohonen là mạng truyền thẳng không có giám sát dung các neuron thích nghi để nhận các tín hiệu từ không gian sự kiện.Ý tưởng chính trong mạng Kohonen là tạo ra một hệ thống tự sửa đổi sao cho các neuron gần nhau đáp ứng tương tự như nhau.khi một neuron đáp ứng tốt với một tín hiệu vào,neuron này và các neuron kế cận với nó sẽ có các trọng số thay đổi sao cho tất cả đều đáp ứng giống như neuron có đáp ứng tốt nhất.
I.5.MẠNG PERCEPTRON MỘT LỚP
Hình 10. mạng perceptron một lớp với m-1 tín hiệu vào và n tín hiệu ra
Trong đó: xj(k) là tín hiệu vào,j=1,2…..,m(xm = -1)
Wij là trọng số trên nhánh vào thứ j của neuron thứ i
Wim ,i=1,2,….n là các ngưỡng tác động của các neuron
Yi(k) là tín hiệu ra thực của neuron thứ i
a(.) là hàm tác động
di(k) là tín hiệu ra mong muốn của neuron thứ i
{x(k),d(k),k=1,2,….p}là p mẫu huấn luyện mạng neuron sao cho
yi(k) =di(k),k=1,2,….p.
I.5.1 MẠNG TRUYỀN THẲNG NHIỀU LỚP
Định nghĩa hàm Squashing:Hàm a(f):R→[0,1] (hoặc R→[-1,1])được gọi là hàm squashing nếu a(f) không giảm khi f tăng, a(-∞)=0 (hoặc a(-∞)= -1) và a(+∞)=1.
Người ta chứng minh được rằng mọi quan hệ phi tuyến đều có thể được xấp xỉ với độ chính sát tùy ý bởi một mạng truyền thẳng nhiều lớp với số nút ẩn đủ lớn,hàm tích hợp tuyến tính hoặc đa thức và hàm tác động squashing.
Hình 11.mạng truyền thẳng ba lớp
I.5.2 GIẢI THUẬT LAN TRUYỀN NGƯỢC
Giải thuật lan truyền ngược là một trong các giải thuật quan trong nhất trong lịch sử phát triển của các mạng neuron nhân tạo.Giải thuật được sử dụng để huấn luyện các mạng truyền thẳng nhiều lớp với các phần tử xử lý trong mạng có hàm tác động là hàm phi tuyến.cho tập các cặp mẫu huấn luyện vào – ra (x(k),d(k)) với k = 1,2,…p,giải thuật sẽ cung cấp một thủ tục cho việc cập nhật các trọng số trong mạng từ lớp neuron đầu ra tới lớp neuron đầu vào.giải thuật vận hành theo 2 luồng dữ liệu,đầu tiên là các mẫu huấn luyện x(k) được truyền từ lớp neuron đầu vào đến lớp neuron đầu ra và cho kết quả thực sự y(k) của lớp neuron đầu ra.sau đó các tín hiệu sai lệch giữa neuron đầu ra mong muốn d(k) và đầu ra thực sự y(k) của mạng được truyền ngược từ lớp đầu ra đến các lớp đứng trước để cập nhật các trọng số trong mạng.
Giả sử xét mạng truyền thẳng ba lớp như hình 2.12 gồm lớp neuron đầu vào(input layer),lớp neuron ẩn (hidden layer) và lớp neuron đầu ra (output layer)
Lớp neuron đầu vào của mạng có m đầu vào trong đó x1…..,xi..,xm.lớp neuron ẩn có r phần tử xử lý với các đầu ra,đó là z1….,zq…..,zr.và lớp neuron đầu ra của mạng có n phần tử xử lý với n đầu ra,đó là y1….,yi….,yn.trọng số kết nối giữa đầu vào thứ j của lớp neuron đầu vào với phần tử xử lý thứ q của lớp neuron ẩn là vqj và trọng số kết nối giữa phần tử xử lý thứ q của lớp neuron ẩn với phần tử xử lý thứ i của lớp neuron đầu ra là wiq.
Dữ liệu huấn luyện : {x(k),d(k),k =1,2….p}
Lớp ẩn :
Lớp ra :
Hàm mục tiêu :
Luật học delta tổng quát hóa được xây dựng dùng phương pháp gradient descent.
Xét các nhánh nối giữa nút ẩn và nút ra :
Xét các nhánh nối giữa nút vào và nút ẩn :
Luật học lan truyền ngược :
Nhập :Tập các cặp mẫu huấn luyện {x(k),d(k),k =1,2,…..p},trong đó các vector đầu vào với các phần tử cuối cùng được gán bằng -1.
Bước 0 : Khởi động trị
Chọn hằng số học η >0,ngưỡng dừng Emax
Các trọng số có trị nhỏ và ngẫu nhiên
E =0 , K =1
Bước 1 : Lan truyền thuận dữ liệu :
Áp dụng mẫu dữ liệu thứ k
Xác định tín hiệu tại các nút trong mạng
Xác định hàm mục tiêu (2.40)
Xác định tín hiệu học tại các nút (2.42)
Bước 2 : Lan truyền ngược sai lệch :
Cập nhật các vector trọng số (2.41) và (2.43)
Xác định các tín hiệu học (2.44)
Bước 3 : Kiểm tra :
Nếu E > Emax : k =1 ,nhảy đến bước 1
Nếu E ≤ Emax : kết thúc
Trong mạng truyền thẳng nhiều lớp, việc huấn luyện mạng dùng giải thuật lan truyền ngược chịu tác động bởi các yếu tố :
trị khởi động của các trọng số : các trọng số nên khởi động với các giá trị bé và ngẫu nhiên. Các giá trị lớn của vector trọng số có thể làm tác động bão hòa khi bắt đầu học.
hằng số học :η lớn sẽ hội tụ nhanh nhưng có thể gây vọt lố, do đó có thể chọn η giảm dần
Hàm mục tiêu
Luật học
Dữ liệu huấn luyện
Số nút ẩn
Giải thuật gradient descent rất chậm bởi vì nó yêu cầu tốc độ học thấp cho sự ổn định quá trình học.Việc lựa chọn hằng số học η cho phù hợp mạng nhiều lớp là không đơn giản, η quá lớn dẫn đến quá trình học không ổn định và ngược lại η quá nhỏ sẽ làm cho thời gian huấn luyện lớn.
Mạng phụ thuộc vào số neuron có trong lớp ẩn. quá ít neuron sẽ dẫn đến tình
trạng thiếu, quá nhiều neuron sẽ dẫn đến tình trạng thừa.
I.5.3 Một số giải thuật huấn luyện nhanh (faster training)
Hai phương pháp thường được dùng cho mạng lan truyền ngược là gradient descent và gradient descent với momentum, tuy nhiên hai phương pháp này có tốc độ huấn luyện chậm khi áp dụng cho các bài toán thực tế. để nâng cao hơn tốc độ huấn luyện người viết sẽ giới thiệu thêm một vài giải thuật có khả năng thực thi cao và lại có khả năng hội tụ nhanh hơn 10 đến 100 lần so với giải thuật đã trình bày trong phần trước. Các giải thuật này đều hoạt động theo kiểu batch training.
Những giải thuật này đều qui hai loại chính: Loại thứ nhất là dùng kỹ thuật thử và kiểm tra (giải thuật tốc độ học thay đổi và giải thuật Rprop), loại thứ hai là kỹ thuật tối ưu hóa các thông số chuẩn trên mạng ( giải thuật conjugate-gradient, giải thuật Quasi-newton và giải thuật Levenberg-marquardt).
Giải thuật tốc độ học thay đổi(variable learning rate)
Trong giải thuật giảm dốc chuẩn,tốc độ học được giữ cố định trong suốt thời gian huấn luyện. hiệu suất giải thuật này rất nhạy với sự thay đổi của tốc độ học. Nếu tốc độ học quá lớn thì giải thuật sẽ bị dao động và không ổn định. Ngược lại tốc độ học quá nhỏ thì giải thuật sẽ tốn nhiều thời gian để hội tụ.Trong thực tế khó xác định được tốc độ học tối ưu và nó thay đổi trong quá trình xử lý huấn luyện khi giải thuật di chuyển trên mặt phẳng hiệu suất. Tốc độ học thích nghi sẽ cố gắng giữ bước nhảy càng lớn càng tốt mà vẫn giữ việc học ổn định. Tốc độ học sẽ tương ứng với độ phức tạp của mặt phẳng sai số cục bộ.
Giải thuật phục hồi mạng bachproparation (resilient bachpropagation)
Mạng nhiều lớp thường sử dụng hàm tác động sigmoid trong các lớp ẩn.Những hàm này thường gọi là hàm squashing vì chúng nén vùng ngõ vào vô hạn thành vùng ngõ ra hữu hạn.Hàm sigmoid có đặc tính là độ dốc của hàm đạt zero khi ngõ vào lớn.Đây chính là vấn đề khi sử dụng giải thuật steep descent để huấn luyện mạng đa lớp dùng hàm sigmoid.Vì gradient có thể có biên độ rất nhỏ,do đó trọng số và ngưỡng chỉ thay đổi nhỏ cho dù trọng số và ngưỡng ở rất xa giá trị tối ưu.
Mục đích giải thuật resilient bachpropagation là loại bỏ các hậu quả về biên độ của các đạo hàm riêng, chỉ sử dụng dấu của đạo hàm để xác định việc cập nhật trọng số.Độ lớn của đạo hàm không ảnh hưởng đến việc cập nhật trọng số.Độ thay đổi trọng số dựa trên cập nhật riêng lẽ.Gía trị cập nhật của mỗi trọng số và ngưỡng tăng bởi hệ số del-inc khi đạo hàm của hàm hiệu suất tại trọng số tức thời cùng dấu với hai lần lặp tiếp theo ngược lại trọng số và ngưỡng giảm bởi hệ del-dec khi đạo hàm của hàm hiệu suất ứng với trọng số hiện tại đổi dấu so với lần lặp trước đó.Nếu đạo hàm bằng không thì giá trị cập nhật giữ nguyên.Khi trọng số dao động thì trọng số sẽ giảm,nếu trọng số tiếp tục thay đổi trên cùng một hướng sau nhiều vòng lặp thì biên độ thay đổi trọng số sẽ giảm
Giải thuật conjugate-gradient
Giải thuật bachpropagation cơ bản điều chỉnh trọng số theo hướng giảm dốc nhất.Đây là hướng mà hàm hiệu suất giảm nhanh nhất.Mặc dù giảm nhanh theo hướng gradient nhưng không có nghĩa hội tụ nhanh.Trong các giải thuật conjugate-gradient sẽ tìm dọc theo hướng liên hợp,Thông thường tạo ra độ hội tụ nhanh hơn hướng giảm dốc nhất.Có bốn phương pháp khác nhau về giải thuật conjugate-gradient :
Trong hầu hết các giải thuật huấn luyện đã được trình bày,tốc độ học dùng để xác định độ dài cập nhật trọng số(kích thước nấc).Còn trong các giải thuật conjugate-gradient, kích thước nấc sẽ thay đổi sau mỗi lần lặp.giải thuật sẽ tìm dọc theo hướng gradient kết hợp để xác định kích thước nấc cực tiểu hóa hàm hiệu suất.
Giải thuật cập nhật Fletcher – Reeves
Tất cả các giải thuật conjugate – gradient đều bắt đầu bằng việc định hướng giảm dốc nhất ớ bước lặp đầu tiên (gradient âm) p0 = -g0.
Định hướng sau đó sẽ thực hiện để xác định khoảng tối ưu di chuyển dọc theo hướng tìm hiện tại:
Xk+1 = xk + αkpk
Hướng tìm kiếm tiếp theo được xác định bằng cách lấy liên hợp hướng trước đó.Thủ tục tổng quát để xác định hướng tìm mới là kết hợp hướng giảm dốc mới với hướng tìm được trước đó.
Pk = -gk + βkpk-1
Sự phân biệt các giải thuật conjugate – gradient dựa trên cách tính βk.đối với phương pháp Fletcher – Reeves ,βk được tính như sau :
Giải thuật cập nhật Polak – Ribiera
Đây là phương pháp khác của giải thuật conjugate – gradient.
Tương tự như phương pháp Fletcher – reeves ,hướng tìm của mỗi vòng lặp được xác định:
Giải thuật khởi động lại Powell – Beale
Đối với các giải thuật conjugate – gradient ,hướng tìm sẽ được khởi động sau mỗi chu kỳ.Điểm khởi động chuẩn xuất hiện khi số chu kỳ bằng thông số của mạng.Phương pháp Powell – Beale sẽ tăng hiệu xuất huấn luyện,khởi động lại về giá trị âm gradient nếu giá trị trực giao giữa gradient cũ và mới còn lại rất nhỏ,nghĩa là thõa điều kiện :
Giải thuật Scale conjugate – gradient
Trong mỗi thuật toán comjugate – gradient đều yêu cầu hướng tìm ở mỗi vòng lặp.Việc tìm hướng rất phức tạp vì yêu cầu mạng đáp ứng cho tất cả các ngõ vào huấn luyện và được tính nhiều lần trong mỗi vòng lặp.giải thuật Scale conjugate – gradient tránh sự phức tạp này.
I.5.4 Các vấn đề cần xử lý trước khi huấn luyện
Chuẩn hóa biến vào và biến đích làm cho quá trình huấn luyện tốt hơn.Hàm premnmx sử dụng để chuẩn hóa ngõ vào và đích trong khoảng [-1,1].do hàm premnmx chuẩn hóa giá trị vào,đích nên giá trị ngõ ra của mạng nằm trong khoảng [-1,1].Để đổi giá trị ngõ ra trở về bình thường ta sử dụng hàm Postmnmx.Nếu hàm premnmx dùng để tiền sử lý tập huấn luyện thì bất cứ khi nào mạng được huấn luyện với giá trị vào mới ta sử dụng hàm tramnmx để chuẩn hóa giá trị vào.Kỹ thuật khác dùng để phân đoạn giá trị vào,đích của mạng chuẩn hóa là trung bình và phương sai chuẩn.Hàm prestd chuẩn hóa ngõ vào,đích sao cho có giá trị trung bình là zero và phương sai chuẩn đơn vị.Hàm poststd biến đổi ngõ ra của mạng trở lại giá trị trung thường.Nếu ta muốn mạng được huấn luyện với giá trị vào mới ta sử dụng hàm trastd để chuẩn hóa giá trị vào.
I.6.TRÌNH TỰ THIẾT KẾ MẠNG NEURON ỨNG DỤNG
Mạng neuron là một công cụ tốt cho phép xấp xỉ lớp tương đối quan hệ phụ thuộc hàm giữa tín hiệu ra y(n) và tín hiệu vào x(n) của một hệ thống nào đó.Điểm mạnh của mạng neuron là khả năng thích nghi khi tập dữ liệu huấn luyện (x,d) được cập nhật thường xuyên.
Quá trình thiết kế mạng neuron thường trải qua các bước:Xác định bài toán, xác định các biến vào ra, thu thập dữ liệu, tiền xử lý dữ liệu, lựa chọn mô hình mạng neuron, huấn luyện mạng, thử nghiệm mạng và cuối cùng là tinh chỉnh mạng
Xác định bài toán :Tùy theo yêu cầu bài toán cần giải quyết cụ thể mà có thể xác định thuộc bài toán phân lớp dữ liệu hoặc nhận dạng hoặc mô hình hóa hoặc biến đổi không gian biểu diễn.
Xác định các biến vào ra : Xác định các biến vào/ra và miền giá trị của các biến đó.
Thu thập dữ liệu : Thu thập môt lượng lớn các mẫu dữ liệu đảm bảo nguyên tắc ngẫu nhiên, khách quan và phủ toàn bộ không gian đầu vào.Đối với các dữ liệu biến động kiểu chuỗi thời gian thì cần đảm bảo trình tự các sự kiện sao cho tạo ra các thông tin cốt lõi về đối tượng.Đối với các dữ liệu ngẫu nhiên có dạng hoàn toàn độc lập nhau thì phải bảo đảm đã quét hết các dạng cần thiết.
Tiền xử lý dữ liệu : Thông thường tập dữ liệu thu thập được cần phải xử lý để đảm bảo các yêu cầu :Dữ liệu mẫu phân bố đồng đều ,đủ đại diện cho tất cả các dạng trong một phân hoạch không gian nào đó,Dữ liệu được thu gọn trong mô hình mạng neuron phù hợp.
Lựa chọn mô hình mạng neuron : Tùy theo bản chất xử lý dữ liệu của bài toán mà ta lựa chọn mạng neuron phù hợp
Huấn luyện mạng : Các thao tác thực hiện bao gồm:
phần dữ liệu mẫu thành ba tập con: tập mẫu học, tập kiểm soát( để xác định khi nào dừng quá trình học) và tập kiểm thử(để kiểm t