Главная Обратная связь

Дисциплины:






Типи задач відображення і підходи до їх вирішення



Відображення розглядають як функцію f, визначену на множині Х, яка приймає свої значення серед елементів множини Y і кожному елементу з Х має відповідати один і лише один елемент з Y. Пару векторів X®Y називають прикладом або реалізацією.

В задачах відображення нейромережі здійснюють оцінювання та передбачення поведінки об'єктів, в тому числі систем та процесів, що підлягають певним законам і можуть бути задані сукупністю своїх реалізацій. Кожна реалізація повинна містити набір ознак, які визначають основний зміст об'єкта. Якщо однією з ознак об'єкта дослідження є час, тоді реалізації можуть бути представлені у вигляді часових рядів.

В більшості реальних об'єктів дослідження можливо виділити їх основні складові:

  • детермінована складова, яка в принципі підлягає точному передбаченню;
  • імовірнісна складова, яку можна передбачити з заданим ступенем ймовірності;
  • чисто випадкова складова, яку неможливо ні врахувати, ні передбачити.

В залежності від ступеня впливу тієї чи іншої складової, можна говорити про певний тип множин даних, що використовується для навчання НМ:

  • множина даних детермінована, з усіма врахованими основними параметрами, викликаними дією відомих причин, яка характеризується малим рівнем шумів;
  • множина даних з наявністю імовірнісної складової, що випливає з експериментальної постановки задачі, з різним ступенем врахування діючих факторів та з впливом похибок оцінювання;
  • множина даних з наявністю чисто випадкової складової внаслідок не врахування ряду визначальних ознак явища.

Такий поділ слід вважати приблизним, але при оцінюванні об'єкту дослідження потрібно обирати такі ознаки, для яких можливе зменшення чисто випадкової складової, оцінювання імовірнісної складової і максимальне збільшення детермінованої частини.

Задачі відображення можна розбити на два основних класи: класифікація і регресія.

У задачах класифікації потрібно визначити, до якого з декількох заданих класів належить даний вхідний набір. Прикладами можуть служити надання кредиту, діагностика захворювань, розпізнавання образів.

У задачах регресії потрібно передбачати значення змінної, що приймає неперервні числові значення: ціна акцій, витрата палива в автомобілі, прибуток кампанії і т.п.

Передбачення явищ можна поділити на:

  • передбачення відгуків для множини дискретних вхідних даних, не пов'язаних із часом (економічні, соціологічні оцінки та ін.); дані представлені у таблиці;
  • прогнозування явищ, які безперервно змінюються у часі (фізичні процеси, природні явища, тощо); дані представлені у вигляді часових рядів.

Для вирішення задачі за допомогою нейронної мережі, необхідно зібрати дані для навчання. Навчальна множина даних являє собою набір прикладів, для яких відомо значення вхідних і вихідних параметрів. Перше, що потрібно вирішити, - які параметри використовувати і скільки прикладів вибрати.



Початково, вибір параметрів здійснюється інтуїтивно. Досвід роботи в обраній предметній області допоможе визначити, які змінні є важливими. Для початку має сенс включити всі змінні, які, на Вашу думку, можуть впливати на результат - на наступних етапах цю множину можна скоротити.

Для забезпечення обґрунтованого вибору, вилучення несуттєвих ознак, що вносять додаткові спотворення при навчанні, можливе застосування відомих методів математичної статистики.

Факторний аналіз. Внесок кожної вхідної ознаки можна оцінити також за її впливом на середнє значення вихідної величини. Нехай зовнішній вихід моделі НМ залежить від декількох факторів

y=f(a1x1, a2x2, ..., aixi...)

Оберемо деякий фактор аіхі. Для всіх реалізацій навчальної множини визначимо значення вихідної величини при наявності та відсутності цього фактору. Обчислимо дисперсію, викликану відсутністю фактора аіхі.

де Y*, Y - відповідно значення середньої величини при відсутності та наявності фактора аіхі.

Визначаємо інтервал DaI=± 2Sai, в який не повинна попадати оцінка коефіцієнтів аі. При малих коефіцієнтах даний фактор вилучається.

Кореляційний аналіз. Деякі з параметрів, що приймаються до уваги, справляють незначний вплив на формування виходів і можуть бути відкинуті. В якості показника взаємозалежності між системою вхідних величин X=(X1, X2, ..., Xn) і вихідних величин Y , можна вибрати коефіцієнт парної кореляції (наприклад вхідної змінної X1, та вихідного значення Y)

,

де ; ; N - число реалізацій.

Значення k < 0,6 вважають за порогове. Наприклад, при знаходженні коефіцієнтів кореляції між виходом та входами можна визначити ступінь впливу кожного вхідного параметру на вихід, і використати даний показник для ранжування входів.

Ранжування входів. При проведенні прогнозування, суттєвим для якості прогнозу є врахування реального впливу кожного параметра входу x(х1, ..., хn) на вихідний вектор y. За допомогою кореляційного аналізу обчислюються заздалегідь коефіцієнти парної кореляції між виходом y та кожним з параметрів входу х1, ..., хj, ..., хn, що дозволяє сформувати вхідну матрицю згідно ступеня впливу кожного параметра і дозволяє застосувати принцип ранжування входів, який узгоджується з будовою біологічного нейрона. В нейромережу вводиться єдиний параметр для всіх входів мережі - коефіцієнт зважування Kf, який може приймати значення в діапазоні від 0 до 1.

Рис. 1. Вплив коефіцієнта зважування входів.

Для 1 входу всі значення параметра х1 не змінюються, для 2 входу зменшуються в Kf1 разів, а для останнього n-го входу вага параметра xn зменшується в Kfn-1 разів (рис. 1). При Kf=1 всі входи рівнозначні, при Kf=0 враховується лише перший вхід, решта входів ігнорується, при 0<Kf<1 зменшується вплив несуттєвих параметрів на вихідну величину y.

Такий підхід вимагає проведення попереднього аналізу інформації, але значне покращення точності прогнозу підтверджує його ефективність.

Всяка нейронна мережа приймає на вході числові значення і видає на виході також числові значення. Передатна функція для кожного елемента мережі звичайно вибирається таким чином, щоб її вхідний аргумент міг приймати довільні значення, а вихідні значення лежали б у строго обмеженому діапазоні. При цьому, хоча вхідні значення можуть бути будь-якими, виникає ефект насичення, коли елемент виявляється чуттєвим лише до вхідних значень, що лежать у деякій обмеженій області (наприклад, сигмоїдні або S - функції). У цьому випадку вихідне значення завжди буде лежати в інтервалі (0,1), а область чутливості для входів ледь ширше інтервалу (-1,+1). Дана функція є гладкою, а її похідна легко обчислюється - ця обставина дуже істотна для роботи алгоритму навчання мережі (у цьому також криється причина того, що порогова функція для цієї мети практично не використовується).

При використанні нейронних мереж можуть виникати деякі проблеми, зокрема:

  • дані мають нестандартний масштаб,
  • дані є нечисловими,
  • в даних є пропущені або недостовірні значення.

Числові дані масштабуються в придатний для мережі діапазон. Звичайно дані масштабуються по лінійній шкалі. У пакетах програмних нейромереж реалізовані алгоритми, що автоматично знаходять масштабуючі параметри для перетворення числових значень у потрібний діапазон.

Більш важкою задачею є робота з даними нечислового характеру. Нехай, потрібно навчити нейромережу оцінювати вартість об'єктів нерухомості. Ціна будинку залежить від того, у якому районі міста він розташований. Місто може бути поділено на кілька десятків районів, що мають власні назви, і здається природним увести для позначення району змінну з номінальними значеннями. На жаль, у цьому випадку навчити нейронну мережу буде дуже важко, і замість цього краще привласнити кожному району визначений ранг (ґрунтуючись на експертних оцінках).

Найчастіше нечислові дані бувають представлені у виді номінальних змінних. Номінальні змінні можуть бути двозначними (наприклад, Стать ={Чоловік, Жінка}) або багатозначними (тобто приймати більше двох значень станів). Двозначну номінальну змінну легко перетворити в числову (наприклад, Чоловік = 0, Жінка = 1). З багатозначними номінальними змінними справа обстоїть складніше. Їх теж можна представити одним числовим значенням (наприклад, Собака = 0, Миша = 1, Кішка = 2), однак при цьому виникне (можливо) помилкове впорядкування значень номінальної змінної: у розглянутому прикладі Миша виявиться чимось середнім між Собакою і Кішкою. Існує більш точний спосіб, відомий як кодування 1-из-N, в якому одна номінальна змінна представляється декількома числовими змінними. Кількість числових змінних дорівнює числу можливих значень номінальної змінної; при цьому всякий раз рівно одна з N змінних приймає ненульове значення (наприклад, Собака = {1,0,0}, Миша = {0,1,0}, Кішка = {0,0,1}). На жаль, номінальна змінна з великим числом можливих станів потребує при кодуванні методом 1-из-N дуже великої кількості числових змінних, а це приводить до росту розмірів мережі і створює труднощі при її навчанні. В таких ситуаціях краще спробувати знайти інший спосіб представлення даних.

Нечислові дані інших типів можна або перетворити в числову форму, або оголосити незначними. Значення дат і часу, якщо вони потрібні, можна перетворити в числові, віднімаючи з них початкову дату (час). Позначення грошових сум перетворити зовсім нескладно. З довільними текстовими полями (наприклад, прізвищами людей) працювати не можна і їх потрібно зробити незначними.

У багатьох реальних задачах приходиться мати справу з не зовсім достовірними даними. Значення деяких змінних можуть бути спотворені шумом чи частково бути відсутніми. Існують спеціальні засоби роботи з пропущеними значеннями (вони можуть бути замінені на середнє значення цієї змінної чи на інші її статистики), так що якщо даних не багато, можна включити в розгляд випадки з пропущеними значеннями. Нейронні мережі у цілому стійкі до шумів. Однак у цієї стійкості є межа. Наприклад, викиди, тобто значення, що лежать дуже далеко від області нормальних значень деякої змінної, можуть спотворити результат навчання. У таких випадках найкраще постаратися знайти і виявити ці викиди (вилучити відповідні приклади або перетворити викиди в пропущені значення). Якщо викиди виявити важко, то можна скористатися можливостями зробити процес навчання стійким до викидів, однак таке стійке до викидів навчання, як правило, менш ефективно, ніж стандартне.

Згладжування даних. Позитивний ефект надається при використанні додаткової нейромережі, що функціонує в режимі згладжування вхідних даних навчальної множини. В режимі навчання додаткової мережі кожна реалізація навчальної множини набуває вигляду: вектор вхідних значень® вектор вхідних значень (рис. 3).

Рис. 3. Приклад застосування нейромережі для згладжування даних

В режимі функціонування на входи подаються вхідні значення навчальної множини, на виході отримуємо згладжені значення, без наявних викидів, які в подальшому можна використовувати для опрацювання. Можна дати наступне пояснення ефекту згладжування даних. Залежність вихідних значень нейромережі від вхідних може бути представлена сумарним степеневим поліномом, так як передатні функції нейронів прихованого шару - поліноміальні. При незначному числі нейронів прихованого шару і невисоких степенях поліномів сумарний поліном буде невисокого степеня, що не дає можливості відтворювати викиди, тобто приводить до згладжуваного відтворення.

Питання про те, скільки прикладів потрібно мати для навчання мережі, часто виявляється непростим. Відомо ряд правил, що погоджують число необхідних прикладів з розмірами мережі (найпростіше з них говорить, що число прикладів повинне бути в десять разів більше числа зв'язків у мережі). Насправді це число залежить також від складності того відображення, що нейронна мережа прагне відтворити. З ростом кількості параметрів кількість необхідних прикладів росте нелінійно, так що вже при досить невеликому числі параметрів може знадобитися величезне число прикладів.

Для більшості реальних задач буває досить декількох сотень чи тисяч прикладів. Для особливо складних задач може знадобитися ще більша кількість, однак дуже рідко може зустрітися задача, де вистачило б менш сотні прикладів. Якщо даних менше, то інформації для навчання мережі недостатньо.





sdamzavas.net - 2017 год. Все права принадлежат их авторам! В случае нарушение авторского права, обращайтесь по форме обратной связи...