Чому моделі машинного навчання називаються чорними ящиками?

Я читав це повідомлення в блозі під заголовком: Фінансовий світ хоче відкрити чорні скриньки AI , де автор неодноразово називає моделі ML" чорними ящиками ".

A similar terminology has been used at several places when referring to ML models. Why is it so?

Це не так, як інженери ML не знають, що відбувається всередині нейронної мережі. Кожен шар вибирається інженером ML, знаючи, яка функція активації використовувати, що такий тип шару, як поширюється помилка, і т. Д.

35
Трохи релевантні: stats.stackexchange.com/a/297476/100456
додано Автор melaos, джерело
@iaacg - інженер ML може легко з'ясувати, що таке вага. Чорна скринька більше пов'язана з тим, що не знає чому вагами є те, що вони є, і які ті ваги мають відношення до реального світу. Тому він ще більш тонкий.
додано Автор josh, джерело
Щось трохи витончено: інженер ML знає всю структуру - скільки шарів, функцій активації і т. Д. Те, що вони не знають, саме ваги. Але модель ML настільки визначається своїми вагами, що оцінка моделі з певним набором ваг не може (в даний час) бути інтерпретована, пояснена або зрозуміла людям, навіть експертним людям, які повністю розуміють структуру.
додано Автор Raboo, джерело
Інше пов'язане питання: datascience.stackexchange.com/q/33524/53479
додано Автор mapto, джерело

10 Відповіді

Річ чорного ящика не має нічого спільного з рівнем досвіду аудиторії (якщо аудиторія є людиною), але з функцією explainability функцією, яка моделюється алгоритм машинного навчання.

У логістичній регресії існує дуже просте співвідношення між входами та виходами. Ви іноді можете зрозуміти, чому певна вибірка була неправильно каталогізована (наприклад, оскільки значення певного компонента вхідного вектора було занадто низьким).

Те ж саме стосується дерев рішень: ви можете слідувати логіці, застосованому деревом, і зрозуміти, чому певний елемент був призначений для одного класу або іншого.

Однак глибокі нейронні мережі є парадигмальним прикладом алгоритмів чорного ящику. Ніхто, навіть сама експертна людина світу, не розуміє функції, яка насправді моделюється навчанням нейронної мережі. Погляд на це може бути забезпечений змагальними прикладами : деякі невеликі (і непомітні за допомогою людина) зміна навчального зразка може призвести до того, що мережа думає, що вона належить до абсолютно іншої етикетки. Є кілька методів для створення зразкових прикладів та деяких методів покращення стійкості до них. Але, враховуючи те, що насправді ніхто не знає всіх відповідних властивостей моделі, яку моделює мережа, завжди можна знайти новий спосіб їх створення.

Люди також є чорними ящиками, і ми також чутливі до змагальних прикладів .

48
додано
Логіка дерев вирішення може слідувати теоретично , але часто це не практично. Я не бачу, де фундаментальна відмінність від НН.
додано Автор melaos, джерело
До речі, я використовував та бачив використаний чорний ящик з точки зору відсутності досвіду/інтересу до вивчення навіть основи використовуваного інструменту.
додано Автор melaos, джерело
@МартінТома узгоджений та оновлений.
додано Автор Kiran Padre, джерело
"Але з огляду на те, що ніхто фактично не знає функцію, яка моделюється мережею". Це неправильно/вимовлено погано. Якщо ми точно не знали, яка функція була змодельована, ми не змогли їх тренувати, ані використовувати їх для прогнозування. Ми знаємо, що точно , яка функція моделюється. Ми не знаємо (усі) відповідні властивості цього. І ця функція складна. Але це зовсім інше твердження.
додано Автор Dougal, джерело
(+1) Але ніздрю. Логістична регресія не робить класних завдань, вона лише намагається оцінити умовні ймовірності. Аналогічно з правильно використаною класифікацією дерева. Завдання класу накладаються людьми, яким потрібно приймати рішення, а не самими алгоритмами ML.
додано Автор Philip Roe, джерело

Хоча я погоджуюся на відповідь ncasas у більшості точок (+1), я прошу розрізняти деякі:

  • Рішення Дерева також можуть бути використані як моделі чорної коробки. Фактично, я б сказав, що в більшості випадків вони використовуються як моделі чорної коробки. Якщо у вас є 10 000 функцій і дерево глибиною 50, ви не можете розраховувати, щоб люди зрозуміли це.
  • Нейронні мережі можна зрозуміти. Є багато методів аналізу (див. розділ 2.5 моєї магістерської роботи для деяких, які спрямовані на вдосконалення моделі) . Особливо ексклюзивний аналіз (Малюнок 2.10), фільтрувальна візуалізація (мал. 2.11). Також чому я повинен довіряти вам? ( мої замітки ).

Explaining the prediction of a black-box model by fancy occlusion analysis (from "Why should I trust you?"): enter image description here

Я хотів би вказати на міфоси інтерпретаційності моделей . Він формулює деякі уявлення про інтерпретацію в стислій формі.

Твоє запитання

Чому моделі машинного навчання називаються чорними ящиками?

How people use it: Because they do not model the problem in a way which allows humans to directly say what happens for any given input.

Особисті думки

Я не думаю, що це поняття "моделі чорної скриньки" має сенс. Наприклад, подумайте про прогноз погоди. Ви не можете очікувати, що хтось скаже, яка прогнозована погода, якщо йому дані лише дані. Але більшість людей не скаже, що моделі фізичної погоди являють собою моделі чорного ящику. Отже, де це різниця? Чи тільки той факт, що одна модель була згенерована за допомогою даних, а інша була згенерована, використовуючи уявлення про фізику?

Коли люди говорять про моделі чорної коробки, вони зазвичай говорять, що це погано. Але люди також є чорними моделями. Критична різниця, яку я бачу тут, полягає в тому, що клас помилок, зроблених людьми, легше передбачати для людей. Звідси виникає проблема тренінгу (авангардні приклади з боку Н. Н.) та проблема освіти (навчання людей як НН працюють).

How the term 'black-box model' should be used: An approach which makes more sense to me is to call the problem a "black box problem", similar to what user144410 (+1) writes. Hence any model which only treats the problem as a black box - hence something you can put input in and get output out - is a black box model. Models which have insights (not only assume!) about the problem are not black-box models. The insight part is tricky. Every model makes restrictions on the possible function which it can model (yes, I know about the universal approximation problem. As long as you use a fixed-size NN it doesn't apply). I would say something is an insight into the problem if you know something about the relationship of input and output without poking the problem (without looking at data).

Що випливає з цього:

  • Нейронні мережі можуть бути не червоними (whitebox?)
  • Логістична регресія може бути моделлю чорної коробки.
  • Це більше про проблему та ваші уявлення про неї, а про модель менше.
15
додано
Дякую. Ваші відповіді завжди приємно читати :)
додано Автор Serge, джерело
Ви можете :-) І дякую вам за симпатичні слова :-) Будь ласка, візьміть мою відповідь на своє запитання зерном солі. Я теж не надто впевнений у цьому. Я не думаю, що є певна відповідь, оскільки люди використовують це слово без визначення для нього. Таким чином, з одного боку, використання між людьми, ймовірно, відрізняється, а з іншого боку, навіть така одна особа може не використовувати її завжди однаково.
додано Автор Dougal, джерело

Це зводиться до моделі інтерпретації та поясненності. З огляду на висновок простішої моделі, можна точно визначити, як кожен вхід сприяє моделюванню вихідних даних, але це ускладнює, оскільки моделі стають більш складними. Наприклад, за допомогою регресії ви можете вказувати на коефіцієнти, за допомогою дерева рішень ви можете визначити розбиття. І з цією інформацією ви можете отримати правила для пояснення поведінки моделі.

Однак, оскільки кількість параметрів моделі збільшується, стає все важче точно пояснити, які сполучення вводу призводять до виходу кінцевої моделі, або виводять правила з поведінки моделі. Скажіть у фінансовій індустрії, коли COO приходить і запитує "так, чому ваша висока частота торгуючого алго налаштовує економіку", він не хоче чути, як він був побудований, саме тому він надіслав йому банкрутство. Можна буде сказати, як побудована модель, але може бути неможливо пояснити, які комбінації факторів, які отримала модель, як результат, призвели до виходу, і тому люди говорять про чорні ящики.

6
додано

Моделі чорної коробки - це будь-які математичні моделі, чиї рівняння вибрані як можна більш загальними та гнучкими, не покладаючись на будь-які фізичні/наукові закони.

Моделі сірого коробки є математичними моделями, де частина рівнянь (математична функція) походить від фізичних відомих законів, але решту частину вважається загальною функцією для компенсації незрозумілих частин.

Моделі "білої коробки" - це математичні моделі, повністю побудовані на фізичних законах і розумінні системи, як, наприклад, закони механічного руху (модель літаків .. і т.д.)

See: https://en.wikipedia.org/wiki/Mathematical_model#A_priori_information

4
додано
Цікаве визначення! Давайте розглянемо кілька прикладів: логістична регресія, SVM, NN, дерева decion - це всі моделі чорного ящику. Залежно від контексту, байєські моделі можуть бути у всіх трьох категоріях. Моделі погоди - це моделі білого або сірого коробки.
додано Автор Dougal, джерело
Я повинен не погодитися з цією відповіддю. Ви малюєте різницю між емпіричними моделями та моделями, заснованими на фізичній теорії. Однак, будь-який тип моделі може бути білим чи чорним ящиком залежно від того, як він упакований.
додано Автор CamilB, джерело
Термін "чорний ящик" стосується базової "справжньої" системи та пов'язаний з проблемою вибору структури моделі.
додано Автор ina, джерело
"Сучасний термін" чорний ящик ", здається, вступив до англійської мови приблизно в 1945 році. В теорії електронних схем процес синтезу мережі від передавальних функцій, що призвело до того, що електронні схеми розглядаються як" чорні ящики ", що характеризуються їх реакцією на сигнали, що застосовуються до своїх портів можна простежити до Вільгельма Кауера, який опублікував свої ідеї у найбільш розвиненій формі в 1941 році ... "Джерело: en.wikipedia.org/wiki/Black_box#History
додано Автор ina, джерело

В повідомленні блогу, про який йдеться у питанні, дискусія полягає в тому, що експерти, які розробляють моделі машинного навчання в фінансовій сфері, не можуть пояснити своїм клієнтам (фінансистам, які не мають навчання в галузі машинного навчання), як модель приймає рішення, які вона робить .

Це виділяє різницю між моделями, які є чорними ящиками, через те, що інформація дійсно таємна (наприклад, коефіцієнти кодуються в FPGA, захищеному від несанкціонованого доступу) та відкриті моделі (в тому розумінні, що коефіцієнти відомі), але не зрозумілі до певної аудиторії .

Цей останній вид "чорної скриньки" є проблематичним, тому що клієнти хочуть запевнити себе, що модель, яку ви побудували, має "справжність обличчя". З іншими типами моделей, такими як логістична регресія, порівняно легко розглянути коефіцієнти та перевірити наявність очікуваних ознак плюс чи мінус - навіть математично неграмотний МВА це може зрозуміти.

3
додано

Чорна скринька, як ви знаєте, посилається на функцію, в якій ви знаєте підпис входів і виходів, але не можете знати, як він визначає вихід із входів.

Використання цього терміну неправильно виправлено в даному випадку. Може бути, за межами письменницької/авторської готовності або здатності знати та розуміти моделі ML, але це не означає, що вона не залежить від бажання або можливостей інших. Інженери, які створюють кожну ML-модель, точно знають, як це працює, і може за бажанням витягнути дерево рішень і піти на це. Просто тому, що хтось може бути ліньким, або може зайняти деякий час, щоб це зробити, не означає, що інформація не є легко доступною для споживання.

Моделі ML - це не чорні ящики, вони чіткі ящики, які просто великі.

3
додано

Інженери ML не знають, що відбувається всередині нейронної мережі

Вибачте, що суперечить вам, але це правда. Вони знають, як дізнаються нейронні мережі, але вони не знають, що отримала якась нейронна мережа. Логіка, отримана нейронними мережами, загальновідомо незрозуміла.

Точка використання машинного навчання, як правило, полягає в вивченні правил, які експертом з програмування або домену не здається. Це по суті важко з'ясувати.

Це аналогічно до звичайної комп'ютерної програми, написаної з іменем змінної однієї літери, без коментарів, очевидної структури, використанням неясної математики, а також усім, хто зараз є мертвим. Ви можете пройти через нього в відладчику, але все ще далеко не зрозуміло, як це працює.

Рідко хтось займає труднощі, щоб з'ясувати, що робить нейронна мережа. Наприклад, алгоритм мін-конфліктів було виявлено шляхом аналізу нейронної мережі, навченої на Проблема з N-Queen . Але це дуже багато роботи.

2
додано
Те ж саме можна сказати і про деякі лінійні методи, наприклад PCA, просто формула в DL більш складна.
додано Автор melaos, джерело

Я думаю, що концепція чорного ящика , що використовується таким чином, походить із чорного поля тестування програмного та апаратного забезпечення якості. Саме тоді ви або не хочете/чи навіть не можете дивитись і бачити внутрішню роботу того, що ви тестуєте. Це може бути з причини, що це буде

  1. недоцільно або неможливо зазирнути в неї (це в герметичному середовищі, і ми просто не можемо розглянути це) - але це також може бути

  2. тому що є більший шанс писати дерьмові тести, якщо можна побачити всередину. Більший ризик (з наміром або без наміру) "написання тестів, призначених для передачі".

Написання тесту підходить для того, що випробовується, знижуючи шанси насправді знайти щось.

Для висококваліфікованого інженера сигналу було б відмінно можливим зазирнути в внутрішню роботу нейронної мережі та перевірити, які функції вибираються для певної навчальної послідовності.

2
додано

Навчання машин можна вважати чорними ящиками, можна моделювати рішення для проблеми XOR з використанням нейронних мереж, але, оскільки кількість входів збільшується, то й складність і розміри. Якщо це занадто складно зрозуміти і пояснити, то це чорний ящик, незалежно від того, чи можемо ми обчислити результати чи ні

Ми можемо сприймати їх лише до 3-х вимірів, але цього достатньо, тому що ми можемо екстраполювати це до більших розмірів, використовуючи модель 3d як точку відліку. Ми можемо уявити місцеві мінімуми, а також частини наборів даних, які частково вивчені.

Я протримав ідею на деякий час, і тому я зробив анімацію нейронних мереж на роботі і вдосконалив моє розуміння нейронних мереж. Я видав анімацію з 1 і 2 прихованими шарами (3-й здебільшого зроблено) і як вони вивчають дані.

Анімація повільна, а верхня правий анімації, що показує верхні шари, варто переглядати, якщо ви хочете, ви можете прискорити анімацію на YouTube, значні зміни можна побачити у верхній правій анімації з синьою та червоною сіткою в 3:20 помаранчевий і Червона сітка в 6 хв., Синя, помаранчева та червона сітка о 8:20. Напрямки зміни ваги, очевидно, внизу лівої анімації

https://www.youtube.com/watch?v=UhQJbFDtcoc

1
додано

Методи чорної скриньки важко пояснити "непосвячених". Будь-хто в фінансах та інших сферах може зрозуміти основи регресії або навіть дерева рішень. Розпочніть розмову про підтримку гіперплоскостей векторної машини та функції нейромережевих сигмоїдів, і ви втратите більшість аудиторій

0
додано
Штучний інтелект Dev UA
Штучний інтелект Dev UA
212 учасників

Штучний інтелект, машинне навчання, Data Science