Элементы в нейронных сетях - Искусственный интеллект

Копия Глава 20. Статистические методы обучения

Элементы в нейронных сетях

Нейронные сети состоят из узлов, или элементов (см. рис. 20.15), соединенных направленными связями. Связь от элемента j к элементу i служит для распространения активацииот j к i. Кроме того, каждая связь имеет назначенный ей числовой вес, который определяет силу и знак связи. Каждый элемент i прежде всего вычисляет взвешенную сумму своих входных данных:

Затем он применяет к этой сумме функцию активации д, чтобы определить, какими должны быть выходные данные:

(20.10)

Обратите внимание на то, что в эту формулу входит смещенный вес, относящийся к постоянному входному значению а0=-1. Роль, которую играет эта величина, будет описана немного позже.

Функция активации д предназначена для выполнения двух назначений. Во-первых, необходимо, чтобы элемент был "активным" (находился на уровне активации примерно + 1) при наличии "правильных" входных данных и "неактивным" (с уровнем активации, близким к 0) при получении "неправильных" входных данных. Во-вторых, функция активации должна быть нелинейной, поскольку в противном случае произойдет сворачивание всех функций активации нейронной сети в простую линейную функцию (см. упр. 20.17). Два варианта формы функции активации д показаны на рис. 20.16— пороговая функция и сигмоидальная функция (называемая также логистической функцией). Преимуществом сигмоидальной функции является то, что она дифференцируема, а это, как показано ниже, — важное свойство для алгоритма обучения с учетом весов. Обратите внимание на то, что обе функции имеют пороговое значение (либо жесткое, либо мягкое) около нуля; смещенный весзадает фактическое пороговое значение для данного элемента в том смысле, что элемент активизируется после того, как взвешенная сумма "реальных" входных данных

(т.е. сумма, из которой исключен смещенный вход) превышает

Рис. 20.16. Основные виды функций активации: пороговая функция активации, которая выводит 1, когда входные данные являются положительными, и 0— в противном случае (иногда вместо нее используется знаковая функция, которая выводит ± 1 в зависимости от знака входного значения) (а); сигмоидальная функция(б)

Представление о том, как работают отдельные элементы, можно получить, сравнив их с логическими элементами. Одной из первоначальных причин, по которым исследователи занялись проектированием отдельных элементов [1017], была способность элементов представлять основные булевы функции. На рис. 20.17 показано, как можно представить булевы функции AND, OR и NOT с помощью пороговых элементов, входам которых назначены подходящие веса. Такое свойство является важным, поскольку оно означает, что эти элементы можно использовать для создания сети, обеспечивающей вычисление любой булевой функции от входных данных.

Рис. 20.17. Примеры элементов с пороговой функцией активации, которые могут действовать как логические элементы, если заданы соответствующие веса простых и смещенных входов