Нейронный сети. Эволюция
Шрифт:
Из этого правила, легко убедиться, что:
(c*u)' = c' u + c u' = c u'
Поскольку, с – константа, поэтому ее производная равна нулю (c' = 0).
Зная это правило мы без труда, найдем изменение скорости второго примера.
Применим к выражению правило дифференцирование суммы:
s' (t) = (0,2t) ' + (1,5) '
Теперь по порядку, возьмём
(0,2t) ' = 0,2
А производная самой константы равна нулю – (1,5) ' = 0.
Следовательно, скорость изменения скорости, второго примера:
s' (t) = 0,2
Что совпадает с нашим ответом, полученном ранее во втором примере.
Дифференцирование сложной функции
Допустим, что в некоторой функции, y сама является функцией:
f = y^2
y = x^2+x
Представим дифференцирование этой функции в виде:
Нахождение производной в этом случае, осуществляется в два этапа.
Мы знаем, как решить производную типа: dy^2/dy = 2y
А также знаем, как решать производную суммы: х^2 + х = (х^2)' + х' = 2х+1
Тогда:
2(x^2+x) * (2х+1) = (2х^2+2х) * (2х+1) = 4х^3+6х^2+2х
Я надеюсь, вам удалось понять, в чем состоит суть дифференциального исчисления.
Используя описанные, методы дифференцирования выражений, вы сможете понять механизм работы метода градиентного спуска.
В качестве небольшого дополнения, приведу список наиболее распространённых табличных производных:
Зачем нам дифференцировать функции
Еще раз вспомним как мы спускаемся по склону. Что в кромешной тьме, мы хотим попасть к его подножью, имея в своем арсенале слабенький фонарик.
Опишем эту ситуацию, по аналогии с математическим языком. Для этого проиллюстрируем график метода градиентного спуска, но на этот раз применительно к более сложной функции, зависящей от двух параметров. График такой функции можно представить в трех измерениях, где высота представляет значение функции:
К слову,
Этот слайд отлично показывает всю суть метода градиентного спуска. Очень хорошо видно, как функция ошибки объединяет весовые коэффициенты, как она заставляет работать их согласованно. Двигаясь в сторону минимума функции ошибки, мы можем видеть координаты весов, которые необходимо изменять в соответствии с координатами точки – которая движется вниз.
Представим ось значение, как ось ошибка. Очень хорошо видно, что функция ошибки общая для всех значений весов. Соответственно – координаты точки значения ошибки, при определенных значениях весовых коэффициентов, тоже общие.
При нахождении производной функции ошибки (угол наклона спуска в точке), по каждому из весовых коэффициентов, находим новую точку функции ошибки, которая обязательно стремиться двигаться в направлении её уменьшения. Тем самым, находим вектор направления.
А обновляя веса в соответствии со своим входом, на величину угла наклона, находим новые координаты этих коэффициентов. Проекции этих новых координат на ось ошибки (значение низ лежащей точки на графике), приводят в ту самую новую точку функции ошибки.
Как происходит обновление весовых коэффициентов?
Для ответа на этот вопрос, изобразим наш гипотетический рельеф в двумерной плоскости (гипотетический – потому что функция ошибки, зависящая от аргумента весовых коэффициентов, нам не известна). Где значение высоты будет ошибка, а за координаты по горизонтали нахождения точки в данный момент, будет отвечать весовой коэффициент.
Тьму, через которую невозможно разглядеть даже то, что находится под ногами, можно сравнить с тем, что нам не известна функция ошибки. Так как, даже при двух, постоянно изменяющихся, параметрах неизвестных в функции ошибки, провести её точную кривую на координатной плоскости не представляется возможным. Мы можем лишь вычислить её значение в точке, по весовому коэффициенту.
Свет от фонаря, можно сравнить с производной – которая показывает скорость изменения ошибки (где в пределах видимости фонаря, круче склон, чтоб сделать шаг в его направлении). Следуя из основного понятия производной – измерения изменения одной величины, когда изменяется вторая, применительно к нашей ситуации, можно сказать что мы измеряем изменение величины ошибки, когда изменяются величины весовых коэффициентов.
А шаг, в свою очередь, отлично подходит на роль обновления нашего весового коэффициента, в сторону уменьшения ошибки.
Вычислив производную в точке, мы вычислим наклон функции ошибки, который нам нужно знать, чтобы начать градиентный спуск к минимуму:
Ij – определитель веса, в соответствии со своим входом. Если это вход x1 – то его весовой коэффициент обозначается как – w11, а у входа х2 – обозначается как -w21. Чем круче наклон касательной, тем больше скорость изменения ошибки, тем больше шаг.
Черный Маг Императора 13
13. Черный маг императора
Фантастика:
попаданцы
аниме
сказочная фантастика
фэнтези
рейтинг книги
Адептус Астартес: Омнибус. Том I
Warhammer 40000
Фантастика:
боевая фантастика
рейтинг книги

Лекарь для захватчика
Фантастика:
попаданцы
историческое фэнтези
фэнтези
рейтинг книги
Энциклопедия лекарственных растений. Том 1.
Научно-образовательная:
медицина
рейтинг книги
