Что означает передача знаний в программировании
Перейти к содержимому

Что означает передача знаний в программировании

  • автор:

Transfer Learning

Transfer Learning (трансферное обучение) — это подраздел машинного обучения, целью которого является применение знаний, полученные из одной задачи, к другой целевой задаче. Существует множество решений, который могут помочь Data Scientist’у применить его к своей проблеме, поэтому нет необходимости изобретать велосипед.

Например, знания, полученные при обучении классификации статей Википедии, можно использовать для решения задачи классификации медицинских текстов. Можно пойти дальше, и использовать модель, обученную для решения классификации автомобилей, чтобы распознавать птиц в небе, как одну из задач компьютерного зрения (Computer Vision).

История Transfer Learning

История трансферного обучения восходит к 1993 году. В своей статье «Передача между нейронными сетями на основе различимости (англ. Discriminability-Based Transfer between Neural Networks)» Lorien Pratt открыла ящик Пандоры и представила миру потенциал трансферного обучения [1]. В июле 1997 года журнал Machine Learning опубликовал серию статей о трансферном обучении [2]. По мере развития смежные области, например многозадачное обучение (multi-task learning), также были включены в трансферное обучение. Сегодня Transfer Learning является мощным инструментом искусственного интеллекта. Andrew Ng предсказывает подъём трансферного обучения с точки зрения коммерческого успеха [3].

Увеличение коммерческого успеха у Transfer Learning (презентация Andrew Ng на NIPS 2016)

Как работает Transfer Learning

Прежде всего стоит обратить внимание на 2 аспекта при использовании Transfer Learning:

  1. Наличие открытой предварительно обученной модели
  2. Переназначение модели с помощью выделения признаков (Feature extraction) или дообучения (Fine Tuning)

Предварительно обученная модель — это модель, созданная и обученная кем-то другим для решения проблемы, аналогичной нашей. На практике кто-то, имея большие вычислительные ресурсы, они конструируют большую нейронную сеть для решения конкретной проблемы, тренируют её на большом наборе данных (Big Data), например ImageNet или Wikipedia Corpus. Так, например, VGG19 имеет 143.667.240 параметров и используется для классификации изображений. Под «открытой» моделью мы подразумеваем, что она обнародована, и её можно свободно использовать.

Ресурсы с предварительно обученными моделями:

В редких случаях предварительно обученные модели хорошо работают для целевой задачи. Как правило, их необходимо поднастроить по следующим причинам:

  • Получение более высокой точности
  • Настроенная модель генерирует выходной сигнал в правильном формате

Предварительно обученные сети используются для дообучения (fine-tuning) или выделения признаков (feature extraction).

Дообучение

В архитектурах Deep Learning начальные слои изучают общую информацию, а слои на последнем уровне более специфичные признаки. Например, первые слои запониманют текстуру, цвет, общую картину, а последние слои глаза, рот, родинки и т.д. Многие модели обучены на всевозможных ситуациях, например, ImageNet содержит 1 миллион изображений с 1000 классами, поэтому нет необходимости изменять общую картину, которую видит текущая модель. Вместо этого полезнее дополнить новыми конкретными признаками, дообучив только последние слои, чтобы перепрофилировать её для собственных нужд.

Затрагивая больше слоев для дообучения, повышается риск переобучения (overfitting). Например, модель VGG19 может после полного переобучения показать непредсказуемые результаты в рамках Transfer Learning, причем не в пользу Data Scientist’а. Поэтому часто обходятся двумя-тремя последними слоями.

Выделение признаков

Для выделения признаков используются представления, полученные предыдущей моделью, для извлечения признаков из новых образцов, которые затем пропускаются через новый классификатор. В этом методе просто добавляется классификатор, который будет обучаться с нуля, поверх предварительно обученной модели для решения целевой функции.

В сверточные архитектуры нейронных сетей (CNN) обычно состоят из двух частей: сверточной и полносвязной. Для выделения признаков (feature extraction) сверточная часть остаётся неизменной. В то время как Fine Tuning захватывает несколько последних сверточных слоев.

Сверточная основа не используется по причине их универсальности. Так, например, они имеют представления о присутствии объектов и их местоположении. С другой стороны, полносвязные слои не имеют знаний о местоположении объектов, т.е. не обладают свойством инвариантности, поэтому их безбоязненно можно поменять на собственные.

Выделение признаков в Transfer Learning реализуется двумя способами:

  • Новые данные пропускаются через сверточную основу, т.е. делается предсказание модели (predict). Результат предсказаний записывается, а затем пропускается через созданный полносвязный слой
  • Имеющаяся модель дополняется полносвязными слоями. Сверточную основу замораживают, чтобы при обучении её коэффициенты не изменялись. Данный способ позволяет использовать расширение данных (Data Augmentation), поэтому можно заранее подготовить и увеличить исходный датасет. Этот способ затратнее первого
Что выбрать дообучение или выделение признаков

Оба метода могут повысить точность модели, но при условии наличия достаточного объёма данных, в противном случае сеть не «почувствует» изменений от нового набора данных и не сможет перепрофилироваться.

Выделение признаков применяется в том случае, когда решаемая задача прошлой сети схожа с целевой. А вот если есть существенные отличия, то используется дообучение, которое является более затратной с вычислительной точки зрения.

Что такое transfer learning в обучении нейросетей

Как нейросеть, обученная под одну задачу, решает другую? Может ли она использовать свой «предыдущий опыт»? Почему это важно и почему корпорации спешат внедрить эту технологию? Рассказываем о популярном методе «переноса знаний» в машинном обучении на примерах языков, ягод и Достоевского.

Нейросети, обученные под одну задачу, можно научить решать другие, похожие. Отсюда и название метода трансферного обучения — мы будто «переносим» (от англ. transfer — передача) предыдущий опыт решения проблемы на новую, еще не решенную. Например, зная английский, вам будет легче выучить немецкий, поскольку оба этих языка — западно-германские, а значит, в них присутствуют схожие структуры и закономерности. Так же и нейросеть, обученная решению одной конкретной задачи, может использовать приобретённые знания при решении новой задачи.

Представим, что мы компьютерные лингвисты и хотим обучить языковую модель, генерирующую тексты в стиле Достоевского. Чтобы получить качественную модель, нам бы понадобилось собрать большой корпус текстов Достоевского, для примера — при обучении модели GPT потребовались миллионы текстов. Как можно понять, подготовка подобного корпуса ресурсозатратна и сложна — и даже если бы нам удалось собрать все тексты русского писателя, далеко не факт, что этого объёма было бы достаточно.

Однако зачем обучать модель с «чистого листа», если существует модель, которая уже обучена генерации текстов на русском языке? Так как модель уже «говорит» на русском, обучить её стилю Достоевского намного проще, чем обучать модель, которая даже «не знает» языка. Другими словами достаточно взять готовую русскоязычную версию GPT3, найти в интернете оцифрованные версии произведений Федора Михайловича (например, здесь) и дообучить модель на новых текстах. Эта процедура дообучения и является примером Transfer Learning (трансферного обучения). Теперь подробней рассмотрим, как происходит этот «трансфер» знаний.

Как работает Transfer Learning?

Прежде чем погрузиться в трансферное обучение, нужно вспомнить, что такое нейросеть. Как мы писали ранее, под нейросетью понимается одна из моделей машинного обучения, способная объяснять сложные зависимости в данных. Зависимости — это связи между входными данными и выходными: между изображением и его категорией, между аудиодорожкой и её транскрипцией, между корпусом текстов и векторными представлениями слов.

Нейросеть представляет собой последовательность слоев, где каждый слой — математическое преобразование входных данных. Такую последовательность принято называть архитектурой. Как здания различаются по количеству этажей, их типу — например, есть ли коммерческие этажи или все жилые, так и разным архитектурам присущ свой объем слоев, свои типы и их упорядоченность.

Итак, представим, что мы в бизнес целях хотим научить модель определять по фотографии больна ли клубника. Собрать огромный набор данных по такой узкой задаче было бы дорого и достаточно проблематично, ведь нужны были бы гигабайты специфических картинок с этой ягодой. Вместо этого можно взять уже предобученную на фотографиях ягод модель компьютерного зрения и «настроить» ее на относительно небольшом наборе данных под нашу проблему. То есть нам надо перенести уже полученные, обобщенные знания о ягодах на классификацию клубники.

В машинном обучении мы можем выбирать, какие слои нейросети нам обучать, а какие нет. Если мы не хотим обновлять, то есть обучать, какие-то слои, в терминологии глубинного обучения — мы их «замораживаем». В случае с предобученной моделью, мы должны «заморозить» нижние слои, в то время как верхние будут обновляться. Если вспомнить метафору о языках из первого абзаца, можно сказать, что при изучении немецкого вы не учите заново всю структуру языка — в вашей голове уже есть «скелет» языка, вы знаете о корнях слов, окончаниях, падежах. Все, что остается запомнить — это особенности, характерные для конкретного языка. Так и здесь архитектура нейросети напоминает этот процесс: на нижних слоях модели хранятся базовые, общие знания, а на верхних — специфические закономерности.

Наша «ягодная» модель уже знает очертания, характерные не только для клубники, но и в целом для любых ягод: это и есть нижние слои нейросети. Они не будут обучаться на нашем маленьком наборе фотографий — эти слои остаются такими же, как и в предобученной модели. Обучение происходит только на верхних слоях, которые и выучат образ, силуэт, характерный для клубники, а также признаки, характерные для больной клубники.

Наглядная иллюстрация заморозки слоев во время трансферного обучения

Реальные применения Transfer Learning

Еще в 2016 году известный исследователь машинного обучения Эндрю Ын предсказывал, что трансферное обучение станет новым двигателем коммерческого успеха сферы искусственного интеллекта. Действительно, компаниям очень выгодно использовать этот подход, поскольку он экономит и время, и деньги.

Как пример интеграции трансферного обучения в бизнес процессы, можно привести анализ тональности для оценки удовлетворенности покупателями товаром: вместо создания нейросети с нуля берется готовая классификационная языковая модель, которая может определять тональность текста, и «дообучается» на выборке отзывов компании. Трансферное обучение скрыто и в нашей повседневной жизни: смартфон, который использует детекцию лица вместо пароля дообучается на лице конкретного пользователя; модераторы сайтов используют нейросети для блокировки неприемлемых постов или видео, как это, например, делает YouTube — их модель постоянно дообучается на новых наборах токсичных данных, чтобы лучше распознавать негативный контент.

Одна модель, чтобы править всеми решать всё: почему Transfer Learning важен не только для бизнеса?

Одна из главных задач сферы глубинного обучения на данный момент — максимальная оптимизация процесса переноса знаний. Исследователи движутся не только в сторону уменьшения требуемого объема наборов данных, нужных для дообучения под новые задачи, но и в сторону создания такой модели, которая будет способна выполнять их вообще без дообучения. Так, если бы наша «ягодная» модель обладала подобными способностями (такие модели называют «zero-shot» моделями), то она бы сразу умела распознавать больную клубнику.

В эпоху заботы об экологии даже в IT-сфере есть своего рода переработка, только вместо пластика мы повторно используем полученные знания, делая процесс изучения новых задач более быстрым и эффекивным. Ученые, как и экологи, пытаются извлечь из старого продукта максимальную пользу в новом контексте, а также создать такую систему, которая вообще не будет требовать никаких дополнительных материалов, то есть, «zero-shot» нейросеть.

Реальный пример мощной zero-shot модели — недавно запущенная ChatGPT от OpenAI. Она может ответить на любой вопрос, сгенерировать текст любой эмоциональной тональности и даже написать рабочий код на Python, хотя не обучалась решать конкретно эти задачи.

Русские Блоги

Эта статья — первая статья, представленная в колонке обучения миграции. Профессор Ян Цян из CUHK опубликовал обзорную статью об обучении миграции в IEEE Transactions по знаниям и инженерии данных в 2010 году.

Abstract

Во многих алгоритмах машинного обучения и интеллектуального анализа данных основное предположение состоит в том, что данные для обучения и будущие данные должны находиться в одном пространстве функций и иметь одинаковое распределение. Однако во многих практических приложениях это предположение может не выполняться. Например, у нас иногда есть задача классификации в интересующей области, но у нас достаточно обучающих данных только в другой интересующей области. В другом домене последние могут быть расположены в другом пространстве функций или следовать другому Распространение данных.

В этом случае, если передача знаний прошла успешно, можно избежать дорогостоящей маркировки данных, что значительно повысит эффективность обучения. В последние годы трансфертное обучение стало новой структурой обучения. Основное внимание в этом исследовании уделяется классификации и обзору текущего прогресса трансфертного обучения в области классификации, регрессии и кластеризации. В этом исследовании мы обсудили взаимосвязь между трансферным обучением и другими связанными технологиями машинного обучения, такими как адаптация предметной области, многозадачное обучение, систематическая ошибка выборки и ковариативный сдвиг. В то же время мы также обсудили некоторые потенциальные будущие проблемы исследования трансфертного обучения.

1 INTRODUCTION

Технологии интеллектуального анализа данных и машинного обучения достигли значительных успехов в таких областях инженерии знаний, как классификация, регрессия и кластеризация (например, [1], [2]). Однако многие методы машинного обучения могут работать хорошо только при общем предположении: данные для обучения и тестирования поступают из одного пространства функций и одного распределения. Когда распределение меняется, большинство статистических моделей необходимо перестраивать с нуля с использованием недавно собранных обучающих данных.

Во многих практических приложениях сложно или даже невозможно вспомнить необходимые обучающие данные и восстановить модель. Было бы хорошо, если бы не нужно было вспоминать тренировочные данные и не прилагать к ним усилий. В этом случае желательна передача знаний или передача обучения между областями задач. Во многих примерах инженерии знаний трансферное обучение действительно полезно. Примером является классификация веб-документов [3], [4], [5]. Наша цель — классифицировать данный веб-документ по нескольким предопределенным категориям. В качестве примера в области классификации веб-документов (см., Например, [6]), примером тегирования может быть веб-страница университета, связанная с информацией о категории, полученной посредством предыдущей ручной маркировки. Для задачи классификации на вновь созданном веб-сайте характеристики данных или распределение данных могут отличаться, а отмеченные обучающие данные могут отсутствовать. Поэтому мы не сможем напрямую применить классификаторы веб-страниц, изученные на веб-сайте университета, на новом веб-сайте. В этом случае будет очень полезно, если мы сможем перенести классификационные знания в новую область.

Когда данные быстро устаревают, может потребоваться трансферное обучение. В этом случае данные тега, полученные за один период времени, могут не иметь такого же распределения в более поздний период времени. Например, проблема позиционирования WiFi внутри помещения состоит в том, чтобы определить текущее местоположение пользователя на основе ранее собранных данных WiFi. Установить модель позиционирования в большой среде и откалибровать данные WiFi очень дорого, поскольку пользователю необходимо отметить большое количество коллекций в каждом месте. Данные сигнала WiFi. Однако значение мощности сигнала WiFi может зависеть от времени, оборудования или других динамических факторов. Модель, обученная в один период времени или на одном устройстве, может вызвать снижение производительности оценки местоположения в другой период времени или на другом устройстве. Чтобы сократить работу по повторной калибровке, мы можем захотеть адаптировать обучение модели локализации в новый период (целевой домен) в периоде времени (исходный домен) или адаптировать обучение модели локализации на мобильном устройстве (исходный домен) в качестве нового мобильного устройства ( Целевая область) [7].

В третьем примере рассмотрим проблему классификации настроений. Наша задача — автоматически разделить отзывы о продукте, например о фотоаппарате бренда, на положительные и отрицательные. Для этой задачи классификации нам сначала нужно собрать много отзывов о продукте и аннотировать их. Затем мы будем использовать соответствующие теги для обучения классификатора комментариям. Поскольку распределение данных обзора между различными типами продуктов может сильно отличаться, для поддержания хорошей эффективности классификации нам необходимо собрать большой объем помеченных данных, чтобы обучить модель классификации обзоров для каждого продукта. Однако этот процесс маркировки данных может быть очень дорогим. Чтобы сократить объем работы по комментированию и обзору различных продуктов, нам может потребоваться настроить модель классификации для определенных продуктов, чтобы помочь изучить модели классификации для других продуктов. В этом случае трансферное обучение может сэкономить много работы по маркировке.

В этой обзорной статье мы даем всесторонний обзор трансферного обучения для классификации, регрессии и кластеризации, разработанного в области машинного обучения и интеллектуального анализа данных. В литературе по машинному обучению было много исследований по трансферному обучению для обучения с подкреплением ([9], [10]). Однако в этой статье мы сосредоточимся только на трансферном обучении для задач классификации, регрессии и кластеризации, которые более тесно связаны с задачами интеллектуального анализа данных. Мы надеемся, что с помощью этого опроса мы предоставим полезные ресурсы для сообществ интеллектуального анализа данных и машинного обучения.

Остальная часть обзора организована следующим образом. В следующих четырех частях мы сначала дадим общий обзор и определим некоторые символы, которые будут использоваться позже. Затем мы кратко рассмотрели историю трансферного обучения, дали единое определение трансферного обучения и разделили трансферное обучение на три различных параметра (как показано в таблице 2 и на рисунке 2). Затем, в разделе 6, мы рассмотрели некоторые текущие исследования негативной передачи, которая происходит, когда передача знаний оказывает негативное влияние на целевое обучение.Отрицательный перенос. В Разделе 7 мы представим некоторые успешные применения трансферного обучения и перечислим некоторые опубликованные наборы данных и программные инструменты для исследований в области трансферного обучения. Наконец, мы обсудили будущую работу в Разделе 8, чтобы завершить эту статью.

2 OVERVIEW

2.1 A Brief History of Transfer Learning

Традиционные алгоритмы интеллектуального анализа данных и машинного обучения используют статистические модели для прогнозирования будущих данных. Эти статистические модели обучаются на ранее собранных помеченных или немаркированных обучающих данных [11], [12], [13]. При полу-контролируемой классификации [14], [15], [16], [17] используется большой объем немаркированных данных и небольшой объем помеченных данных, чтобы решить проблему, заключающуюся в том, что может быть слишком мало помеченных данных для построения хорошего классификатора. Изучаются изменения обучения с учителем и обучения с учителем неполных наборов данных; например, Zhu и Wu [18] изучали, как справиться с проблемой шума меток классов. Янг и др. Рассматривали обучение с учетом затрат при выполнении дополнительных тестов на будущих выборках [19]. Однако большинство из них полагают, что распределение помеченных и немаркированных данных одинаково. Напротив, трансферное обучение позволяет использовать различные домены, задачи и распределения для обучения и тестирования. В реальном мире мы наблюдаем множество примеров трансферного обучения. Например, мы можем обнаружить, что научиться распознавать яблоки может помочь распознавать груши. Точно так же обучение игре на электронном пианино может помочь в изучении игры на фортепиано. Исследование трансфертного обучения основано на том факте, что люди могут разумно применять ранее полученные знания для более быстрого или лучшего решения новых проблем. На семинаре NIPS-95 «Обучение, чтобы учиться» обсуждалась основная мотивация трансфертного обучения в области машинного обучения. В центре внимания семинара была необходимость использования методов машинного обучения на протяжении всей жизни для сохранения и повторного использования ранее полученных знаний.

С 1995 года исследования трансфертного обучения привлекают все больше внимания под разными названиями: обучение обучению, непрерывное обучение, передача знаний, индуктивный перенос, многозадачное обучение, консолидация знаний, контекстно-зависимое обучение, основанное на знаниях индуктивный уклон, метаобучение, инкрементное / кумулятивное обучение [20]. Среди этих методов обучения, тесно связанных с трансферным обучением, есть структура многозадачного обучения [21], которая пытается изучить несколько задач одновременно, даже если они разные. Типичный метод многозадачного обучения — выявление общих (потенциальных) характеристик, которые могут принести пользу каждой отдельной задаче.

В 2005 году Управление технологий обработки информации (IPTO) Агентства перспективных исследовательских проектов Министерства обороны США (DARPA) выпустило широкое сообщение агентства (BAA) 05-29, в котором была предложена новая задача трансферного обучения: идентификация системы и Способность применять знания и навыки, полученные в предыдущих задачах, к новым задачам. В этом определении цель трансферного обучения состоит в том, чтобы извлечь знания из одной или нескольких исходных задач и применить эти знания к целевой задаче. По сравнению с многозадачным обучением, в трансферном обучении больше внимания уделяется целевой задаче, а не изучению всех исходных задач и целевых задач одновременно. При трансферном обучении роли исходной и целевой задачи больше не симметричны.

На рисунке 1 показана разница между традиционным процессом обучения и методами передачи обучения. Как мы видели, традиционные методы машинного обучения пытаются изучить каждую задачу с нуля, в то время как методы трансферного обучения пытаются передать знания о некоторых предыдущих задачах целевой, когда для целевой задачи недостаточно качественных обучающих данных. задача.

Сегодня методы трансферного обучения появляются в нескольких основных областях, наиболее известными из которых являются интеллектуальный анализ данных (например, ACM KDD, IEEE ICDM и PKDD), машинное обучение (например, ICML, NIPS, ECML, AAAI и IJCAI), а также машинное обучение и интеллектуальный анализ данных. Приложение (например, ACM SIGIR, WWW и ACL). Прежде чем давать различные классификации трансферного обучения, мы сначала опишем обозначения, используемые в этой статье.

2.2 Notations and Definitions

В этом разделе мы представим некоторые символы и определения, используемые в этом обзоре. Сначала дадим определение предметной области и задачи соответственно. В этом исследовании доменПространство функцийИ маргинальное распределение вероятностейДве части, из которых. Например, если нашей учебной задачей является классификация документов, и каждый элемент используется как двоичная функция, тогдаПространство всех векторов элементов, Xi — вектор i-го элемента, соответствующий некоторым документам,Это конкретный обучающий образец. Вообще говоря, если две области различны, они могут иметь разные пространства признаков или разные предельные распределения вероятностей.

Учитывая конкретный домен, Задача состоит из двух компонентов: пространства меток Y и целевой функции прогнозирования.(используйтеЗначит) этого не наблюдается, но его можно получить из обучающих данных, в том числе,. функцияМожет использоваться для прогнозирования соответствующей метки,Новый экземпляр x. С точки зрения вероятности,Можно записать как. В нашем примере классификации документовНабор всех меток для задачи двоичной классификации,Верно это или нет.

Для простоты в этом обзоре мы рассмотрели только одну исходную областьИ целевой доменСитуация, потому что пока что это самая популярная исследовательская работа в литературе. Более конкретно, мы представляем данные исходного домена как,среди нихЭкземпляр данных,Соответствующая метка класса. В нашем примере классификации документов DS может быть набором векторов терминов и связанных с ними истинных или ложных тегов. Точно так же мы представляем данные целевого домена как, Где войтивв,Соответствующий вывод. В большинстве случаев。

Теперь мы дадим единое определение трансферному обучению.

Definition 1 (Transfer Learning)
Для исходного доменаИ учебные задания, Целевой доменИ учебные задания, Целью трансферного обучения являетсяПомогите улучшить обучающий эффект целевой функции прогнозированияИ использовать знания всв,。

В приведенном выше определении домен. Несмотря на условияНамекнул,. Например, в нашем примере классификации документов это означает, что между набором исходных документов и набором целевых документов либо два набора имеют разные характеристики терминов (например, они используют разные языки), либо их маргинальное распределение различно.

Аналогично задача определяется как. Несмотря на условияПодсказка,. Когда целевой домен и исходный домен совпадают, Их учебные задачи совпадают, Проблема обучения стала традиционной проблемой машинного обучения. Когда домены разные, оба могут:

  1. Пространство функций различается между доменами
  2. Пространство признаков одинаково между доменами, но вероятность предельного распределения различается между доменами.,。

Например, в нашем примере классификации документов

  1. Соответствует времени, описанному двумя пакетами документов на разных языках
  2. Это может соответствовать времени, когда документ исходного домена и документ целевого домена фокусируются на разных темах.

Учитывая конкретный доменсПри обучении задачесКогда разные, оба

  1. Расстояние между доменами разное,
  2. Условное распределение вероятностей между доменами разное,,среди них,。

В нашем примере классификации документов

  1. Соответствующая ситуация заключается в том, что исходный домен имеет классы двоичных документов, а целевой домен имеет 10 классов для классификации документов.
  2. Соответствует ситуации, когда исходный документ и целевой документ очень несбалансированы с точки зрения определяемых пользователем классов.

Кроме того, когда существует явная или неявная связь между пространством функций двух доменов, мы говорим, что исходный домен и целевой домен связаны.

2.3 A Categorization of Transfer Learning Techniques

При трансфертном обучении мы в основном изучаем три вопроса:

  1. What to transfer;
  2. How to transfer;
  3. When to transfer.

«Что передавать» спрашивает, какие знания можно передавать между доменами или задачами. Некоторые знания специфичны для одной области или задачи, а некоторые знания могут быть общими для разных областей, так что они могут помочь улучшить производительность целевой области или задачи. После обнаружения того, какие знания могут быть переданы, необходимо разработать алгоритмы обучения для передачи знаний, что соответствует задаче «Как передать».

«Когда передавать» требует передачи навыков при каких обстоятельствах. Точно так же мы заинтересованы в том, чтобы знать обстоятельства, при которых знаниеНе долженБыл перенесен. В некоторых случаях, когда исходный домен и целевой домен не связаны, миграция методом грубой силы может не завершиться успешно. В худшем случае это может даже навредить академической успеваемости в целевой области, что часто называют отрицательным переводом. Большая часть текущей работы по трансферному обучению фокусируется на том, что и как передавать, метод заключается в неявном предположении, что исходный и целевой домены связаны друг с другом. Тем не менее, как избежать отрицательной миграции — важный открытый вопрос, которому в будущем будет уделяться все больше внимания.

1) Основываясь на определении трансферного обучения, мы суммировали взаимосвязь между традиционным машинным обучением и различными настройками трансферного обучения. В таблице 1 мы классифицируем обучение по трем подпараметрам: перенос, индуктивное переносное обучение, трансдуктивное переносное обучение и неконтролируемое переносное обучение. Трансферное обучение основано на различных ситуациях и задачах между исходным и целевым доменами.

В индуктивном обучении с передачей, независимо от того, являются ли исходный домен и целевой домен одинаковыми, целевая задача отличается от исходной задачи. В этом случае некоторые помеченные данные в целевом домене необходимы, чтобы вызвать целевую модель прогнозирования, используемую в целевом домене.. Кроме того, в зависимости от различных ситуаций с помеченными и немаркированными данными в исходном домене, мы можем разделить настройку обучения с индуктивной передачей на две ситуации:

  1. В исходном домене доступно большое количество помеченных данных. В этом случае настройка индуктивного обучения с передачей аналогична настройке многозадачного обучения. Однако цель настройки обучения с индуктивной передачей состоит в том, чтобы реализовать высокую производительность целевой задачи путем передачи знаний из исходной задачи, в то время как многозадачное обучение состоит в одновременном изучении целевой задачи и исходной задачи.
  2. В исходном домене нет данных с тегами. В этом случае настройка индуктивного переноса обучения аналогична настройке самообучения, которая была впервые предложена Райной и др. [22]. В автономной среде обучения пространство меток между исходным доменом и целевым доменом может быть различным, что означает, что побочная информация исходного домена не может использоваться напрямую. Следовательно, это похоже на настройку индуктивного обучения с передачей, когда помеченные данные недоступны в исходном домене.

2) В настройке трансдуктивного переноса исходная задача и целевая задача одинаковы, но исходная задача и целевой домен отличаются. В этом случае в целевом домене нет доступных данных разметки, а в исходном домене доступно много данных разметки. Кроме того, в соответствии с различными ситуациями исходного домена и целевого домена мы можем разделить настройку трансдуктивного переноса на две ситуации.

  1. Пространство функций между исходным доменом и целевым доменом отличается,
  2. Пространство функций между доменами одинаковое,. Но распределение предельной вероятности входных данных другое,. Настройка трансдуктивного переноса в последнем случае связана с адаптацией предметной области передачи знаний в классификации текста [23] и смещением выборки [24] или ковариатным сдвигом [25], и его предположения аналогичны.

3) Наконец, в настройке обучения с передачей без учителя, аналогичной настройке обучения с индуктивной передачей, целевая задача отличается от исходной задачи, но связана с исходной задачей. Тем не менее, трансфертное обучение без учителя в основном решает задачи обучения без учителя в целевой области, такие как кластеризация, уменьшение размерности и оценка плотности [26], [27]. В этом случае ни исходный домен, ни целевой домен не имеют доступных помеченных данных во время обучения.

Взаимосвязь между различными настройками трансферного обучения и связанными полями показана в таблице 2 и на рисунке 2.

В указанных выше трех различных ситуациях метод обучения с переносом можно разделить на четыре ситуации в соответствии с содержанием передачи.

В таблице 3 показаны эти четыре ситуации и их краткое описание. Первый контекст можно назвать методом обучения передачи (или передачи экземпляра) на основе экземпляра [6], [28], [29], [30], [31], [24], [32], [33], [34], [35] предполагается, что некоторые части данных в исходном домене могут быть повторно использованы путем повторного взвешивания обучения в целевом домене. В этом случае двумя основными методами являются взвешивание экземпляров и выборка по важности.

Второй случай можно назвать методом передачи представления признаков [22], [36], [37], [38], [39], [8], [40], [41], [42], [43]. , [44]. Интуитивная идея, стоящая за этой ситуацией, состоит в том, чтобы изучить «хорошее» характеристическое представление целевого поля. В этом случае знания, используемые для междоменной передачи, кодируются в изученное характеристическое представление. Ожидается, что использование нового представления функций значительно повысит производительность целевой задачи.

Третий случай можно назвать методом передачи параметров [45], [46], [47], [48], [49], который предполагает, что исходная задача и целевая задача разделяют некоторые параметры или предварительные распределения гиперпараметров модели. Переданные знания кодируются в общие параметры или априорные значения. Следовательно, обнаруживая общие параметры или априорные факторы, можно передавать знания между задачами.

Наконец, последний случай называется проблемой передачи реляционных знаний [50], которая касается передачи обучения реляционных областей. Основное предположение, лежащее в основе этого контекста, заключается в том, что существует аналогичная связь между данными в исходном и целевом доменах. Следовательно, передаваемые знания — это взаимосвязь между данными. В последнее время в этой области преобладает статистическая технология реляционного обучения [51], [52].

В таблице 4 показано использование различных методов для каждой настройки трансферного обучения. Мы можем видеть, что установка индуктивного трансферного обучения изучалась в большом количестве исследовательских работ, в то время как установка неконтролируемого трансферного обучения является относительно новой темой исследования, которая изучается только в контексте случаев передачи представления признаков. Кроме того, проблема переноса представления признаков предлагается в трех сценариях переноса обучения. Однако методы передачи параметров и реляционных знаний изучаются только в обучающей среде с индуктивной передачей, которую мы подробно обсудим ниже.

3 INDUCTIVE TRANSFER LEARNING

Definition 2 (Inductive Transfer Learning)

Учитывая исходный доменИ учебные задания, Целевой доменИ учебные задания, Индуктивное переносное обучение призвано помочьУлучшить функцию прогнозирования цели обучения,всИспользуйте знания,. (В трансфертном обучении)

Согласно приведенному выше определению настройки обучения с индуктивной передачей, небольшой объем помеченных данных необходимо использовать в качестве обучающих данных в целевой области, чтобы вызвать функцию прогнозирования цели. Как описано в Разделе 2.3, для этого параметра есть две ситуации:

  1. Отмеченные данные в исходном домене доступны;
  2. Помеченные данные в исходном домене недоступны, но немаркированные данные в исходном домене доступны. В этом случае большинство методов трансферного обучения сосредоточено на первом случае.

3.1 Transferring Knowledge of Instances

Метод передачи экземпляров настроек обучения с индуктивной передачей интуитивно привлекателен: хотя данные исходного домена нельзя повторно использовать повторно, некоторые части данных все же можно повторно использовать с некоторыми помеченными данными в целевом домене.

Дай и др. [6] предложили усовершенствованный алгоритм TrAdaBoost, который является расширением алгоритма AdaBoost для решения проблемы индуктивного обучения с передачей. TrAdaBoost предполагает, что данные исходного и целевого домена используют один и тот же набор функций и меток, но распределение данных в двух доменах отличается. Кроме того, TrAdaBoost предполагает, что из-за разницы в распределении между исходным доменом и целевым доменом некоторые данные исходного домена могут быть полезны для изучения целевого домена, но некоторые данные могут быть бесполезными или даже вредными. Он пытается итеративно повторно взвешивать данные исходного домена, чтобы уменьшить влияние плохих исходных данных, в то же время поощряя хорошие исходные данные для большего вклада в целевой домен. Для каждой итерации TrAdaBoost обучает базовый классификатор на основе взвешенных исходных и целевых данных. Ошибка рассчитывается только на целевых данных. Кроме того, TrAdaBoost использует ту же стратегию, что и AdaBoost, для обновления ошибочно классифицированных примеров в целевом домене и использует стратегию, отличную от AdaBoost, для обновления ошибочно классифицированных примеров в исходном домене. Теоретический анализ TrAdaBoost также приведен в [6].

Цзян и Чжай [30] предложили метод, основанный на условной вероятностисЭвристический метод различия удаляет вводящие в заблуждение обучающие примеры из исходного домена. Ляо и др. Предложили новый метод активного обучения, который использует данные исходного домена для выбора немаркированных данных в целевом домене для маркировки. Ву и Диттерих [53] интегрировали данные исходного домена (вспомогательные) в структуру SVM для повышения эффективности классификации.

3.2 Transferring Knowledge of Feature Representations

Представление признаков проблемы индуктивного обучения с передачей — цель метода переноса состоит в том, чтобы найти хорошее представление признаков, чтобы минимизировать расхождение предметной области и ошибки модели классификации или регрессии. Для разных типов данных исходной области стратегии поиска хороших представлений характеристик различаются. Если в исходном домене доступен большой объем помеченных данных, для построения представлений функций можно использовать методы контролируемого обучения. Это похоже на обычное обучение в области многозадачного обучения в [40]. Если в исходном домене нет помеченных данных, для построения представлений функций используются методы обучения без учителя.

3.2.1 Supervised Feature Construction

Метод построения контролируемых признаков в настройке индуктивного передаточного обучения аналогичен методу построения признаков, используемому в многозадачном обучении. Основная идея — изучить низкоразмерные представления, которые используются в связанных задачах. Кроме того, изученный новый метод представления может также уменьшить ошибку классификации или регрессионной модели каждой задачи. Аргириу и др. Предложили метод обучения с использованием разреженных функций для многозадачного обучения. В настройке обучения с индуктивной передачей, решив задачу оптимизации, вы можете изучить общие функции, как показано на следующем рисунке:

В формуле S и T представляют задачи исходного и целевого домена соответственно.Матрица параметров. U — это ортогональная матрица d x d (функция отображения), используемая для отображения исходных данных большой размерности в представление низкой размерности. (R, p) -норма A определяется как. Задача оптимизации (1) Одновременно оцените низкоразмерные представления utxt, utxs и параметр A модели. Задача оптимизации (1) может быть далее преобразована в эквивалентную формулу выпуклой оптимизации, которая может быть эффективно решена. В последующей работе Аргириу и др. Предложили структуру регуляризации матричного спектра для многозадачного структурного обучения.

Ли и др. Предложили алгоритм выпуклой оптимизации для одновременного изучения мета-априорных значений и весов характеристик из набора связанных задач прогнозирования. Мета-приоры можно переносить между разными задачами. Джебара [43] предложил использовать опорные векторные машины для выбора функций для многозадачного обучения. Ракерт и др. Разработали метод индуктивной передачи на основе сердечника, чтобы найти подходящий сердечник для целевых данных.

3.2.2 Unsupervised Feature Construction

В [22] Райна и др. Предложили использование разреженного кодирования [55], которое представляет собой неконтролируемый метод конструирования признаков для обучения высокоуровневым функциям для передачи обучения. Основная идея этого метода состоит из двух шагов. На первом шаге базисный вектор высшего порядка, Решая задачу оптимизации (2), изучая данные исходной области, как показано на следующем рисунке

В этом уравненииЕсли это новая основа представительствавойтисКоэффициенты для уравновешивания срока построения функции и члена регуляризации. После изучения базисного вектора b вторым шагом является применение алгоритма оптимизации (3) к данным целевой области и изучение функций более высокого уровня на основе базисного вектора b.

Наконец, приводится дискриминантный алгоритмИспользуйте соответствующие теги для обучения модели классификации или регрессии для использования в целевом домене. Одним из недостатков этого метода является то, что так называемые базисные векторы высокого порядка, полученные в исходной области в задаче оптимизации (2), могут не подходить для целевой области.

В последние годы для передачи обучения применялись различные методы обучения. В [44] Ван и Махадеван предложили метод выравнивания несоответствующих многообразий, основанный на анализе Прокруста, который может передавать знания между доменами путем выравнивания многообразий.

3.3 Transferring Knowledge of Parameters

Большинство методов передачи параметров для обобщения настроек переноса обучения предполагают, что одна модель связанных задач должна разделять некоторые предшествующие распределения параметров или гиперпараметров. Большинство методов, описанных в этом разделе, включая структуры регуляризации и иерархические байесовские структуры, предназначены для работы в условиях многозадачного обучения. Однако их можно легко модифицировать для передачи обучения. Как упоминалось выше, многозадачное обучение пытается изучить исходную задачу и целевую задачу в одно и то же время, в то время как трансферное обучение — это просто использование данных исходного домена для повышения производительности целевого домена. Следовательно, при многозадачном обучении вес функции потерь исходных данных и целевых данных одинаков. Напротив, при трансферном обучении вес функции потерь в разных областях может быть разным. Интуитивно мы можем присвоить больший вес функции потерь целевого домена, чтобы гарантировать лучшую производительность в целевом домене.

https://amdy.su/wp-admin/options-general.php?page=ad-inserter.php#tab-8

Лоуренс и Платт [45] предложили алгоритм MT-IVM на основе гауссовского процесса (GP) для работы с ситуациями многозадачного обучения. MT-IVM пытается изучить гауссовские параметры процесса для нескольких задач, используя один и тот же GP ранее. Бонилла и др. Также изучали многозадачное обучение в среде терапевта. Автор рекомендует использовать ковариационную матрицу произвольной формы для задач для моделирования зависимостей между задачами, в которой априорные значения GP используются для установления корреляций между задачами. Schwaighofer et al. Предложили объединить иерархическую байесовскую структуру (HB) и генетический алгоритм (GP) для многозадачного обучения.

В дополнение к миграции априорных моделей генетических алгоритмов, некоторые ученые также предложили миграцию параметров опорных векторных машин в рамках регуляризации. Евгениу и Понтил [48] представили идею HB в машинах опорных векторов для многозадачного обучения. Этот метод предполагает, что параметр w каждой задачи в машине опорных векторов может быть разложен на два элемента. Один — это общий термин, относящийся к задаче, а другой — термин, относящийся к конкретной задаче. В индуктивном переносном обучении

среди них,сЭто параметры машины опорных векторов для исходной задачи и целевой задачи обучения.Это общедоступный параметр,сЭто конкретные параметры исходной и целевой задачи. ГипотезаДля гиперплоскости задачи t расширите svm на примеры многозадачного обучения, которые можно записать как:

Решая указанные выше задачи оптимизации, вы можете одновременно узнать、спараметр.

Некоторые исследователи дополнительно изучили метод передачи параметров. Гао и др. Предложили локально взвешенную интегрированную структуру обучения, которая объединяет несколько моделей для трансферного обучения и динамически присваивает веса прогнозирующей способности каждого экземпляра теста в целевой области в соответствии с моделью s.

3.4 Transferring Relational Knowledge

В отличие от трех других контекстов, метод передачи реляционных знаний имеет дело с проблемой передачи знаний в реляционной области, где данные не являются i.i.d. И это может быть представлено множеством взаимосвязей, таких как сетевые данные и данные социальных сетей. Этот метод не предполагает, что данные, извлеченные из каждого домена, являются независимыми и одинаково распределенными, как при традиционном предположении. Он пытается перенести связь между данными из исходного домена в целевой домен. В этом контексте предлагается метод обучения статистическим отношениям для решения этих проблем.

Михалкова [50] и др. Предложили алгоритм TAMAR, который использует логическую сеть Маркова (млн) для передачи реляционных знаний между реляционными доменами. MLN [56] — мощный формализм, сочетающий компактную выразительность логики первого порядка и гибкость вероятности для изучения статистических отношений. В mln объекты в реляционной области представлены предикатами, а отношения между ними представлены логикой первого порядка. Мотивация TAMAR заключается в том, что если два домена связаны друг с другом, может существовать отображение соединяющихся сущностей и их отношений из исходного домена в целевой домен. Например, можно считать, что профессора играют такую ​​же роль в академической сфере, что и менеджеры в области управления производством. Кроме того, отношения между профессорами и студентами аналогичны отношениям между менеджерами и сотрудниками. Следовательно, может существовать отображение от профессоров к менеджерам и от отношений между профессорами и студентами к отношениям между менеджерами и рабочими. В этом случае TAMAR пытается использовать MLN, полученный для исходного домена, чтобы помочь узнать MLN целевого домена. По сути, TAMAR — это двухэтапный алгоритм. На первом этапе сопоставление исходного MLN с целевым доменом строится на основе взвешенной меры псевдо-логарифмического правдоподобия (WPLL). Второй шаг — изменить структуру отображения в целевой области с помощью алгоритма FORTE [57], который представляет собой алгоритм индуктивного логического программирования (ILP), используемый для модификации теории первого порядка. Пересмотренный MLN можно использовать в качестве реляционной модели для рассуждений или рассуждений в целевой области.

На семинаре AAAI-2008 по трансфертному обучению для сложных задач Михалкова и др. [51] расширили TAMAR до единой объектно-ориентированной настройки трансферного обучения, где только одна сущность доступна в целевом домене. Дэвис и др. Предложили метод передачи реляционных знаний, основанный на логике Маркова второго порядка. Основная идея алгоритма заключается в создании экземпляров этих формул с использованием предикатов из целевой области и обнаружении структурных правил в исходной области в форме формул марковской логики с переменными предикатов.

4 TRANSDUCTIVE TRANSFER LEARNING

Термин «обучение с передачей трансдукции» был первоначально предложен Арнольдом и др. Они требуют, чтобы исходная задача и целевая задача были одинаковыми, хотя предметная область может отличаться. На основе этих условий они также требуют, чтобы все немаркированные данные в целевом домене были доступны во время обучения, но мы считаем, что это условие можно смягчить; напротив, в нашем определении настроек трансдуктивного переноса мы требуем только Просмотр части немаркированных целевых данных во время обучения для получения предельной вероятности целевых данных.

Обратите внимание, что слово «трансдуктивный» имеет несколько значений. В традиционных условиях машинного обучения под трансдуктивным обучением [59] понимается необходимость видеть все тестовые данные во время обучения, а изученная модель не может быть повторно использована для будущих данных. Следовательно, когда поступают новые тестовые данные, их необходимо отсортировать вместе со всеми существующими данными. Напротив, в нашей классификации трансферного обучения мы используем термин трансдуктивный, чтобы подчеркнуть, что в этом типе трансферного обучения задачи должны быть одинаковыми, а некоторые немаркированные данные должны быть доступны в целевой области.

Definition 3 (Transductive Transfer Learning)

Учитывая исходный доменИ учебные задания, Целевой доменИ учебные задания, Трансдуктивное трансферное обучение призвано помочьУлучшить функцию прогнозирования цели обучения,всИспользуйте знания,. (В трансфертном обучении, В индуктивном переносе обучения)

Это определение охватывает работу Арнольда и др. [58], поскольку последний рассматривает адаптацию предметной области, то есть предельные распределения вероятностей исходных и целевых данных различны, то есть задачи такие же, но разные домены.

Подобно традиционной настройке трансдуктивного обучения, цель нашей схемы классификации трансдуктивного трансферного обучения состоит в том, чтобы максимально использовать немаркированные тестовые данные для обучения.Мы также предполагаем, что даны некоторые немаркированные данные целевой области. В приведенном выше определении обучения передачи трансдукции исходная задача и целевая задача одинаковы, что означает, что функция прогнозирования, изученная в исходном домене, может быть настроена для использования в целевом домене с помощью некоторых немаркированных данных целевого домена. . Как и в 2.3 этого раздела, этот параметр можно разделить на две ситуации:

  1. Пространство функций между исходным доменом и целевым доменом отличается,
  2. Пространство функций между доменами одинаковое,, Но распределение предельной вероятности входных данных другое,

Это похоже на требования к адаптации предметной области и смещению выборки. Большинство методов, описанных в следующих разделах, относятся к примеру (b) выше.

4.1 Transferring the Knowledge of Instances

Большинство методов передачи экземпляров для настройки обучения преобразованию основаны на выборке по важности. Чтобы понять важность методов, основанных на выборке, в этой ситуации, мы сначала рассмотрели проблему минимизации эмпирического риска (ERM) [60]. В общем, мы можем захотеть узнать оптимальные параметрыМинимизируя ожидаемый риск модели,

вФункция потерь, зависит от параметров. Однако из-за сложности оценки распределения вероятностей, Мы решили минимизировать ERM,

Где n — размер обучающих данных.
В настройке обучения с трансдуктивным переносом мы хотим изучить оптимальную модель целевого домена, минимизируя ожидаемый риск.

Однако, поскольку в обучающих данных не наблюдается помеченных данных в целевом домене, мы должны изучить модель на основе данных исходного домена. в случае, Вы можете изучить модель, решив следующую задачу оптимизации для целевого домена,

иначе,, Нам необходимо исправить указанную выше проблему оптимизации и изучить модель с высокой способностью к обобщению в целевой области, а именно:

Следовательно, добавляя разные значения штрафа к каждому экземпляру, С соответствующим весом, Мы можем узнать точную модель целевого домена. Кроме того, из-за. несмотря на,,,в результате чегосРазличия. Если мы оценим каждый экземпляр, Мы решили проблему трансдуктивного трансферного обучения.

Есть разные способы оценить. Задрозный [24] предложил построить простую задачу классификации, независимую оценкупункт. Фан и др. Дополнительно проанализировали проблему, используя различные классификаторы для оценки отношения вероятностей. Хуанг и др. [32] предложили алгоритм сопоставления средних значений ядра (KMM), который непосредственно обучается путем сопоставления среднего значения между данными исходного домена и данными целевого домена в воспроизводимом гильбертовом пространстве ядра (RKHS).. KMM можно переписать как следующую задачу оптимизации квадратичного программирования (QP).

。сЭто матрицы ядра данных исходного домена и данных целевого домена.,,。

Мы можем доказать[3]. Одним из преимуществ использования KMM является то, что он позволяет избежатьДля оценки плотности это очень сложно, когда размер набора данных небольшой. Сугияма и др. [34] предложили алгоритм, называемый процессом оценки важности Кульбака-Лейблера (KLIEP), который основан на минимизации дивергенции Кульбака-Лейблера и непосредственно оценивает. KLIEP можно комбинировать с перекрестной проверкой для автоматического выбора модели в два этапа: (1) оценить вес данных исходного домена; (2) обучить модель на основе повторно взвешенных данных. Бикель и др. Объединили эти два шага в единую структуру, создав классификатор ядерной логистической регрессии. В дополнение к методике взвешивания выборки Дай и др. Также расширили традиционный наивный байесовский классификатор для преобразования проблем обучения. Для получения дополнительной информации о методах выборки важности и повторного взвешивания ковариатного сдвига или систематической ошибки выборки читатели могут обратиться к недавней книге, опубликованной Quionero-Candela и др. [29]. Вы также можете обратиться к руководству Фэна и Сугиямы по смещению выборки в ICDM-08.

4.2 Transferring Knowledge of Feature Representations

Большинство методов передачи представлений функций, используемых для настройки передачи преобразования, реализованы в рамках неконтролируемого обучения. Блитцер и др. Предложили алгоритм обучения структурному соответствию (SCL), который расширил [37], чтобы извлечь некоторые важные особенности с использованием немаркированных данных в целевом домене, тем самым уменьшив разницу между доменами. Первым шагом SCL является определение набора основных функций для немаркированных данных двух доменов (количество основных функций обозначено m). Затем SCL удаляет эти основные функции из данных и обрабатывает каждую главную функцию как новый вектор меток. Можно построить M типов задач. Предположим, что любую задачу можно решить с помощью линейного классификатора следующим образом:

SCL может изучить матрицуПараметры. Третий шаг — применить разложение по сингулярным числам (SVD) к матрице. Позволять,Число (h — общая характеристика) является сингулярным вектором W матрицы слева по строке (линейное отображение). Наконец, стандартный дискриминантный алгоритм применяется к моделированию расширенных векторов признаков. Вектор расширенных функций содержит все исходные функцииПрикрепите новые функции обмена.

Как упоминалось в [38], если основная функция хорошо спроектирована, научитесь отображать тета-кодирование из функции связи между различными доменами. Хотя эксперименты Бен-Дэвида и Шуллера [61] показывают, что SCL может уменьшить разницу между доменами, выбор основных функций является трудным и зависит от домена. В [38] Блитцер и др. Использовали эвристику для выбора основных функций для задач обработки естественного языка (НЛП), таких как маркировка предложений. В своей последующей работе исследователи предложили использовать взаимную информацию (MI) для выбора основных характеристик, а не использовать более информативные критерии [8]. MI-SCL пытается найти некоторые основные функции, которые сильно зависят от тегов в исходном домене.

Трансферное обучение в области НЛП иногда называют адаптацией предметной области. В связи с этим Даум [39] предложил функцию отображения ядра для задач НЛП, которая отображает данные исходного и целевого домена в многомерное пространство признаков и использует стандартные методы дискриминантного обучения для обучения классификатора. Однако построенная функция отображения ядра определяется знанием предметной области. Нелегко распространить отображение ядра на другие области или приложения. Блитцер и др. [62] проанализировали равномерную границу сходимости алгоритма, который минимизирует выпуклую комбинацию эмпирического риска источника и цели.

В [36] Дай и др. Предложили алгоритм, основанный на совместной кластеризации, для распространения информации о метках по доменам. В [63] Xing и др. Предложили новый алгоритм, называемый уточнением моста, для правильного прогнозирования классификатора сдвига метки, не осведомленного о целевом распределении, используя смешанное распределение обучающих и тестовых данных в качестве моста для лучшей миграции данных обучения и тестирования данные. Линг и др. [64] предложили структуру спектральной классификации для задач обучения с передачей между областями, введя целевую функцию для поиска согласованности между внутренней структурой супервизии и внешней частью области. В [65] Сюэ и др. Предложили алгоритм междоменной классификации текста, который расширяет традиционный алгоритм вероятностного скрытого семантического анализа (PLSA), который объединяет метки с немаркированным текстом из разных, но связанных полей. Данные для формирования единой вероятностной модели. Эта новая модель называется topicbriplsa, или сокращенно TPLSA.

Пан и др. Недавно предложили переносное обучение с уменьшением размерности [66]. В этой работе Пан и др. Использовали метод встроенной максимальной средней разницы (MMDE) для изучения низкоразмерного пространства, чтобы уменьшить разницу в распределении между различными доменами для трансферного обучения.Метод был первоначально разработан для уменьшения размерности. И разработан. Однако на MMDE может повлиять его вычислительная нагрузка. Поэтому в [67] Пан и др. Также предложили эффективный алгоритм выделения признаков, называемый анализом компонентов передачи (TCA), чтобы преодолеть недостатки MMDE.

5 UNSUPERVISED TRANSFER LEARNING

Definition 4 (Unsupervised Transfer Learning)

Учитывая исходный доменИ учебные задания, Целевой доменИ учебные задания, Целью неконтролируемого трансферного обучения являетсяПомогите улучшить обучающий эффект целевой функции прогнозированияИ использовать знания всв,,Не наблюдается.
Согласно определению параметров обучения с передачей без учителя, во время процесса обучения помеченные данные не наблюдаются в исходном и целевом доменах. Пока что очень мало исследований в этой области. В последние годы были предложены алгоритмы самообучающейся кластеризации (STC) [26] и дискриминантного анализа передачи (TDA) [27] для передачи кластеризации и уменьшения размерности передачи.

5.1 Transferring Knowledge of Feature Representations

Дай и др. Изучили новую проблему кластеризации, называемую самообучающейся кластеризацией. Самообучающаяся кластеризация — это пример обучения с передачей без учителя. Ее цель — кластеризовать небольшой объем немаркированных данных в целевом домене с помощью большого количества немаркированных данных в исходном домене. STC пытается изучить общее пространство функций в доменах, что помогает кластеризоваться в целевом домене. Целевая функция STC показана ниже.

среди нихсЭто данные исходного домена и данные целевого домена. Z — этосОбщее пространство функций,Это взаимная информация между двумя случайными величинами. Предположим, есть три функции кластеризации,среди нихСоответственноСоответствующие кластеры. Цель STC — научиться путем решения задачи оптимизации (7):

Итерационный алгоритм решения функции оптимизации (8) приведен в [26].

Аналогичным образом, [27] предложил алгоритм дискриминантного анализа миграции (TDA) для решения проблемы уменьшения размерности миграции. TDA сначала применяет метод кластеризации для создания меток псевдоклассов для целевых немаркированных данных. Затем примените метод уменьшения размерности к целевым данным и отметьте исходные данные для уменьшения размерности. Эти два шага выполняются итеративно, чтобы найти лучшее подпространство целевых данных.

6 TRANSFER BOUNDS AND NEGATIVE TRANSFER

Важный вопрос — признать пределы возможностей трансферного обучения. Хасан Махмуд и Рэй использовали сложность Колмогорова для анализа ситуации трансферного обучения в [68] и доказали некоторые теоретические границы. В частности, автор использует условную сложность Колмогорова для измерения релевантности между задачами и передает соответствующий объем информации в задачу последовательного обучения с передачей в рамках байесовской структуры.

Недавно Итон и др. [69] предложили новый метод передачи знаний на основе графов, который использует переносимость в качестве меры для встраивания набора изученной исходной модели в граф и установления взаимосвязи между исходными задачами. Моделирование. Сопоставьте проблему с графиком, а затем изучите функцию на графике, функция автоматически определяет параметры, которые необходимо передать в новую задачу обучения. Когда данные и задачи исходного домена вызывают снижение эффективности обучения целевого домена, происходит отрицательная передача.

Хотя вопрос о том, как избежать отрицательного переноса, является очень важным, исследований по этому поводу мало. Опыт Розенштейна и др. [70] показывает, что если эти две задачи слишком разнятся, то миграция методом грубой силы может нанести вред производительности целевой задачи. Некоторые работы были использованы для анализа корреляции между задачами и методами кластеризации задач, такими как [71], [72], которые могут помочь в руководстве, как автоматически избежать отрицательной передачи. Баккер и Хескес [72] использовали байесовский метод, в котором некоторые параметры модели используются всеми задачами, а другие параметры слабо связаны через общее предварительное распределение, которое можно узнать из данных. Следовательно, данные группируются на основе параметров задачи, и задачи в одном кластере должны быть связаны друг с другом. Аргириу и др. [73] рассмотрели случай разделения учебных заданий на группы. Задачи в каждой группе связаны посредством совместного использования низкоразмерного представления, а низкоразмерное представление различается для разных групп. Поэтому задачи в команде легче передавать полезные знания.

7 APPLICATIONS OF TRANSFER LEARNING

В последние годы технология трансферного обучения успешно применяется во многих практических приложениях. Райна и др. [74] и Дай и др. [36], [28] соответственно предложили использовать технологию трансферного обучения для изучения текстовых данных в различных областях. Блитцер и др. Предложили использовать SCL для решения проблем НЛП. Расширение SCL было предложено в [8] для решения проблемы классификации эмоций. Ву и Диттерих [53] предложили использовать недостаточное количество данных целевой области и большое количество некачественных данных исходной области для задач классификации изображений. Арнольд и др. Предложили использовать метод обучения с передачей трансдукции для решения проблемы распознавания сущности имени. В [75], [76], [77], [78], [79] предлагается технология передачи обучения для извлечения знаний из моделей позиционирования WiFi во времени, пространстве и на мобильных устройствах, что способствует другим Задача позиционирования WiFi в настройках. Чжуо и др. [80] изучали, как передавать знания предметной области между предметными областями при планировании автоматизации для изучения моделей реляционного поведения.

Райкар и др. Предложили новый байесовский алгоритм обучения с несколькими экземплярами в [81], который может автоматически идентифицировать соответствующие подмножества признаков и использовать индуктивный перенос для изучения нескольких классификаторов, связанных с концепциями, для компьютерных Дизайн (САПР). Линг и др. [82] предложили метод трансферного обучения, основанный на теории информации, для решения проблемы межъязыковой классификации при переводе веб-страниц на английский язык. Этот метод решает проблему наличия большого количества текстовых данных на английском языке с тегами, но только небольшого количества текстовых документов на китайском языке с тегами. Путем разработки подходящей функции сопоставления в качестве моста реализуется обучение миграции между двумя пространствами функций.

На данный момент по крайней мере два международных конкурса, основанных на трансфертном обучении, предоставили некоторые столь необходимые общедоступные данные. В задаче 8 обнаружения ECML / PKDD-2006 задача состоит в том, чтобы обрабатывать персонализированную фильтрацию спама и обобщение для связанных задач обучения. Чтобы обучить систему фильтрации спама, нам нужно собрать большое количество писем от группы пользователей с соответствующими тегами: спам или не спам, и обучить классификатор на основе этих данных. Для нового пользователя электронной почты нам может потребоваться настроить изученную модель для пользователя. Проблема в том, что рассылка электронной почты первых и новых пользователей отличается. Следовательно, проблема может быть смоделирована как проблема обучения индуктивной миграции, цель которой — применить старую модель фильтрации спама к новой ситуации с меньшим объемом обучающих данных и более коротким временем обучения.

Конкурс ICDM-2007 предоставляет второй набор данных, в котором задача состоит в том, чтобы оценить местоположение WiFi-клиента внутри помещения, используя данные сигнала WiFi, полученные в разные периоды времени [83]. Поскольку значение мощности сигнала WiFi может зависеть от времени, пространства и оборудования, распределение данных Wi-Fi в разные периоды времени может сильно отличаться. Следовательно, трансфертное обучение должно быть спроектировано так, чтобы уменьшить работу по изменению меток данных.

Data Sets for Transfer Learning: К настоящему времени опубликовано несколько наборов данных для исследования трансфертного обучения. Мы представляем набор данных интеллектуального анализа текста, набор данных фильтрации спама по электронной почте, набор данных о местоположении WiFi с течением времени и набор данных классификации настроений, состоящий из текста, электронной почты, Wi-Fi и Sen.

Empirical Evaluation Чтобы доказать, насколько выгоден метод трансферного обучения по сравнению с традиционными методами обучения, исследователи использовали некоторые общедоступные наборы данных. Мы перечислили некоторые опубликованные статьи о трансферном обучении в таблице 5. В [6], [84], [49] автор использует 20 наборов данных 12 групп новостей в качестве одного из наборов данных оценки. Поскольку у разных исследователей разные этапы предварительной обработки алгоритма, напрямую сравнивать предложенные методы сложно. Поэтому мы обозначаем их как 20-Newsgroups1, 20-Newsgroups2 и 20-Newsgroups3, соответственно, и показываем результаты сравнения предлагаемого метода трансферного обучения и метода непереводного обучения в таблице.

Дай и др. Провели сравнительный эксперимент между стандартной машиной опорных векторов (SVM) и алгоритмом TrAdaBoost на 20 группах по 1 данным. В 20 группах новостей2 Ши и др. [84] использовали алгоритмы активного обучения, используя TrAdaBoost и стандартную SVM для выбора важных примеров трансферного обучения (AcTraK). Гао и др. Оценили свои локально взвешенные алгоритмы обучения ансамбля pLWE и LWE в 20 группах новостей3 и сравнили их с SVM и логистической регрессией (LR).

Кроме того, в таблице мы также показываем результаты сравнения набора данных классификации настроений, представленных в [8]. В этом наборе данных SGD представляет алгоритм стохастического градиентного спуска с потерями Хубера, SCL представляет собой линейный предиктор нового представления, изученного соответствующим алгоритмом обучения структуры, а sc-mi является расширением SCL, использующим взаимную информацию для выбора основных функций алгоритма SCL.

Наконец, в наборе данных беспроводного позиционирования мы показываем, что результаты сравнения, представленные в [67], базовым уровнем является регуляризованная модель регрессии наименьших квадратов (RLSR), которая представляет собой стандартную модель регрессии, и KPCA, которая представляет новое обучение, полученное путем применения RLSR. Анализ главных компонентов ядра представления данных. Методы сравнительного обучения передачи включают сопоставление среднего ядра (KMM) и предлагаемый алгоритм анализа компонентов передачи (TCA). Для получения более подробной информации о результатах экспериментов читатели могут обратиться к ссылкам, приведенным в таблице. Из этих результатов сравнения мы можем обнаружить, что по сравнению с методами обучения без передачи, методы обучения с переносом, подходящие для практических приложений, действительно могут значительно улучшить производительность.

Toolboxes for Transfer Learning: Исследователи из Калифорнийского университета в Беркли предоставляют набор инструментов MATLAB для трансферного обучения. Набор инструментов содержит алгоритмы и наборы контрольных данных для трансферного обучения. Кроме того, он также предоставляет стандартную платформу для разработки и тестирования новых алгоритмов трансферного обучения. Взаимодействие с другими людьми

7.1 Other Applications of Transfer Learning

Трансферное обучение также имеет множество применений в последовательном машинном обучении. Например, [85] предложил метод на основе графов для идентификации ранее встречавшихся игр и применил эту технологию к автоматическому отображению предметной области, чтобы реализовать передачу функций значений и ускорить улучшение вариантов ранее сыгранных игр. Учиться. В обучении переводу предлагается новый метод преобразования между совершенно разными пространствами признаков. Этот метод становится возможным благодаря изучению функции сопоставления, которая соединяет объекты в двух совершенно разных областях (изображение и текст) [86 ]. Наконец, Ли и др. [87], [88] применили трансферное обучение к проблеме совместной фильтрации, которая решила проблемы холодного старта и разреженности. В [87] Ли и др. Изучили гибридную модель общей скоринговой модели, основанную на потенциальных пользователях и переменных кластера проекта, которая называется моделью создания скоринговых матриц (RMGM). RMGM связывает несколько матриц оценки из разных полей, сопоставляя пользователей и элементы в каждой матрице оценки с общим потенциальным пользователем и пространством элементов, тем самым передавая полезные знания. В [88] они применили алгоритм коагрегации к пользователям и элементам вспомогательной матрицы оценки. Затем они построили оценочную матрицу на уровне кластера, называемую кодовой книгой. Предполагая, что целевая матрица оценки (в фильмах) связана со вспомогательной матрицей (в книгах), процесс передачи знаний завершается расширением кодовой книги, и целевая область восстанавливается.

8 CONCLUSIONS

В этой обзорной статье мы рассмотрели несколько текущих тенденций в трансферном обучении. Передающее обучение можно разделить на индуктивное передающее обучение, трансдукционное передающее обучение и неконтролируемое передающее обучение. Большинство предыдущих работ было сосредоточено на первых двух сценах. Неконтролируемое трансферное обучение может привлекать все больше и больше внимания в будущем.

Кроме того, в соответствии с контентом, который необходимо передать при обучении, каждый метод переноса обучения можно разделить на четыре контекста. Они включают метод передачи экземпляров, метод передачи представления признаков, метод передачи параметров и метод передачи реляционных знаний. Все первые три контекста имеют предположение о данных, в то время как последний контекст имеет дело с переносом обучения реляционных данных. Большинство этих методов есть. Предположим, что выбранный исходный домен связан с целевым доменом.

В будущем необходимо решить несколько важных исследовательских задач. Прежде всего, как избежать отрицательного перевода — вопрос открытый. Как упоминалось в разделе 6, многие предлагаемые алгоритмы трансферного обучения предполагают, что исходный и целевой домены в определенном смысле связаны друг с другом. Однако, если это предположение не соответствует действительности, может произойти отрицательный перевод, из-за которого учащиеся могут работать хуже, чем без перевода. Следовательно, как обеспечить возникновение отрицательного переноса — ключевой вопрос в трансферном обучении. Чтобы избежать отрицательного переноса обучения, нам необходимо сначала изучить возможность переноса между исходным доменом или задачей и целевым доменом или задачей. Основываясь на соответствующей степени переносимости, мы можем выбрать связанные исходные домены или задачи для извлечения знаний, тем самым изучая целевую задачу. Чтобы определить переносимость между доменами и задачами, нам также необходимо определить стандарты для измерения сходства между доменами или задачами. На основе измерения расстояния мы можем сгруппировать домены или задачи, что может помочь измерить переносимость. Связанный с этим вопрос заключается в том, можем ли мы по-прежнему передавать часть домена для полезного обучения в целевой домен, когда весь домен не может использоваться для передачи обучения.

Кроме того, до сих пор большинство существующих алгоритмов трансферного обучения были сосредоточены на улучшении обобщения различных распределений между исходными и целевыми доменами или задачами. При этом они предполагают, что пространство функций между исходным и целевым доменами одинаково. Однако во многих приложениях мы можем передавать знания между доменами или задачами с различными пространствами функций и передавать знания из нескольких таких исходных доменов. Мы называем этот тип трансферного обучения гетерогенным трансферным обучением.

Наконец, до сих пор технология трансферного обучения в основном используется в небольших приложениях, но типы ограничены, например определение местоположения на основе сенсорной сети, классификация текста и классификация изображений. В будущем технология трансферного обучения будет широко использоваться для решения других сложных задач, таких как классификация видео, анализ социальных сетей и логические рассуждения.

Русские Блоги

Эта статья — первая статья, представленная в колонке обучения миграции. Профессор Ян Цян из CUHK опубликовал обзорную статью об обучении миграции в IEEE Transactions по знаниям и инженерии данных в 2010 году.

Abstract

Во многих алгоритмах машинного обучения и интеллектуального анализа данных основное предположение состоит в том, что данные для обучения и будущие данные должны находиться в одном пространстве функций и иметь одинаковое распределение. Однако во многих практических приложениях это предположение может не выполняться. Например, у нас иногда есть задача классификации в интересующей области, но у нас достаточно обучающих данных только в другой интересующей области. В другом домене последние могут быть расположены в другом пространстве функций или следовать другому Распространение данных.

В этом случае, если передача знаний прошла успешно, можно избежать дорогостоящей маркировки данных, что значительно повысит эффективность обучения. В последние годы трансфертное обучение стало новой структурой обучения. Основное внимание в этом исследовании уделяется классификации и обзору текущего прогресса трансфертного обучения в области классификации, регрессии и кластеризации. В этом исследовании мы обсудили взаимосвязь между трансферным обучением и другими связанными технологиями машинного обучения, такими как адаптация предметной области, многозадачное обучение, систематическая ошибка выборки и ковариативный сдвиг. В то же время мы также обсудили некоторые потенциальные будущие проблемы исследования трансфертного обучения.

1 INTRODUCTION

Технологии интеллектуального анализа данных и машинного обучения достигли значительных успехов в таких областях инженерии знаний, как классификация, регрессия и кластеризация (например, [1], [2]). Однако многие методы машинного обучения могут работать хорошо только при общем предположении: данные для обучения и тестирования поступают из одного пространства функций и одного распределения. Когда распределение меняется, большинство статистических моделей необходимо перестраивать с нуля с использованием недавно собранных обучающих данных.

Во многих практических приложениях сложно или даже невозможно вспомнить необходимые обучающие данные и восстановить модель. Было бы хорошо, если бы не нужно было вспоминать тренировочные данные и не прилагать к ним усилий. В этом случае желательна передача знаний или передача обучения между областями задач. Во многих примерах инженерии знаний трансферное обучение действительно полезно. Примером является классификация веб-документов [3], [4], [5]. Наша цель — классифицировать данный веб-документ по нескольким предопределенным категориям. В качестве примера в области классификации веб-документов (см., Например, [6]), примером тегирования может быть веб-страница университета, связанная с информацией о категории, полученной посредством предыдущей ручной маркировки. Для задачи классификации на вновь созданном веб-сайте характеристики данных или распределение данных могут отличаться, а отмеченные обучающие данные могут отсутствовать. Поэтому мы не сможем напрямую применить классификаторы веб-страниц, изученные на веб-сайте университета, на новом веб-сайте. В этом случае будет очень полезно, если мы сможем перенести классификационные знания в новую область.

Когда данные быстро устаревают, может потребоваться трансферное обучение. В этом случае данные тега, полученные за один период времени, могут не иметь такого же распределения в более поздний период времени. Например, проблема позиционирования WiFi внутри помещения состоит в том, чтобы определить текущее местоположение пользователя на основе ранее собранных данных WiFi. Установить модель позиционирования в большой среде и откалибровать данные WiFi очень дорого, поскольку пользователю необходимо отметить большое количество коллекций в каждом месте. Данные сигнала WiFi. Однако значение мощности сигнала WiFi может зависеть от времени, оборудования или других динамических факторов. Модель, обученная в один период времени или на одном устройстве, может вызвать снижение производительности оценки местоположения в другой период времени или на другом устройстве. Чтобы сократить работу по повторной калибровке, мы можем захотеть адаптировать обучение модели локализации в новый период (целевой домен) в периоде времени (исходный домен) или адаптировать обучение модели локализации на мобильном устройстве (исходный домен) в качестве нового мобильного устройства ( Целевая область) [7].

В третьем примере рассмотрим проблему классификации настроений. Наша задача — автоматически разделить отзывы о продукте, например о фотоаппарате бренда, на положительные и отрицательные. Для этой задачи классификации нам сначала нужно собрать много отзывов о продукте и аннотировать их. Затем мы будем использовать соответствующие теги для обучения классификатора комментариям. Поскольку распределение данных обзора между различными типами продуктов может сильно отличаться, для поддержания хорошей эффективности классификации нам необходимо собрать большой объем помеченных данных, чтобы обучить модель классификации обзоров для каждого продукта. Однако этот процесс маркировки данных может быть очень дорогим. Чтобы сократить объем работы по комментированию и обзору различных продуктов, нам может потребоваться настроить модель классификации для определенных продуктов, чтобы помочь изучить модели классификации для других продуктов. В этом случае трансферное обучение может сэкономить много работы по маркировке.

В этой обзорной статье мы даем всесторонний обзор трансферного обучения для классификации, регрессии и кластеризации, разработанного в области машинного обучения и интеллектуального анализа данных. В литературе по машинному обучению было много исследований по трансферному обучению для обучения с подкреплением ([9], [10]). Однако в этой статье мы сосредоточимся только на трансферном обучении для задач классификации, регрессии и кластеризации, которые более тесно связаны с задачами интеллектуального анализа данных. Мы надеемся, что с помощью этого опроса мы предоставим полезные ресурсы для сообществ интеллектуального анализа данных и машинного обучения.

Остальная часть обзора организована следующим образом. В следующих четырех частях мы сначала дадим общий обзор и определим некоторые символы, которые будут использоваться позже. Затем мы кратко рассмотрели историю трансферного обучения, дали единое определение трансферного обучения и разделили трансферное обучение на три различных параметра (как показано в таблице 2 и на рисунке 2). Затем, в разделе 6, мы рассмотрели некоторые текущие исследования негативной передачи, которая происходит, когда передача знаний оказывает негативное влияние на целевое обучение.Отрицательный перенос. В Разделе 7 мы представим некоторые успешные применения трансферного обучения и перечислим некоторые опубликованные наборы данных и программные инструменты для исследований в области трансферного обучения. Наконец, мы обсудили будущую работу в Разделе 8, чтобы завершить эту статью.

2 OVERVIEW

2.1 A Brief History of Transfer Learning

Традиционные алгоритмы интеллектуального анализа данных и машинного обучения используют статистические модели для прогнозирования будущих данных. Эти статистические модели обучаются на ранее собранных помеченных или немаркированных обучающих данных [11], [12], [13]. При полу-контролируемой классификации [14], [15], [16], [17] используется большой объем немаркированных данных и небольшой объем помеченных данных, чтобы решить проблему, заключающуюся в том, что может быть слишком мало помеченных данных для построения хорошего классификатора. Изучаются изменения обучения с учителем и обучения с учителем неполных наборов данных; например, Zhu и Wu [18] изучали, как справиться с проблемой шума меток классов. Янг и др. Рассматривали обучение с учетом затрат при выполнении дополнительных тестов на будущих выборках [19]. Однако большинство из них полагают, что распределение помеченных и немаркированных данных одинаково. Напротив, трансферное обучение позволяет использовать различные домены, задачи и распределения для обучения и тестирования. В реальном мире мы наблюдаем множество примеров трансферного обучения. Например, мы можем обнаружить, что научиться распознавать яблоки может помочь распознавать груши. Точно так же обучение игре на электронном пианино может помочь в изучении игры на фортепиано. Исследование трансфертного обучения основано на том факте, что люди могут разумно применять ранее полученные знания для более быстрого или лучшего решения новых проблем. На семинаре NIPS-95 «Обучение, чтобы учиться» обсуждалась основная мотивация трансфертного обучения в области машинного обучения. В центре внимания семинара была необходимость использования методов машинного обучения на протяжении всей жизни для сохранения и повторного использования ранее полученных знаний.

С 1995 года исследования трансфертного обучения привлекают все больше внимания под разными названиями: обучение обучению, непрерывное обучение, передача знаний, индуктивный перенос, многозадачное обучение, консолидация знаний, контекстно-зависимое обучение, основанное на знаниях индуктивный уклон, метаобучение, инкрементное / кумулятивное обучение [20]. Среди этих методов обучения, тесно связанных с трансферным обучением, есть структура многозадачного обучения [21], которая пытается изучить несколько задач одновременно, даже если они разные. Типичный метод многозадачного обучения — выявление общих (потенциальных) характеристик, которые могут принести пользу каждой отдельной задаче.

В 2005 году Управление технологий обработки информации (IPTO) Агентства перспективных исследовательских проектов Министерства обороны США (DARPA) выпустило широкое сообщение агентства (BAA) 05-29, в котором была предложена новая задача трансферного обучения: идентификация системы и Способность применять знания и навыки, полученные в предыдущих задачах, к новым задачам. В этом определении цель трансферного обучения состоит в том, чтобы извлечь знания из одной или нескольких исходных задач и применить эти знания к целевой задаче. По сравнению с многозадачным обучением, в трансферном обучении больше внимания уделяется целевой задаче, а не изучению всех исходных задач и целевых задач одновременно. При трансферном обучении роли исходной и целевой задачи больше не симметричны.

На рисунке 1 показана разница между традиционным процессом обучения и методами передачи обучения. Как мы видели, традиционные методы машинного обучения пытаются изучить каждую задачу с нуля, в то время как методы трансферного обучения пытаются передать знания о некоторых предыдущих задачах целевой, когда для целевой задачи недостаточно качественных обучающих данных. задача.

Сегодня методы трансферного обучения появляются в нескольких основных областях, наиболее известными из которых являются интеллектуальный анализ данных (например, ACM KDD, IEEE ICDM и PKDD), машинное обучение (например, ICML, NIPS, ECML, AAAI и IJCAI), а также машинное обучение и интеллектуальный анализ данных. Приложение (например, ACM SIGIR, WWW и ACL). Прежде чем давать различные классификации трансферного обучения, мы сначала опишем обозначения, используемые в этой статье.

2.2 Notations and Definitions

В этом разделе мы представим некоторые символы и определения, используемые в этом обзоре. Сначала дадим определение предметной области и задачи соответственно. В этом исследовании доменПространство функцийИ маргинальное распределение вероятностейДве части, из которых. Например, если нашей учебной задачей является классификация документов, и каждый элемент используется как двоичная функция, тогдаПространство всех векторов элементов, Xi — вектор i-го элемента, соответствующий некоторым документам,Это конкретный обучающий образец. Вообще говоря, если две области различны, они могут иметь разные пространства признаков или разные предельные распределения вероятностей.

Учитывая конкретный домен, Задача состоит из двух компонентов: пространства меток Y и целевой функции прогнозирования.(используйтеЗначит) этого не наблюдается, но его можно получить из обучающих данных, в том числе,. функцияМожет использоваться для прогнозирования соответствующей метки,Новый экземпляр x. С точки зрения вероятности,Можно записать как. В нашем примере классификации документовНабор всех меток для задачи двоичной классификации,Верно это или нет.

Для простоты в этом обзоре мы рассмотрели только одну исходную областьИ целевой доменСитуация, потому что пока что это самая популярная исследовательская работа в литературе. Более конкретно, мы представляем данные исходного домена как,среди нихЭкземпляр данных,Соответствующая метка класса. В нашем примере классификации документов DS может быть набором векторов терминов и связанных с ними истинных или ложных тегов. Точно так же мы представляем данные целевого домена как, Где войтивв,Соответствующий вывод. В большинстве случаев。

Теперь мы дадим единое определение трансферному обучению.

Definition 1 (Transfer Learning)
Для исходного доменаИ учебные задания, Целевой доменИ учебные задания, Целью трансферного обучения являетсяПомогите улучшить обучающий эффект целевой функции прогнозированияИ использовать знания всв,。

В приведенном выше определении домен. Несмотря на условияНамекнул,. Например, в нашем примере классификации документов это означает, что между набором исходных документов и набором целевых документов либо два набора имеют разные характеристики терминов (например, они используют разные языки), либо их маргинальное распределение различно.

Аналогично задача определяется как. Несмотря на условияПодсказка,. Когда целевой домен и исходный домен совпадают, Их учебные задачи совпадают, Проблема обучения стала традиционной проблемой машинного обучения. Когда домены разные, оба могут:

  1. Пространство функций различается между доменами
  2. Пространство признаков одинаково между доменами, но вероятность предельного распределения различается между доменами.,。

Например, в нашем примере классификации документов

  1. Соответствует времени, описанному двумя пакетами документов на разных языках
  2. Это может соответствовать времени, когда документ исходного домена и документ целевого домена фокусируются на разных темах.

Учитывая конкретный доменсПри обучении задачесКогда разные, оба

  1. Расстояние между доменами разное,
  2. Условное распределение вероятностей между доменами разное,,среди них,。

В нашем примере классификации документов

  1. Соответствующая ситуация заключается в том, что исходный домен имеет классы двоичных документов, а целевой домен имеет 10 классов для классификации документов.
  2. Соответствует ситуации, когда исходный документ и целевой документ очень несбалансированы с точки зрения определяемых пользователем классов.

Кроме того, когда существует явная или неявная связь между пространством функций двух доменов, мы говорим, что исходный домен и целевой домен связаны.

2.3 A Categorization of Transfer Learning Techniques

При трансфертном обучении мы в основном изучаем три вопроса:

  1. What to transfer;
  2. How to transfer;
  3. When to transfer.

«Что передавать» спрашивает, какие знания можно передавать между доменами или задачами. Некоторые знания специфичны для одной области или задачи, а некоторые знания могут быть общими для разных областей, так что они могут помочь улучшить производительность целевой области или задачи. После обнаружения того, какие знания могут быть переданы, необходимо разработать алгоритмы обучения для передачи знаний, что соответствует задаче «Как передать».

«Когда передавать» требует передачи навыков при каких обстоятельствах. Точно так же мы заинтересованы в том, чтобы знать обстоятельства, при которых знаниеНе долженБыл перенесен. В некоторых случаях, когда исходный домен и целевой домен не связаны, миграция методом грубой силы может не завершиться успешно. В худшем случае это может даже навредить академической успеваемости в целевой области, что часто называют отрицательным переводом. Большая часть текущей работы по трансферному обучению фокусируется на том, что и как передавать, метод заключается в неявном предположении, что исходный и целевой домены связаны друг с другом. Тем не менее, как избежать отрицательной миграции — важный открытый вопрос, которому в будущем будет уделяться все больше внимания.

1) Основываясь на определении трансферного обучения, мы суммировали взаимосвязь между традиционным машинным обучением и различными настройками трансферного обучения. В таблице 1 мы классифицируем обучение по трем подпараметрам: перенос, индуктивное переносное обучение, трансдуктивное переносное обучение и неконтролируемое переносное обучение. Трансферное обучение основано на различных ситуациях и задачах между исходным и целевым доменами.

В индуктивном обучении с передачей, независимо от того, являются ли исходный домен и целевой домен одинаковыми, целевая задача отличается от исходной задачи. В этом случае некоторые помеченные данные в целевом домене необходимы, чтобы вызвать целевую модель прогнозирования, используемую в целевом домене.. Кроме того, в зависимости от различных ситуаций с помеченными и немаркированными данными в исходном домене, мы можем разделить настройку обучения с индуктивной передачей на две ситуации:

  1. В исходном домене доступно большое количество помеченных данных. В этом случае настройка индуктивного обучения с передачей аналогична настройке многозадачного обучения. Однако цель настройки обучения с индуктивной передачей состоит в том, чтобы реализовать высокую производительность целевой задачи путем передачи знаний из исходной задачи, в то время как многозадачное обучение состоит в одновременном изучении целевой задачи и исходной задачи.
  2. В исходном домене нет данных с тегами. В этом случае настройка индуктивного переноса обучения аналогична настройке самообучения, которая была впервые предложена Райной и др. [22]. В автономной среде обучения пространство меток между исходным доменом и целевым доменом может быть различным, что означает, что побочная информация исходного домена не может использоваться напрямую. Следовательно, это похоже на настройку индуктивного обучения с передачей, когда помеченные данные недоступны в исходном домене.

2) В настройке трансдуктивного переноса исходная задача и целевая задача одинаковы, но исходная задача и целевой домен отличаются. В этом случае в целевом домене нет доступных данных разметки, а в исходном домене доступно много данных разметки. Кроме того, в соответствии с различными ситуациями исходного домена и целевого домена мы можем разделить настройку трансдуктивного переноса на две ситуации.

  1. Пространство функций между исходным доменом и целевым доменом отличается,
  2. Пространство функций между доменами одинаковое,. Но распределение предельной вероятности входных данных другое,. Настройка трансдуктивного переноса в последнем случае связана с адаптацией предметной области передачи знаний в классификации текста [23] и смещением выборки [24] или ковариатным сдвигом [25], и его предположения аналогичны.

3) Наконец, в настройке обучения с передачей без учителя, аналогичной настройке обучения с индуктивной передачей, целевая задача отличается от исходной задачи, но связана с исходной задачей. Тем не менее, трансфертное обучение без учителя в основном решает задачи обучения без учителя в целевой области, такие как кластеризация, уменьшение размерности и оценка плотности [26], [27]. В этом случае ни исходный домен, ни целевой домен не имеют доступных помеченных данных во время обучения.

Взаимосвязь между различными настройками трансферного обучения и связанными полями показана в таблице 2 и на рисунке 2.

В указанных выше трех различных ситуациях метод обучения с переносом можно разделить на четыре ситуации в соответствии с содержанием передачи.

В таблице 3 показаны эти четыре ситуации и их краткое описание. Первый контекст можно назвать методом обучения передачи (или передачи экземпляра) на основе экземпляра [6], [28], [29], [30], [31], [24], [32], [33], [34], [35] предполагается, что некоторые части данных в исходном домене могут быть повторно использованы путем повторного взвешивания обучения в целевом домене. В этом случае двумя основными методами являются взвешивание экземпляров и выборка по важности.

Второй случай можно назвать методом передачи представления признаков [22], [36], [37], [38], [39], [8], [40], [41], [42], [43]. , [44]. Интуитивная идея, стоящая за этой ситуацией, состоит в том, чтобы изучить «хорошее» характеристическое представление целевого поля. В этом случае знания, используемые для междоменной передачи, кодируются в изученное характеристическое представление. Ожидается, что использование нового представления функций значительно повысит производительность целевой задачи.

Третий случай можно назвать методом передачи параметров [45], [46], [47], [48], [49], который предполагает, что исходная задача и целевая задача разделяют некоторые параметры или предварительные распределения гиперпараметров модели. Переданные знания кодируются в общие параметры или априорные значения. Следовательно, обнаруживая общие параметры или априорные факторы, можно передавать знания между задачами.

Наконец, последний случай называется проблемой передачи реляционных знаний [50], которая касается передачи обучения реляционных областей. Основное предположение, лежащее в основе этого контекста, заключается в том, что существует аналогичная связь между данными в исходном и целевом доменах. Следовательно, передаваемые знания — это взаимосвязь между данными. В последнее время в этой области преобладает статистическая технология реляционного обучения [51], [52].

В таблице 4 показано использование различных методов для каждой настройки трансферного обучения. Мы можем видеть, что установка индуктивного трансферного обучения изучалась в большом количестве исследовательских работ, в то время как установка неконтролируемого трансферного обучения является относительно новой темой исследования, которая изучается только в контексте случаев передачи представления признаков. Кроме того, проблема переноса представления признаков предлагается в трех сценариях переноса обучения. Однако методы передачи параметров и реляционных знаний изучаются только в обучающей среде с индуктивной передачей, которую мы подробно обсудим ниже.

3 INDUCTIVE TRANSFER LEARNING

Definition 2 (Inductive Transfer Learning)

Учитывая исходный доменИ учебные задания, Целевой доменИ учебные задания, Индуктивное переносное обучение призвано помочьУлучшить функцию прогнозирования цели обучения,всИспользуйте знания,. (В трансфертном обучении)

Согласно приведенному выше определению настройки обучения с индуктивной передачей, небольшой объем помеченных данных необходимо использовать в качестве обучающих данных в целевой области, чтобы вызвать функцию прогнозирования цели. Как описано в Разделе 2.3, для этого параметра есть две ситуации:

  1. Отмеченные данные в исходном домене доступны;
  2. Помеченные данные в исходном домене недоступны, но немаркированные данные в исходном домене доступны. В этом случае большинство методов трансферного обучения сосредоточено на первом случае.

3.1 Transferring Knowledge of Instances

Метод передачи экземпляров настроек обучения с индуктивной передачей интуитивно привлекателен: хотя данные исходного домена нельзя повторно использовать повторно, некоторые части данных все же можно повторно использовать с некоторыми помеченными данными в целевом домене.

Дай и др. [6] предложили усовершенствованный алгоритм TrAdaBoost, который является расширением алгоритма AdaBoost для решения проблемы индуктивного обучения с передачей. TrAdaBoost предполагает, что данные исходного и целевого домена используют один и тот же набор функций и меток, но распределение данных в двух доменах отличается. Кроме того, TrAdaBoost предполагает, что из-за разницы в распределении между исходным доменом и целевым доменом некоторые данные исходного домена могут быть полезны для изучения целевого домена, но некоторые данные могут быть бесполезными или даже вредными. Он пытается итеративно повторно взвешивать данные исходного домена, чтобы уменьшить влияние плохих исходных данных, в то же время поощряя хорошие исходные данные для большего вклада в целевой домен. Для каждой итерации TrAdaBoost обучает базовый классификатор на основе взвешенных исходных и целевых данных. Ошибка рассчитывается только на целевых данных. Кроме того, TrAdaBoost использует ту же стратегию, что и AdaBoost, для обновления ошибочно классифицированных примеров в целевом домене и использует стратегию, отличную от AdaBoost, для обновления ошибочно классифицированных примеров в исходном домене. Теоретический анализ TrAdaBoost также приведен в [6].

Цзян и Чжай [30] предложили метод, основанный на условной вероятностисЭвристический метод различия удаляет вводящие в заблуждение обучающие примеры из исходного домена. Ляо и др. Предложили новый метод активного обучения, который использует данные исходного домена для выбора немаркированных данных в целевом домене для маркировки. Ву и Диттерих [53] интегрировали данные исходного домена (вспомогательные) в структуру SVM для повышения эффективности классификации.

3.2 Transferring Knowledge of Feature Representations

Представление признаков проблемы индуктивного обучения с передачей — цель метода переноса состоит в том, чтобы найти хорошее представление признаков, чтобы минимизировать расхождение предметной области и ошибки модели классификации или регрессии. Для разных типов данных исходной области стратегии поиска хороших представлений характеристик различаются. Если в исходном домене доступен большой объем помеченных данных, для построения представлений функций можно использовать методы контролируемого обучения. Это похоже на обычное обучение в области многозадачного обучения в [40]. Если в исходном домене нет помеченных данных, для построения представлений функций используются методы обучения без учителя.

3.2.1 Supervised Feature Construction

Метод построения контролируемых признаков в настройке индуктивного передаточного обучения аналогичен методу построения признаков, используемому в многозадачном обучении. Основная идея — изучить низкоразмерные представления, которые используются в связанных задачах. Кроме того, изученный новый метод представления может также уменьшить ошибку классификации или регрессионной модели каждой задачи. Аргириу и др. Предложили метод обучения с использованием разреженных функций для многозадачного обучения. В настройке обучения с индуктивной передачей, решив задачу оптимизации, вы можете изучить общие функции, как показано на следующем рисунке:

В формуле S и T представляют задачи исходного и целевого домена соответственно.Матрица параметров. U — это ортогональная матрица d x d (функция отображения), используемая для отображения исходных данных большой размерности в представление низкой размерности. (R, p) -норма A определяется как. Задача оптимизации (1) Одновременно оцените низкоразмерные представления utxt, utxs и параметр A модели. Задача оптимизации (1) может быть далее преобразована в эквивалентную формулу выпуклой оптимизации, которая может быть эффективно решена. В последующей работе Аргириу и др. Предложили структуру регуляризации матричного спектра для многозадачного структурного обучения.

Ли и др. Предложили алгоритм выпуклой оптимизации для одновременного изучения мета-априорных значений и весов характеристик из набора связанных задач прогнозирования. Мета-приоры можно переносить между разными задачами. Джебара [43] предложил использовать опорные векторные машины для выбора функций для многозадачного обучения. Ракерт и др. Разработали метод индуктивной передачи на основе сердечника, чтобы найти подходящий сердечник для целевых данных.

3.2.2 Unsupervised Feature Construction

В [22] Райна и др. Предложили использование разреженного кодирования [55], которое представляет собой неконтролируемый метод конструирования признаков для обучения высокоуровневым функциям для передачи обучения. Основная идея этого метода состоит из двух шагов. На первом шаге базисный вектор высшего порядка, Решая задачу оптимизации (2), изучая данные исходной области, как показано на следующем рисунке

В этом уравненииЕсли это новая основа представительствавойтисКоэффициенты для уравновешивания срока построения функции и члена регуляризации. После изучения базисного вектора b вторым шагом является применение алгоритма оптимизации (3) к данным целевой области и изучение функций более высокого уровня на основе базисного вектора b.

Наконец, приводится дискриминантный алгоритмИспользуйте соответствующие теги для обучения модели классификации или регрессии для использования в целевом домене. Одним из недостатков этого метода является то, что так называемые базисные векторы высокого порядка, полученные в исходной области в задаче оптимизации (2), могут не подходить для целевой области.

В последние годы для передачи обучения применялись различные методы обучения. В [44] Ван и Махадеван предложили метод выравнивания несоответствующих многообразий, основанный на анализе Прокруста, который может передавать знания между доменами путем выравнивания многообразий.

3.3 Transferring Knowledge of Parameters

Большинство методов передачи параметров для обобщения настроек переноса обучения предполагают, что одна модель связанных задач должна разделять некоторые предшествующие распределения параметров или гиперпараметров. Большинство методов, описанных в этом разделе, включая структуры регуляризации и иерархические байесовские структуры, предназначены для работы в условиях многозадачного обучения. Однако их можно легко модифицировать для передачи обучения. Как упоминалось выше, многозадачное обучение пытается изучить исходную задачу и целевую задачу в одно и то же время, в то время как трансферное обучение — это просто использование данных исходного домена для повышения производительности целевого домена. Следовательно, при многозадачном обучении вес функции потерь исходных данных и целевых данных одинаков. Напротив, при трансферном обучении вес функции потерь в разных областях может быть разным. Интуитивно мы можем присвоить больший вес функции потерь целевого домена, чтобы гарантировать лучшую производительность в целевом домене.

Лоуренс и Платт [45] предложили алгоритм MT-IVM на основе гауссовского процесса (GP) для работы с ситуациями многозадачного обучения. MT-IVM пытается изучить гауссовские параметры процесса для нескольких задач, используя один и тот же GP ранее. Бонилла и др. Также изучали многозадачное обучение в среде терапевта. Автор рекомендует использовать ковариационную матрицу произвольной формы для задач для моделирования зависимостей между задачами, в которой априорные значения GP используются для установления корреляций между задачами. Schwaighofer et al. Предложили объединить иерархическую байесовскую структуру (HB) и генетический алгоритм (GP) для многозадачного обучения.

В дополнение к миграции априорных моделей генетических алгоритмов, некоторые ученые также предложили миграцию параметров опорных векторных машин в рамках регуляризации. Евгениу и Понтил [48] представили идею HB в машинах опорных векторов для многозадачного обучения. Этот метод предполагает, что параметр w каждой задачи в машине опорных векторов может быть разложен на два элемента. Один — это общий термин, относящийся к задаче, а другой — термин, относящийся к конкретной задаче. В индуктивном переносном обучении

среди них,сЭто параметры машины опорных векторов для исходной задачи и целевой задачи обучения.Это общедоступный параметр,сЭто конкретные параметры исходной и целевой задачи. ГипотезаДля гиперплоскости задачи t расширите svm на примеры многозадачного обучения, которые можно записать как:

Решая указанные выше задачи оптимизации, вы можете одновременно узнать、спараметр.

Некоторые исследователи дополнительно изучили метод передачи параметров. Гао и др. Предложили локально взвешенную интегрированную структуру обучения, которая объединяет несколько моделей для трансферного обучения и динамически присваивает веса прогнозирующей способности каждого экземпляра теста в целевой области в соответствии с моделью s.

3.4 Transferring Relational Knowledge

В отличие от трех других контекстов, метод передачи реляционных знаний имеет дело с проблемой передачи знаний в реляционной области, где данные не являются i.i.d. И это может быть представлено множеством взаимосвязей, таких как сетевые данные и данные социальных сетей. Этот метод не предполагает, что данные, извлеченные из каждого домена, являются независимыми и одинаково распределенными, как при традиционном предположении. Он пытается перенести связь между данными из исходного домена в целевой домен. В этом контексте предлагается метод обучения статистическим отношениям для решения этих проблем.

Михалкова [50] и др. Предложили алгоритм TAMAR, который использует логическую сеть Маркова (млн) для передачи реляционных знаний между реляционными доменами. MLN [56] — мощный формализм, сочетающий компактную выразительность логики первого порядка и гибкость вероятности для изучения статистических отношений. В mln объекты в реляционной области представлены предикатами, а отношения между ними представлены логикой первого порядка. Мотивация TAMAR заключается в том, что если два домена связаны друг с другом, может существовать отображение соединяющихся сущностей и их отношений из исходного домена в целевой домен. Например, можно считать, что профессора играют такую ​​же роль в академической сфере, что и менеджеры в области управления производством. Кроме того, отношения между профессорами и студентами аналогичны отношениям между менеджерами и сотрудниками. Следовательно, может существовать отображение от профессоров к менеджерам и от отношений между профессорами и студентами к отношениям между менеджерами и рабочими. В этом случае TAMAR пытается использовать MLN, полученный для исходного домена, чтобы помочь узнать MLN целевого домена. По сути, TAMAR — это двухэтапный алгоритм. На первом этапе сопоставление исходного MLN с целевым доменом строится на основе взвешенной меры псевдо-логарифмического правдоподобия (WPLL). Второй шаг — изменить структуру отображения в целевой области с помощью алгоритма FORTE [57], который представляет собой алгоритм индуктивного логического программирования (ILP), используемый для модификации теории первого порядка. Пересмотренный MLN можно использовать в качестве реляционной модели для рассуждений или рассуждений в целевой области.

На семинаре AAAI-2008 по трансфертному обучению для сложных задач Михалкова и др. [51] расширили TAMAR до единой объектно-ориентированной настройки трансферного обучения, где только одна сущность доступна в целевом домене. Дэвис и др. Предложили метод передачи реляционных знаний, основанный на логике Маркова второго порядка. Основная идея алгоритма заключается в создании экземпляров этих формул с использованием предикатов из целевой области и обнаружении структурных правил в исходной области в форме формул марковской логики с переменными предикатов.

4 TRANSDUCTIVE TRANSFER LEARNING

Термин «обучение с передачей трансдукции» был первоначально предложен Арнольдом и др. Они требуют, чтобы исходная задача и целевая задача были одинаковыми, хотя предметная область может отличаться. На основе этих условий они также требуют, чтобы все немаркированные данные в целевом домене были доступны во время обучения, но мы считаем, что это условие можно смягчить; напротив, в нашем определении настроек трансдуктивного переноса мы требуем только Просмотр части немаркированных целевых данных во время обучения для получения предельной вероятности целевых данных.

Обратите внимание, что слово «трансдуктивный» имеет несколько значений. В традиционных условиях машинного обучения под трансдуктивным обучением [59] понимается необходимость видеть все тестовые данные во время обучения, а изученная модель не может быть повторно использована для будущих данных. Следовательно, когда поступают новые тестовые данные, их необходимо отсортировать вместе со всеми существующими данными. Напротив, в нашей классификации трансферного обучения мы используем термин трансдуктивный, чтобы подчеркнуть, что в этом типе трансферного обучения задачи должны быть одинаковыми, а некоторые немаркированные данные должны быть доступны в целевой области.

Definition 3 (Transductive Transfer Learning)

Учитывая исходный доменИ учебные задания, Целевой доменИ учебные задания, Трансдуктивное трансферное обучение призвано помочьУлучшить функцию прогнозирования цели обучения,всИспользуйте знания,. (В трансфертном обучении, В индуктивном переносе обучения)

Это определение охватывает работу Арнольда и др. [58], поскольку последний рассматривает адаптацию предметной области, то есть предельные распределения вероятностей исходных и целевых данных различны, то есть задачи такие же, но разные домены.

Подобно традиционной настройке трансдуктивного обучения, цель нашей схемы классификации трансдуктивного трансферного обучения состоит в том, чтобы максимально использовать немаркированные тестовые данные для обучения.Мы также предполагаем, что даны некоторые немаркированные данные целевой области. В приведенном выше определении обучения передачи трансдукции исходная задача и целевая задача одинаковы, что означает, что функция прогнозирования, изученная в исходном домене, может быть настроена для использования в целевом домене с помощью некоторых немаркированных данных целевого домена. . Как и в 2.3 этого раздела, этот параметр можно разделить на две ситуации:

  1. Пространство функций между исходным доменом и целевым доменом отличается,
  2. Пространство функций между доменами одинаковое,, Но распределение предельной вероятности входных данных другое,

Это похоже на требования к адаптации предметной области и смещению выборки. Большинство методов, описанных в следующих разделах, относятся к примеру (b) выше.

4.1 Transferring the Knowledge of Instances

Большинство методов передачи экземпляров для настройки обучения преобразованию основаны на выборке по важности. Чтобы понять важность методов, основанных на выборке, в этой ситуации, мы сначала рассмотрели проблему минимизации эмпирического риска (ERM) [60]. В общем, мы можем захотеть узнать оптимальные параметрыМинимизируя ожидаемый риск модели,

вФункция потерь, зависит от параметров. Однако из-за сложности оценки распределения вероятностей, Мы решили минимизировать ERM,

Где n — размер обучающих данных.
В настройке обучения с трансдуктивным переносом мы хотим изучить оптимальную модель целевого домена, минимизируя ожидаемый риск.

Однако, поскольку в обучающих данных не наблюдается помеченных данных в целевом домене, мы должны изучить модель на основе данных исходного домена. в случае, Вы можете изучить модель, решив следующую задачу оптимизации для целевого домена,

иначе,, Нам необходимо исправить указанную выше проблему оптимизации и изучить модель с высокой способностью к обобщению в целевой области, а именно:

Следовательно, добавляя разные значения штрафа к каждому экземпляру, С соответствующим весом, Мы можем узнать точную модель целевого домена. Кроме того, из-за. несмотря на,,,в результате чегосРазличия. Если мы оценим каждый экземпляр, Мы решили проблему трансдуктивного трансферного обучения.

Есть разные способы оценить. Задрозный [24] предложил построить простую задачу классификации, независимую оценкупункт. Фан и др. Дополнительно проанализировали проблему, используя различные классификаторы для оценки отношения вероятностей. Хуанг и др. [32] предложили алгоритм сопоставления средних значений ядра (KMM), который непосредственно обучается путем сопоставления среднего значения между данными исходного домена и данными целевого домена в воспроизводимом гильбертовом пространстве ядра (RKHS).. KMM можно переписать как следующую задачу оптимизации квадратичного программирования (QP).

。сЭто матрицы ядра данных исходного домена и данных целевого домена.,,。

Мы можем доказать[3]. Одним из преимуществ использования KMM является то, что он позволяет избежатьДля оценки плотности это очень сложно, когда размер набора данных небольшой. Сугияма и др. [34] предложили алгоритм, называемый процессом оценки важности Кульбака-Лейблера (KLIEP), который основан на минимизации дивергенции Кульбака-Лейблера и непосредственно оценивает. KLIEP можно комбинировать с перекрестной проверкой для автоматического выбора модели в два этапа: (1) оценить вес данных исходного домена; (2) обучить модель на основе повторно взвешенных данных. Бикель и др. Объединили эти два шага в единую структуру, создав классификатор ядерной логистической регрессии. В дополнение к методике взвешивания выборки Дай и др. Также расширили традиционный наивный байесовский классификатор для преобразования проблем обучения. Для получения дополнительной информации о методах выборки важности и повторного взвешивания ковариатного сдвига или систематической ошибки выборки читатели могут обратиться к недавней книге, опубликованной Quionero-Candela и др. [29]. Вы также можете обратиться к руководству Фэна и Сугиямы по смещению выборки в ICDM-08.

4.2 Transferring Knowledge of Feature Representations

Большинство методов передачи представлений функций, используемых для настройки передачи преобразования, реализованы в рамках неконтролируемого обучения. Блитцер и др. Предложили алгоритм обучения структурному соответствию (SCL), который расширил [37], чтобы извлечь некоторые важные особенности с использованием немаркированных данных в целевом домене, тем самым уменьшив разницу между доменами. Первым шагом SCL является определение набора основных функций для немаркированных данных двух доменов (количество основных функций обозначено m). Затем SCL удаляет эти основные функции из данных и обрабатывает каждую главную функцию как новый вектор меток. Можно построить M типов задач. Предположим, что любую задачу можно решить с помощью линейного классификатора следующим образом:

SCL может изучить матрицуПараметры. Третий шаг — применить разложение по сингулярным числам (SVD) к матрице. Позволять,Число (h — общая характеристика) является сингулярным вектором W матрицы слева по строке (линейное отображение). Наконец, стандартный дискриминантный алгоритм применяется к моделированию расширенных векторов признаков. Вектор расширенных функций содержит все исходные функцииПрикрепите новые функции обмена.

Как упоминалось в [38], если основная функция хорошо спроектирована, научитесь отображать тета-кодирование из функции связи между различными доменами. Хотя эксперименты Бен-Дэвида и Шуллера [61] показывают, что SCL может уменьшить разницу между доменами, выбор основных функций является трудным и зависит от домена. В [38] Блитцер и др. Использовали эвристику для выбора основных функций для задач обработки естественного языка (НЛП), таких как маркировка предложений. В своей последующей работе исследователи предложили использовать взаимную информацию (MI) для выбора основных характеристик, а не использовать более информативные критерии [8]. MI-SCL пытается найти некоторые основные функции, которые сильно зависят от тегов в исходном домене.

Трансферное обучение в области НЛП иногда называют адаптацией предметной области. В связи с этим Даум [39] предложил функцию отображения ядра для задач НЛП, которая отображает данные исходного и целевого домена в многомерное пространство признаков и использует стандартные методы дискриминантного обучения для обучения классификатора. Однако построенная функция отображения ядра определяется знанием предметной области. Нелегко распространить отображение ядра на другие области или приложения. Блитцер и др. [62] проанализировали равномерную границу сходимости алгоритма, который минимизирует выпуклую комбинацию эмпирического риска источника и цели.

В [36] Дай и др. Предложили алгоритм, основанный на совместной кластеризации, для распространения информации о метках по доменам. В [63] Xing и др. Предложили новый алгоритм, называемый уточнением моста, для правильного прогнозирования классификатора сдвига метки, не осведомленного о целевом распределении, используя смешанное распределение обучающих и тестовых данных в качестве моста для лучшей миграции данных обучения и тестирования данные. Линг и др. [64] предложили структуру спектральной классификации для задач обучения с передачей между областями, введя целевую функцию для поиска согласованности между внутренней структурой супервизии и внешней частью области. В [65] Сюэ и др. Предложили алгоритм междоменной классификации текста, который расширяет традиционный алгоритм вероятностного скрытого семантического анализа (PLSA), который объединяет метки с немаркированным текстом из разных, но связанных полей. Данные для формирования единой вероятностной модели. Эта новая модель называется topicbriplsa, или сокращенно TPLSA.

Пан и др. Недавно предложили переносное обучение с уменьшением размерности [66]. В этой работе Пан и др. Использовали метод встроенной максимальной средней разницы (MMDE) для изучения низкоразмерного пространства, чтобы уменьшить разницу в распределении между различными доменами для трансферного обучения.Метод был первоначально разработан для уменьшения размерности. И разработан. Однако на MMDE может повлиять его вычислительная нагрузка. Поэтому в [67] Пан и др. Также предложили эффективный алгоритм выделения признаков, называемый анализом компонентов передачи (TCA), чтобы преодолеть недостатки MMDE.

5 UNSUPERVISED TRANSFER LEARNING

Definition 4 (Unsupervised Transfer Learning)

Учитывая исходный доменИ учебные задания, Целевой доменИ учебные задания, Целью неконтролируемого трансферного обучения являетсяПомогите улучшить обучающий эффект целевой функции прогнозированияИ использовать знания всв,,Не наблюдается.
Согласно определению параметров обучения с передачей без учителя, во время процесса обучения помеченные данные не наблюдаются в исходном и целевом доменах. Пока что очень мало исследований в этой области. В последние годы были предложены алгоритмы самообучающейся кластеризации (STC) [26] и дискриминантного анализа передачи (TDA) [27] для передачи кластеризации и уменьшения размерности передачи.

5.1 Transferring Knowledge of Feature Representations

Дай и др. Изучили новую проблему кластеризации, называемую самообучающейся кластеризацией. Самообучающаяся кластеризация — это пример обучения с передачей без учителя. Ее цель — кластеризовать небольшой объем немаркированных данных в целевом домене с помощью большого количества немаркированных данных в исходном домене. STC пытается изучить общее пространство функций в доменах, что помогает кластеризоваться в целевом домене. Целевая функция STC показана ниже.

среди нихсЭто данные исходного домена и данные целевого домена. Z — этосОбщее пространство функций,Это взаимная информация между двумя случайными величинами. Предположим, есть три функции кластеризации,среди нихСоответственноСоответствующие кластеры. Цель STC — научиться путем решения задачи оптимизации (7):

Итерационный алгоритм решения функции оптимизации (8) приведен в [26].

Аналогичным образом, [27] предложил алгоритм дискриминантного анализа миграции (TDA) для решения проблемы уменьшения размерности миграции. TDA сначала применяет метод кластеризации для создания меток псевдоклассов для целевых немаркированных данных. Затем примените метод уменьшения размерности к целевым данным и отметьте исходные данные для уменьшения размерности. Эти два шага выполняются итеративно, чтобы найти лучшее подпространство целевых данных.

6 TRANSFER BOUNDS AND NEGATIVE TRANSFER

Важный вопрос — признать пределы возможностей трансферного обучения. Хасан Махмуд и Рэй использовали сложность Колмогорова для анализа ситуации трансферного обучения в [68] и доказали некоторые теоретические границы. В частности, автор использует условную сложность Колмогорова для измерения релевантности между задачами и передает соответствующий объем информации в задачу последовательного обучения с передачей в рамках байесовской структуры.

Недавно Итон и др. [69] предложили новый метод передачи знаний на основе графов, который использует переносимость в качестве меры для встраивания набора изученной исходной модели в граф и установления взаимосвязи между исходными задачами. Моделирование. Сопоставьте проблему с графиком, а затем изучите функцию на графике, функция автоматически определяет параметры, которые необходимо передать в новую задачу обучения. Когда данные и задачи исходного домена вызывают снижение эффективности обучения целевого домена, происходит отрицательная передача.

Хотя вопрос о том, как избежать отрицательного переноса, является очень важным, исследований по этому поводу мало. Опыт Розенштейна и др. [70] показывает, что если эти две задачи слишком разнятся, то миграция методом грубой силы может нанести вред производительности целевой задачи. Некоторые работы были использованы для анализа корреляции между задачами и методами кластеризации задач, такими как [71], [72], которые могут помочь в руководстве, как автоматически избежать отрицательной передачи. Баккер и Хескес [72] использовали байесовский метод, в котором некоторые параметры модели используются всеми задачами, а другие параметры слабо связаны через общее предварительное распределение, которое можно узнать из данных. Следовательно, данные группируются на основе параметров задачи, и задачи в одном кластере должны быть связаны друг с другом. Аргириу и др. [73] рассмотрели случай разделения учебных заданий на группы. Задачи в каждой группе связаны посредством совместного использования низкоразмерного представления, а низкоразмерное представление различается для разных групп. Поэтому задачи в команде легче передавать полезные знания.

7 APPLICATIONS OF TRANSFER LEARNING

В последние годы технология трансферного обучения успешно применяется во многих практических приложениях. Райна и др. [74] и Дай и др. [36], [28] соответственно предложили использовать технологию трансферного обучения для изучения текстовых данных в различных областях. Блитцер и др. Предложили использовать SCL для решения проблем НЛП. Расширение SCL было предложено в [8] для решения проблемы классификации эмоций. Ву и Диттерих [53] предложили использовать недостаточное количество данных целевой области и большое количество некачественных данных исходной области для задач классификации изображений. Арнольд и др. Предложили использовать метод обучения с передачей трансдукции для решения проблемы распознавания сущности имени. В [75], [76], [77], [78], [79] предлагается технология передачи обучения для извлечения знаний из моделей позиционирования WiFi во времени, пространстве и на мобильных устройствах, что способствует другим Задача позиционирования WiFi в настройках. Чжуо и др. [80] изучали, как передавать знания предметной области между предметными областями при планировании автоматизации для изучения моделей реляционного поведения.

Райкар и др. Предложили новый байесовский алгоритм обучения с несколькими экземплярами в [81], который может автоматически идентифицировать соответствующие подмножества признаков и использовать индуктивный перенос для изучения нескольких классификаторов, связанных с концепциями, для компьютерных Дизайн (САПР). Линг и др. [82] предложили метод трансферного обучения, основанный на теории информации, для решения проблемы межъязыковой классификации при переводе веб-страниц на английский язык. Этот метод решает проблему наличия большого количества текстовых данных на английском языке с тегами, но только небольшого количества текстовых документов на китайском языке с тегами. Путем разработки подходящей функции сопоставления в качестве моста реализуется обучение миграции между двумя пространствами функций.

На данный момент по крайней мере два международных конкурса, основанных на трансфертном обучении, предоставили некоторые столь необходимые общедоступные данные. В задаче 8 обнаружения ECML / PKDD-2006 задача состоит в том, чтобы обрабатывать персонализированную фильтрацию спама и обобщение для связанных задач обучения. Чтобы обучить систему фильтрации спама, нам нужно собрать большое количество писем от группы пользователей с соответствующими тегами: спам или не спам, и обучить классификатор на основе этих данных. Для нового пользователя электронной почты нам может потребоваться настроить изученную модель для пользователя. Проблема в том, что рассылка электронной почты первых и новых пользователей отличается. Следовательно, проблема может быть смоделирована как проблема обучения индуктивной миграции, цель которой — применить старую модель фильтрации спама к новой ситуации с меньшим объемом обучающих данных и более коротким временем обучения.

Конкурс ICDM-2007 предоставляет второй набор данных, в котором задача состоит в том, чтобы оценить местоположение WiFi-клиента внутри помещения, используя данные сигнала WiFi, полученные в разные периоды времени [83]. Поскольку значение мощности сигнала WiFi может зависеть от времени, пространства и оборудования, распределение данных Wi-Fi в разные периоды времени может сильно отличаться. Следовательно, трансфертное обучение должно быть спроектировано так, чтобы уменьшить работу по изменению меток данных.

Data Sets for Transfer Learning: К настоящему времени опубликовано несколько наборов данных для исследования трансфертного обучения. Мы представляем набор данных интеллектуального анализа текста, набор данных фильтрации спама по электронной почте, набор данных о местоположении WiFi с течением времени и набор данных классификации настроений, состоящий из текста, электронной почты, Wi-Fi и Sen.

Empirical Evaluation Чтобы доказать, насколько выгоден метод трансферного обучения по сравнению с традиционными методами обучения, исследователи использовали некоторые общедоступные наборы данных. Мы перечислили некоторые опубликованные статьи о трансферном обучении в таблице 5. В [6], [84], [49] автор использует 20 наборов данных 12 групп новостей в качестве одного из наборов данных оценки. Поскольку у разных исследователей разные этапы предварительной обработки алгоритма, напрямую сравнивать предложенные методы сложно. Поэтому мы обозначаем их как 20-Newsgroups1, 20-Newsgroups2 и 20-Newsgroups3, соответственно, и показываем результаты сравнения предлагаемого метода трансферного обучения и метода непереводного обучения в таблице.

Дай и др. Провели сравнительный эксперимент между стандартной машиной опорных векторов (SVM) и алгоритмом TrAdaBoost на 20 группах по 1 данным. В 20 группах новостей2 Ши и др. [84] использовали алгоритмы активного обучения, используя TrAdaBoost и стандартную SVM для выбора важных примеров трансферного обучения (AcTraK). Гао и др. Оценили свои локально взвешенные алгоритмы обучения ансамбля pLWE и LWE в 20 группах новостей3 и сравнили их с SVM и логистической регрессией (LR).

Кроме того, в таблице мы также показываем результаты сравнения набора данных классификации настроений, представленных в [8]. В этом наборе данных SGD представляет алгоритм стохастического градиентного спуска с потерями Хубера, SCL представляет собой линейный предиктор нового представления, изученного соответствующим алгоритмом обучения структуры, а sc-mi является расширением SCL, использующим взаимную информацию для выбора основных функций алгоритма SCL.

Наконец, в наборе данных беспроводного позиционирования мы показываем, что результаты сравнения, представленные в [67], базовым уровнем является регуляризованная модель регрессии наименьших квадратов (RLSR), которая представляет собой стандартную модель регрессии, и KPCA, которая представляет новое обучение, полученное путем применения RLSR. Анализ главных компонентов ядра представления данных. Методы сравнительного обучения передачи включают сопоставление среднего ядра (KMM) и предлагаемый алгоритм анализа компонентов передачи (TCA). Для получения более подробной информации о результатах экспериментов читатели могут обратиться к ссылкам, приведенным в таблице. Из этих результатов сравнения мы можем обнаружить, что по сравнению с методами обучения без передачи, методы обучения с переносом, подходящие для практических приложений, действительно могут значительно улучшить производительность.

Toolboxes for Transfer Learning: Исследователи из Калифорнийского университета в Беркли предоставляют набор инструментов MATLAB для трансферного обучения. Набор инструментов содержит алгоритмы и наборы контрольных данных для трансферного обучения. Кроме того, он также предоставляет стандартную платформу для разработки и тестирования новых алгоритмов трансферного обучения. Взаимодействие с другими людьми

7.1 Other Applications of Transfer Learning

Трансферное обучение также имеет множество применений в последовательном машинном обучении. Например, [85] предложил метод на основе графов для идентификации ранее встречавшихся игр и применил эту технологию к автоматическому отображению предметной области, чтобы реализовать передачу функций значений и ускорить улучшение вариантов ранее сыгранных игр. Учиться. В обучении переводу предлагается новый метод преобразования между совершенно разными пространствами признаков. Этот метод становится возможным благодаря изучению функции сопоставления, которая соединяет объекты в двух совершенно разных областях (изображение и текст) [86 ]. Наконец, Ли и др. [87], [88] применили трансферное обучение к проблеме совместной фильтрации, которая решила проблемы холодного старта и разреженности. В [87] Ли и др. Изучили гибридную модель общей скоринговой модели, основанную на потенциальных пользователях и переменных кластера проекта, которая называется моделью создания скоринговых матриц (RMGM). RMGM связывает несколько матриц оценки из разных полей, сопоставляя пользователей и элементы в каждой матрице оценки с общим потенциальным пользователем и пространством элементов, тем самым передавая полезные знания. В [88] они применили алгоритм коагрегации к пользователям и элементам вспомогательной матрицы оценки. Затем они построили оценочную матрицу на уровне кластера, называемую кодовой книгой. Предполагая, что целевая матрица оценки (в фильмах) связана со вспомогательной матрицей (в книгах), процесс передачи знаний завершается расширением кодовой книги, и целевая область восстанавливается.

8 CONCLUSIONS

В этой обзорной статье мы рассмотрели несколько текущих тенденций в трансферном обучении. Передающее обучение можно разделить на индуктивное передающее обучение, трансдукционное передающее обучение и неконтролируемое передающее обучение. Большинство предыдущих работ было сосредоточено на первых двух сценах. Неконтролируемое трансферное обучение может привлекать все больше и больше внимания в будущем.

Кроме того, в соответствии с контентом, который необходимо передать при обучении, каждый метод переноса обучения можно разделить на четыре контекста. Они включают метод передачи экземпляров, метод передачи представления признаков, метод передачи параметров и метод передачи реляционных знаний. Все первые три контекста имеют предположение о данных, в то время как последний контекст имеет дело с переносом обучения реляционных данных. Большинство этих методов есть. Предположим, что выбранный исходный домен связан с целевым доменом.

В будущем необходимо решить несколько важных исследовательских задач. Прежде всего, как избежать отрицательного перевода — вопрос открытый. Как упоминалось в разделе 6, многие предлагаемые алгоритмы трансферного обучения предполагают, что исходный и целевой домены в определенном смысле связаны друг с другом. Однако, если это предположение не соответствует действительности, может произойти отрицательный перевод, из-за которого учащиеся могут работать хуже, чем без перевода. Следовательно, как обеспечить возникновение отрицательного переноса — ключевой вопрос в трансферном обучении. Чтобы избежать отрицательного переноса обучения, нам необходимо сначала изучить возможность переноса между исходным доменом или задачей и целевым доменом или задачей. Основываясь на соответствующей степени переносимости, мы можем выбрать связанные исходные домены или задачи для извлечения знаний, тем самым изучая целевую задачу. Чтобы определить переносимость между доменами и задачами, нам также необходимо определить стандарты для измерения сходства между доменами или задачами. На основе измерения расстояния мы можем сгруппировать домены или задачи, что может помочь измерить переносимость. Связанный с этим вопрос заключается в том, можем ли мы по-прежнему передавать часть домена для полезного обучения в целевой домен, когда весь домен не может использоваться для передачи обучения.

Кроме того, до сих пор большинство существующих алгоритмов трансферного обучения были сосредоточены на улучшении обобщения различных распределений между исходными и целевыми доменами или задачами. При этом они предполагают, что пространство функций между исходным и целевым доменами одинаково. Однако во многих приложениях мы можем передавать знания между доменами или задачами с различными пространствами функций и передавать знания из нескольких таких исходных доменов. Мы называем этот тип трансферного обучения гетерогенным трансферным обучением.

Наконец, до сих пор технология трансферного обучения в основном используется в небольших приложениях, но типы ограничены, например определение местоположения на основе сенсорной сети, классификация текста и классификация изображений. В будущем технология трансферного обучения будет широко использоваться для решения других сложных задач, таких как классификация видео, анализ социальных сетей и логические рассуждения.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *