Разработка подхода рекомендательной системы, основанной на психологическом портрете пользователя, и разработка хранилища данных

  • Вид работы:
    Курсовая работа (т)
  • Предмет:
    Информационное обеспечение, программирование
  • Язык:
    Русский
    ,
    Формат файла:
    MS Word
    560,73 Кб
  • Опубликовано:
    2016-09-21
Вы можете узнать стоимость помощи в написании студенческой работы.
Помощь в написании работы, которую точно примут!

Разработка подхода рекомендательной системы, основанной на психологическом портрете пользователя, и разработка хранилища данных

Содержание

Введение

Глава 1. Основные понятия

1.1 Технологии создания рекомендательных систем

1.2 Теория психологического портрета

Глава 2. Анализ методов разработки рекомендательных систем, основанных на психологическом портрете пользователя

2.1 Методы использования психологических черт пользователя в рекомендательных системах

2.2 Исследование роли психологического портрета пользователя в рекомендательных системах

2.3 Рекомендационные системы, основные на различных способах извлечения психологических черт пользователя

2.4 Метод извлечения психологических черт пользователя с помощью технологии распознавания лица

2.5 Анализ алгоритма рекомендательной системы, основанной на психологическом портрете пользователя

Глава 3. Разработка хранилища данных

3.1 Описание выявленных проблем предметной области

3.2 Разработка алгоритма работы рекомендательной системы

3.3 Проектирование базы данных для разработанного подхода

3.4 Проектирование интерфейса профиля пользователя в системе

3.5 Эксперимент и оценка результатов

Заключение

Список использованных источников

Введение

С появлением Интернета и по настоящее время человек имеет доступ к огромному объему информации различного рода и типа. Однако помимо пользы такие возможности пользователя несут проблему информационной перегрузки, когда обработка информации человеком имеет когнитивный предел, и при большом количестве информации возможность ее удержания и восприятия снижается. Это влияет на принятие человеком решений. Поисковые системы разрабатывают технологии для упрощения поиска, например, возможность наложения фильтров на запрос, чтобы облегчить пользователю поиск необходимой информации. Однако на практике этого оказывается не достаточным. Возникает необходимость поменять тип взаимодействия пользователя и поисковых систем: поисковая система сама должна понять, что нужно пользователю и отобразить необходимую информацию. Такое решение получило название рекомендательных систем, в которых анализируется информация о пользователе и предыдущих его запросах.

Для совершенствования человеко-машинного взаимодействия исследуются и применяются все новые методы, в том числе и определение психологического портрета пользователя. Проблемой в данном подходе является способ извлечения такой специфической информации о пользователе, как его психологические черты. Многие исследования в области персонифицированных рекомендательных систем используют различные способы: от составления опросников для пользователей, до анализа слов, которые использует пользователь в социальных сетях. Однако такая информация может нести субъективный характер, так как пользователь либо сам оценивает себя, либо формулирует информацию для других пользователей, что так же может меняться в зависимости от собеседника. Соответственно, существует необходимость определения психологического портрета пользователя как можно объективнее. Эта информация не только позволит приблизиться к решению установленной проблемы информационного перегруза, но и может помочь человеку с проблемой самоидентификации.

Целью работы является разработка подхода рекомендательной системы, основанной на психологическом портрете пользователя, и разработка хранилища данных для описанного подхода. Объектом исследования является пользователь Интернета. В качестве предмета исследования рассматривается информация о пользователе, в результате анализа которой возможно выделение психологических особенностей человека.

Эта цель предполагает решение сразу многих задач:

·  Описать работу рекомендательных систем и основные алгоритмы;

·        Выделить способ распознавания психологических черт пользователя;

·        Создать модель рекомендательной системы, основанной на психологических чертах пользователя;

·        Разработать архитектуру базы данных для рекомендательной системы;

·        Разработать интерфейс профиля пользователя в системе.

Глава 1. Основные понятия

В данной главе были рассмотрены основные понятия, термины и теории, относящиеся к разработке рекомендательных систем, а также теории описания психологических черт человека.

.1 Технологии создания рекомендательных систем

Существуют базовые технологии создания рекомендательных систем, предложенные Робеном Брюком [1].

1.   Основанные на просматриваемом контенте. Такая система генерирует персонифицированные рекомендации различного контента, похожего на предпочитаемый пользователем контент в прошлом. Система работает за счет выделения характеристик элементов контекста и определения ассоциативных функций. Предпочтения пользователя выявляются посредствам таких характеристик и оценок контента.

2.      Коллаборативная фильтрация. Система рекомендует предметы, которые люди с похожими вкусами и предпочтениями оценили в прошлом. Профиль пользователя состоит из элементов и соответствия их оценок пользователя с оценками других пользователей. С помощью корреляции пользователей выделяются их возможные вкусы в просматриваемом контенте.

.        Основанные на демографии пользователя. Система рекомендует элементы с учетом демографических особенностей пользователя, чей профиль состоит из его личных демографических данных. Рекомендации предлагаются на основе пользовательской демографической группы. Преимуществом данного подхода является отсутствие в необходимости истории пользовательских оценок.

.        Основанные на знаниях о пользователе. Такие рекомендации основаны на знаниях о предметной области, элементы контекста рассматриваются с точки зрения их атрибутов. Профиль пользователя состоит из функциональных структурированных знаний и толкуется в соответствии с точкой зрения машиной логики.

.        Основанные на полезности контента. Рекомендации учитывают полезность контента для пользователя.

С самого начала изобретения рекомендательных систем технологии их внедрения были сложнее, чем простые запросы к базе данных. В 2001 году были описаны следующие технологии [1]:

1.   Ближайший сосед. Алгоритм вычисляет расстояние среди предпочтений или характеристик пользователя. Предположения о предметах (продукции, услуг или людей) для рекомендаций производятся с учетом различия рассматриваемого элемента и множества ближайших соседей. Сосед, который не имеет никакой информации об элементе рекомендован к игнорированию. Алгоритм ближайшего соседа считается очень эффективным. Он включает в себя самую последнюю информацию из базы данных. Основной проблемой описываемого алгоритма является трудность его выполнения при больших объемах данных: в этом случае алгоритм ближайшего соседа работает крайне медленно.

2.      Байесовские сети. В алгоритме создается дерево решений, составленное из информации о пользователе. Модель может быть создана в автономном режиме в течение нескольких часов или дней, в зависимости от того, насколько велика база данных. Результатом работы алгоритма являются данные небольшого объема, сам алгоритм быстрее и точнее, чем алгоритм ближайшего соседа. Такой алгоритм следует использовать в системах, с медленно меняющимися данными.

3.   Кластеризация. Алгоритм основывается на создании кластеров, состоящих из групп пользователей, которые имеют схожие предпочтения / характеристики. Предположения о контенте для пользователя создаются путем усреднения оценок других пользователей в этом кластере. Кластерные методы представляют собой предпочтения частичных пользователей. Следует учитывать, что рекомендации представляются как менее личные и менее точные, чем в других технологиях, таких как ближайший сосед, например. Если кластеры являются достаточно полными, то алгоритм может иметь достаточно высокую производительность. Повысить производительность описываемого метода можно комбинируя его с другими техниками, например, с ближайшим соседом. Такая комбинация алгоритмов позволяет добиться уменьшения объема базы данных, а затем поиска ближайшего в кластере соседа.

4.      Фильтрация информации и информационного поиска. Алгоритм производит поиск текстовых элементов на основе выбранного пользователем ключевого слова. Эта система используется на сайтах электронной коммерции, чтобы помочь пользователям найти конкретный продукт. Описанный метод отличается своей простотой в качестве рекомендательной системы.

.        Классификация. Алгоритм описывает вычислительные модели категоризации предпочтения пользователя / характеристики элементов (продукции, услуг и людей). Метод категоризации представляется как построение вектора пользовательских предпочтений / характеристик элементов и соотношения между ними. Классификаторы могут быть реализованы с помощью стратегий машинного обучения, нейронных сетей, и байесовских сетей. Классификация представляет собой эффективный метод, однако можно добиться увеличения точности при сочетании с методами фильтрации.

Традиционные рекомендательные системы осуществляют сбор информации о пользователе в явном виде, попросив пользователя заполнить поля в его профиле (обычно это демографические данные пользователя, его статус, пол и так далее), или в неявном виде, получив информацию после изучения поведения пользователей в сети (анализ лог файлов, просматриваемого контента).

Рассмотрим все виды информации о пользователе более подробно:

1.   Личные характеристики (или демография пользователя). Данный тип информации подразумевает собой основную информацию о пользователе (например, пол, возраст), а также социальную, как статус отношений. Такая информация описывает отдельного, конкретного пользователя. Как правило, информационные элементы личной характеристики пользователя меняются медленно, независимы друг от друга. Личная информация используется для классификации пользователей на группы и адаптации пользовательского интерфейса к таким группам. Описанная технология используется в электронной коммерции, системах здравоохранения и образования.

2.      Интересы и предпочтения. Интересы и предпочтения пользователей описывают интерес пользователей к определенным элементам контекста, к вещам (например, продуктам, новостям или документам). Интересы пользователей, как правило, представлены в виде набора функций с весами, или в виде ранжированного списка. Выделяют долгосрочные и краткосрочные интересы (например, интерес к определенному жанру музыки и к трендовым новостям соответственно).

.        Знания. Помимо интересов и предпочтений рассматривается информация о знаниях пользователя по теме. Знания являются долгосрочным атрибутом с одной стороны, но могут варьироваться и изменяться в зависимости от темы. Знания и справочная информация о некоторых темах может увеличиваться или уменьшаться с течением времени. Оценка знаний происходит, как правило, в соответствии с их уровнем, например, от "новичка" до "эксперта", или от 1 до 5. Информацию об уровне знаний можно собирать как напрямую, спрашивая пользователя, так и путем анализа его поведения.

.        Психическое и физическое состояния. Психическое и физическое состояния описывают такие индивидуальные особенности пользователя, как физические ограничения (способность видеть, способность ходить, сердцебиение, кровяное давление, и т.д.) или психические состояния (стрессовое состояние, когнитивная нагрузка). Такая информация является ценным дополнением к знаниям и интересам, необходима для адаптивных систем, используемых в здравоохранении, которые могут адаптироваться к индивидуальному пользовательскому состоянию. Психические и физические величины являются, как правило, долгосрочными атрибутами.

.        Цели и планы. При использовании компьютерной системы, пользователи, как правило, имеют цель, к которой они стремятся. Такой целью может быть удовлетворение потребности в информации или покупка продукта. Адаптивные системы, имея информацию об этой цели, имеют возможность составить план ее достижения, например, уменьшая количество информации до более соответствующего подмножества. Потребности и цели являются очень динамичной информацией, которая может изменяться от сессии к сессии использования мобильного устройства. Наблюдение и интерпретация поведения пользователей может помочь понять их потребности и цели.

.2 Теория психологического портрета

Теории создания психологического портрета были разработаны с целью улучшить понимание человека себя и других. Было разработано более чем 18 теорий, описанных исследователями, которые представляют альтернативные способы дифференцирования человеческой личности [2].

Наиболее популярная модель определения личности - «Большая пятерка», в которой утверждается, что человеческая личность может быть представлена пятью измерениями:

·    «A» (Agreeableness) - склонность оказывать помощь, содействие, проявлять симпатию, стремиться к сотрудничеству с участниками сообщества;

·        «C» (Conscientiousness) - склонность к дисциплинированности, организованности, ориентированность на достижение результата;

·        «E» (Extraversion) - наличие высокого уровня коммуникабельности, уверенности в себе и высокая степень общительности;

·        «N» (Neuroticism) - степень эмоциональной стабильности, контроль над импульсивностью и тревогой;

·        «O» (Openness) - наличие выраженного интеллектуального любопытства, интерес к новизне и различного рода изменениям.

рекомендательный интерфейс пользователь

Глава 2. Анализ методов разработки рекомендательных систем, основанных на психологическом портрете пользователя

Для того, чтобы приступить к реализации задач, было изучено текущее состояние рекомендательных систем основанных на составлении психологического портрета, принцип работы и возможные варианты преодоления существующих проблем.

Также были исследованы работы по выделению психологических черт онлайн пользователя различными методами. Рассмотрен подход анализа динамики выражения лица человека машинным способом.

.1 Методы использования психологических черт пользователя в рекомендательных системах

.1.1 Исследование роли психологического портрета пользователя в рекомендательных системах

Для использования психологического портрета пользователя в рекомендательной системе необходимо наличие исследования, подтверждающего утверждение об одинаковости психологического портрета личности онлайн и офлайн. Об этом утверждается в исследовании Тима Блумера [3]. В работе было доказано эмпирическим путем снижение проявлений психологических характеристик, которые модифицируются в зависимости от ситуации. В основном, пользователи проявляют себя эмоционально стабильными онлайн в большей степени, чем офлайн. Это доказывает актуальность проблемы определения психологического портрета пользователя мобильного приложения без учета влияния на него ситуационных факторов.

Личность человека, в соответствии с определением из теории психологии, учитывает индивидуальные различия в предпочтениях и поведении пользователей. Был установлено, что существует значительная корреляционная зависимость между личностью и характеристиками пользователей, которые традиционно используются в рекомендательных системах (например, музыкальные предпочтения, социальное поведение, стили обучения и т.д.). Среди многих моделей личности, при разработке рекомендательных систем наиболее большую популярность имеет пятифакторная модель, которую называют «Большая пятерка». Такой выбор объясняется возможностью количественного измерения психологических черт пользователя. Извлечение личностных факторов пользователя может быть сделано явным образом, с помощью вопросников, или неявным, с помощью методов машинного обучения. Исследования показали, что такой подход к разработке рекомендательных систем решает проблему холодного старта, которая заключается в невозможности генерации рекомендаций, если пользователь только начал пользоваться системой и не знает, что ему нужно. Такой пользователь не просматривает контент, и, соответственно, не дает системе необходимых входных данных.

Однако существуют исследования, доказывающие, что у подобных рекомендательных систем существует ограничение [4]. В подобном исследовании Rentfrow было доказано, что рекомендации должны относиться к категории общего развлечения, которое включает в себя музыку, книги, журналы, фильмы и телевизионные шоу. Стоит отметить, что категория положительно связана с экстраверсией. Связь между музыкой и личности также был исследована а работе Ролингз и др [4]. Они отметили, что экстраверсия и открытость человека являются факторами, объясняющими различия в музыкальных предпочтениях. Субъекты с высокой степенью открытости, как правило, предпочитают различные стили музыки, а экстраверсия была связана с предпочтениями в популярной музыке.

.1.2 Рекомендационные системы, основные на различных способах извлечения психологических черт пользователя

К сожалению, психологические аспекты человека, такие как его личностные черты, достаточно трудно выделить, основываясь на поведении пользователя в сети.

1.   Система TWIN. В исследовании [5] рассматривается вопрос об оценке сходства между людьми в сети. Делается предположение, что оно может быть установлено на основе анализа контекста слов, которые используют пользователи сети. Соответственно, использование конкретных слов в конкретном контексте отражает личность автора. Это предположение позволят осуществлять рекомендации в соответствии со схожестью лиц, использующих одни и те же слова.

2.      Выявление черт личностей в соответствии с фотографиями, выложенными в социальную сеть Instagram [6]. Результаты исследования свидетельствуют о том, что существует связь между чертами личности и применением фильтров к изображениям. Таким образом, предполагается, что анализируя фотографии Instagram, можно сделать вывод о чертах личности обладателя аккаунта.

.        Определение психологического портрета личности человека по паттерну его поведения в социальных сетях. В 2012 году группа исследователей разработала онлайновый тест, позволяющий определить психологический портрет личности человека по паттерну его поведения в социальных сетях, таких как Facebook [7]. Были исследованы социальные страницы студентов, в том числе извлеченная информация о поле, возрасте и профиле онлайнового поведения: частоту выхода в социальную сеть, эмоциональную окраску и содержание постов (написаны с юмором или грустью, эмоциональны или сдержанны и т.п.). Авторы теста утверждают, что онлайновое поведение может успешно использоваться для определения типа личности.

В работе [4] приведены исследованные методы выделения психологических черт онлайн пользователей (Рис.1). К наиболее популярным методам относятся: заполнение пользователем вопросников, анализ блогов пользователя, анализ поведения в социальных сетях, анализ поведения в онлайн играх, анализ писем на электронной почте.

Рис.1 «Методы выделения психологических черт онлайн пользователей»

.2 Метод извлечения психологических черт пользователя с помощью технологии распознавания лица

На текущий момент существуют несколько технологий, позволяющих считывать информацию об эмоциях с лица пользователей.

Программа Emotient, ранее известная как Computer Expression Recognition Toolbox (CERT) представляет собой систему для полностью автоматизированного распознавания мимики лица, которая работает в режиме реального времени. Использует нейронную сеть для распознавания морщин на лице и соответствующим им эмоциям. К основным функциям системы относятся:

1.       Распознавание базовых эмоций: радость, гнев, удивление, страх, презрение, грусть, отвращение

2.      Оценка чувств: положительных, отрицательных и нейтральных

Теми же основными функциями обладает другая система, Affectiva, которая идентифицирует лицо, а затем размещает основные характерные точки на лице, такие как глаза и рот. Затем она оценивает движение, форму и текстуру лица на уровне пикселей.

Следует отметить, что система определяет, насколько сильно пользователь переживает ту или иную эмоцию. Результат отображается в процентах. На Рис. 2 можно увидеть результат анализа лица человека.

Рис.2 «Пример работы технологии распознавания эмоций пользователя»

Существуют различные исследования, в которых описываются алгоритмы на основе информации, считанной с лица пользователя. Проанализировав научные работы, можно выделить три основных направления в использовании выделенных эмоций.

1.   Использование информации в качестве обратной связи пользователя. В исследовательской работе [8] был разработан способ улучшения работы рекомендательной системы с помощью анализа выражения лица пользователя в режиме реального времени. Утверждается, что эмоции, переживаемые человеком можно интерпретировать однозначно вне зависимости от его национальности и культурной принадлежности. Эксперименты, проведенные в различных странах доказывают, что базовые эмоции, такие как счастье, печаль, гнев, страх, отвращение и удивление выражаются одинаково разными людьми. В работе использована система eMotion для распознавания эмоций пользователей. С помощью эксперимента и машинного обучения была построена система, которая выявляет зависимость между выражением лица пользователя при просмотре контента и значимость контента для пользователя. Таким образом, контент разделяется на релевантный или нерелевантный.

2.      Использование информации для определения текущего настроения пользователя. В исследовании [9] была разработана система, которая включает в себя предварительную обработку изображений человека, испытывающего различные эмоции путем нормализации и извлечения некоторых характеристик лица с применением наложения фильтров и масок на изображения. Далее изображения классифицировались и производилось машинное обучение, на основе которого определялось настроения пользователя.

.        Использование информации для определения психологических черт пользователя. Считанная с лица пользователя информация может быть использована в системе для определения такой характеристики пользователя, необходимой в разработке конечной системы как определение неменяющаяся характеристика пользователя - экстраверсии. Определение текущего настроения пользователя напрямую определяется семью чувствами, в то время как для составления его психологического портрета необходим определенный алгоритм.

Последний отмеченный способ использования информации о выражении лица пользователя был рассмотрен более подробно. Для этого был проведен анализ работы [10]. Целью работы было определение психологического портрета человека, по записанному им видео блогу. Опишем ход работы и использованные методы.

Производится сбор данных по 281 видео. Данные подразумевают собой динамику изменения на протяжении видео семи основных эмоций, а также идентификатора степени улыбки и нейтрального эмоционального состояния;

Авторы предлагают четыре вида агрегации полученных данных, которые характеризуют степень активности эмоций. Приводятся расчеты следующих показателей:

.     Статистические показатели, характеризующие распределение числовых значений эмоций вне зависимости от времени. Соответственно, по каждой эмоции рассчитаны величины: среднее значение, дисперсия, медиана, максимум, минимум, энтропия, дисперсия/ среднее. Итого, было рассчитано 7x9 = 63 показателей;

2.      Остальные три вида расчета показателей направлены на идентификацию интенсивности каждой из эмоций на протяжении видео. В соответствии со спецификой каждого показателя были рассчитаны величины по девяти эмоциям: доля времени активности эмоции (proportion of active time), доля активности эмоции относительно других эмоций (rate of active segments), средняя продолжительность активной эмоции (average duration of active segments), доля времени при непродолжительной активности эмоции (proportion of time with short active segments). По каждому из трех видов учета эмоционального идентификатора было получено 4x9 = 36 показателей;

Далее определяется психологический портрет каждого человека на видео в соответствии с моделью «Большая пятёрка». После этого происходит анализ корреляционной зависимости рассчитанных показателей с каждой из пяти характеристикой человека. Конечным этапом является создание программы, которая определяет психологический портер человека в соответствии с его видео. В результате анализа работы было выявлено, что с достаточной степенью вероятности возможно определение экстраверсии человека по его видео блогу.

Таким образом, для определения экстраверсии человека возможно использовать полученные в проведенном ранее исследовании данные о зависимости статистических и временных показателей эмоций человека.

В работе представляются проценты зависимости степени экстраверсии человека от рассчитанных статистик по каждой эмоции. Зависимость представлена в таблице Таблица 1.

Таблица 1. Коэффициенты зависимости степени экстраверсии человека от статистик эмоций


Радость

Гнев

Удивление

Страх

Презрение

Грусть

Отвращение

Улыбка

Нейтральное состояние

Максимум

39%


31%

36%


25%


31%


Среднее

19%

-20%

19%

19%





-19%

Дисперсия

22%

-16%

20%

24%


22%

-12%


19%

Энтропия

30%

-13%

24%

27%


15%



12%

Медиана


-22%

12%




-12%


-18%

Минимум



-14%


-13%


-23%


В результате система получает индивидуальный процент экстраверсии пользователя, учитывая каждую из статистик с соответствующим коэффициентом. Таким образом, происходит сегментация пользователей в соответствии с их психологическим портретом.

.3 Анализ алгоритма рекомендательной системы, основанной на психологическом портрете пользователя

В первой главе работы были описаны основные методы разработки рекомендательных систем в зависимости от типа входных данных, или от способов обработки информации. Однако соответственно исследованию, проведенному в 2010 году Марией Августой С. Н. Нуньес в работе [1], ни один из этих методов не предусматривает возможность генерации рекомендаций продукта, услуги или информации в соответствии с психологическими особенностями людей. Также в исследовании происходит обзор экспериментов, направленных на изучение проблемы психологического аспекта в рекомендательных системах. В соответствии с обзором, методологии, используемые в построении подобных рекомендательных систем представляют собой гибрид двух или нескольких стандартных технологий, а также зависят от цели конкретной системы и предметной области.

Для разработки алгоритма был проанализирован алгоритм, реализованный ранее, в работе «Personality Based User Similarity Measure for a Collaborative Recommender System» [11]. Описанная в исследовании рекомендательная система также основана на извлечении психологических черт пользователя. Принцип работы системы основан на коллаборативной фильтрации и поиске ближайшего соседа. Авторы работы доказывают, что в случае рекомендательных систем, основанных на личностных характеристиках пользователей, а именно их психологических чертах, наиболее подходящей технологией является коллаборативная фильтрация. После того, как рассчитаны числовые метрики для каждого кластера психологической модели «Большая пятерка» для каждого пользователя, происходит поиск ближайшего соседа, который обладает схожими психологическими чертами. Далее пользователю предлагается контент, понравившийся в прошлом его «соседу». Схема алгоритма представлена ниже.

Рис.3 «Схема алгоритма рекомендательной системы, основанной на психологическом портрете пользователя»

Глава 3. Разработка хранилища данных

В данной главе описан подход создания рекомендательной системы и хранилища данных на основе методов и алгоритмов, описанных во второй главе.

.1 Описание выявленных проблем предметной области

В результате анализа было выявлено, что одной из основных проблем разработки рекомендательных систем на основе психологического портрета пользователя является выделение его личностных качеств. Предложенные методы экстракции психологических черт пользователя имеют ряд недостатков, главный из которых - это использование для анализа каналов взаимодействия пользователя с другими людьми. Предполагается, что поведение пользователя в социальных сетях может не отображать его личностных черт, например, по причинам отличающихся паттернов поведения при взаимодействии с различными пользователями сети, или по причине отсутствия активного онлайн поведения в связи с желанием сохранения конфиденциальности.

Соответственно, необходимо разработать такую систему, которая могла бы составить психологический портрет пользователя, исходя из неявных данных, которые бы наиболее объективно отображали реальность, а также составить рекомендации по интернет контенту, исходя из полученных данных.

В результате исследования было отмечено увеличение доступности и точности технологии распознавания лиц пользователей в последние годы. Такая технология была интегрирована в различные онлайн сервисы и услуги мобильной связи для идентификации, аутентификации / верификации или категоризации лиц. Описанная многообещающая технология позволяет объективно проанализировать пользователя и применить результаты для разработки различных систем.

В предыдущей главе были приведены исследования, в которых доказывается взаимосвязь динамики изменения выражения лица с его психологическим типом. В научной работе [10] было доказано, что с наибольшей степенью вероятности можно предсказать степень экстраверсии человека, проанализировав его выражения лица на видео с помощью машинного считывания эмоций. Однако на данный момент нет исследований, учитывающих это при разработке рекомендательной системы.

Целю практической части исследования является создание подхода разработки рекомендательных систем на основе степени экстраверсии пользователя, рассчитанной с помощью технологии распознавания лиц, а также на основе его текущего эмоционально состояния. Входными данными для такой системы представляются множество пользователей и динамика изменения их выражения лица, а также Интернет контент. На выходе система должна составлять рекомендации для её пользователя, а также визуализировать пользовательский профиль.

.2 Разработка алгоритма работы рекомендательной системы

Предполагается, что наиболее подходящей рекомендательной системой будет система, использующая метод коллаборативной фильтрации. В соответствии с подходами, реализованными в рассмотренных исследовательских работах, был разработан алгоритм работы рекомендательной системы. Алгоритм структурирован и описан в соответствии с разработанным в исследовательской работе [11] алгоритмом рекомендательной системы, работающей по принципу определения психологического портрета онлайн пользователя. Необходимо отметить, что главное отличие проанализированной работы и текущего исследования в способе выделения психологических черт. Соответственно, в разработанном алгоритме учитывается особенность считывания информации о пользователе по характеру изменения его лица.

Общий принцип разработанной рекомендационной системы можно описать следующим образом: в получившемся сегменте пользователя с его атрибутами экстраверсии и текущего настроения необходимо найти другого пользователя, который с некоторой погрешностью был в таком же настроении в прошлом. Опишем алгоритм более подробно.

Пусть множество пользователей выглядит следующим образом U = {u1, u2, ...ui}, а множество объектов контента Интернета H = {h1, h2, . . . hj}. Первым шагом необходимо рассчитать степень экстраверсии ex для каждого пользователя системы. Метод расчета был описан ранее и представляет собой использование коэффициентов корреляции Пиросона. Атрибут экстраверсии пользователя не меняется с течением времени, поэтому для упрощения дальнейших расчетов необходимо провести кластеризацию пользователей по рассчитанному параметру. Также для каждого пользователя необходимо вести запись динамики настроения, которое определяется семью параметрами, считанными посредством инструмента распознавания лица. Помимо динамики изменения настроения необходимо записать просматриваемый пользователем контент H = {h1..hi}, который относится к категории развлечения, а также реакцию пользователя на контент (релевантное/не релевантное). Таким образом, в системе хранится массив пользователей U, просмотренный пользователем u контент H, оценка контента r, выставленная пользователем u, эмоциональное состояние m при просмотре контента h.

Рассмотрим алгоритм составления рекомендаций. В первую очередь проводится анализ динамики лица пользователя ut, определяется текущее его настроение. Предполагается, что система определила его экстраверсию на предыдущем шаге, поэтому находится тот кластер, в котором находится пользователь. В кластере происходит поиск ближайшего соседа по семи атрибутам настроения и параметру экстраверсии: системе необходимо сопоставить текущее настроение пользователя ut и историю настроений пользователей в кластере. После того, как найден ближайший сосед, происходит поиск релевантных для него элементов контента, в разрезе запрашиваемых показателей настроения, близкими к показателям пользователя ut. Такие релевантные элементы рекомендуются пользователю к просмотру. Алгоритм также представлен на схеме.

Рис.4 «Схема разработанного алгоритма рекомендательной системы»

Для доработки алгоритма необходимо уточнить методологию выполнения следующих шагов:

.        Выбор метода кластеризации пользователей

.        Выбор метода определения ближайшего соседа

.        Описание формирования множества подходящего контента

Для выбора метода кластеризации необходимо рассмотреть понятие кластерного анализа. Кластрный анализ - задача разбиения заданной выборки объектов (ситуаций) на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались [13].

Цели кластеризации:

1.   Понимание данных путём выявления кластерной структуры. Разбиение выборки на группы схожих объектов позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа (стратегия «разделяй и властвуй»).

2.      Сжатие данных. Если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.

.        Обнаружение новизны (novelty detection). Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.

При построении коллаборативных рекомендательных систем с использованием кластерного анализа наиболее часто используется алгоритм k-средних. Система строит k кластеров, расположенных на возможно больших расстояниях друг от друга. Основной тип задач, которые решает алгоритм k-средних - наличие предположений (гипотез) относительно числа кластеров, при этом они должны быть различны настолько, насколько это возможно. Выбор числа k может базироваться на результатах предшествующих исследований, теоретических соображениях или интуиции. Общая идея алгоритма: заданное фиксированное число k кластеров наблюдения сопоставляются кластерам так, что средние в кластере (для всех переменных) максимально возможно отличаются друг от друга. Ограничения: небольшой объем данных. Достоинства такого алгоритма следующие: простота использования; быстрота использования; понятность и прозрачность алгоритма. К недостаткам относятся следующие аспекты: алгоритм слишком чувствителен к выбросам, которые могут искажать среднее; медленная работа на больших базах данных; необходимо задавать количество кластеров [12].

Соответственно, для проведения кластеризацию по степени экстраверсии пользователя был выбран описанный алгоритмом k-средних.

Следующим шагом необходимо выбрать метод нахождения ближайшего соседа в кластере. Задача поиска ближайшего соседа заключается в отыскании среди множества элементов, расположенных в метрическом пространстве, элементов близких к заданному, согласно некоторой заданной функции близости, определяющей это метрическое пространство.

Существует несколько методов нахождения ближайшего соседа. В рассмотренной исследовательской работе [11] при построении рекомендательной системы были использованы и протестированы на эффективность два основных метода:

.        Евклидова мера расстояния

Если рассматривать пользователя с атрибутами настроения и степени экстраверсии как вектор , а других пользователей как вектора ,, то формула выглядит следующим образом:


.        Взвешенное евклидово расстояние

Такая мера расстояния для определения ближайшего соседа возможна после определения экспериментов и применяется для увеличения точности рекомендательной системы. Для этого разрабатывается функция , в которой каждый из восьми составляющих параметров вектора оценен с каким-либо весом, в зависимости от того, насколько сильно/слабо параметр влияет на результирующую рекомендацию. 


Как было указано ранее, для разработанной рекомендательной системы было необходимо использовать только тот контент, который подходит под категорию развлечения.

Для формирования такого множества была использована технология семантической паутины. Семантическая паутина - это общедоступная глобальная семантическая сеть, формируемая на базе Всемирной паутины путём стандартизации представления информации в виде, пригодном для машинной обработки. Семантическая информация, которая необходима для описываемого подхода извлекается из базы Freebase.

.3 Проектирование базы данных для разработанного подхода

В рамках работы была разработана архитектура базы данных, а также описана логика работы с данными в рамках предложенного алгоритма.

Опишем объекты базы данных.

Таблица 2. Объект базы данных для хранения неизменяющихся данных о пользователе

Название

Тип данных

Описание

USER

Таблица

Таблица для хранения неизменяющихся или медленно меняющихся данных о пользователе

USER ID

String

Идентификатор пользователя

EXTRAVERSION RATE

Double

Степень экстраверсии пользователя

CLUSTER NUMBER

Integer

Номер кластера пользователя


Таблица 3. Объект базы данных для хранения справочных значений типов настроения

Название

Тип

Описание

MOOD

Таблица

MOOD NAME

String

Название типа настроения

MOOD ID

String

Идентификатор настроения


Таблица 4. Объект базы данных для хранения данных о динамике настроения пользователя

Название

Тип

Описание

MOOD CHANGE

Таблица

Таблица для хранения данных о динамике настроения пользователя

MOOD ID

String

Идентификатор настроения

USER ID

String

Идентификатор пользователя

TIME

Datetime

Время конца сбора данных

MOOD AVG

Double

Среднее значение настроения пользователя на конец времени периода


Таблица 5. Объект базы данных для хранения данных об Интернет контенте

Название

Тип

Описание

CONTENT

Таблица

Таблица для хранения данных об Интернет контенте

URL

String

Идентификатор контента, URL

CONTENT TYPE

String

Тип контента


Таблица 6. Объект базы данных для хранения данных о потребляемом пользователями контенте

Название

Тип

Описание

CONSUMED CONTENT

Таблица

Таблица для хранения данных о потребляемом пользователями контенте

URL

String

Идентификатор контента, URL

USER ID

String

Идентификатор пользователя

TIME

Datetime

Время, в которое был просмотрен контент

ASSESSMENT

Integer

Оценка контента пользователем: релевантный/ нерелевантный


Таблица 7. Объект базы данных для хранения данных об «активном» пользователе

Название

Тип

Описание

ACTIVE USER

Таблица

Таблица для хранения данных об «активном» пользователе

ACTIVE USER ID

String

Идентификатор пользователя, находящегося в сети в текущий момент

USER ID

String

Идентификатор пользователя в рекомендательной системе

Datetime

Время, в которое пользователь находится в сети

Таблица 8. Объект базы данных для хранения значений расстояний между пользователями в кластере

Название

Тип

Описание

DISTANCE CALC

Таблица

Таблица для хранения значений расстояний между пользователями в кластере

ACTIVE USER ID

String

Идентификатор «активного» пользователя

HYSTORY USER ID

String

Идентификатор иного пользователя, находящегося в кластере активного пользователя

HYSTORY USER MOOD TIME

Datetime

Время конца сбора данных о настроении «исторического» пользователя

DISTANCE

Double

Расстояние между «активным» и «историческим» пользователем


Таблица 9. Объект базы данных для хранения данных о расстоянии «соседей» пользователя в кластере

Название

Тип

Описание

NEAREST NEIGHBOUR

Таблица

Таблица для хранения данных о расстоянии до «соседей» пользователя в кластере

NEIGHBOUR ID

String

Идентификатор «соседнего» пользователя

ACTIVE USER ID

String

Идентификатор активного пользователя

NEIGHBOUR TIME

Datetime

Время конца сбора данных о настроении «соседнего» пользователя

MIN DISTANCE

Double

Расстояние, до соседнего пользователя, которое является минимальным


Таблица 10. Объект базы данных для хранения рекомендаций текущему пользователю

Название

Тип

Описание

RECOMMENDATION

Таблица

Таблица для хранения рекомендаций текущему пользователю

ACTIVE USER ID

String

Идентификатор «активного» пользователя

TIME

Datetime

Время, в которое пользователь находится в сети

URL

String

Идентификатор рекомендуемого контента


Алгоритм заполнения базы данных системой следующий:

1.      При появлении нового пользователя в системе происходит запись в таблицу USER с уникальным идентификатором USER ID, рассчитанной степенью экстраверсии EXTRAVERSION RATE и вычисленным по ней номером кластера CLUSTER NUMBER , к которому относится пользователь

Рис.5 «Схема базы данных рекомендательной системы»

2.      На протяжении пользовании системы через заданные интервалы времени происходит заполнение таблицы MOOD CHANGE данными: идентификатор пользователя USER ID, эмоция испытываемая пользователем MOOD ID, среднее значение числового показателя эмоции за период MOOD AVG, время - конец периода испытываемой эмоции TIME.

.        Также происходит заполнение таблицы CONSUMED CONTENT при просмотре пользователем контента: адрес объекта в сети URL, время просмотра TIME, оценка пользователя контента ASSESSMENT

.        После заполнения таблиц данными возможно составление рекомендаций. Для этого необходимо идентифицировать пользователя системы как активного, присвоив ему идентификатор ACTIVE USER ID, который определяется USER ID и текущим временем TIME. Данные хранятся в таблице ACTIVE USER

.        В соответствии с текущем настроением активного пользователя и историей настроений его соседей в кластере (то есть на основе данных из таблиц ACTIVE USER, USER и MOOD CHANGE) происходит расчет дистанций между их векторами эмоций и экстраверсии. Данные записываются в таблицу DISTANCE CALC.

.        На основе данных из таблицы DISTANCE CALC система рассчитывает ближайшее расстояние между активным пользователем и каждым пользователем в разрезе различных периодов и записывает данные в таблицу NEAREST NEIGHBOUR. Далее по полю MIN_DISTANCE система вычисляет ближайшего соседа.

.        После того, как система вычислила USER ID и TIME ближайшего соседа, определяется URL просматриваемого в это время пользователем контента из таблицы CONSUMED CONTENT. Если оценка контента была положительна (определяется по полю ASSESSMENT), то в таблицу RECOMMENDATION записывается идентификатор активного пользователя и URL рекомендованного контента.

.4 Проектирование интерфейса профиля пользователя в системе

Рис.6 «Макет профиля пользователя в разработанной системе»

Для визуализации результатов был разработан макет интерфейса профиля пользователя. Элементами макета является информация о пользователе: рассчитанная степень экстраверсии и динамика изменения настроения в зависимости от времени. Настроение представлено семи типами: гнев, удивление, страх, презрение, радость, грусть, отвращение.


Стоит отметить, что разработанный в работе алгоритм рекомендательной системы основан на следующем предположении: с помощью технологии распознавания лица онлайн пользователя возможно определение степени его экстраверсии.

Такое предположение является новым для данной предметной области и основным для проводимого исследования. Эксперименты, проведенные в статье [10] показывают, что при анализе видео блогов людей с большой степенью вероятности возможно определение одной из пяти основных психологических черт блогеров - экстраверсии. На основе полученных данных был построен алгоритм, составляющий рекомендации для пользователей, сегментированных по степени их экстраверсии. Таким образом, существует необходимость проверки такой гипотезы экспериментальным путем.

Опишем ход предлагаемого эксперимента на основе практической части исследования [10]. Необходимо опросить около 300 участников эксперимента в соответствии с методологией психологической диагностики личности NEO PI-R для определения их личностных черт. После этого при помощи системы eMotion для распознавания эмоций записать динамику изменения лица пользователя во время использовании сети Интернет. Следующим шагом следует проведения анализа зависимости между полученными данными об эмоциях пользователей и их психологическими чертами. Сделанные предположения о выявленных зависимостях необходимо также проверить на других испытуемых, вычислив степени психологических черт через вопросник NEO PI-R и с помощью разработанного алгоритма.

Кроме того, необходимо измерить эффективность разработанного алгоритма рекомендательной системы. Опишем метод измерения на основе эксперимента, проведенного в работе [11]. Для проведения измерений эффективности необходима выборка около 60 участников. Эксперимент включает в себя просмотр Интернет контента, например различного рода изображений, как было сделано в исследовании [11]. Главное требование к контенту - он должен быть тщательно подобран, чтобы в равной степени охватить как можно более широкую область в значение возбудимость эмоций. Количество объектов Интернет контента для эксперимента может варьироваться в зависимости от различных факторов, в описанной работе [4] было представлено 70 изображений. Каждый участник эксперимента должен оценить значимость для него контента (нравится/ не нравится).

Следующим шагом эксперимента является применение разработанного алгоритма для формирования предложений контента пользователю. Следует отметить, что для используемых в эксперименте данных также необходимо применить алгоритм уже исследованных методологий рекомендательных систем, например стандартный алгоритм коллаборативной фильтрации, основанной на рейтинге контента, выставляемом пользователем. После того, как рекомендательные системы вычислят предложения для пользователей, необходимо сравнить полученные результаты с поставленными оценками пользователей. Результатом сравнения в работе [11] представляются показатели: TP - количество контента, оцененное пользователем положительно и правильно классифицируемое системой, как положительное, верно, TN - элементы, которые были правильно классифицированы системой как не значимые для пользователя, FP - это элементы, которые не являются значимыми для пользователя, но неправильно классифицированы как значимые, FN - контент, оцененный участником положительно, а системой отрицательно. Для сравнения эффективности систем необходимо рассчитать три индекса на основе перечисленных параметров:


В соответствии с рассчитанными значениями можно делать вывод об эффективности разработанной рекомендательной системы относительно существующих технологий.

Заключение

Результатом проделанной работы стало выполнение поставленных задач.

Прежде всего, в работе были рассмотрены базовые технологии построения рекомендательных систем, с последующим анализом релевантных исследований, в которых были использованы различные подходы к решению проблемы информационной перегрузки пользователя за счет разработки рекомендательных систем. Среди таких научных работ были выделены исследования систем, основанных на распознавании психологических особенностей пользователей. Также в работе была исследована проблема выделения личностных характеристик пользователей и проведен анализ одного из способа извлечения такой информации - с помощью технологии распознавания лица пользователя

Далее, на основе методологий извлечения личностных характеристик пользователя с помощью анализа изменения выражения его лица был разработан подход, описывающий алгоритм работы персонифицированной рекомендательной системы.

Следующим шагом была разработана архитектура базы данных, которая позволяет хранить информацию о пользователях для проведения необходимых расчетов и анализа, описанных в логике работы предложенной рекомендательной системы. Также в рамках практической части были описаны экспериментальные методы, которые необходимо применить для оценки эффективности разработанного алгоритма.

Заключительным этапом практической части является разработка макета интерфейса, позволяющего отображать данные из базы для их визуализации.

Разработанный подход имеет ряд преимуществ, в числе которых выделение психологических черт пользователя без его субъективной оценки своих действий. Такой подход позволит приблизиться к решению установленной проблемы информационного перегруза, а также может помочь человеку с проблемой самоидентификации.

Список использованных источников

1.   Maria Augusta S.N. Nunes. Towards to Psychological-based Recommenders Systems: A survey on Recommender Systems // Discussion Paper, 2010. Universidade Federal de Sergipe.

2.      Первин Л., Джон О. Психология личности: Теория и исследования. - М.: Аспект Пресс, 2000. - 607 с.

3.      Tim Blumer1, Nicola Döring. Are we the same online? The expression of the five factor personality traits on the computer and the Internet.

4.      Marko Tkalciˇ c and Li Chen. Personality and Recommender Systems // Discussion Paper, 2015. Johannes Kepler University

.        Alexandra Roshchina. TWIN: Personality-based Recommender System // Master paper, 2012. Institute of Technology Tallaght

.        Bruce Ferwerda, Markus Schedl, Marko Tkalcic. Predicting Personality Traits with Instagram Pictures // Discussion Paper, 2015

7.      Александр Прохоров, Социальные сети: психология, социология, бизнес

8.      Ioannis Arapakis, Yashar Moshfeghi, Hideo Joho, Reede Ren, David Hannah, Joemon M. Jose. Integrating facial expressions into user profiling for the improvement of a multimodal recommender system. // Discussion Paper, 2009. University of Glasgow

.        Neeraj Agrawal, Rob Cosgriff and Ritvik Mudur. Mood Detection: Implementing a facial expression recognition system. // Discussion Paper, 2009

10.    Lucнa Teijeiro-Mosquera <http://ieeexplore.ieee.org/search/searchresult.jsp?searchWithin=%22Authors%22:.QT.Luc.AND..HSH.x00ED;a%20Teijeiro-Mosquera.QT.&newsearch=true>. What Your Face Vlogs About: Expressions of Emotion and Big-FiveTraits Impressions in YouTube. // IEEE Transactions on Affective Computing, 2015. С. 193 - 205

11.    Marko Tkalci ˇ c, Matevž Kunaver, Jurij Tasic. Personality Based User Similarity Measure for a Collaborative Recommender System. // Discussion Paper, 2009.

.        Е. Миркес, University of Leicester. K-means and K-medoids

13.    Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: классификация и снижение размерности. - М.: Финансы и статистика, 1989.

Похожие работы на - Разработка подхода рекомендательной системы, основанной на психологическом портрете пользователя, и разработка хранилища данных

 

Не нашли материал для своей работы?
Поможем написать уникальную работу
Без плагиата!