Состояние рынка Big Data в маркетинге в России и прогноз его развития с учетом фактора технологий защиты персональных данных

  • Вид работы:
    Дипломная (ВКР)
  • Предмет:
    Информационное обеспечение, программирование
  • Язык:
    Русский
    ,
    Формат файла:
    MS Word
    84,33 Кб
  • Опубликовано:
    2017-07-03
Вы можете узнать стоимость помощи в написании студенческой работы.
Помощь в написании работы, которую точно примут!

Состояние рынка Big Data в маркетинге в России и прогноз его развития с учетом фактора технологий защиты персональных данных

Оглавление

Введение

Глава 1. Анализ актуального состояния технологий Big Data в России

1.1 Раскрытие понятия Big Data

1.2 Краткий обзор российского рынка Big Data

1.3 Потенциал для развития Big Data на основе зарубежного опыта

Глава 2. Технологии защиты персональных данных и их применение

.1 Проблематика защиты персональных данных

2.2 Юридический аспект защиты персональных данных в России

2.3 Независимые технологии защиты персональных данных

Глава 3. Изучение влияния технологий защиты данных на применение Big Data в маркетинговых коммуникациях в России

.1 Описание использованных в работе методов

3.2 Описание результатов опроса среди рядовых российских пользователей

3.3 Анализ результатов опроса с экспертной оценкой

3.4 Ключевые выводы и прогноз развития технологий Big Data в связи с аспектом защиты персональных данных

Заключение

Список литературы

Приложения

Введение

персональный данные связь юридический

Развитие информационных технологий и увеличение количества каналов коммуникации за последнее десятилетие как в России, так и в мире в целом повлияли на становление такой проблемы, как возникновение «информационного шума». Этот термин был предложен еще в середине ХХ века исследователем К.Э.Шэнноном в его работе «Математическая теория коммуникаций», где он описывал построенную им модель коммуникаций. Согласно этой теории, процесс движения информации от передатчика к получателю затрудняется по причине возникновения «помех», т.е. нерелевантных получателю потоков информации, именуемых «информационным шумом». Обозначив наличие этой проблемы еще больше полувека назад, сегодня многие эксперты называют её одной из ключевых проблем, в рамках которой человеку приходится существовать и адаптировать свою коммуникационную деятельность. Особенно серьезной эта проблема становится для представителей бизнеса, ведь, осуществляя свою маркетинговую деятельность, они должны тратить больше усилий и применять новые инструменты коммуникации, чтобы быть уверенными, что их ключевые сообщения «доходят» до потребителей. Тем не менее, рост количества источников информации и коммуникации (к которым относятся и относительно новые каналы, такие как социальные сети, мессенджеры, e-mail и иные digital-сервисы, и традиционные каналы коммуникации, такие как ТВ и радио), которыми пользуется современный потребитель, обеспечил возможность узнавать больше о самом потребителе, его личных интересах и его социально-демографических и экономических характеристиках. Преимущество digital-каналов коммуникации коммуникации состоит в том, что при их использовании потребитель дает «обратную связь» в виде информации о нём самом как пользователе и потенциальном клиенте, которую большинство современных «передатчиков» (т.е., распространителей информации) собирает и, в ряде случаев, анализирует. И этот факт стал основой для развития технологий, которые, с точки зрения маркетинга, позволяют осуществлять коммуникацию только с теми потребителями, которые потенциально могут быть в ней заинтересованы, а саму коммуникацию формировать исходя из потребностей целевой аудитории - технологий Big Data. Технологии Big Data позволяют пробиваться через «информационный шум», избегая лишних затрат на нерелевантные каналы и формы коммуникации, и формируя аудиторию с помощью качества (т.е., релевантности) информации, а не её количества. Технологии Big Data базируются на машинном анализе больших массивов данных об аудитории, операционной или машинной деятельности компании, продукта, организации или любой другой системы. Цель работы с ними - это поиск нового знания, корреляций и инсайтов, которые могут помочь оптимизировать работу и сократить издержки. В маркетинге технологии Big Data используются для анализа собираемых различными методами массивов данных о клиентах компании и потенциальной аудитории с целью формирования грамотной маркетинговой политики и поиска новых возможностей для коммуникации с потребителями. Россия, как рынок, находится в статусе развивающихся, и технологии Big Data только в последние годы начали получать своё применение в различных сферах деятельности, но различные исследования нашего рынка показывают положительную динамику его развития. Именно это позволяет с уверенностью сказать, что рынок Big Data в России обладает потенциалом, и его изучение является актуальной задачей для российских исследователей.

В большинстве случаев, как заявляют компании, в Big Data используются совокупные обезличенные массивы персональных данных, и этот процесс не представляет угрозы с точки зрения вмешательства в личную жизнь отдельных индивидуумов. Тем не менее, количество источников сбора личных данных и непрозрачность схем их использования компаниями заставляет экспертов усомниться в безопасности данного процесса для рядовых потребителей. Так, согласно исследованиям, сегодня возможно идентифицировать до 95% пользователей абонентских сетей, зная всего 4 точки их пространственно-временного присутствия. На первый план в данном случае встают вопросы не только сохранности и защищенности данных, которыми обладают компании, но и благородности мотивов их использования. Давая свое согласие на сбор и обработку данных, пользователи могут не до конца осознавать масштаб вмешательства в их личную жизнь. Более того, нельзя исключать и фактор технологий нелегального сбора информации, но даже легальные методы не способны показать пользователю полноценную картину «пути» его персональных данных с момента их передачи. С возможным ростом осведомленности рядовых пользователей и потребителей о технологиях Big Data в теории может повыситься и значимость вопроса защиты персональных данных. Помимо юридических механизмов их защиты вполне возможно развитие механизмов блокировки сбора персональных данных или альтернативных систем, в которых эти данные не требуются для коммуникации, что в обоих случаях представляет угрозу для самих технологий Big Data. Поэтому изучение процессов работы с Big Data в контексте персональных данных и прогнозирование дальнейшего развития ситуации является актуальным как для рынка, так и для рядовых пользователей.

Проблемой, изучаемой в данной работе, является тот факт, что при активных инвестициях российского бизнеса в развитие технологий Big Data, параллельно развиваются и технологии защиты персональных данных, что потенциально может обесценить затраты ресурсов. Соответственно, основной исследовательский вопрос данной работы: какова степень угрозы применению и развитию технологий Big Data в маркетинге, исходящая из потенциальных изменений в отношении к вопросам защиты персональных данных? Перспектива ограничений сбора и анализа персональных данных так или иначе отразится на работе крупных компаний, и в таком случае необходимо понимать, насколько сам рынок готов к таким изменениям и принимает ли он их во внимание при построении стратегий развития маркетинговых коммуникаций. Однако гипотеза в рамках данного исследования предполагает, что перспектива развития технологий защиты персональных данных не является барьером для использования и развития Big Data в России.

Цель данного исследования - сделать вывод о состоянии рынка Big Data в маркетинге в России и прогноз его развития с учетом фактора технологий защиты персональных данных. Для достижения данной цели ставятся следующие задачи:

)Определить ключевые сферы использования технологий Big Data в маркетинговых коммуникациях в России

)Определить имеющиеся и развивающиеся технологии и механизмы защиты персональных данных в России

)Изучить осведомленность различных групп общества о проблеме и их отношение к ней

)Изучить мнение представителей бизнеса о проблеме и получить от них данные о конкретных и предполагаемых действиях в условиях этой проблемы

Объектом исследования в данной работе являются технологии Big Data в маркетинговых коммуникациях, а предметом исследования - технологии защиты данных.

В рамках исследования применяются два метода: экспертное интервью и количественный опрос. Теоретическая значимость данной работы состоит в изучении актуального состояния рынка технологий Big Data и, одновременно, углубленного изучения механизмов защиты персональных данных - эта информация может быть использована исследователями в работах, посвященных перспективам данных технологий в России. Говоря об эмпирической значимости исследования, можно отметить, что его результаты могут быть применены представителями бизнеса для построения стратегий применения и развития маркетинговых технологий, опираясь на полученные статистические данные об отношении аудитории к базирующимся на технологиях Big Data маркетинговым решениям. Научную новизну данной работы можно обосновать редким освещением в научных работах изучения технологий Big Data с точки зрения механизмов защиты данных, которые анализируются при применении этих технологий.

В качестве теоретической базы в данной работе используются книги и статьи на тему защиты персональных данных в эру компьютерных технологий и онлайн-коммуникаций, а также работы и материалы, раскрывающие особенности применения технологий Big Data как в России, так и за рубежом. Ключевыми источниками, которые стоит выделить, являются такие книги, как «Защита персональных данных: введение в проблематику» Пазюк А., «Этика в сфере информационных технологий» Малюк А., а также статья Савельева А. «Проблемы применения законодательства о персональных данных в эпоху «Больших данных»» и ФЗ «О персональных данных» от 27.07.2006. Ключевой теорией, на которую опирается данная работа, является теория приватности RALC (Restricted Access/Limited Control), впервые описанная исследователем Д. Муром в конце ХХ века. Также для понимания темы в целом были использованы такие труды, как «Большие данные» Виктора Майера-Шенбергера и «Data driven marketing: How marketing automation and big data analytics transform modern business» Черенкова А.

Данная работа состоит из введения, трех глав, заключения, списка литературы и приложений. В первой главе приводится обзор актуального состояния рынка Big Data в России, обозначаются ключевые сферы применения, анализируются основные проблемы, с которыми сталкиваются игроки рынка, проводится анализ перспектив рынка исходя из зарубежного опыта, а также в целом актуализируется понятие Big Data. Во второй главе раскрывается суть проблемы защиты персональных данных, определяются основные типы данных и их источники, изучаются существующие и развивающиеся механизмы защиты персональных данных в Интернете. В третьей главе приводятся результаты исследования, в котором задействуются как представители рынка, так и рядовые пользователи, а также ключевые выводы по работе. В приложениях к данной работе размещены материалы опроса и расшифровки экспертного интервью.

Глава 1. Анализ актуального состояния технологий Big Data в России

.1 Раскрытие понятия Big Data

В последние годы тема «больших данных», или Big Data, и методов работы с ними стала одной из ключевых тем при обсуждении вектора развития технологий, применимых во множестве сфер жизни человека. Это связано, в первую очередь, с многократным увеличением объемов данных, генерируемых человечеством. По данным Aureus Analytics, 90% данных в мире по состоянию на 2015 год были сгенерированы за предшествовавшие два года. Также, по их прогнозам, каждый год этот объем будет увеличиваться на 40%, что приведет к накоплению от 40 до 44 зеттабайт данных (для сравнения, в 2011 году объем всех данных в мире по примерным оценкам составлял 2,56 зеттабайта). Такой рост обусловлен проникновением в повседневную жизнь человека ряда технологий и измерительных датчиков, с которыми современный человек преднамеренно или невольно взаимодействует в течение каждого дня. Так, по типологии компании Kapow источниками больших данных на сегодняшний день могут быть оцифрованные архивы, документы, медиа-материалы различного формата, социальные медиа, электроника, личные и бизнес-приложения, хранилища данных, а также сеть Интернет в целом. Находясь в медиапространстве и взаимодействуя с электроникой, человек, зачастую не осознавая этого, генерирует огромное количество информации каждый день.

Однако далеко не вся эта информация является применимой, в связи с чем в течение последнего десятилетия особый интерес вызывают технологии обработки больших данных и специалисты в этой области. Основная задача этого направления - «расшифровка», то есть структурирование этих данных, вычленение необходимой информации и открытие нового знания путем поиска корреляций. Поэтому, под самим понятием Big Data часто понимается не только огромный массив данных, но и ряд технологий по работе с ними. Термин Big Data впервые был использован редактором журнала Nature Клиффордом Линчем 3 сентября 2008 года в его статье, посвященной росту объемов данных в мире и перспективам их использования в технологиях и бизнесе. В дальнейшем этот термин получил широкое распространение, а само направление заняло свое место на известной кривой Gartner, будучи оцененным как второй по значимости тренд в информационных технологиях в 2011 году. Дуглас Лэйни, аналитик из Gartner, еще в 2001 году в своей статье под названием 3D Data Management: Controlling Data Volume, Velocity and Variety выделил в самом заголовке статьи три, по его мнению, главных отличительных черты данных в целом (ведь на тот момент понятия Big Data еще не существовало): огромные объемы массивов данных; скорость как обработки данных, так и поступления новых; неоднородность, как ключевая особенность и проблема, которую решают технологии больших данных. Сегодня при описании больших данных по-прежнему опираются на эту концепцию, но улучшение технологий и накопленный опыт со временем позволили исследователям выделять дополнительные особенности Big Data. Например, достоверность данных, которая впервые была упомянута специалистом из компании IBM Жаном Франсуа Пюже, что означает обязательность сортировки данных с целью извлечения только достоверной информации из «информационного шума». Также существует понятие «обоснованности больших данных», т.е. репрезентативности и релевантности поставленным задачам исследования. В совокупности множество других выделенных исследователями черт можно подвести под понятие vagueness (т.е., «неопределенность»), которое было отражено в статье профессора Кирка Борна как одна из 10 ключевых особенностей Big Data. Она отражает сущность технологий работы с большими данными - до сих пор многие исследователи не могут до конца выделить все плюсы и минусы тех или иных инструментов или определить наиболее подходящие стратегии работы с большими данными, так как при работе с ними не существует точного алгоритма.

Тем не менее, с каждым годом количество примеров успешных проектов на основе Big Data растет, подтверждая реальную выгоду от развития и использования этих технологий. Так, согласно данным консалтинговой компании IDC, количество успешно запущенных проектов с использованием технологий Big Data по всему миру в 2016 году по отношению к 2015 выросло на 125%. По их прогнозу к 2019 году бюджет таких проектов вырастет до $188 млрд (при $122 млрд. в 2015 году), причем основным их заказчиком станут компании, штат которых составляет более 500 человек. Это объясняется большим уровнем затрат на создание такого рода проектов, который на данный момент не доступен малому бизнесу. Однако по тому же прогнозу IDC к 2019 году доля малого и среднего бизнеса на этом рынке также возрастет, составив внушительные 25%. По мнению Евгения Степанова, руководителя направления HPE Big Data Platform, уже сейчас техническая стоимость вхождения на рынок больших данных достаточно низка, когда извлечь выгоду из таких проектов может каждый участник рынка, так как определенным набором данных обладает каждая компания. Говоря о типологии данных, Евгений выделяет три основных типа: бизнес-данные, машинные данные и социальные данные. Бизнес-данные являются самым простым типом с точки зрения агрегации - так или иначе, каждая современная компания хранит данные о своих клиентах, проводимых транзакциях, производственных показателях и т.д. Основной вопрос, связанный с этим типом данных - это сокращение затрат на их хранение и систематизацию, а также введение для этого более совершенных технологий. К разряду машинных данных исследователи причисляют множество типов данных, полученных с помощью «Интернета вещей». Согласно определению, данному в Оксфордском словаре, «Интернет вещей» - это объединение электронных устройств, являющихся частью повседневной жизни, с помощью Интернета, позволяющее им накапливать и обмениваться данными без участия человека. Количество таких устройств растет с каждым днем, что постоянно увеличивает количество источников новых данных. В таких устройствах используются различные сенсоры, способные регистрировать тысячи различных видов взаимодействия с ними и методов их использования. Такой тип данных сегодня приобретает все большее значение для проектов на основе Big Data, т.к. они представлены в наиболее удобном для компьютерной обработки формате (то есть, являются структурированными) и, в то же время, аккумулируются в масштабах, существенно превышающих возможности обычного, «человеческого» анализа. Данные, собираемые нашими смартфонами, автомобилями, фитнес-трекерами, системами «умного дома» и многими другими техническими устройствами составляют базу для исследований нашего поведения, которые можно использовать для построения маркетинговых стратегий, улучшения продуктовых предложений и оптимизации процессов работы с потребителями. Получить к ним доступ проще всего, так как количество таких устройств уже на данный момент превышает количество жителей Земли, а к 2020 году, по расчетам компании Gartner, их количество достигнет 20.8 миллиардов устройств (по прогнозам другой компании, ABI Research, к этому моменту их будет уже 30 миллиардов). Множество типов данных собираются в автоматическом режиме и зачастую без ведома человека, но такой тип данных обезличен, что позволяет составлять необходимую для анализа картину без вторжения в личную жизнь потребителя.

Последний, но наиболее распространенный тип анализируемых данных - это социальные данные. Под эту категорию попадают все данные, создаваемые человеком напрямую и отражающие его жизнедеятельность с точки зрения существования в социуме. К таким данным относятся фотографии, видео, записи в блогах, сообщения, письма и многие другие форматы контента, хранящегося на цифровых носителях и создаваемого и распространяемого с помощью Интернета. Такие данные наиболее разрозненны с точки зрения форматов, источников и возможностей их анализа (то есть, относятся к неструктурированным или, в некоторых случаях, полуструктурированными), но, в то же время, они содержат в себе огромный пласт не менее полезной информации, чем та, что предоставляют машинные данные. Согласно данным, приведенным в работе исследователей Гандоми А. и Хайдер М., в категорию неструктурированных данных попадают 95% всех данных в мире, поэтому задачи по работе с ними так или иначе стоят на первом месте. Анализируя социальные данные, компания может выявить потребительские инсайты и ключевые особенности той или иной целевой аудитории, подобрать подходящий тон коммуникации или определить степень нужды и заинтересованности в том или ином продукте или предложении. Если рассматривать не только потребности бизнеса, социальные данные и технологии их обработки представляют огромную ценность как для работы некоммерческих структур, так и для развития общества в целом. Существуют разные подходы к пониманию социальных данных в контексте темы Big Data. Так, профессор Хироши Ишикава из университета Васэда в своих работах говорит о концепте под названием Social Big Data, под которым понимается совокупный анализ данных «окружающего мира», обладающих неявным смыслом, и социальных данных, обладающих явным смысловым содержанием и получаемых из социальных медиа. В его понимании, при таком анализе строится прямая связь между реальным и виртуальным миром, которая выводит исследователя на путь к решению той или иной проблемы. Данные из социальных медиа способны обогащать данные мира физического и наоборот. Простейшим примером такого взаимодействия является прогнозирование транспортного коллапса в связи с предстоящим городским мероприятием на основе уровня обсуждения этого мероприятия в социальных сетях. Несколько с другой стороны социальные данные как часть больших данных рассматривает доктор информационных наук из алжирского Университета Науки и Технологий Бухалфа К. Он рассматривает Social Big Data как часть теории social computing (интеграции социальных и машинных наук, взаимодействия социума с технологиями и его анализа), относительно нового подхода к изучению поведения людей в группах, обусловленного технологическим прогрессом и возможностью постоянного взаимодействия людей с помощью Интернета и средств связи. В данном подходе социальные данные можно представить, как проявление «коллективного интеллекта», т.е. возможности накопления нового знания и внесения изменений в окружающий мир путем постоянной интеракции индивидов друг с другом в онлайн-среде. В таком контексте социальные данные рассматриваются как следы функционирования социума в формате автономной системы, способной без внешнего вмешательства достигать необходимых целей. Наиболее явным примером такого взаимодействия можно назвать такое явление, как «даркнет», где интеракции между пользователями с определенной целью происходят напрямую без посредников в лице коммерческих структур, а сообщество регулируется только самими участниками. Соответственно, в данном случае изучение социальных данных представляется необходимым для более глубокого понимания новых социальных механизмов коммерческими и государственными структурами с целью подстраивания своей деятельности под новое социальное общество.

Иные подходы к пониманию социальных данных варьируются с точки зрения целей их анализа, но стоит отметить, что во всех подходах социальные данные сегодня рассматриваются как ключевой аспект Big Data. Но так как социальные данные являются неструктурированными (или, полуструктурированными), основная проблема в работе с ними состоит в необходимости разработки программного обеспечения, способного преобразовывать контент, созданный человеком, в информацию, воспринимаемую компьютером. В следствие этого, проекты на основе Big Data по-прежнему обладают довольно высокой стоимостью и одновременно не могут гарантировать получение применимого для развития бизнеса результата. Поэтому помимо самих технологий большое значение имеет наличие специалистов, способных создавать алгоритмы для анализа имеющихся данных, а также успешно находить взаимосвязи и делать определенные выводы, которые являются ключевой целью работы с Big Data. Согласно исследованию компании Accenture в 2014 году, нехватка квалифицированных кадров стала третьей по популярности проблемой для входа на рынок Big Data (эту проблему упомянули 41% опрошенных), наряду с проблемой защиты данных и нехваткой бюджета (51% и 47% соответственно). Исследование Массачусетского Технологического Института, проведенное годом позже, показало, что проблема сохранилась на том же самом уровне, а отчет аналитического агентства Deloitte в 2016 году обозначил тот факт, что даже при фактическом увеличении количества программ, готовящих специалистов в сфере Big Data, их количества «на выходе» недостаточно для запросов рынка.

Делая вывод, можно сказать, что исследование и использование технологий Big Data на сегодняшний день уже находится на довольно высоком уровне. Компании обладают большим спектром источников информации, а рынок способен предложить комплексные решения по интеграции технологий для их обработки. Тем не менее, даже на глобальном уровне рынок имеет большие перспективы роста при условии инвестиций в изучение технологий анализа данных и подготовку квалифицированных кадров. Учитывая возможность получения и использования машинных и социальных данных (в том числе, персональных) из открытых и платных источников в совокупности с накопленными внутренними бизнес-данными, коммерческий и государственный сектор заинтересованы в развитии Big Data. Используя эти данные, они могут создать более таргетированное и релевантное целевой аудитории сообщение или предложение. В ряде случаев, как показывает множество кейсов по Big Data, это помогает более успешно решать различные маркетинговые и бизнес задачи, будь то повышение продаж, увеличение знания о бренде или построение лояльного сообщества. Основными же проблемами Big Data по-прежнему остаются неопределенность получаемого в перспективе результата и необходимость существенных затрат на собственные эксперименты, выражаемых во внутренних и внешних ресурсах компании и времени.

1.2 Краткий обзор российского рынка Big Data

Согласно отчету компании IDC за 2014 год, российский рынок Big Data оценивался в $340 млн., что составляло чуть более одного процента от общемирового рынка. Тем не менее, IDC определили, что российский рынок Big Data является одним из самых быстро развивающихся в мире - по различным данным к 2018 году он будет прибавлять от 25% до 40% в год. Более того, опрос ресурса CNews показал, что уже 1/3 опрошенных российских компаний использует технологии Big Data в своей работе. Представители российского бизнеса считают данное направление перспективным и планируют внедрять технологии Big Data, чтобы оставаться конкурентоспособными. Согласно прогнозам, даже в условиях экономической стагнации это направление развития IT-технологий остается востребованным, так как использование Big Data способно оптимизировать расходы компаний, повышать эффективность как внутренней работы (менеджмент ресурсов), так и внешней (клиентский сервис). Тем не менее, низкий уровень развития Big Data в России создает определенные риски, для избегания которых компаниям необходимо учитывать множество факторов. Одним их ключевых рискообразующих факторов можно считать наличие третьих лиц в процессе работы с данными. Множество компаний прибегают к услугам внешних консультантов и агентств, так как оплачивать работу собственных специалистов может быть не целесообразно при невысоких объемах задач. Соответственно, некие внешние ресурсы получают доступ к ценным данным о самой компании и ее клиентах, что является безусловным риском даже при юридическом закреплении конфиденциальности данных. Если говорить об анализе данных о маркетинговой активности, количество участников процесса увеличивается. Так, заключая договор об оказании услуг, компания может поставить агентству задачу собирать данные о клиентах для того, чтобы в дальнейшем передать эти данные другому агентству уже для их анализа. В таком случае, конфиденциальные данные о клиентах компании оказываются в руках сразу двух самостоятельных структур, преследующих собственные цели, которые могут выходить за рамки договора. Отдельным вопросом является легальность деятельности каждого из элементов процесса по сбору и обработке данных (ведь для того, чтобы хранить и обрабатывать данные, необходимо иметь соответствующее разрешение), который будет рассмотрен во второй главе данной работы. Помимо вопросов конфиденциальности, эксперты отмечают как проблемные вопросы объемов хранилищ данных, грамотной постановки задач, вероятные ошибки в результате работы и возможность неудачи в достижении результата в целом.

Как и на глобальном уровне, в России ключевыми сферами применения Big Data являются банковский сектор, телеком и ритейл. Это обусловлено тем, что именно в этих сферах компании работают со значительно крупными базами клиентов каждый день и, соответственно, могут оперировать большими массивами данных о них. Также, эти компании обладают достаточным капиталом и ресурсами, чтобы хранить эти данные и инвестировать в применение технологий их обработки на практике. Дополнительно к этому списку можно отнести промышленность и государственные компании, но в рамках данной работы они представляют меньший интерес. В случае с промышленностью технологии Big Data в первую очередь применяются для оптимизации внутренних процессов, а за основу берутся машинные данные. Говоря о государственных компаниях, работающих напрямую с населением и аккумулирующих достаточно большие объемы данных, эксперты отмечают, что их работа с большими данными на данном этапе ограничена и находится на низком уровне развития. По мнению заместителя министра экономического развития РФ Саввы Шипова в России на сегодняшний день лишь «у небольшого количества органов государственной власти есть возможность получать такие качественные первичные данные, а у кого-то вообще такой возможности нет». Также он отметил, что государственный сектор, как и другие сферы, сталкивается с проблемой недостатка специалистов. Вышеупомянутые ключевые сегменты рынка, в которых применяется Big Data, так или иначе действуют в едином поле, обмениваясь собранными данными. Андрей Ермаков, руководитель отдела архитектур департамента аналитических решений в IBS, отмечает, что на данном этапе можно говорить о своеобразной синергии этих сегментов, так как банки и телеком-операторы предоставляют обезличенные данные о клиентах ритейлу, чтобы тот мог расширить свое представление о собственных клиентах и прогнозировать перспективы продаж. Если глубже анализировать этот процесс, транзакции в ритейле, производящиеся с помощью банков, могут давать самим банкам ценную информацию о предпочтениях клиентов, об их финансовых возможностях и привычных местах времяпрепровождения - всю эту информацию можно использовать для предложения более релевантных потребителям услуг. Реальным примером такого взаимодействия является недавняя покупка холдингом «Мегафон» контрольной доли в Mail.Ru Group - одного из ключевых игроков рынка российских данных. Mail.Ru Group контролирует почти всю российскую аудиторию социальных сетей (в состав компании входят крупнейшие российские социальные сети «Вконтакте» и «Одноклассники»), а соответственно располагает большими объемами данных о пользователях, которые в совокупности с данными, имеющимися у оператора, можно использовать для наиболее точного таргетирования рекламных кампаний и разработки релевантных коммерческих предложений. Эта сделка - это показательный пример взаимовыгодной коллаборации, которая может стать основным фактором развития Big Data в этих сферах и в России в целом.

Согласно опросам и информации из открытых источников, технологиями Big Data пользуются такие крупные российские ритейлеры, как X5 Retail Group, Лента, Азбука Вкуса, Юлмарт, М.Видео и Ozon. С помощью больших данных уже сейчас ведется работа по большому спектру различных задач, например, логистика товаров, прогнозы продаж и потока клиентов, создание кастомизированных предложений и даже принятие решений о месторасположении новых точек продаж. Поток данных о покупателях формируется из информации, которой обладает сам ритейлер (опросы, анкетирования, анализ динамики продаж и чеков, отклики по online-рекламе), информации из открытых источников (социальные сети, форумы, отзывы, открытые гео-данные) и информации, предоставленной партнерами. Взаимно дополняя друг друга и постоянно обновляясь, информация из этих источников позволяет строить качественные модели поведения покупателей, что в случае с ритейлерами жизненно необходимо для сохранения конкурентоспособности, учитывая большой поток и высокую частоту покупки. Одним из конкретных примеров применения технологий обработки больших данных является применение сетью «Лента» анализа данных держателей карт лояльности. Компания занимается этой практикой еще с 2010 года и, хотя данный инструмент не является новым, с помощью него по-прежнему можно составлять портрет покупателя и корректировать ассортимент магазина исходя из таких параметров, как частота и давность покупки, средний чек и предпочтения в категориях. Аналитика ритейла в офлайне с помощью онлайн инструментов действительно приводит к положительному результату - так, еще в 2014 году платформа Hadoop (на ее основе базируется большинство отечественных решений в Big Data) вывела статистику, что использование больших данных в ритейле повышает прибыль на 7-10%. Говоря о ритейлерах, важно учитывать, что многие из них оперируют и в Интернете, что позволяет собирать больше данных об имеющихся клиентах и эффективнее привлекать новых. Известным примером применения Big Data онлайн-ритейлером является кейс компании Ozon, которая в 2014 году проанализировала 15-летнюю историю активности своих покупателей и пришла к выводу, что продажи книг серьезно возрастают с наступлением зимы, что позволило ритейлеру подготовиться к следующему сезону с новыми предложениями и более крупными объемами. Ключевым онлайн инструментом, используемым компаниями в различных сферах и основанным на Big Data, являются programmatic сервисы для показа интернет-рекламы. Под термином «programmatic» понимается совокупность методов закупки рекламы на различных онлайн-площадках, основанных на демографических и социальных данных аудитории показа и отсутствии участия человека в этом процессе. Иными словами, используя сервисы данного типа, компании закупают конкретную целевую аудиторию для показа своей рекламы, а не аудиторию конкретной площадки. В теории, такой подход позволяет доносить ключевое сообщение и ожидать отклика только от потенциальных клиентов. Но накопленный опыт работы с данной технологией показал, что эти технологии с успехом могут применяться и для интернет-мошенничества. Так, в декабре 2016 года была раскрыта одна из самых крупных мошеннических схем на основе programmatic, которая позволяла её создателям зарабатывать до $5 млн. в день. Российский ботнет (компьютерная сеть, состоящая из автоматизированных «хостов», ботов) Methbot, который был запущен в сентябре 2016 года, стал одной из крупнейших сетей по созданию виртуального трафика - в него входило несколько миллионов ботов и около 250 тысяч ненастоящих сайтов, на которых могли «крутиться» объявления. В сети боты «ведут себя» как люди (некоторые из них даже симулировали переход на площадки из социальных сетей), что не позволяло рекламодателю усомниться в честности схемы. Это один из крупнейших примеров, иллюстрирующих проблемы programmatic сервисов и погони за трафиком и целевыми аудиториями. Поэтому в перспективе данная технология должна обрести инструменты более детальной проверки покупаемой аудитории и анализировать больше данных, чтобы подтверждать реальность конкретных пользователей.

В сфере банкинга, согласно опросам, технологии Big Data применяются большинством представителей этого сегмента - в списке этих компаний есть и такие гиганты, как Сбербанк, ВТБ24 и Альфа-Банк, и менее крупные организации, например, Уральский банк реконструкции и развития. Для банков возможность анализировать и предсказывать потребности клиентов является необходимой, так как их услуги востребованы во множестве жизненных сценариев. Следя за потенциальным клиентом, его интересами и событиями из его жизни, банк может своевременно предложить свои услуги на подходящих конкретному пользователю условиях. Поэтому именно банки на сегодняшний день активно занимаются развитием технологий Big Data. Например, Сбербанк еще в 2014 году открыл департамент развития цифрового бизнеса, а в 2015 приобрел контрольный пакет акций компании RuTarget, разработавшей платформу баннерной рекламы на основе больших данных под названием Segmento. Данная система анализирует информацию о поведении пользователей в сети, например, их поисковые запросы или интересы в социальных сетях. В совокупности с имеющимися у Сбербанка массивами данных о клиентах, сам банк получает уникальные возможности таргетинга и точного предсказывания потребностей пользователей. Сбербанк использует Big Data и во множестве других процессов, например, для кредитования малого бизнеса. С помощью аналитических систем банк получает возможность в короткие сроки формировать индивидуальные кредитные предложения для представителей малого бизнеса на основе их отчетности. Схожие возможности предлагают и другие крупные российские банки, которые не отстают от Сбербанка по части освоения новых технологий. Так, по мнению директора департамента CRM ВТБ24 Дмитрия Кузякина, современный розничный банк не может не внедрять технологии обработки и анализа больших данных. В самом ВТБ24, как отмечает Дмитрий, эти технологии уже с успехом внедрены и применяются для решения ряда задач, например, определения паттернов поведения клиентов, их «пользовательских путей», разработки новых продуктов и управления клиентским поведением - и всё это на основе кластерного анализа транзакций и действий клиентов банка. В Альфа-Банке, по словам руководителя блока «Массовый бизнес» АО «Альфа-Банка» Денис Осина, big data применяется для оптимизации работы с клиентами с целью повышения удовлетворенности услугами банка. К общему тренду подключаются и менее крупные организации - так, еще в 2014 году Уральский банк реконструкции и развития внедрил программу создания персонализированного кредитования на основе Big Data, с помощью чего за год повысив на 55% свой розничный кредитный портфель. На этих примерах можно увидеть, что в банковской сфере уже ведется активная работа с решениями на основе Big Data.

Как и банки и представители розничной торговли, телеком-компании обладают большими объемами данных, которые они способны обрабатывать. Однако эксперты отмечают, что у телеком-операторов уровень развития IT несколько ниже, чем в интернет-компаниях, а в их штате просто может не быть специалистов по Big Data, что существенно тормозит развитие технологий. Согласно опросу, проведенному компанией CNews, на сегодняшний день в России технологии Big Data применяют такие крупные компании, как МТС, Вымпелком, Мегафон, МТТ, Акадо, Мотив и Гарс Телеком; среди остальных компаний 28% планируют внедрение, а 33% не применяют и не планируют внедрять эти технологии. Тем не менее, из тех компаний, которые подтвердили использование Big Data, многие могут с уверенностью сказать, что эти технологии работают успешно. Так, оператор Вымпелком с помощью Big Data определил паттерны перехода пользователей на улучшенные модели смартфона и составил группы пользователей, которые потенциально захотят приобрести новый смартфон и подключить дополнительные услуги. Определяя местоположение конкретных абонентов из этой группы, компания отправляла им СМС-сообщения с индивидуальными предложениями, когда они находились неподалеку от официального ритейлера. В МТС анализ информации об абонентах используется в целом для планирования расширения розничной сети и ее «обустройства» - на основе пешеходного трафика абонентов в привязке к детальной информацией о них принимаются решения об открытии новых магазинов, их местоположении, размере и ассортименте. Помимо таких нестандартных приемов использования Big Data, телеком-операторы пользуются и широко распространенными инструментами, например, programmatic сервисами, которые были рассмотрены ранее. Также телеком-операторы занимаются продажей собранных данных - так, по мнению представителей МТС, уровень собираемых компанией данных позволяет сделать ставку на финансовые сервисы для сотрудничества с банками, ведь на основе их данных можно построить максимально полную картину потребителя, начиная от его образа жизни и уровня дохода до настроений и стремлений. Представители Мегафона заявляют, что данные об абонентах их сети по всей России позволяют максимально точно строить модели экономического и городского планирования, что делает ценность этих данных в разы выше, чем если бы они использовались исключительно для решения маркетинговых и бизнес-задач самого оператора. Так или иначе, телеком-операторы успешно используют Big Data для решения типовых задач работы с клиентами: создание максимально эффективных коммерческих предложений, таргетированная реклама, рекомендационные сервисы, работа по удержанию и привлечению новых клиентов.

В итоге, анализируя информацию об использовании Big Data крупными представителями российского бизнеса, можно отметить, что в выделенных ключевых сферах ведется масштабная работа по повсеместному внедрению этих технологий. Big Data используется не только для оптимизации внутренних процессов, но и в маркетинговых целях. Более того, важно отметить, что взаимодействие компаний в плане обмена данными и предоставлению взаимовыгодных услуг на их основе является одним из важнейших факторов развития Big Data в России.

1.3 Потенциал для развития Big Data на основе зарубежного опыта

Принимая во внимание всю ранее рассмотренную информацию о применении технологий Big Data на российском рынке, важно отметить, что их применение не охватывает все возможные сферы коммерческой и некоммерческой деятельности. Дать полноценную оценку уровню развития Big Data в России во всех сферах не представляется возможным по причине недостатка информации в открытых источниках, но, исходя из мнений экспертов в разных областях и общей стоимостной оценки рынка Big Data в России, можно сказать, что, в отличие от зарубежных коллег, российские компании и организации реализуют не все свои возможности. Например, такие сферы как образование, здравоохранение или государственное управление в России, по сравнению с Западом, находятся на низком уровне развития с точки зрения применения технологий Big Data. Стоит отметить, что работа по развитию технологий Big Data во многих крупных мировых экономиках ведется в первую очередь с подачи государства, а не бизнеса. Так, США еще в 2012 году приступили к реализации масштабной инициативы в области Big Data, включающей в себя концентрацию усилий для разработки технологий и упрощения процессов сбора, хранения и технологий обработки метаданных для ускорения создания и внедрения инноваций в множестве научных и инженерных сфер, а также для подготовки квалифицированных кадров. Помимо США подобные инициативы были созданы в Великобритании, Корее и Сингапуре. В Корее, например, в 2011 году стратегия внедрения Big Data была представлена как часть государственного управления в целом - в фокусе оказалась идея создания прозрачного «электронного правительства», что позволило бы сократить расходы на традиционное государственное управление.

Зарубежный опыт позволил экспертам вывести и показательные статистические факты позитивного влияния технологий Big Data на множество сфер деятельности. Так, в сфере НИОКР и разработке продуктов применение Big Data позволяет сократить расходы на 20-50%, а прибыль увеличить на 30%; в производстве - сократить операционные расходы на 10-25%, а доходы увеличить на 7%; в государственном управлении - сократить бюджетные расходы администрирования на 15-20%, увеличить собираемость налогов 10%, а эффективность государственных закупок - на 30%. Данные показатели сигнализируют о том, что централизованные инвестиции в технологии Big Data на государственном уровне могут позволить существенно оптимизировать деятельность множества ключевых сфер деятельности. Это означает, что для решения проблем в этих сферах государство может обратить внимание на технологии Big Data и осуществлять поддержку инициатив, исходящих от представителей рынка. Конечно, существует и множество барьеров, которые необходимо преодолевать и государству, и рынку совместно. Так, одним из ключевых барьеров в российской практике является проблема фиксации самих данных в электронном формате. Например, в здравоохранении только сейчас происходит переход на электронные носители, но происходит он не повсеместно и со значительным отставанием от систем здравоохранения в ряде развитых стран, таких как США или Великобритания. Именно эта проблема обуславливает существенный разрыв в развитии, ведь данные обесцениваются, если их невозможно постоянно обрабатывать и анализировать в автоматическом режиме. Еще одной глобальной проблемой, с которой сталкивается и российский рынок, является нехватка кадров. Целенаправленно в этом направлении подготовка кадров происходит только в трех университетах мира, каждый из которых базируется в США - университеты Миссури, Де Поля и Беркли. Представители бизнеса позиционируют эту проблему как основную, но и государству приходится бороться за кадры, конкурируя с бизнесом по уровню зарплат и условиям работы. Среди малого числа отечественных профессионалов нормальной практикой является отъезд заграницу - проблема, с которой тоже необходимо бороться. Соответственно, в перспективе российскому рынку необходимо развивать собственные системы подготовки кадров и создавать сопоставимые глобальному рынку условия работы, что в условиях экономической стагнации на сегодняшний день является трудной задачей.

В итоге, можно с уверенностью сказать, что глобальный опыт является показательным с точки зрения перспектив российского рынка. При должном внимании со стороны государства и одновременных инвестициях со стороны бизнеса технологии Big Data в России способны найти применение и оказать положительный эффект на все сферы коммерческой и некоммерческой деятельности, причем не только в долгосрочной перспективе, но и в рамках решения точечных задач за определенный период времени.

Глава 2. Технологии защиты персональных данных и их применение

2.1 Проблематика защиты персональных данных

Функционирование множества сфер жизнедеятельности человека различного уровня было завязано на данных еще до появления технологий Big Data. Данные о клиентах могли собирать, например, и локальные представители сферы услуг и малого бизнеса (такие, как библиотека или небольшая кофейня, обладающая информацией о своих постоянных клиентах), и представители транснациональных компаний и организаций государственного сектора. Однако долгое время сбор и анализ данных не являлись ключевыми задачами по ряду причин. Во-первых, данные о клиентах и аудитории не представлялись источником нового знания, способным оптимизировать работу организации, поэтому сбор и анализ данных могли позиционироваться как лишние расходы организации. Во-вторых, объема данных собираемых конкретной организацией могло быть недостаточно для полноценного анализа аудитории. В-третьих, сам процесс сбора и анализа данных являлся трудоемким и дорогостоящим, что также отталкивало организации. С развитием информационных технологий, появлением Интернета и компьютерных сетей и, наконец, появлением технологий Big Data картина кардинально изменилась. Компьютерные технологии позволили не только автоматизировать процесс сбора всевозможных данных, но и хранить соответствующие массивы данных на более удобных носителях. А сами технологии Big Data открыли возможности анализа данных в масштабах, несоразмерных возможностям человека за всю историю. В совокупности с невысокой стоимостью относительно существовавших ранее методик это определило тренд на использование указанных технологий на практике и, в итоге, превращения их в неотъемлемый элемент деятельности организаций. Множество исследований применения данных как метода оптимизации работы организации доказали его реальную эффективность. Так, исследование Массачусетского технологического университета показало, что организации, использовавшие автоматизированные механизмы для применения решений на основе данных, увеличивали свою производительность на 5-6%. Более того, развитие информационных технологий обеспечило колоссальный рост объемов самих данных, аккумулируемых человеком в процессе жизнедеятельности - стало известно, где он проводит свое время, чем интересуется, что предпочитает есть, читать, смотреть и т.д. Частью этой информации человек стал делиться на добровольной основе с помощью различных Интернет-сервисов, предоставляя данные о себе взамен на интересные ему персональные предложения, рекомендации и упрощенные схемы взаимодействия с организациями. Таким образом, организации приобрели возможность более активно и точечно коммуницировать с аудиторией, а аудитория - получать от организации или компании только те услуги и предложения, которые релевантны ей.

При всех положительных аспектах этих изменений как для рядового пользователя, так и для организаций, в процессе их становления раскрылась ключевая проблема - проблема защиты передаваемых пользователями данных. Ранее барьеры использования технологий сбора и анализа данных являлись своеобразным механизмом защиты пользователей, но с исчезновением этих барьеров появилась необходимость созданиях иных механизмов в виде отдельных технологий и юридических документов. Взаимодействуя с компаниями, сервисами или другими пользователями и добровольно (или, зачастую, не подозревая о процессе передачи) делясь личными данными, пользователи оставляют о себе определенный пласт информации личного характера. Технологии Big Data позволяет объединить разрозненные данные о человеке и определить его личность - так, соединение координатов GSM-телефона, показателей интернет-трафика и изображений с общедоступных камер видеонаблюдения позволяет установить конкретную личность со 100% точностью. Раскрытие этой информации способно навредить личной жизни пользователя, что поднимает вопрос рациональности передачи данных и необходимости оптимизации уже существующих и создания новых механизмов защиты личного пространства.

Для того, чтобы понять проблематику использования различных данных, хранящих информацию о человеке, в Big Data, необходимо раскрыть понятие «персональные данные» и связанное с ним понятие «приватности». Научные труды на тему приватности жизни индивидуумов появились еще в конце 19 века, что заложило основу формирования права приватности как неотъемлемого в современном мире. В работе «Право на частную жизнь», опубликованной в 1890 году учеными-юристами С.Д.Уорреном и Л.Д.Брендайсом, понятие приватности буквально раскрывается, как «право быть наедине». В дальнейшем развитие общества, инфраструктуры и коммуникационных средств повлияло на взгляды исследователей на приватность и позволило выделять различные ее аспекты. В книге исследователя Алана Уэстина «Приватность и свобода», написанной уже в 1967 году, под приватностью понимается «утвержденное право индивидуумов, групп лиц и организаций самим определять, когда, как и в какой степени информация о них может передаваться иным лицам». Такое определение больше соотносится с современными реалиями, но оно является далеко не единственным. Из всего множества подходов профессор философских наук Герман Тавани выделил 4 ключевых теоретический направления в изучении приватности, а именно теории невмешательства, уединенности, контроля и ограничения. Первые две теории рассматривают приватность в большей степени в аспекте физической неприкосновенности самого лица и принадлежащей ему территории. Теории ограничения и контроля же описывают приватность в неразрывной связи с возможностями влиять на распространение персональных данных, что выходит за рамки понимания личной территории и физического пространства. Теория ограничения рассматривает приватность как возможность индивидуума ограничить доступ к определенным наборам его персональных данных; теория контроля же предусматривает возможность создания специальных «зон» приватности, в которых доступ к персональным данным ограничивается. Схожие между собой, эти теории применимы в первую очередь именно к информационной безопасности. Именно поэтому, по мнению Тавани, в эру компьютерных технологий и развития источников сбора информации, именно теории контроля и ограничения имеют наибольший потенциал для объяснения и работы над приватностью персональных данных. Движение мысли исследователей привело в итоге к появлению модели, которая является фактическим объединением теорий контроля и ограничения, под названием RALC (Restricted Access / Limited Control). В ней приватность позиционируется как процесс, в котором действия пользователя регулируют и контролируют состояние приватной сферы, но в то же время оставляют место для существования внешних защитных механизмов, обеспечивающих комфортное взаимодействие в обществе. Иными словами, приватность данных может и должна обеспечиваться самим пользователем, но часть обязательств по защите на себя должны брать внешние агенты, так как в ином случае комфортное существование индивидуума в социуме не представляется возможным. Впервые основные положения этой теории описал в своей работе под названием Ethics of privacy protection исследователь Джеймс Мур. В данной работе Мур рассматривает различные жизненные ситуации приватности, которые он подразделяет на «природные» и «нормативные». Природные ситуации приватности представляют собой ситуации, когда человек или группа людей сами находятся или хранят свою информацию вне доступа посторонних лиц - например, когда семья гуляет в лесу вдали от глаз других людей. Нормативные же ситуации приватности возникают, когда иные лица потенциально имеют доступ к информации, но её приватность достигается с помощью различных ограничивающих факторов, будь то взаимное доверие или реальные законодательные акты. Простым жизненным примером такого распространенного типа приватности является, например, хранение и защита данных о студентах высшим учебным заведением. Любой ВУЗ располагает большим объемом различных типов персональных данных об учащихся, но доступ к ним, при необходимости, имеют только работники самого учреждения. Более того, в случае с определенными типами данных, учащиеся могут сами принимать решение о передаче ВУЗу информации о себе. В случае таких нормативных ситуаций как раз и применяется подход RALC, когда источник данных (т.е., индивидуум) сам обладает определенным контролем над своими данными, передаваемыми другим лицам, но, в то же время, существуют нормы и законы, также обеспечивающие защиту этих данных. Анализируя положения теории RALC, можно прийти к выводу, что она в полной степени соотносится с идеальной ситуацией использования технологий Big Data в бизнесе. При сборе данных пользователь может ограничивать и контролировать этот процесс, а уже собранные данные защищаются нормативными актами и законом. Именно такой подход можно считать наиболее релевантным с точки зрения рассматриваемой в данной работе проблемы - возможностей пользователя по контролю передачи и использования персональных данных внешними операторами и существующих в связи с этим механизмов защиты данных.

Персональные данные - это второй важный аспект проблемы, являющийся частью глобальной проблемы приватности. С появлением Интернета и развитием информационных технологий форматов и источников этих данных стало настолько много, что само понятие до сих пор является не до конца определенным. Если обратиться к Федеральному Закону «О персональных данных», главному юридическому документу в сфере защиты персональных данных, то, согласно приведенной там трактовке, персональные данные - это любая информация, относящаяся к прямо или косвенно определенному или определяемому физическому лицу (субъекту персональных данных). Дополнительно персональные данные классифицируются по уровню защищенности, в связи с чем выделяется 4 типа персональных данных: общедоступные данные, т.е. те, доступ к которым предоставляет сам субъект; биометрические данные, т.е. те данные, которые связаны с физиологическими особенностями субъекта, например, отпечатки пальцев или фотография; специальные данные, т.е. определяющие расовую, национальную принадлежность субъекта, его политические и религиозные убеждения, характеризующие его интимную жизнь или показатели здоровья; иные данные, т.е. любые другие данные, не попадающие под предыдущие типы. Тем не менее, в Интернете доступ к любому из этих типов данных является упрощенным. По мнению главы Роскомнадзора, организации, занимающейся регуляцией процессов в сферах связи, информационных технологий и массовых коммуникаций, к понятию «персональные данные» можно отнести почти всю информацию о местоположении пользователей, о их действиях на онлайн-площадках и их биометрических показателях. Анализируя данные трактовки, можно сказать, что к понятию «персональные данные» можно подвести абсолютно любой тип данных, которыми пользователь делится с организациями или другими пользователями. Такое широкое понимание должно позволять пользователю чувствовать безусловную защищенность своей личности на законодательном уровне, однако, в реальных ситуациях применения технологий на основе данных дело обстоит иначе. Так, по мнению Савельева А. И., старшего научного сотрудника научно-учебной лаборатории по информационному праву НИУ ВШЭ, технологии Big Data несовместимы с рядом базовых принципов, заложенных в законодательные акты о защите персональных данных, и поэтому они нуждаются в изменениях. Например, в пункте 2 статьи 5 ФЗ «О персональных данных» говорится, что «обработка персональных данных должна ограничиваться достижением конкретных, заранее определенных и законных целей». Но, как обсуждалось ранее, технологии Big Data отличаются как раз тем, что при работе с ними невозможно заранее определить список задач и целей, для достижения которых используются массивы данных. Более того, технологии Big Data предусматривают возможность повторного использования накопленных данных и применения их в различных сценариях с целью достижения желаемого результата, в связи с чем существующая формулировка фактически лишает применение Big Data его скрытого потенциала и нивелирует возможности. Соответственно, те, кто собирают персональные данные и анализируют их, не могут с уверенностью дать пользователю конкретный ответ о реальных конечных путях использования собранных у него данных. На данную тему высказался помощник президента Игорь Щеголев, сказав, что, если ранее пользователи, подписывая пользовательские соглашения могли знать о целях сбора их данных, то сегодня данные могут использоваться в целях, о которых пользователи не имеют представления. Тем не менее, важным аспектом этого вопроса является и личная ограниченность понимания проблемы пользователями. Даже предоставив пользователю детальный разбор политики конфиденциальности компании с возможными путями применения его личных данных, рядовой пользователь не способен адекватно оценить возможные последствия. Важно отметить, что сегодняшняя риторика склоняется не столько к вопросам ограничениям сбора персональных данных, сколько к предоставлению пользователям больших возможностей по личному регулированию способов сбора и целей использования их данных. Но даже это потенциально не способно до конца разрешить существующее противоречие, ставя и пользователя, и организации перед необходимостью расстановки приоритетов и определения степени своей вовлеченности в данный процесс, учитывая возможности и риски.

2.2 Юридический аспект защиты персональных данных в России

Как было сказано ранее, ключевым документом, регулирующим деятельность по работе с персональными данными в России, является Федеральный Закон «О персональных данных» от 27.07.2006 (последняя редакция 22.02.2017). Он определяет сложные механизмы взаимоотношений субъектов персональных данных (т.е. лиц, к которым относятся данные) и операторов персональных данных (т.е. агентов, осуществляющих деятельность по сбору, хранению и обработке персональных данных). Анализируя положения данного закона, многие эксперты отмечают его несоответствие реальному положению дел и, как отмечалось ранее, противоречие ряда положений основам технологий Big Data. В настоящее время проводится работа по введению изменений в существующий закон, однако, он определяет ряд прав и обязанностей всех сторон процесса, которые являются неотъемлемыми и требующими внимания для целостного понимания существующих проблем.

Согласно закону, субъект персональных данных обладает широким перечнем возможностей по регуляции деятельности, связанной с его данными. Так, согласно статье 14, субъект персональных данных имеет право на получение детальной информации о хранящихся о нем сведениях, конкретных целях их использованиях, лицах, имеющих к ним доступ и иной необходимой ему информации. Также, любая передача данных оператору должна производиться с прямого согласия лица, и в данном случае действует своеобразная «презумпция вины» по отношению к оператору - если пользователь утверждает, что не давал своего согласия на обработку данных, оператор обязан предоставить доказательства обратного факта. Современная практика показывает, что некоторые компании осуществляют маркетинговую деятельность прямым способом с помощью средств связи даже без получения разрешения от конкретного лица. Субъект персональных данных в праве требовать прекратить данную деятельность, после чего оператор обязан исключить его данные из своей маркетинговой базы, иначе субъект может привлечь его к ответственности. Особенно важно, что предоставляя свои данные единожды, пользователь изначально должен быть ознакомлен с целями, для достижения которых необходимы его данные. Использование его данных в иных целях запрещено законом, поэтому, в теории, пользователь, уличив оператора в неправомерном использовании его данных, может также привлечь его к ответственности. Однако большинство крупных операторов, благодаря возможностям широкой трактовки положений закона, смогли своеобразным образом их обойти. Например, Google в своем документе «Политика конфиденциальности» устанавливает, что полученные персональные данные пользователей могут использоваться компанией для развития, поддержки и защиты существующих сервисов Google и создания новых, а также обеспечения безопасности самой компании и её пользователей. Со стороны компании такая трактовка, по факту, позволяет избежать ответственности за ряд не утвержденных с пользователем конкретных действий, когда пользователь остается в неведении относительно дальнейшей судьбы его персональных данных. Проблема незнания существенно усугубляется, когда пользователь имеет дело с транснациональной компанией, так как, давая согласие на обработку данных, это согласие он по факту даёт зарубежному агенту, хотя пользоваться ими будет лишь локальный агент (то есть, российское представительство). В связи с этой серьезной для пользователя проблемой иностранными исследователями отмечается существование такого явления, как «парадокс прозрачности». Он представляет собой противоречие между задачей по предоставлению пользователю доступного описания схем взаимодействия с его данными, неизбежно связанного с упрощениями и отсутствием ряда важных деталей, и фактическим недостатком полученной пользователем информации. При применении технологий Big Data, согласно закону, обязательно полное описание перечня всех элементов работы с персональными данными, но для самого пользователя задача ознакомиться с таким документом займет такое количество времени, которое нивелирует все преимущества современных коммуникаций, основным из которых является как раз скорость предоставления услуг. Результаты исследования, проведенного в США, показали, что для рядового американца прочтение всех документов о политике конфиденциальности используемых им ресурсов с целью полного понимания им путей использования его данных займет около 201 часа - значительный объем времени, которое пользователи вряд ли готовы тратить. Соответственно, даже обладая правом отслеживать работу с его персональными данными, среднестатистический пользователь сознательно этим правом не пользуется, полагаясь на общие представления и доверие к операторам данных. Поэтому, по мнению Савельева А.А., сегодня согласие на обработку персональных данных не может считаться полноценным и достаточно легитимным обоснованием работы с ними.

В марте 2012 года Правительством Российской Федерации было принято постановление, утверждающее перечень мер по выполнению обязанностей, установленных в законе «О персональных данных». В данном постановлении как одна из мер выделяется процедура обезличивания персональных данных при работе с ними. По мнению представителей Правительства такая мера способна устранить угрозу личности пользователя при работе с любым типом его данных. В 2013 году Роскомнадзором был выпущен приказ №996 «Об утверждении требований и методов по обезличиванию персональных данных», который определял возможные пути реализации данной практики операторами данных, а также выделял ключевые характеристики получаемых обезличенных данных. Одной из характеристик обезличенных данных является «обратимость», т.е. «возможность проведения деобезличивания». Иными словами, любой набор обезличенных данных потенциально может быть использован для деанонимизации пользователя. Стоит отметить, что в зависимости от выбранного оператором метода обезличивания (список которых также определен вышеназванным Приказом), степень обратимости данных варьируется. Например, при использовании «метода декомпозиции», т.е. разбивки множества записей персональных данных на подгруппы с указанием взаимосвязей между ними, предусматривается полная обратимость данных, когда «метод изменения состава», представляющий собой обобщение, изменение или удаление частей персональных данных, не предусматривает возможность деобезличивания без дополнительных наборов данных. Тем не менее, сам факт наличия возможности возвращения данных в исходный вид, позволяющий установить субъект персональных данных, не позволяет считать этот механизм безусловной защитой личности - в руках злоумышленников или просто заинтересованных лиц эти данные могут быть использованы для нанесения вреда. Обеспечивать защиту собранных персональных данных обязан каждый оператор, но меры, которыми он обязан осуществлять защиту, он волен определять лично. В законе описаны лишь рекомендации и возможные способы, среди которых, например, создание организационных документов и назначение уполномоченных лиц. По факту же, само содержание политики оператора в отношение защиты имеющихся данных не регулируется законом, а, значит, реальное предотвращение ситуаций кражи, утери или деперсонализации данных пользователей возможно только добросовестно относящимися к проблеме операторами - государство в данном случае не имеет рычагов давления. В соответствующих ситуациях и иных случаях нарушения положений Федерального Закона предусмотрены санкции, определенные ст. 13.11 КоАП РФ - в большинстве случаев они представляют собой штраф. Суммы штрафов варьируются в зависимости от нарушенной статьи закона, однако, для физических лиц эта сумма не будет превышать 2 тыс. рублей, для должностных лиц не более 20 тыс. рублей, а для юридических лиц - не более 75 тыс. рублей. Для операторов данных, располагающих достаточными ресурсами для использования технологий Big Data, данные суммы не могут являться барьером и устрашающей мерой наказания. Более того, в определенных случаях ущерб, который может понести лицо в случае неправомерного использования или раскрытия его персональных данных, может быть несопоставим с возможной суммой возмещенных ему средств.

Являясь ключевым документом, обеспечивающим законодательное обеспечение защиты персональных данных пользователей в России, ФЗ «О персональных данных» является не единственным юридическим механизмом защиты. В том или ином виде тема защиты персональных данных затрагивается в более чем 30 официальных документах, законах и подзаконных актах, определяя особенности работы с ними в различных областях. Также, т.к. информационное и коммуникационное поле выходит за рамки конкретных государств, Российская Федерация ратифицировала ряд международных документов, исходя из которых должно формироваться российские законодательство в этой сфере. Так, в ноябре 2001 года Российская Федерация ратифицировала Европейскую конвенцию о защите физических лиц в вопросах, касающихся автоматической обработки личных данных, принятую в 1985 году. Принятая в 1995 году Директива Европейского парламента и Совета Европейского Союза о защите прав субъектов автоматической обработки персональных данных была ратифицирована Российской Федерацией лишь в 2005 году. Обеспокоенность вопросами неприкосновенности частной жизни человека заботила мировое сообщество еще с середины ХХ века, когда в Российской Федерации движение в сторону поддержки этих инициатив происходило с опозданием. Отставание в области законодательства может быть напрямую связано и с отставанием в уровне развития информационных технологиях и общественного правосознания в целом. Но на данный момент пользователи Российской Федерации, благодаря технологическому развитию, являются полноправными участниками как локальных, так и международных процессов коммуникации. В связи с этим, существующие в ключевом юридическом документе в сфере защиты персональных данных проблемы и противоречивые аспекты и положения сигнализируют о необходимости фундаментальных изменений. Анализ международного опыта может позволить оптимизировать существующие механизмы и на ранних этапах избежать ряд проблем, с которыми уже сталкивалось международное сообщество. В определении вектора изменений важно учитывать необходимые права и обязанности всех сторон процесса, т.е. и компаний, и рядовых пользователей. Само государство же должно иметь ограниченный уровень влияния на данные процессы, обеспечивая функционирование независимых, как это устроено в западных странах, контрольных и надзорных органов.

2.3 Независимые технологии защиты персональных данных

Осознавая существование проблемы и степень её угрозы, мировое сообщество собственноручно разработало методики и технологии защиты персональных данных при использовании информационных технологий. Часть этих технологий доступны рядовому пользователю для ограничения объемов собираемых персональных данных или, в ряде случаев, шифрования данных и достижения анонимной коммуникации. Ряд технологий также используется компаниями для защиты имеющихся у них персональных данных также посредством шифрования и анонимизации с целью невозможности их использования другими операторами. Распространенность тех или иных технологий во многом зависит от уровня понимания проблемы первоначальным владельцем данных и его личными мотивами. Ряд разработанных технологий позволяет добросовестным операторам данных обеспечивать защиту уже собранных ими персональных данных пользователей, что, по факту, является их обязанностью. Но в случаях, когда пользователь изначально не хочет, чтобы его данные попадали в руки других лиц, он может лично изучить соответствующие существующие механизмы и принять выбор о степени открытости своих данных.

Пользовательские механизмы защиты персональных данных обеспечивают использование сервисов и устройств для онлайн-коммуникации свободное от угрозы сбора и использования личных данных. В зависимости от канала коммуникации производители предлагают специальные программы или плагины, а также делятся простыми советами по защите своих данных. Можно выделить ключевые форматы взаимодействия, при которых пользователи тем или иным образом оставляют о себе информацию: веб-серфинг с помощью браузеров, общение в мессенджерах, использование социальных сетей, а также использование различных онлайн-сервисов (как на компьютерах, так и на мобильных устройствах). В процессе использования браузеров для поиска информации и открытия веб-ресурсов собирается большой пласт информации о предпочтениях, интересах и желаниях конкретного пользователя, а также, в зависимости от сценариев использования, и личные данные (ФИО, возраст, семейное положение, уровень образования и т.д.). Переходя от сайта к сайту, пользователь оставляет больше «следов», взаимодействуя с содержимым ресурсов. Существующий сегодня механизм под названием super cookies позволяет последовательно собирать эти данные, объединяя их и, в конце концов, выдавая полноценный портрет конкретного пользователя. Противодействовать этому механизму возможно, используя либо защищенные браузеры, либо расширения для стандартных программ. Самым известным примером программы для защищенного выхода в Интернет является браузер Tor. Его работа основывается на принципе сложной технологии разветвленных узлов, когда каждое действие, передача данных или запрос достигают цели через путь случайным образом определенных точек-серверов по всей сети. Говоря более простым языком, информация от пользователя «А» попадет к конечной точке «Б» только предварительно пройдя через еще 3 точки, что и обеспечивает защиту. След пользователя при взаимодействии теряется, не позволяя операторам данных отследить его. По такому же принципу работает множество анонимных систем, связанных с криптовалютой или нелегальной торговлей. Работа Google как самой популярной поисковой системы в мире во многом строится на пользовательских данных для формирования более релевантной пользователю выдачи информации. Но для тех пользователей, у которых в приоритете находятся защита личных данных, существуют и альтернативные поисковые системы, например, DuckDuckGo. Также существует расширение под названием Disconnect, разработанное бывшим сотрудником Google. Оно обеспечивает блокировку сбора точек данных на любых веб-ресурсах, а также позволяет определить все пути движения данных пользователя. Данное расширение раскрывает взаимосвязи конкретного ресурса с внешними ресурсами, что позволяет пользователю лично увидеть, как собираются его данные и к кому они попадают по итогу. Расширением Disconnect пользуется более 50 миллионов человек по всему миру, что сигнализирует об обеспокоенности множества пользователей этой проблемой.

Сам процесс выхода в Интернет также может грозить потерей данных и кражей учетных записей. Распространенный по всему миру формат беспроводного соединения под названием «Wi-Fi» позволяет создавать точки доступа к сети Интернет в любых удобных для этого локациях. Подключаясь к точке доступа, множество пользователей оказывается в одной сети, чем могут воспользоваться злоумышленники. С помощью Wi-Fi подключения у заинтересованных лиц есть возможность получить доступ к данным и файлам, хранящимся на устройстве пользователя. Обезопасить пользователей от кражи личных данных возможно путем усовершенствования систем защиты беспроводных соединений, но исследования говорят о том, что создатели сетей не заботятся о соблюдении самых простых условий защиты. Так, по статистике 80% пользователей не создают новый пароль для сети, оставляя тот, что дается при заводских настройках. Существование различных форматов защиты сетей (WEP, WPA, WPA2) также неизвестно рядовому пользователю (например, 19% пользователей используют WEP, самый слабый и устаревший стандарт защиты), что приводит к тому, что почти половина беспроводных сетей в мире являются незащищенными. Важно отметить, что речь идет не только о домашних сетях пользователей, но и о корпоративных Wi-Fi сетях, что создает дополнительную угрозу кражи данных крупных компаний. Публичные беспроводные сети (которые создаются в различных местах досуга, торговли, питания и т.д.) являют собой наибольшую угрозу, т.к. подключиться к ней может любой желающий, а количество одновременно подключенных пользователей может исчисляться сотнями. Более того, сети злоумышленников могут маскироваться под известные вам публичные сети, вводя вас в заблуждение и, как результат, овладевая вашими данными. Даже не подключенное к беспроводной сети устройство, но с включенным Wi-Fi передатчиком способно поделиться информацией о вас. Включенный передатчик постоянно находится в поиске беспроводных сетей, транслируя уникальный MAC-адрес вашего устройства на каждый из передатчиков-роутеров в зоне действия сети. Таким образом эти передатчики могут идентифицировать вас как конкретного пользователя, отслеживать ваши передвижения и записывать о вас информацию. Соответственно, чтобы ограничить сбор информации о себе, стоит выключать передатчик Wi-Fi на своих устройствах. Чтобы устранить угрозы использования сетей Wi-Fi, необходимо, в первую очередь, подключаться только к вызывающим доверие сетям и не заполнять лишний раз никаких граф данных о себе. Также более продвинутые пользователи сегодня используют механизм под названием VPN, что расшифровывается как Virtual Personal Network или виртуальная персональная сеть. Говоря простыми словами, этот механизм создает надстройку над стандартной сетью, к которой подключается пользователь, и проводит дополнительное шифрование данных о передатчике и его действиях. Такой метод позволяет сохранять анонимность в Интернете, и его эффективность привлекла значительное количество пользователей. Особенно распространен он среди пользователей Азии и Ближнего Востока (в среднем, около 20% пользователей этих регионов используют VPN), однако, в Европе им пользуется в среднем не более 5% пользователей.

Общаясь с помощью мессенджеров в личных диалогах, пользователи также не защищены от того, что содержание сообщений, а также передаваемые файлы могут анализироваться и использоваться внешними ресурсами. Большинство из самых популярных мессенджеров, а именно WhatsApp, Viber, Telegram и Signal, заявляют о защищенности пользовательских диалогов путем различных методов шифрования. Вне зависимости от метода, при шифровании генерируется индивидуальный ключ, который в наиболее совершенных системах хранится на самом устройстве пользователя. Но даже такую систему нельзя считать идеальной с точки зрения защиты персональных данных по причине вероятной возможности доступа к данным со стороны создателей программы и заинтересованных в этом лиц. В большинстве случаев интерес к методам шифрования проявляют спецслужбы, обеспокоенные возможностями, которые предоставляют скрытые переписки для нелегальных действий, осуществляемых пользователями. Показательным является пример, когда спецслужбы обвинили создателей Telegram в создании площадки для коммуникации террористов - после этих обвинений Telegram начал массово отслеживать и удалять Telegram-каналы с экстремистским содержанием и профили лиц, предположительно причастных к террористической деятельности. Это говорит о том, что компании, занимающиеся разработкой и обеспечением работы мессенджеров, имеют ключ для дешифрования данных и могут отслеживать содержимое переписок, что уже не позволяет говорить об абсолютной защите пользователя. Шифрование пользовательского контента представляется как гарант безопасности, но зачастую операторов данных может интересовать не содержание переписок - через приложения такого рода можно узнать о пользователе намного более полезную и простую для анализа информацию. Например, мессенджер Skype успешно шифрует содержимое осуществляемых с помощью него звонков и сообщений, но специалисты не могут назвать его безопасным. Так, с помощью него специалист может узнать местоположение и карту перемещений любого пользователя, а с помощью ряда действий завладеть аккаунтом полностью - задача расшифровать содержание переписок исчезнет сама собой. При существовании такой проблемы и отсутствии действий по ее устранению со стороны самой компании, по всему миру Skype стабильно пользуется 300 млн. пользователей в месяц. Помимо Skype, уязвимостями обладает большинство сервисов со схожим функционалом, о чем либо не догадывается, либо не задумывается рядовой пользователь. Существуют программы, которые способны заменить популярные сервисы и по ряду причин являющиеся действительно защищенными (например, Tox или Ring), но их популярность является крайне низкой. Объяснить это можно невозможностью бороться с крупными брендами по уровню маркетинговых расходов, а также, возможно, все еще недостаточно высокой обеспокоенностью общества этой проблемой.

Для переписки, веб-серфинга и работы с огромным количеством приложений сегодня большинством пользователей используются смартфоны. По примерным данным, в 2017 году смартфон с выходом в Интернет будет у одной трети населения Земли или у около 2,6 млрд. жителей. Это число постоянно растет, а значит растут и объемы данных о пользователях. Так как смартфон позволяет совершать большинство действий в рамках онлайн-коммуникации, именно он и является основной точкой сбора данных. Большинство мобильных сервисов работают по простой схеме взаимодействия, предоставляя возможности приложения взамен на личную информацию пользователя. Заявленные типы собираемой информации используются компаниями как раз для более четкого понимания своей аудитории и построения релевантных маркетинговых стратегий. Однако довольно часто и сам смартфон, и предустановленные приложения собирают информацию в таких объемах и таких типов, о которых пользователь не догадывается. В 2015 году исследователи из Школы информатики Карнеги-Меллон попросили 23 участников эксперимента установить на свои смартфоны с операционной системой Android программное обеспечение, которое отслеживало и записывало все случаи передачи данных на внешние сервера различными установленными на смартфон службами и сервисами. Для одного из испытуемых результаты исследования показали, что его смартфон за 2 недели отправил 5398 точек его геолокации от 10 различных приложений. Учитывая специфику этих приложений (например, приложение с прогнозом погоды или информацией о скидках в магазинах), для пользователя совершенно не ясно, зачем и для кого на постоянной основе собираются данные о его местоположении. Для рядового пользователя отследить все типы собираемых с помощью его смартфона данных является трудной задачей, что является положительным фактом для операторов данных. Сегодня у пользователей нет широкого выбора возможностей избежать этого процесса, так как компании-монополисты рынка, такие как Google и Apple, продолжают диктовать свои условия взаимодействия взамен на свой продукт. Эксперты советуют пользователям более ответственно подходить к выбору используемых программ и сервисов, активно интересоваться их функционалом (и, по возможности, блокировать нежелательные функции) и применять специальные программы и расширения (например, вышеупомянутые в работе), которые способны обеспечить безопасность.

Подводя итог, можно сказать, что сама тема защиты персональных данных и разработки механизмов, предотвращающих посягательство на личную жизнь пользователя, находится в поле внимания международной общественности уже долгое время. Тем не менее, анализ существующих инициатив с точки зрения законодательства (как потенциально самого главного гаранта неприкосновенности частной жизни пользователя) показал, что российское законодательство в сфере защиты персональных данных не отвечает всем актуальным задачам и нуждается в существенных изменениях. Развитие технологий Big Data в сфере маркетинга на территории Российской Федерации хоть и отстает от общемирового уровня, но уже сейчас заставляет исследователей и рядовых пользователей задаваться вопросами относительно правомерности тех или иных действий операторов данных, на которые не может ответить существующее законодательство. Сбор, хранение и анализ данных пользователей действительно регулируются законом, но его формулировки и применение на практике на данный момент сохраняют возможность использования потенциала технологий Big Data. Разработка положений, которые способствовали бы развитию Big Data и одновременно защищали право на неприкосновенность личной жизни пользователей, - это процесс, требующий времени и работы независимых профессионалов с целостным пониманием всех возможностей и рисков. Для того, чтобы законодательство возымело какой-либо реальный эффект на технологии Big Data, необходимо более глубокое понимание вопроса со стороны законодателей и государства. Позитивным или негативным будет этот эффект зависит от того, насколько плотным и продуктивным будет диалог между бизнесом и государством. С точки зрения же возможностей рядового пользователя, важным остается вопрос его осведомленности о проблеме. Анализ рынка программного обеспечения показал, что в большинстве каналов, в которых потенциально могут собираться данные о пользователях, реализованы решения, способные ограничивать сбор данных или анализировать его цели и пути. Тем не менее, популярность таких решений среди пользователей на данный момент не так высока - большинство из них описывается в зарубежных источниках, а в российском информационном пространстве акцент на них чаще всего делают лишь специализированные издания о технологиях для узкой аудитории (например, Habrahabr). Множество материалов на эту тему отводит значительную часть своего объема на объяснение читателю необходимости их применения и рассказ о фактах, анализируемых в данной работе. Это сигнализирует о том, что в большинстве случаев пользователь просто не знает или не принимает во внимание саму проблему. Можно сделать вывод, что само по себе существование механизмов защиты персональных данных не способно повлиять на использование и развитие технологий Big Data - для этого необходимо фундаментальное изменение в отношении к этому вопросу самих пользователей, которые могут их применять. Дальнейшие перспективы развития этой ситуации зависят скорее от операторов данных, нежели от самих пользователей - возможное возникновение конфликтных ситуаций и большего количества реальных кейсов ущерба, нанесенного конкретному пользователю, способно изменить общественное мнение. Однако, в случае если операторы данных продолжат реализовывать и развивать проекты с использованием Big Data грамотно и без ущерба пользователю, сам пользователь может по-прежнему, в большинстве случаев, оставаться нейтральным по отношению к этой теме.

Глава 3. Изучение влияния технологий защиты данных на применение Big Data в маркетинговых коммуникациях в России


Используя в качестве теоретической базы ранее изученные данные об использовании технологий Big Data в маркетинге российских компаний и информацию о существующих технологиях защиты персональных данных, исследовательская часть данной работы призвана помочь составить полноценную картину реального положения дел в данной сфере и выявить возможные барьеры. Для этого необходимо изучить проблему с двух сторон - со стороны представителей бизнеса, которые занимаются применением технологий Big Data на практике, и со стороны рядового пользователя, чьи данные потенциально могут использоваться компаниями в коммерческих целях. Поэтому при проведении исследования были использованы два метода - количественный опрос и экспертное интервью. Количественный опрос был проведен среди респондентов различных половозрастных групп из разных городов России. Применение данного метода обусловлено возможностью охватить наибольшую аудиторию в краткие сроки и получить репрезентативную статистику. Общей целью опроса являлось изучение мнения рядовых российских пользователей на тему сбора и использования их данных компаниями при взаимодействии с их сервисами и услугами, а также понимание проблематики защиты персональных данных, от знания точек сбора данных до уровня использования конкретных технологий. В экспертном интервью были опрошены представители крупных российских компаний из сфер, в работе которых, согласно изученным данным, технологии Big Data используются и являются одним из приоритетных направлений развития. Целью экспертного интервью было изучение реального опыта и мнения представителей сфер, в которых ведется работа с Big Data в целом, а также о теме защиты персональных данных в частности. Это было сделано для того, чтобы сопоставить ожидания российского бизнеса и его погруженность в проблему с аналогичными показателями со стороны его целевой аудитории (то есть, пользователей). В рамках данного исследования представленность мнений обеих сторон являлась необходимой для того, чтобы сделать определенные выводы и дать аргументированный ответ на поставленный ранее исследовательский вопрос.

3.2 Описание результатов опроса среди рядовых российских пользователей

Как обозначалось ранее, для выявления знания и мнения о проблеме рядовыми пользователями Интернета в России был проведен количественный опрос. Опрос был проведен на базе платформы Google Forms, и в нем приняло участие 458 респондентов. Для оценки полученных данных предварительно необходимо сегментировать аудиторию по ее социально-демографическому статусу. С точки зрения половой структуры, среди принявших участие в опросе 65% являются мужчинами, а 35%, соответственно, женщинами. С точки зрения возраста, большинство респондентов находится в возрасте от 19 до 24 лет (48%). Респондентов в возрасте до 18 лет оказалось 22%; от 25 до 29 лет - 16%; от 30 до 39 лет - 10%, от 40 и выше в совокупности - всего около 4%. Такое возрастное распределение является релевантным для нашего исследования, так как наиболее представленные группы являются одновременно наиболее активными пользователями Интернета и функционирующих с помощью него сервисов - а значит, именно их данные представляют наибольший интерес для компаний. В опросе приняли участие респонденты из разных городов, однако большинство опрошенных (44%) проживает в Москве. Данные об остальных респондентах в рамках исследования сравнивались с показателями москвичей - выделение жителей столицы обусловлено их более высокой вовлеченностью в онлайн-коммуникации и более высокой покупательской способностью. Также все опрошенные были распределены по уровню занятости - наиболее крупной оказалась группа «студенты» (52%). Позицию специалиста занимает 28% опрошенных, руководителями являются 6%, предпринимателями - 3%. Остальные опрошенные либо являются безработными, либо работают на фрилансе. Высшим образованием обладает 40% опрошенных, а 30% обладают неоконченным высшим образованием. Общим и общим специальным образованием в совокупности обладают 30% опрошенных. Резюмируя, можно увидеть, что в опросе приняло большое количество людей из разных половозрастных и социально-демографических групп, что позволяет считать результаты опроса достаточно полными и релевантными.

В первом блоке опроса была поставлена цель по выяснению общей вовлеченности пользователей в онлайн-коммуникации и уровень использования ими различных сервисов, чтобы оценить широту потенциальных возможностей сбора данных. Согласно ожиданиям, подавляющее большинство пользователей (91%) используют Интернет многократно в течение каждого дня. Среди наиболее частых сценариев использования онлайн-пространства респонденты на первое и второе место поставили «поиск необходимой информации» и «общение в социальных сетях» (91% и 90% соответственно). На третьем месте по популярности оказалось «потребление медиа-контента различного характера» - это пункт указали 85% опрошенных. На четвертом и пятом местах расположились «чтение новостей» (61%) и онлайн-игры (50%). Из полученного результата видно, что подавляющее большинство респондентов постоянно использует именно те возможности Интернета, с которыми сопряжен сбор информации - поисковые запросы, где с помощью описанных ранее super cookies можно постоянно отслеживать конкретных пользователей, и социальные сети, где пользователи ежедневно делятся применимым к анализу данных контентом. В подтверждение этому также был задан прямой вопрос о частоте использования соответствующих возможностей. Так, постоянно социальными сетями пользуется более 80% опрошенных, а информацию, не связанную с профессиональной деятельностью, на постоянной основе ищут 64% респондентов. К сервисам поиска и оплаты товаров респонденты проявляют несколько меньший интерес - постоянно их использует чуть менее 30% опрошенных.

Далее перед респондентами были поставлены вопросы, связанные с методами сбора персональной информации, знанием и мнением о них. Для начала респондентам был задан вопрос об их мнении относительно объема собираемых у них данных. В данном вопросе мнения респондентов разделились, однако, абсолютное большинство осознает факт сбора данных: 50% из них считают, что они оставляют о себе большой объем данных, а 49% - считают, что оставляют, но не в значительном объеме. Сравнив показатели различных возрастных групп по этому параметру, было выявлено, что только респонденты в возрасте до 18 лет в большинстве своем считают, что они оставляют не так много информации о себе. Представители остальных возрастных групп разделились в мнении по этому вопросу примерно поровну. Тем не менее, уже 81% опрошенных задумывается о целенаправленном сборе их персональных данных различными компаниями. Следующая цель, которая была решена с помощью опроса - узнать мнение пользователей об основных форматах онлайн-взаимодействия с сервисами и компаниями как о потенциальных каналах сбора персональных данных. Респондентам было предложено оценить возможные объемы сбора данных в таких каналах, как поисковые системы, онлайн-магазины, новостные и развлекательные ресурсы, мессенджеры, социальные сети, сервисы в формате приложений, игры и телекоммуникационные сервисы. Результаты показали, что по мнению большинства респондентов в наибольшем объеме данные собираются в социальных сетях (так считает 70% опрошенных), поисковых системах (60% опрошенных) и телекоммуникационных сервисах (38%). Определенной угрозы сбора данных пользователи не видят в новостных и развлекательных ресурсах, мессенджерах и сервисах в формате приложения, оценивая объем собираемых данных как средний. Разделяя респондентов по возрасту, можно убедиться в сохранении примерно одинакового процентного соотношения в каждой из возрастных групп. Из этого можно сделать вывод, что большинство респондентов рассматривают как потенциально опасные с точки зрения сбора данных те каналы, в которых пользователь либо добровольно делится информацией (например, социальные сети), либо информация собирается явным образом, а механизмы этого процесса знакомы пользователям. После того, как было определено отношение к основным каналам сбора персональных данных, респонденты отвечали на вопросы, связанные с их отношением к различным сценариям использования их данных компаниями. Так, полностью за использование данных с целью создания более релевантных коммерческих предложений высказались лишь 18% опрошенных, когда 62% согласились с этим пунктом лишь частично, а 20% оказались полностью против. Такие результаты сигнализируют о том, что рядовые пользователи испытывают сомнения на счет реальной выгоды от предоставления личных данных компаниям. Следующий вопрос касался мнения о качестве транслируемой рекламы в зависимости от знания компании о конкретном пользователе. Результаты показали, что лишь около трети опрошенных (36%) считают, что наличие информации о пользователе позволит рекламодателю создавать более интересную и подходящую пользователю рекламу, когда остальные респонденты в большинстве относятся к этому вопросу нейтрально. В вопросе об оптимизации сервисов с целью предоставления более удобного пользовательского опыта респонденты вновь оказались схожи во мнениях - так, только 35% опрошенных считают, что использование персональных данных для оптимизации сервисов может дать положительный эффект. С помощью двух следующих вопросов, которые были заданы респондентам, предполагалось узнать об их отношении к персонализированной маркетинговой коммуникации. Наличие у рекламодателя данных о пользователе в совокупности с простотой осуществления digital-коммуникаций (благодаря более четкому таргетированию) позволяет проводить персонализированную коммуникацию (например, используя имя пользователя, данные о его геолокации или актуальных интересах), что для некоторых пользователей может считаться своеобразным нарушением приватности. Согласно результатам опроса, с таким типом коммуникации сталкивалось большинство пользователей (87%). Положительно же к такому типу коммуникации относится лишь 4% респондентов, когда 47% опрошенных испытывают к нему негативное отношение. Исходя из этого, можно предположить, что дальнейшее использование персонализированной коммуникации в Интернете, основанной на персональных данных, может со временем изменить отношение пользователей к контролю за использованием своих данных.

Почти у половины опрошенных (48%) есть сформировавшееся представление о том, с какими операторами данных они бы не хотели делиться своими данными. Важно отметить, что при разделении групп респондентов по возрастному принципу пропорция людей, знающих конкретные компании, с которыми им не хотелось бы делиться данными, относительно тех, кто не знает или затрудняется ответить, сохраняется в каждой из них. В пример респонденты приводили компании, представляющие абсолютно разные сферы, но, тем не менее, из ответивших на этот вопрос наиболее популярными были технологические корпорации (Яндекс, Google, Apple) - 20%; провайдеры связи (МТС, Билайн и пр.) - 14%; государственные организации - 10%. Также были и те, кто не хотел бы делиться своей информацией ни с кем - таких пользователей оказалось 14%. Среди вариантов ответов были также, например, интернет-магазины, СМИ, банки и другие типы коммерческих организаций. В связи с этим можно отметить, что часть пользователей имеет четкое представление о характере деятельности по сбору данных тех или иных компаний и имеет осмысленную позицию. С другой стороны, для пользователей, возможно, не до конца ясны последствия отказа от сбора данных и отсутствует понимание, будет ли это означать отказ от пользования сервисом в целом.

Очень важным аспектом анализа отношения пользователей к теме защиты персональных данных в рамках маркетинговых технологий является их знакомство и вовлеченность в базовые принципы защиты, коими являются типовые документы со стороны операторов данных. Ранее в работе этот вопрос уже рассматривался, где был сделан вывод о том, что такие документы представляют для рядовых пользователей малый интерес и не позволяют ему в полной мере контролировать использование данных. В этой связи, результаты опроса являются довольно показательными. Так, на вопрос «Стараетесь ли вы узнать, для чего собираются ваши данные, в случае, когда вы знаете, что они собираются?» утвердительно ответили более половины респондентов (51%). Также, большинство опрошенных (87%) хотели бы, чтобы компании предоставляли полную информацию о целях сбора персональных данных. Тем не менее, такие документы, как «политики конфиденциальности», которые являются ключевыми для пользователя с точки зрения понимания путей использования собранных данных, не интересны пользователям - изредка их читает 45% опрошенных, а совсем не читает 47% респондентов. Из этого можно сделать вывод, что номинально большинство пользователей, задумываясь над этим вопросом, хотело бы контролировать процессы сбора и использования данных, но фактически ни к каким реальным действиям эта заинтересованность не приводит.

Согласно рассмотренной ранее теории RALC, современное понятие о приватности включает в себя три важных аспекта - пользователя, его данные и третьих лиц. Сохранность данных в этой модели обеспечивается с двух сторон - со стороны пользователя, благодаря его собственному контролю, и со стороны лиц, обладающих данными, благодаря нормам и законам. В рамках данного исследования были получены результаты, раскрывающие степень соответствия такого понимания приватности реальному мнению пользователей. Можно сказать, что пользователи мыслят в том же ключе - так, большинство пользователей (51%) считает, что ответственность по защите данных лежит на плечах и оператора данных, и на самом пользователе. Около 31% пользователей считает, что защищать данные обязан оператор данных, и только 16% возлагает эту задачу на самих пользователей. Со случаями недостаточной защиты данных и следовавшими за этим нарушениями права на неприкосновенность личности, согласно результатам опроса, знакомы около 74% респондентов, но лично сталкивались с такими ситуациями всего 22% опрошенных. Следующим вопросом, который был задан респондентам, стал вопрос о знании ими методов защиты персональных данных - эта информация имеет критическую ценность для данного исследования. Согласно результатам, почти половина опрошенных (44%) не знакома с какими-либо механизмами защиты персональных данных. Только четверть респондентов ответили на этот вопрос утвердительно, что помогает прийти к определенным выводам для всего исследования, которые будут приведены далее. Среди тех, кто все же знаком с определенными механизмами, большинство респондентов в пример приводит шифрование каналов связи (VPN, использование изначально зашифрованных канало) - 37%; защищенные браузеры (Tor) - 23%. Среди ответов довольно часто фигурировал и вариант «не оставлять данные», что говорит о неполном знании части пользователей обо всех существующих способах сбора данных. Далее респондентам было предложено оценить обозначенные методы защиты персональных данных (набор которых был проанализирован во второй главе данной работы) с точки зрения эффективности. Наиболее эффективными методами, по мнению респондентов, являются шифрование личных данных на устройстве (66% респондентов обозначило его как «эффективный» или «очень эффективный»), использование зашифрованных каналов коммуникации (63% респондентов) и использование защищенных браузеров (53% респондентов). Меньше всего в плане эффективности респонденты доверяют закрытым аккаунтам в социальных сетях (47% опрошенных посчитали этот метод «не эффективным» или «почти не эффективным») и отключению геолокационных систем (35% опрошенных считают его «не эффективным» или «почти не эффективным», а 31% считает его средним по уровню эффективности). Из этого можно сделать вывод, что на каком-то базовом уровне, в среднем, пользователи все же имеют представление о потенциале защитных механизмов, но отсутствие опыта работы с ними и, возможно, понимания реальной необходимости снижают потенциал их развития на данный момент.

Последние два вопроса были связаны с личной ответственностью пользователей при изменении отношения к вопросу защиты персональных данных. В первом вопросе респондентам было предложено задуматься о желании лично отслеживать и регулировать использование их персональных данных при возникновении такой возможности - «за» и «полностью за» такую личную инициативу высказалось 63% опрошенных. Тем не менее, приведенные ранее цифры о реальных действиях пользователей, а также о знании ими различных механизмов заставляют критически оценивать данную номинальную уверенность пользователей. Но возможно, что при проведении разъяснительных мероприятий со стороны третьих лиц и большей осведомленности об этом вопросе, пользователи действительно начнут производить реальные действия. В последнем вопросе задачей было поставлено узнать, готовы ли пользователи ограничить функционал используемых ими сервисов с целью обеспечения большей защиты их персональных данных. Самым популярным оказался вариант «Да, но не для всех» - так ответили 64% опрошенных. Такой наглядный результат во многом демонстрирует общую риторику пользователей по этому вопросу - желание обезопасить свои персональные данные и одновременно неготовность отказываться ради этого от всех преимуществ использования возможностей существующих сервисов и компаний.

3.3 Анализ результатов опроса с экспертной оценкой

Большая выборка респондентов в проведенном опросе позволяет сделать более точные общие выводы об отношении российских пользователей к темам, связанным с технологиями Big Data и защитой персональных данных. Как и ожидалось, первые строчки по популярности занимают сервисы, которые являются «локомотивами» по сбору данных - поисковые системы и социальные сети. Так как ими регулярно пользуется более 90% всех опрошенных, уже можно предположить, что компании из этих сфер обладают данными о подавляющем большинстве российских пользователей, что и обеспечивает развитие технологий Big Data. Это подтверждается и мнением экспертов: так, по мнению Кочеткова Е., директора по аналитике банка Открытие, развитие российского рынка Big Data идет прежде всего благодаря IT-компаниям, Яндексу, Mail.ru и т.д. (см. прил. 2). Большинство пользователей осознает факт сбора информации и задумывается о том, что эта информация каким-то образом используется, однако, у пользователей явно нет устоявшегося понимания, что данные собираются фактически во всех каналах, с которыми они взаимодействуют. Для фундаментальных изменений в отношении к собственным персональным данным пользователям необходимо знать и понимать весь масштаб потенциальной угрозы - в иных условиях даже частичные ограничения не обеспечат защиту конкретного пользователя. По мнению Вязовской О., «в каждом источнике, на каждом сайте куда они заходят отказываться практически невозможно. <…> Все равно будут некие дыры, через которые можно будет собрать данные о пользователе.» (см. прил. 3). И действительно, объем форматов онлайн-коммуникаций не позволит даже самому обеспокоенному пользователю полностью перекрыть потоки собираемой о нем информации - это требует внимания и времени, что нивелирует сам смысл процесса.

Опрошенные представители российского бизнеса сошлись во мнении, что первична в использовании технологий Big Data на данный момент именно маркетинговая коммуникация. «Любая компания стремится к оптимальному использованию маркетинговых затрат и их оптимизации» (см. прил. 3), в чем и помогает Big Data. Сами пользователи, согласно результатам опроса, не имеют резко негативного отношения к использованию их данных для оптимизации маркетинговой коммуникации и, в большинстве своем, не против ими делиться, получая выгоду взамен. Так как пользователи не знакомы с технической стороной процесса, они не имеют четкого представления о том, каким именно образом маркетинговые коммуникации могут стать лучше при анализе их данных, но сам по себе процесс не вызывает отторжения со стороны рядового пользователя, что является хорошим знаком для представителей бизнеса. Однако важно отметить, что степень использования персональных данных в коммуникации необходимо контролировать, так как большинство пользователей все же негативно относится к персонализированной коммуникации с использованием личной информации. По заверениям экспертов, в этом нет глобальной необходимости, и статистические данные и их корреляции имеют первоочередное значение в работе с Big Data: «Совершенно не обязательно знать, что это тот-то, живет там-то и родился тогда-то, чтобы построить статистику - достаточно знать, чего он хочет.» (см. прил. 2).

С точки зрения защиты персональных данных можно сказать, что пользователи являются менее подкованными в этом вопросе, чем компании-операторы. Боровиков И., основатель компании Mindbox, считает, что защита данных со стороны оператора - это «вполне себе рутинная процедура, вполне исполнимая» (см. прил. 1). Ответственно подходящая к этому вопросу компания определяет весь необходимый спектр мероприятий для осуществления этой задачи и, в теории, не должна иметь проблем в этом аспекте. В то же время, большинство пользователей хоть и заявляет о желании обладать доступом к информации о целях сбора и использования персональных данных, по факту только половина пользователей реально интересуется этой информацией. Более того, подавляющее большинство не знакомится с типовыми документами, в которых эта информация представлена. Поэтому, анализируя слова экспертов, можно сделать вывод, что сами компании на данный момент более обеспокоены вопросами безопасности, нежели сами пользователи. Такая ситуация, по мнению Кочеткова Е., характерна не только для России, но и для развитых рынков: «На Западе ситуация примерно такая же - людям нужно просто пользоваться сервисами и знать, что все безопасно. Им зачастую все равно, что о них кто-то что-то собирает.» (см. прил. 2).

В связи с этим интересно отношение пользователей к реальным механизмам защиты собственных данных. Результаты опроса показали, что оно не находится на высоком уровне - рядовой пользователь с трудом разбирается в теме. Большинству пользователей знакомы ситуации, в которых из-за сбора личных данных происходили нарушения приватности, а почти четверть респондентов сообщили, что даже лично сталкивались с такими ситуациями. Однако, даже принимая во внимание этот факт, пользователи в большинстве своём не интересуются существованием возможностей по защите своих данных. Возлагая ответственность по защите данных и на себя, и на операторов (такое мнение имеет более половины опрошенных), пользователи на сегодняшний день явно не до конца осознают, какие действия можно предпринять. Только около 15% опрошенных привели в пример рабочие инструменты по защите данных, но и это не означает, что они их используют на постоянной основе. Мнения респондентов на счет приведенных в пример методов защиты данных также сильно разнятся, что свидетельствует о недостаточной экспертизе в этом вопросе. Именно поэтому большое количество пользователей, заявивших о готовности самостоятельно регулировать эти процессы, заставляет сомневаться в обоснованности этого утверждения и реалистичности потенциальных изменений в ближайшее время. С этим согласны и эксперты - так, Кочетков Е. считает, что изменения вряд ли случатся в обозримом будущем, так как «рядовые пользователи, особенно если это люди далекие от IT, больших данных, не задумываются» (см. прил. 2). Ключевым барьером в этом вопросе может стать скорее законодательное регулирование со стороны государства, нежели общественное, как считает Вязовская О.: «Я думаю, что это вообще не проблема, если это, конечно, на глобальном уровне вообще не запретят. Если не скажут, что нельзя собирать данные, то это не будет проблемой.» (см. прил. 3). Боровиков И. также считает, что общественное отношение нельзя позиционировать как барьер - скорее, его изменения могут стать лишь регулятором. Поэтому можно сказать, что дальнейшее развитие технологий Big Data в России зависит от самих компаний и их возможностей, когда рядовые пользователи, по крайней мере на данный момент, будут лишь следовать за тенденциями развития.

3.4 Ключевые выводы и прогноз развития технологий Big Data в связи с аспектом защиты персональных данных

Изученная в работе информация об актуальном состоянии рынка технологий Big Data в России и связанных с ними методах защиты персональных данных в совокупности с результатами исследования позволяют сделать определенные выводы о технологиях защиты персональных данных как фактора влияния на перспективы рынка. Для начала стоит определить выявленные в ходе работы возможные барьеры развития технологий Big Data в России. В первую очередь важно отметить, что статистические данные и мнение экспертов определяют российский рынок технологий Big Data как развивающийся и имеющий потенциал, однако, сейчас о реальном повсеместном распространении технологий говорить рано: «Есть очень много пиара на этот счет, пиар очень развит, а вот сами технологии пока не очень.» (см. прил. 1). Тем не менее, «вакансий стало больше, заработные платы в этой области привлекательные.» (см. прил. 2). С точки зрения задач, решаемых с помощью Big Data, именно маркетинговые коммуникации имеют ключевое значение для российского бизнеса. Поэтому же определяющее значение имеют работа по качественному сбору и анализу данных о пользователях и потребителях. Делать это на приемлемом уровне способны сегодня далеко не все российские компании - в первую очередь, по причине низкой квалификации имеющихся кадров. В России нет программ обучения по данной специальности, а заработные платы неконкурентоспособны по сравнению с Западом, что превращает компании, обладающие достаточными ресурсами, монополистами нашего рынка в этом направлении. Также, эксперты отмечают существование у представителей рынка устаревшего позиционирования данных, как главной ценности, которой они обладают. Вязовская О. считает, что мы отстаем от Запада именно потому, что «за рубежом, если говорить о больших данных, то весь e-commerce совершенно спокойно делится своими данными <…> Там самое основное - это не сами данные, а умение с ними работать.» (см. прил. 3). Фактически, методов и каналов сбора информации о потребителях в России сейчас ненамного меньше, чем за рубежом, и компании обладают достаточным количеством данных для того, чтобы извлечь из них реальную выгоду. Соответственно, следующий шаг в развитии технологий Big Data наступит тогда, когда весь бизнес научится работать сообща, обмениваясь данными и увеличивая таким образом свои собственные возможности.

Нехватка кадров и недостаточный уровень кооперации среди представителей бизнеса, безусловно, являются не единственными существующими барьерами. В данной работе технологии и методы защиты персональных данных условно разделяются на два вида - нормативные (то есть, законодательные акты и иные юридические документы) и независимые (то есть, технические методы и простые нормы безопасности). Ключевым нормативным документом, обеспечивающим защиту персональных данных в России, является ФЗ «О персональных данных». Исходя из анализа его основных положений, был сделан вывод, что этот закон не отвечает всем особенностям работы с Big Data. По мнению Боровикова И., «с точки зрения персональных данных законодательство плюс-минус нормальное, а с точки зрения больших данных его нет вообще - нет определения в законе, что такое персональные данные, что можно, а что нельзя собирать и как это обрабатывать.» (см. прил. 1). На данный момент с юридической точки зрения существует очень много спорных моментов, на счет которых у государства нет четко сформулированной точки зрения (например, какие типы данных считать персональными данными и использование которых, соответственно, необходимо контролировать). В ближайшее время планируются изменения в законодательстве, которые ужесточат санкции за нарушение существующих положений закона, но только результаты фундаментальной работы с основными положениями покажут, можно ли считать закон подспорьем или, наоборот, барьером для развития технологий Big Data. Сегодня же эти процессы регулируются поверхностно, так как представители закона и власти сами не располагают достаточной квалификацией в этом вопросе.

Что же касается возможностей по защите своих данных со стороны самих пользователей, результаты исследования показали, что их наличие само по себе не обеспечивает их использование. Рядовой пользователь в России имеет неполное представление о процессах сбора и анализа персональных данных, в связи с чем и технологии их защиты на данный момент не пользуются популярностью. Активное использование совершенно различных каналов коммуникации и сервисов пользователями позволяет российским компаниям беспрепятственно собирать необходимые объемы данных. Более того, согласно результатам опроса, пользователи не испытывают резко негативного отношения к маркетинговым инициативам, построенным на основе их персональных данных. Тем не менее, развитие общественного сознания имеет место быть - это отмечают и эксперты, и частично демонстрируют результаты опроса. Понимание самого факта наличия проблемы является первым и самым важным шагом. Поэтому можно предположить, что для успешного развития технологий Big Data (помимо устранения обозначенных ранее более критичных барьеров) российскому бизнесу необходимо постепенно строить с обществом диалог, целью которого будет являться просвещение пользователей в этой теме. Грамотное донесение информации об уникальных возможностях, которые потенциально могут дать технологии Big Data и бизнесу, и пользователям, в совокупности с ответственным применением прозрачных и стандартизированных схем защиты данных могут позволить бизнесу перейти от потребительских отношений (когда компании от потребителя нужны только деньги и данные, а самому потребителю - только товар или услуга) к партнерским, когда осмысленная взаимная коммуникация способна принести выгоду обеим сторонам. Уважение прав и желаний клиента возможно только тогда, когда клиент сам погружен в происходящие процессы. Нельзя сказать точно, видит ли в этом необходимость сейчас сам бизнес - как говорилось ранее, на данный момент он испытывает более серьезные проблемы с собственной инфраструктурой, кадрами и опытом в этом направлении. Но выделение дополнительных ресурсов для параллельной целенаправленной работы по повышению правовой и технологической грамотности среди клиентов явно способно принести положительный результат для обеих сторон процесса.

В данной работе ключевым предположением, которое было проверено с помощью исследования, являлась гипотеза о том, что технологии защиты персональных данных в России не являются барьером для развития и использования технологий Big Data в маркетинге. Резюмируя приведенные результаты исследования и выводы, можно сказать, что данная гипотеза по состоянию на сегодняшний день является верной. Правосознание российских потребителей и их осведомленность в вопросе находятся на начальном уровне развития, что позволяет бизнесу при грамотной коммуникационной политике собственноручно сформировать позитивное отношение к этому направлению в дальнейшем. Важно учитывать, что специфика работы с Big Data состоит не в тотальном контроле над всеми персональным данными пользователей, а в умении извлекать из имеющихся данных выгоду. В дальнейших исследованиях актуальным возможно было бы более глубинное изучение отдельных групп общества с точки зрения их готовности к «диалогу» с целью сегментации маркетинговых стратегий. Активная же работа с государством как источником законодательных механизмов защиты также способна обеспечить установление положительного вектора развития технологий. Заручившись поддержкой и общества, и государства, с точки зрения перспектив и потенциала можно предположить, что развитие технологий Big Data будет продолжаться стадиально и, при прочих равных, будет повторять зарубежный путь.

Заключение

Технологии Big Data - это собирательное понятие различных методов анализа потоков данных, аккумулируемых во множестве процессов жизнедеятельности человека, в том числе во процессах коммуникации с компаниями и брендами. При всей неоднозначности этого понятия и множестве проблемных для понимания аспектов, технологии Big Data успели зарекомендовать себя (как минимум на Западе) как эффективный маркетинговый инструмент нового поколения. Новые возможности, которые компании способны извлечь из анализа данных о своих клиентах и представителей общества в целом, обуславливают предметный интерес к этому направлению в России на данный момент. Но имплементация этих технологий кроет в себе не только положительный эффект для бизнеса, но и проблемы этического и правового характера для рядовых пользователей. Развитие технологий Big Data вывело полемику о защите персональных данных человека на новый уровень, обнажая проблему отставания правовой базы и правосознания от технологических возможностей. При более детальном изучении совершенно явным становится тот факт, что ни одна из сторон процесса, а именно, бизнес, пользователи или государство, не имеют полного и четкого представления о своих правах и обязанностях в аспекте защиты персональных данных при взаимодействии с Big Data. Именно поэтому в данной работе была поставлена цель изучить различные механизмы и технологии защиты данных как фактор, потенциально препятствующий развитию и использованию технологий Big Data в России. Для этого предварительно было детально изучено само понятие технологий Big Data и их актуальное состояние на российском рынке. С помощью мнений экспертов и статистических показателей были определены наиболее распространенные барьеры, с которыми сталкивается рынок. Также были выделены представители ключевых сфер в этом направлении, на чьих мнениях и опыте было сфокусирована теоретическая база и исследование. Анализ зарубежного опыта также был важен с точки зрения прогнозирования путей развития и возможных проблем, с которыми потенциально может столкнуться российский рынок. Проведенная работа позволила сделать вывод, что российский рынок технологий Big Data находится на пути развития и сталкивается с аналогичными западному рынку проблемами. Далее детально были рассмотрены различные типы и методы защиты персональных данных, которые уже существуют в России или могут быть переняты у зарубежного рынка в будущем. Были изучены их проблемные аспекты и степень влияния на рынок, а также были сделаны выводы об условиях возникновения реального эффекта от их использования в России. Ключевым выводом здесь можно обозначить утверждение, что фактор детального понимания проблемы приватности в современных коммуникациях пользователями имеет более критическое значение по сравнению с самим фактором существования механизмов защиты персональных данных, так как второе находится в прямой зависимости от первого. В исследовательской части данной работы была предпринята попытка определить актуальное отношение рядового российского пользователя к теме защиты своих данных при использовании их в маркетинговых целях. Дополнительно были приведены мнения реальных представителей ключевых сфер бизнеса, которые имеют экспертизу в данном вопросе. В результате исследования было выявлено, что пользователи в России на данный момент обладают невысоким уровнем понимания проблемы, но потенциально готовы к «диалогу» с бизнесом для построения коммуникации на взаимовыгодных условиях. В связи с этим, технологии защиты персональных данных нельзя позиционировать как барьер для развития Big Data - в определенных условиях они наоборот могут стать помощником для бизнеса в формировании более четких маркетинговых стратегий, определяя явным образом, на что согласен пользователь, а что может оттолкнуть его. Обеспечение полноценной защиты, предоставление прозрачных схем взаимодействия и ответственное отношение операторов данных к собранной информации способны разрешить вопрос об этическом аспекте использования персональной информации. Поэтому сделанные в данной работе выводы способны сместить фокус представителей индустрии в сторону потребителя, как полноценного участника процесса, а не только источника данных. В дальнейшем эта тема может быть развита с точки зрения предложения конкретных форматов работы с потребителями с целью установления оптимальных границ взаимодействия, основанных на отношении пользователей к защите тех или иных типов их данных. Также продуктивным направлением для изучения представляется анализ отдельных половозрастных и социальных групп потребителей с целью выявления их индивидуальных предпочтений и взглядов на эту проблему. Так или иначе, данную работу можно позиционировать, как первый шаг в изучении сложной проблемы развивающегося рынка и одновременно изменяющегося сознания российского потребителя.

Список литературы

Юридические документы

.Федеральный закон "О персональных данных" от 27.07.2006 N 152-ФЗ [Электронный ресурс] // Консультант Плюс. URL: #"justify">Приложение 1

Анкета опроса

1. Как часто вы пользуетесь Интернетом?· Постоянно в течение каждого дня · Несколько раз в день · Раз в день или реже2. Для чего вы чаще всего используете Интернет? Выберите до 5 позиций· Поиск необходимой информации · Общение в социальных сетях и мессенджерах · Поиск и покупка товаров · Потребление медиа-контента · Онлайн-игры · Чтение новостей · Деловая (профессиональная) активность

.Насколько активно вы используете социальные сети?

1-Не использую2345-Использую постоянно

.Как часто вы используете сервисы для поиска и оплаты товаров и услуг?

1-Не использую2345-Использую постоянно

.Как часто вы ищете информацию, не связанную с вашей профессиональной деятельностью?

1-Не использую5-Использую постоянно

6. Как вы считаете, оставляете ли вы персональные данные в Интернете?· Да, в значительном объеме · Да, но не так много · Нет · Затрудняюсь ответить7. Задумываетесь ли вы о том, что ваши данные собираются и используются различными организациями?· Да · Нет · Затрудняюсь ответить

8.В каких из источников, по-вашему, могут собираться персональные данные?

1-Данные не собираются2345-Собирается большой объем данныхПоисковые системыОнлайн-магазиныНовостные и развлекательные ресурсыМессенджерыСоциальные сетиСервисы в формате приложенийИгрыТелекоммуникационные средства

9. Согласны ли вы с утверждением: «Сбор и анализ моих данных приемлем в случае предоставления мне более подходящих коммерческих предложений»?· Полностью согласен · Частично согласен · Полностью не согласен

.Оцените утверждение: «Транслируемая мне реклама услуг и продуктов может быть интереснее и качественнее, если её создатель будет знать обо мне больше информации»

1-Полностью не согласен2345-Полностью согласен

.Оцените утверждение: «Процесс использования различных сервисов может стать для меня проще, удобнее и интереснее, если их создатели будут знать обо мне больше информации»

1-Полностью не согласен2345-Полностью согласен

12. Приходилось ли вам сталкиваться со случаями коммуникации, основанной на знании ваших данных? (личные обращения по имени; реклама, соответствующая вашим недавним запросам; фигурирование информации семейного, профессионального и иного характера в рекламном сообщении)· Да · Нет · Затрудняюсь ответить

.Оцените свое отношение к формату коммуникации, описанному в предыдущем вопросе

1-Полностью отрицательное2345-Полностью положительное

14. Существуют ли операторы данных (компании, организации), с которыми вы категорически не хотели бы делиться данными?· Да · Нет · Затрудняюсь ответить

.Если на предыдущий вопрос вы ответили утвердительно, укажите пример(ы):

16. В случае, когда вы знаете о сборе ваших данных, стараетесь ли вы узнать, для чего они собираются?· Да · Нет · Затрудняюсь ответить17. Читаете ли вы типовые документы о сборе, анализе и защите персональных данных (чаще всего такие документы называются «Политика конфиденциальности») ресурсов, которые вы используете?· Всегда читаю · Читаю, но редко · Не читаю18. Считаете ли вы, что компании, осуществляющие сбор данных, обязаны предоставлять вам полную информацию о методах и целях сбора данных?· Да · Нет · Затрудняюсь ответить19. Как вы считаете, на ком в первую очередь лежит ответственность за сохранность персональных данных?· На операторе данных · На самом пользователе · И на операторе данных, и на пользователе · Затрудняюсь ответить20. Знакомы ли вы со случаями нарушения права на неприкосновенность личной информации в процессе взаимодействия с коммерческими организациями? (Имеется в виду раскрытие личной информации клиента третьим лицам, возможная дискредитация личности, ущерб репутации)· Да, лично сталкивался · Да, но лично не сталкивался · Нет, не знаком21. Знаете ли вы какие-либо методы и технологии защиты персональной информации?· Да · Нет · Затрудняюсь ответить

.Если в предыдущем вопросе вы ответили «да», укажите, о каких методах вам известно:

________________________________________________________

23.Сегодня существует большое количество различных методов ограничения сбора и анализа персональных данных. Пожалуйста, оцените каждый из предложенных вариантов с точки зрения эффективности

1-Не эффективно2345-Очень эффективноСоздание сложных паролей к учетным записямИспользование защищенных браузеровШифрование личных данных на устройствеИнсталляция антивирусовИспользование программ-блокировщиков сбора данныхЗакрытые аккаунты в соц. сетяхОтключение геолокации на устройствеЗашифрованные каналы коммуникации

.Оцените утверждение: «Я хочу и готов лично отслеживать и, при необходимости, блокировать передачу моей информации»

1-Полностью не согласен2345-Полностью согласен

25. Хотели бы вы ограничить функционал используемых вами сервисов ради обеспечения безопасности ваших личных данных?· Да, для всех · Да, но не для всех · Нет, меня это не волнует · Затрудняюсь ответить26. Укажите ваш пол· Мужской · Женский27. Укажите ваш возраст· До 18 · 19-24 · 25-29 · 30-39 · 40-49 · Свыше 5028. Укажите город вашего проживания29. Укажите ваш тип занятости· Студент · Предприниматель · Руководитель · Специалист · Фрилансер · Безработный30. Укажите ваш уровень дохода· Средств с трудом хватает на продукты питания · На питание средств хватает, но покупка предметов одежды вызывает трудности · Средств хватает на покупку одежды, но для покупки бытовой техники свободных средств нет · Заработка хватает на покупку техники, но не на крупные покупки (автомобиль, квартира) · Я могу позволить себе любые покупки31. Укажите ваш уровень образования· Общее образование · Среднее специальное · Неоконченное высшее · Высшее

Приложение 2

Интервью №1

ФИО: Боровиков И. Г.

Должность: Основатель и генеральный директор компании Mindbox

Интервью:

Давайте начнем с первого вопроса. Вы работаете с большим количеством различных компаний, в связи с чем как бы в могли охарактеризовать рынок больших данных в России на данный момент? Является ли он отстающим от западного рынка или находится на схожем уровне?

Давайте начнем с определения - что такое рынок больших данных?

В моем понимании это объем технологий, которые используются российскими компаниями, как компаниями самими, их отделами, так и компаниями-подрядчиками.

Мы говорим о рынке купли-продажи самих данных или технологиях?

Скорее технологиях

Рынка нет, он только формируется. Есть хайп, есть очень много пиара на этот счет, пиар очень развит, а вот сами технологии пока не очень.

Что по-вашему на данный момент развито больше всего? Чего не хватает, а что используется чаще всего?

Я вижу сейчас три момента, где они применяются. Первое - это скоринговые модели, которые строят операторы сотовой связи и продают в банки и страховые, достаточно большая история. Вторая история - это использование больших данных в маркетинге, причем в двух моментах. Первое - это различные предиктивные модели, предсказывающие интерес, поведение или покупательскую способность потребителя. Частный случай - товарная рекомендация, более-менее известная штука в ритейле, она достаточно быстро развивается, технологии персонализации сайтов. Вторая история - это использование больших данных для программатика, направление контекстной и медийной рекламы, т.е. обезличенные по сути данные. Ну и третья история - это то, что делают «большие дядьки» по типу Yandex, Google и Facebook, которые персонализируют свои сервисы под людей с помощью больших данных. Все это - что-то такое плюс-минус живое.

Тогда еще дополнительный вопрос - какую задачу в большей степени решают большие данные в бизнес-процессах и крупных, и средних компаний сейчас? Все-таки это маркетинговая активность или оптимизация бизнес-процессов внутренних каких-то, например, оптимизация сервисов?

Моя работа - это маркетинг, еще со скорингом мы сталкивались. По сути, только там я эффект от больших данных и наблюдаю.

Спасибо! На ваш взгляд, с какими главными трудностями, по-вашему, сталкивается российский бизнес в работе с большими данными. Многими исследованиями выводятся такие проблемы, как нехватка кадров, недостаток данных или нехватка знаний о технологиях, или недоверие бизнеса к технологиям. Что на ваш взгляд можно выделить как одни из главных трудностей?

Я думаю, что низкая квалификация людей, нехватка кадров. И на уровне топ-менеджмента, и на уровне маркетологов. Вы знаете, в 99% компаний бухгалтерский учет нормально не налажен, они не знают, сколько зарабатывают, сколько теряют, какие большие данные?

Смотрите, ни одна компания к нам не обращалась и не платила денег за анализ данных. Все хотят, но никто не готов за это платить. Когда компания обращается и говорит «а проанализируйте мне пожалуйста данные», обычно это переводится как «у меня жуткие проблемы с бизнесом, не знаю что делать, спасите пожалуйста». Данные здесь не причем. Как они реально используются - из 200 клиентов, которые у нас сейчас есть, например, те же самые товарные рекомендации и эффект от них в деньгах умеют считать одна или две компании. Среди всех маркетологов, которых я встречал, может быть 5 знают, что такое контрольная группа. Собственно, компании, которые к нам приходят, приходят не для того, чтобы купить технологию, а для того, чтобы они осознали, что у них есть проблема с бизнесом, после чего они просят от нас решения. Чаще всего это превращается в рекламную рассылку - слали 3 раза в месяц, стали слать 5 раз в месяц, стало хуже, непонятно что нужно делать и т.д. Мы условно делаем какие-то совершенно базовые вещи, рассказываем, что спам - это плохо, что нужно делать хотя бы базовые сегментации по жизненному циклу. Вот такие большие данные. Да, конечно, выставляем товарные рекомендации, которые строятся на довольно сложных местами моделях. Но это как приходите вы к папуасу и даете ему пулемет. И ему все равно, что это за пулемет - он не видит разницы, не способен оценить, к сожалению.

Последний вопрос по этой теме. Все, что вы говорите, условная неграмотность в этом вопросе, непонимание - это применимо и к крупным компаниям тоже? Или это средние компании все же?

К любым компаниям абсолютно. Компаний, которые умеют нормально что-то мерять в России, ну их 5. Если говорить про розницу, то ритейл и e-commerce. Ну может в 2 раза ошибся, может, 10.

Спасибо, следующий вопрос. Так как у меня основная часть работы - это защита персональных данных, считаете ли вы защиту персональных данных в Интернете сейчас проблемой, и сталкивались ли вы с проблемами в работе в этом аспекте? Много задач по анализу данных у вас нет, не приходит с этим запрос, но в целом бывали ли случаи, когда темы защиты персональных данных вставала остро?

Смотрите… Довольно широкая тема. Считаю ли я что, в интернете защита персональных данных адекватна? Да, считаю, что все достаточно, все хорошо. Вопрос второй - сталкивались ли мы с какими-нибудь трудностями при защите персональных данных. Да в принципе нет - вполне себе рутинная процедура, вполне исполнимая. Нужно этим заниматься и все - мы заявились как оператор, сделали внутри упражнения по классификации СПДН, выработали позицию относительно необходимого уровня защиты, ТЗ. Это процесс, да, работа, но она, наверное, даже была полезна. Видел ли я какие-то проблемы в этом аспекте, да, но проблемы носили не технический характер, а скорее организационно-правовой. У нас к сожалению очень низкая квалификация людей, которые занимаются проверкой и низкая классификация судов, с этим большая проблема. Как это выглядело на практике - есть у нас, например, понятие конклюентного действия. Человек поставил галочку на сайте - предполагается, что он согласился. Для нас с вами, как для Интернет людей - это очевидная и понятная мера, что человек согласился получать какую-то информацию, дал разрешение на обработку персональных данных. Объяснить то же самое бабушке 65 лет, сидящей в каком-нибудь Новосибирском Роскомнадзоре - это почти невозможно. «У вас нет акта ввода этого человека на сайт, он не подписан синей печатью» - и там можно сколько угодно говорить про Интернет, это не работает вообще. То есть у нас была совершенно парадоксальная ситуация, у нас один из заказчиков, крупная табачная компания. Бегают девочки всякие по торговым центрам. Это западная компания, они довольно параноидально и серьезно относятся к соблюдению законодательства, они реально собирают бумажные анкеты с подписями людей, которые дают согласие. Они хранят их сами, много на это денег тратят. Приходят из моего любимого новосибирского ФАС или Роскомнадзор письма о том, что какой-то человек пожаловался, что он не давал согласие на рекламные рассылки, а ему смс поступила. Как обычно в духе наших доблестных органов, бумажка приходит датированная задним числом - она приходит, когда уже сроки нарушены, электронного вида никакого нет. Взяли юриста, наняли его, он поехал туда разбираться. Приехал, привез бумажную анкету с личной подписью этого человека. Бабушка из Роскомнадзора на это смотрит и спрашивает: «А где копия паспорта этого человека, чтобы я убедилась, что это действительно он, а не кто-нибудь еще». Смех в том, что даже копия паспорта нашлась. Притащили копию паспорта, а бабушка говорит «где у вас копия договора с оператором сотовой связи, что это именно его телефон». Вот и всё, вся история с персональными данными примерно на этом заканчивается. Даже если ты параноидально пытаешься что-то исполнять, здравого смысла и осознания у органов которые этим занимаются критически мало.

Еще один дополнительный вопрос. Законодательство в сфере защиты персональных данных - считаете ли вы его достаточно проработанным и отвечающим всем особенностям работы с большими данными сейчас?

Тут история какая. С точки зрения персональных данных законодательство плюс-минус нормальное. С точки зрения больших данных его нет вообще - нет определения в законе, что такое персональные данные, что можно, а что нельзя собирать и как это обрабатывать. Есть много противоречивых сигналов из государственных органов, что это такое. Например, на рекламном рынке есть под понятием большие данные обычно подразумевается хранение cookies и связанной с ними информации. И вот, например, из того же Роскомнадзора и иных организаций идут сигналы по типу «это персональные данные, это нет, можно, нельзя», а какой-то формальной позиции государства по этому поводу нет. Наверное, это будет отрегулировано, да, это точно нужно регулировать, но это какая-то отдельная категория, которую необходимо отделить от персональных данных.

Спасибо большое. И последний вопрос - можете ли вы поделиться своим мнением относительно перспектив развития Big Data в России? Есть определенная статистика, что в России Big Data развивается быстро, но какое у вас мнение - положительная ли динамика?

Рост рынка технологий - я думаю да, он будет взрывообразный. Тем более, насколько я могу судить, государство осознало, что эти технологии могут влиять и на выборы и серьезно этим занялось.

Как вы думаете, возможные изменения в отношении самих пользователей к защите своих данных - могут ли они стать угрозой развитию Big Data?

Ну угрозой развития Big Data - нет, а неким регулирующим фактором - наверное, да. Вспомните, например, американские антикуки, что-нибудь в этом духе будет, наверное, да.

Приложение 3

Интервью №2

ФИО: Кочетков Е.

Должность: Директор по аналитике в банке Открытие

Интервью:

Добрый день. Давайте начнем с первого вопроса - как вы видите, какой сейчас рынок больших данных, находится ли он на достаточном уровне развития или сильно уступает зарубежному?

Ну, я думаю, что в России он сейчас активно развивается. Прежде всего это IT-компании, Яндекс, Mail.ru. Далее идут наши телеком-операторы, такие как АФК системы, Мегафон, Ростелеком. Вообще в принципе разработчики сейчас активно ищут data-специалистов. Развитие идет, но, скорее всего, на Западе с этим лучше. Простой пример - у них уже подобные предметы и программы включаются в вузовские программы. Помимо этого, у них уже есть результаты, у них это работает. Родилась сама концепция распределенных вычислений в США. Big Data - это хайповый термин, за ним очень много кроется. Это скорее собирательное понятие. Так вот, началось это с Google еще в 2004, они свою распределенную систему сделали, потом это подхватили Apache, сделали Hadoop, а потом уже на open-source движках развивают. Сейчас уже много разработчиков появилось, которые предлагают продукты свои, Cloudera, Terradata. На западе это развито больше, но преимущественно в США. В Европе рынок нельзя сказать, что наполнен, но там тенденция к развитию гораздо выше - у них созданы все условия, общий уровень образования повыше, квалификация людей. Но нужно смотреть страны. Есть такие страны, как Германия, где нехватка программистов. А поскольку нужные люди находятся на стыке профессий - на Западе это развивать проще. У нас шаги сделаны - вакансий стало больше, заработные платы в этой области привлекательные. Я думаю, что сейчас это тоже здесь пойдет потихонечку.

Как вы видите, какую задачу в большей степени сейчас решает анализ больших данных, данных в целом, в бизнес-процессах крупных и средних российских компаний. На первом месте оптимизация бизнес-процессов или маркетинговые задачи?

Я считаю, что скорее вовлечение клиентов, но одно с другим связано. Ты не можешь быстро получать информацию о клиентах и предлагать им сию минуту то, что им нужно, не имея соответствующей структуры. А это уже подразумевает некую оптимизацию. Но, к сожалению, у нас не все компании на достойном уровне развития аналитических систем и инфраструктуры в целом. Data-инженеры, люди, которые ответственны за поддержание и администрирование всех этих систем, необходимых для анализа больших данных, их на рынке не хватает, на рынке есть голод определенный. Хорошие специалисты кочуют туда-сюда, либо сидят в приличных компаниях. Отдельно я бы упомянул стартапы, они хорошо развиваются. Есть много интересных проектов, например, «Точка» или «Seven Seconds». Стартапы развиваются активно. Другое дело, что там тенденция такая наметилась, что стартапы активно скупают банки, как раз для того, чтобы больше знать о клиентах, больше предлагать продуктов. Отдельно еще, наверное, всякие социальные сети - они одни из лидеров на рынке. Плюс рекомендательные системы - очень интересная вещь, мы их видим каждый день. Достаточно на новостные агрегаторы зайти - тут же выпадают рекомендуемые новости. Поэтому нельзя сказать, что это только маркетинг, я думаю, что это неразрывно идет. Но маркетинг, наверное, больше, потому что естественно все заинтересованы в том, чтобы уже сейчас клиенту показать, показать какие мы data-driven организации, что мы впереди планеты всей. На мой взгляд зачастую это немножечко завышено и это немножечко идет с опережением того, что есть в плане инфраструктуры.

Следующий вопрос, который хотелось бы задать, связан с вашим мнением о главных трудностях, с которыми сталкивается российский бизнес в работе с большими данными. Вы уже немного коснулись этой темы, но может вы сможете выделить какие-то ключевые трудности?

Ну я бы выделил 4 отдельных ветви. Первая ветвь - это недостаток внутренней инфраструктуры, неорганизованность данных, разрозненность источников. В книге «Аналитика 2.0» хорошо написано - все хотят сразу, руководители хотят скорее все сделать, видят хайп, но для того, чтобы выйти на уровень предиктивной аналитики, нужно сначала прийти к хорошей аналитике первичного уровня, иначе это может печально обернуться. Для начала нужно поднять базовую инфраструктуру. Второе - это конечно же кадровый голод. Банально есть нехватка специалистов, жизнь в России не самая легкая, все хотят больше денег и лучше условия. Третье - это как раз проблемы внешние, непонимание клиента, что он хочет в плане больших данных или предоставление не тех данных, не в том формате. В том числе желание увидеть результат сразу, а в больших данных не так. Может быть три месяца надо ждать, а может год-два, чтобы затраты окупились. Четвертая - это законодательные вопросы. Никаких ограничений там серьезных нет, но тот же закон о защиты персональных данных, на мой взгляд, это первый шаг, чтобы ограничить их использование для какого-то круга лиц. Или, например, запрет на использование определенных сайтов - конечно, все это мешает. Статистику это мешает собирать - например, LinkedIn заблокировали. А это отличный источник для исследователей. В каких-то отраслях эта тенденция наметилась, и это конечно не критично, но чуть-чуть мешает.

Следующий мой вопрос связан с защитой персональных данных. Считаете ли вы это в целом проблемой для Big Data, и, если вы можете поделиться, сталкивались ли вы с проблемами в работе в этом аспекте?

Прямо так не сталкивался, непосредственно мне персональные данные не поступают, поступает банковская тайна. Но, конечно же, какие-то препятствия есть, хотя хороший специалист всегда данные обезличит. И совершенно не обязательно знать, что это тот-то, живет там-то и родился тогда-то, чтобы построить статистику - достаточно знать, чего он хочет. Но кому-то это может не понравиться. Сфотографировали человека, он может подать в суд - сейчас по закону о защите персональных данных за это полагается ответственность, штраф или даже до уголовной. Поэтому конечно кому-то это, наверное, создает проблему. Но в России все часто довольно таки обходится, все же законы делаются так, чтобы можно было найти в них лазейку. Не думаю, что это сейчас как-то критично, рано об этом говорить. Но может специалисты по защите информации другого мнения, я таковым все-таки не являюсь.

Если все-таки произойдет определенный сдвиг в сознании у людей, может ли это стать угрозой для развития больших данных или там столько различных путей, что это не станет угрозой?

Мне кажется, что в обозримом будущем это вряд ли станет угрозой. Конечно, сознание людей меняется. Я в сетях сам не публикую ничего, во-первых, времени нет, во-вторых, зачем, чтобы все данные собирались. Доля таких людей, кто также думает, как-то пытается ограничить использование осмысленно - очень маленькая. В Интернете все пишут, что попало, никто не задумывается о последствиях. Рядовые пользователи, особенно если это люди далекие от IT, больших данных, они не задумываются. У нас доля людей с высшим образованием не такая большая, если мы говорим про Россию. На Западе ситуация примерно такая же - людям нужно просто пользоваться сервисами и знать, что все безопасно. Им зачастую все равно, что о них кто-то что-то собирает. Но с другой стороны у них судебная система развита, и если кого-то что-то не устроит, это может создать проблемы. Но таких случаев я особо не знаю.

А если мы рассмотрим ситуацию - операторы данных собирают большие объемы данных. Происходит бартер - вы используете сервисы, а мы используем данные для оптимизации сервисов, делаем более релевантные коммерческие предложения. Но вот бывает, что данные воруют, таких случаев немало. Если человек заключает пакт с компанией, можно ли быть уверенным в безопасности?

Хакерские атаки - это проблема, но они были и до больших данных. Воровали и деньги с кошельков, карточек. Если ты хочешь пользоваться сервисом, ты ставишь галочку. Не все читают, но если ты хочешь пользоваться им, ты хочешь быть, безусловно, уверен в безопасности, и компании делают много. С другой стороны, капитализация Google и прочих во многом обязана тому, что они владеют информацией. Почему стартапы так быстро растут в цене? Казалось бы, ничего в них нет, все то же самое, но капитализация растет - потому что они собирают какие-то уникальные данные. И возможно они их куда-то сливают, умалчивают об этом. Тут довольно сложно узнать правду, но опять же простой пример. В США АНБ собирают сотни миллионов разговоров, смс и так далее, но вроде как это никому сильно не мешало. Я думаю, что тут все настолько схвачено у компаний крупных, что к ним не придерешься особо. Там хорошие юристы, и я думаю, что они немало времени уделяют этому вопросу.

Приложение 4

Интервью №3

ФИО: Вязовская О.

Должность: Руководитель отдела онлайн-маркетинга в Ozon

Интервью:

Ольга, добрый день. Для начала, не могли бы вы рассказать, чем вы занимаетесь в компании, чтобы я смог немного подстроиться под диалог?

Я руковожу онлайн-маркетингом в Ozon, непосредственно отвечаю за закупку внешнего траффика, как на десктопе, так и на мобайле. И все это происходит на основе данных, поэтому при нашей закупке используют математические модели и внутренние данные. Ну и внешние закупаемые данные.

Первый вопрос, несколько вводный - на ваш взгляд, как бы вы охарактеризовали рынок больших данных в России, рынок данных, аналитики в целом? По уровню развитию сильно ли он уступает зарубежному, или он находится уже на довольно высоком уровне?

Зарубежному он безусловно уступает, потому что за рубежом, если говорить о больших данных, то весь e-commerce совершенно спокойно делится своими данными. У нас это все закрыто, каждый имеет свою DMP систему или что-то похожее и, соответственно, обогащает это все внутри. Данные каждого интернет-магазина - это самое большое сокровище. За рубежом так не считают, потому что там самое основное - это не сами данные, а умение с ними работать. Поэтому в этом мы, конечно, сильно отстаем. Сейчас нельзя прийти на некую биржу и купить пользователей, которые совершают покупки в определенных магазинах. Хотя первые попытки уже есть - те же самые компании по типу Segmento, которые продают данные о покупках, по транзакциям определенного банка, в частности, Сбербанка. Есть компании, которые договариваются с некоторыми Интернет-магазинами, ходят и продают конкретные данные этого магазина. И возможность для брендов таргетироваться по покупкам на их же товары или товары конкурентов. Но таких случаев я знаю очень мало, на самом деле, только E-аптека совместно с Аудиторисом сделали такой проект, больше такого особо нет. Сейчас только сами Интернет-магазины обладают вот этой информацией, которой они естественно не хотят делиться.

Я правильно понимаю, что ваша компания и другие опираются по большей части на свои данные?

Да, безусловно, при этом еще закупая внешние данные у провайдеров больших данных, Mail.ru, Yandex, но опять же - это данные не по покупкам, а демография, поведенческие факторы. А данные о покупках - только у самих интернет-магазинов, но и, естественно, у банков.

Давайте тогда следующий вопрос. Как вы считаете, какую задачу в большей степени сейчас решает анализ больших данных, аналитика в бизнес-процессах крупных и средних рос компаний? Что на первом месте - оптимизация бизнес-процессов или внешняя маркетинговая активность, создание более релевантного коммерческого предложения?

Первична, с точки зрения бизнеса, конечно оптимизация маркетинговых затрат. Внутренняя работа с данными она хороша, она, безусловно, нужна, но от того, как вы работаете с данными, ваши затраты не сильно сужаются или увеличиваются, потому что, условно, это бесплатные для вас источники, ваши внутренние данные. А если говорить о внешней коммуникации, то это прямые ваши маркетинговые затраты, а, соответственно, любая компания стремится к оптимальному использованию маркетинговых затрат и оптимизации. Поэтому вот такой фокус №1, почему сейчас programmatic и аналогичные системы, даже RTB, которые предлагает таргетирование элементарно по соцдему пользуются таким спросом, потому что в некоторых отраслях это помогает сократить издержки.

С какими главными трудностями сейчас сталкивается бизнес в работе с большими данными? Например, нехватка кадров, недостаток данных, слаборазвитая инфраструктура, недоверие бизнеса - что бы вы могли выделить?

Самая главная проблема на данный момент - это проблема мэтчинга этих данных. Сейчас данных много, но сами по себе данные не имеют никакого смысла, их нужно для чего-то использовать. Если мы, например, используем данные для маркетинговых коммуникаций, и мы хотим понять, какое оптимальное количество раз мы должны повзаимодействовать с пользователем, показать креатив, например, чтобы это было оптимально с точки зрения наших затрат и с точки зрения дохода от данного пользователя - мы показываем этот креатив на разных площадках и на разных источниках трафика. Так вот для того, чтобы с разных источников трафика все это собрать в единое - это достаточно большая проблема. Например, тот же самый Facebook не отдает свои данные извне, даже сертифицированным DMP системам. Facebook идет как отдельный источник, и один и тот же юзер, который есть в Яндексе и есть в Facebook, мы его видим, как два разных юзера, просто потому что мы не можем их смэтчить из-за невозможности передачи данных с Facebook. Я вижу самую большую проблему именно в аналитике, в том, что мы не можем корректно посчитать все те затраты, которые несем на пользователя - мы просто их не мэтчим.

А, допустим, вопрос доверия к технологиям, их понимания - как вы можете оценить? Сейчас бизнес готов к применению этих технологий?

По поводу доверия. Здесь важный момент следующий - была такая история на рынке, достаточно недавно, про продажу данных. Есть черные биржи данных, где можно купить данные, например, с плагинов, данные, которые собираются пикселем недобросовестных компаний, которые продали это вне. Конечно, есть большое недоверие к этим компаниям, которые сегодня появились, завтра закрылись, пикселем собрали данные и заработали на этом денег. Есть большие игроки на рынке, которые имеют свое имя и международный опыт, в принципе, постепенно, наверное, там доверие к ним начинает проявляться. Как пример, Weborama - международный игрок, достаточно крупные ребята. Но лично я с большим недоверием отношусь к компаниям предоставляют свою DMP платформу и одновременно являются продавцами данных. Такие компании тоже есть - странно, как два бизнеса в одной компании существуют, притом, что вроде они должны друг другу противоречить.

Вторая весомая часть моей работы связана с защитой персональных данных - так как большие данные основываются на данных о пользователях, считаете ли вы защиту персональных данных пользователей в Интернете проблемой в целом и сталкивались ли вы с какими-то проблемами в работе в этом аспекте?

Ну, конечно же, защита данных - это очень популярный на данный момент вопрос, много споров, по поводу того, что считать персональными данными. Сейчас, например, e-mail не является персональными данными, а телефон уже является персональными данными. Сейчас мэтчинг происходит по cookies, user-id, там вообще все это обезличено. Мы лично не знаем, кто это, Маша Иванова или еще кто-то. Мы знаем просто набор параметров об определенном пользователе. Сталкивалась ли я с этим? Да, сталкивалась, при мэтчинге, например. При мэтчинге с теми же самыми сотовыми операторами идет мэтчинг по телефону - и там, конечно же, большой вопрос, можно или нельзя выгружать эти телефоны и использовать их, передавать третьим лицам. Это действительно проблема. А самый точный мэтчинг, если вы мэтчите e-mail и телефон. А если третий параметр - это идеал, а так хотя бы 2 параметра. Получается если телефон отбрасываем - то мэтчинг данных только на 50% получается, а 50% теряется. Ну, конечно, это проблема.

Вы можете сказать, что большая часть данных - обезличена, правильно?

Все данные, с которыми мы работаем, обезличены. Не большая, а все. Если говорить про те же самые номера телефонов, мы не видим сами номера. Мы видим только в зашифрованном виде все это, закодированном.

Отдельная тема, связанная с защитой - это законодательство. Считаете ли вы его достаточно проработанным в России на данный момент и отвечает ли оно всем особенностям работы с большими данными?

Ну, там на самом деле много спорных моментов, опять же, по поводу e-mail много споров было, считать или не считать его персональными данными. Но сказать так, что законодательство кому-либо из провайдеров, которые продают данные, мешало бы - наверное нет. В принципе все и так в закодированном виде используют эти данные, мэтчат их в закодированном виде, обезличивают. Здесь ничего не нарушается, нет никаких проблем. Единственное что, опять же повторюсь, с сотовыми операторами - единственные ребята, у которых могут возникнуть такие проблемы. У e-commerce, если говорить в целом об отрасли, такого нет, у нас все в электронном виде, у нас все основано на e-mail, как основном идентификаторе. Тут не возникает никаких проблем.

Как вы видите перспективы развития технологий больших данных в России? Они сейчас, как я это вижу по статистике, действительно развиваются хорошо, семимильными шагами. Как это видите вы, работая в этой сфере?

Здесь опять же я немного повторюсь, что сам по себе сбор данных для всех уже давно понятен, в сыром виде на рынке они есть. Здесь вопрос больше в работе с ними, как мы будем их дальше использовать. Сейчас есть разные технологии, которые позволяют, скажем так, все с большей вероятностью угадывать предпочтения пользователя, угадывать то, что он захочет, на основе данных, его поведенческих характеристик, прошлого поведения и т.д. Facebook сейчас обладает классной моделью под названием «динамический ремаркетинговый look alike». Facebook определяет, какой товар будет интересен пользователю, который никогда не посещал ваш сайт или магазин, на основании того, что он ищет похожего пользователя у вас и что выбирает ваш пользователь. Плюс на основании тех действий, которые он совершает в Facebook - лайкает кошечек, смотрит на одежду и что-то еще. Технология Facebook сама подбирает те товары, которые потенциально могут быть интересны этому человеку. Это реально будущее, предугадывание того, что может быть интересно человеку. С точки зрения еще сбора данных появляются новые технологии, например, та же самая технология нейросетей, распознавания лиц, технологии сбора информации о возрасте, росте, скорости ходьбы - всего, чего угодно. Это уже не будущее, это уже настоящее, это то, что есть сейчас. Сейчас можно определять более точно некоторые моменты, т.е. собирать более точный параметр нежели было раньше. Это уже не просто девушка 25 лет, любящая красные платья, а это девушка 25 лет с серыми глазами, красными губами, с проблемами с кожей - это прямо уже более детализированные факторы, которые можно собрать. Раньше такое собрать было достаточно тяжело без вот этих новых технологий с нейросетями. Например, те же самые производители телефонов, разных гаджетов продают данные о том, на каком этаже человек находится, сколько он весит, его рост, какая у него скорость шага, что он делает, бежит, едет на машине, как он передвигается - в общем, очень много факторов дополнительных, которые раньше бы мы не собрали.

Очень интересный пример с Facebook, спасибо большое! Но вот объем данных нарастает, растет количество методов сбора - это все обезличенные в вашем понимании данные?

Конечно, это в любом случае обезличенные данные. Когда вы делаете закупку этих данных, вы говорите, что мне нужны все девушки 25 лет с серыми глазами, красными губами, фиолетовыми волосами - вам подбирают в обезличенном варианте этих людей. Выставляют по локации «Москву», и вам говорят, что таких 1000 людей в Москве - и вы можете купить их через биржу. У вас нет прямого контакта с этими людьми, вы покупаете через какую-то систему.

Покупаете систему, а потом показываете именно этим конкретным лицам рекламу?

Через биржу вы таргетируете ваш креатив, любую вашу коммуникацию на данных пользователей. Вы никогда не сможете выгрузить их данные из биржи, вы сможете только купить саму коммуникацию.

Если, допустим, будут какие-то структурные изменения в отношении к защите своих данных у пользователей - могут ли они стать определенной угрозой развитию больших данных. Или объем технологий настолько велик, что даже какой-то процент, который откажется от передачи данных, ничего не изменит и все равно развитие будет продолжаться?

Во-первых, где эти люди откажутся? Тот же Facebook, Вконтакте, Яндекс, Google - это все разные площадки. И отказавшись на одной площадке не значит, что этот же самый человек откажется на другой площадке. Нужно применить усилия, а люди по натуре своей ленивые. В каждом источнике, на каждом сайте куда они заходят отказываться практически невозможно. В любом случае даже если введут такое ограничение, что на каждом ресурсе будет установлена предупредительная надпись, что «о вас собирают данные, вы можете отказаться или согласиться» - каждый раз пользователь не будет от этого отказываться. Все равно будут некие дыры, через которые можно собрать данные о пользователе. Даже введение такого пункта законодательства ничего не изменит. И, если даже будет введение этого на уровне браузера, предположим, что при входе в браузер будет сразу push-уведомление о том, что о вас собирают данные, если не хотите, чтобы они собирались, поставьте запрет. Все равно это тоже не может быть угрозой, потому что пользователи чистят cookies, обновляют программы, происходит динамика - каждый раз вся эта информация обновляется, пользователь в определенный момент все равно забудет, что надо запретить сбор о себе информации. В общем, я думаю, что это вообще не проблема, если это, конечно, на глобальном уровне вообще не запретят. Если не скажут, что нельзя собирать данные, то это не будет проблемой.

Похожие работы на - Состояние рынка Big Data в маркетинге в России и прогноз его развития с учетом фактора технологий защиты персональных данных

 

Не нашли материал для своей работы?
Поможем написать уникальную работу
Без плагиата!