Битва за данные: какие войны назревают за новую нефть. Как наши цифровые отпечатки стали национальным достоянием

Каждый наш шаг оставляет цифровой след: когда мы гуглим значение нового мема, покупаем кофе в Старбаксе, слушаем музыку в Apple Music, лайкаем фотку соседского кота, кликаем виральный заголовок, смотрим новую серию «Игры престолов». И чем больше у нас гаджетов, тем больше данных о нас собирают. Компании пытаются узнать нас поближе, чтобы продать нам больше товаров и услуг. Иногда они знают о нас больше, чем мы знаем о себе.

Афоризм «данные — это новая нефть» (англ. data is the new oil) успел набить оскомину. Но и в гениальности ему не откажешь: он помогает нам < ![CDATA[ ]]> выпендриваться на технологических конференциях< ![CDATA[]]> вот уже 10 лет. Авторство цитаты приписывается британскому математику Клайву Хамби, разработавшему систему лояльности для торговой сети Tesco. Он < ![CDATA[ ]]> произнес< ![CDATA[]]> ее на конференции по маркетингу в 2006 году. Постепенно смысл этих слов доходит до широкой аудитории. И хотя люди продолжают воевать за нефть, контуры будущих конфликтов за данные проступают уже сейчас.



До недавних пор компании управляли традиционными активами — имуществом, деньгами, интеллектуальной собственностью. Цифровая эпоха принесла новый тип активов — данные. Это сырье, из которого производятся прогнозы, инсайты и очень большие деньги. Как < ![CDATA[ ]]> пишет< ![CDATA[]]> Economist, в XXI веке данные сыграют ту же роль, что нефть в XX-м. То есть станут главным фактором роста и перемен. Онлайн-сервисы работают на данных, как машины на бензине.

Объем накопленных миром данных в зеттабайтах

< ![CDATA[ ]]> Исследование< ![CDATA[]]> IDC, апрель 2017

Благодаря < ![CDATA[ ]]> интернету вещей< ![CDATA[]]> источниками данных стали любые устройства — от тостера до авиационного двигателя. Цифровой слепок человека все точнее. Все, что мы делаем, генерирует данные, а данные генерируют кэш. По < ![CDATA[ ]]> прогнозу< ![CDATA[]]>IDC, в 2017 году мировой рынок больших данных заработает $150,8 млрд, в 2020 году — $203 млрд.

Чем больше гуглишь, тем больше Google

Сначала интернет-компании использовали собранные данные для таргетинга рекламы. С < ![CDATA[ ]]> расцветом технологий искусственного интеллекта< ![CDATA[]]> стало ясно, что данные можно превратить в AI-сервисы, которые станут новым источником прибыли.



Многочисленные ИИ-стартапы создают умные сервисы на все случаи жизни: от анализа рентгеновских снимков до точного земледелия (подсказывают фермеру, на какие участки поля распылять гербициды). Пороги входа на рынок ИИ снижаются: растут вычислительные мощности, дешевеют датчики и железо, мощные инструменты для машинного обучения (TensorFlow от Google, DMTK от Microsoft, CatBoost от «Яндекса») открыты для любого программиста.



Главным конкурентным преимуществом на рынке искусственного интеллекта становятся сами данные. И вот ими-то, в отличие от софта, корпорации делиться не спешат. Аналитики IBM < ![CDATA[ ]]> характеризуют< ![CDATA[]]> состояние рынка данных как олигополию, где крупные игроки контролируют большую часть пирога. В интернете находится только 20% данных, остальные 80% хранятся в недрах компаний и организаций. Поэтому топ-менеджер IBM Дэвид Кенни < ![CDATA[ ]]> считает< ![CDATA[]]>данные валютой будущего.



Магия данных в том, что они помогают усовершенствовать продукт и привлечь больше пользователей, которые нагенерят еще больше данных, которые позволят привлечь еще больше пользователей. Данные — топливо современного рекламного рынка. Мировые ИТ-гиганты < ![CDATA[ ]]> рвутся со своим бесплатным интернетом в страны третьего мира< ![CDATA[]]>, чтобы заработать на данных офлайнового населения. Правда, на конференциях это принято называть устранением цифрового неравенства и желанием сделать мир лучше.



Лидерство Google, Facebook, Microsoft и Amazon в искусственном интеллекте во многом объясняется тем, что они владеют огромным количеством данных, которые нужны для обучения умных алгоритмов. Если вы тоже хотите заработать на ИИ, вам придется либо собрать, либо купить данные, которые по мере развития ИИ будут только дорожать. Известный на Западе техноскептик Евгений Морозов < ![CDATA[ ]]> считает< ![CDATA[]]>, что технологические титаны приватизируют наши данные, а это сулит нам новый феодализм.

Какими данными о человеке располагают

крупнейшие в США брокеры данных

< ![CDATA[ ]]> Исследование «Corporate Surveillance in Everyday Life»< ![CDATA[]]>, июнь 2017

Data-driven сделки

В экономике данных уже так не важно, окупается ли ИТ-проект. Когда есть большая аудитория и налажен сбор данных, монетизация — дело наживное. В этом свете 68-миллиардная оценка убыточного Uber, который < ![CDATA[ ]]> многие считают пузырем< ![CDATA[]]>, уже не кажется полным абсурдом. Самый дорогой стартап мира владеет крупнейшим массивом данных о рынке персональных перевозок (< ![CDATA[ ]]> более 5 млрд поездок< ![CDATA[]]>). Равно как и Tesla — не просто модный электрокар, а база данных о вождении на совокупной дистанции более 2 млрд км. Она дает компании фору в создании технологии беспилотного вождения. У разработчика беспилотных авто Waymo (принадлежит Alphabet) пока на порядок меньше данных.



Самым ценным активом обанкротившейся гемблинговой компании Caesars Entertainment < ![CDATA[ ]]> оказались< ![CDATA[]]> данные о 45 миллионах участников программы лояльности. Их оценили в $1 млрд.



Корпорации могут позволить себе купить компании, которые владеют нужной им базой пользователей. Этим объясняются многие крупнейшие сделки последних лет. Facebook купил Instagram и WhatsApp, Microsoft купил LinkedIn и т.д. Это вызывает беспокойство антимонопольных властей. В процессе согласования сделки по поглощению WhatsApp Facebook обещал не объединять данные двух компаний, но в прошлом году таки начал это делать. За это Еврокомиссия < ![CDATA[ ]]> оштрафовала< ![CDATA[]]> соцсеть на $122 млн.



Экономика данных требует от регуляторов новых подходов. Им придется быть не менее изобретательными, чем те, кого они регулируют. Чтобы не допустить диктата монополий, власти обязывают крупняк делиться данными с новыми проектами. Например, в Германии страховщики должны делиться с маленькими фирмами статистикой о страховых случаях. В следующем году вступят в силу < ![CDATA[ ]]> европейские нормативы о защите данных< ![CDATA[]]>. Интернет-сервисы будут обязаны получать от пользователей явное согласие на то, как будут использоваться их данные, а также позволить им экспортировать свои данные для передачи другим компаниям.



Чтобы конкурировать с гигантами, более мелкие игроки могут собираться в data-кооперативы. Так, крупнейшие немецкие медиа < ![CDATA[ ]]> объединили< ![CDATA[]]> большие данные с тысячи своих сайтов на общей платформе Emetriq, чтобы снизить свою зависимость от Google и Facebook, контролирующих 85% мирового рекламного рынка.



Легально торговать данными гораздо труднее, чем нефтью. Каждый датасет уникален, такой актив сложно оценить. Правовой базы еще нет, каждый контракт сочиняется с нуля и содержит десятки страниц о том, как покупатель будет использовать и защищать данные. Oracle разрабатывает единую инфраструктуру для обмена данными, которая позволит ее клиентам покупать и продавать свои базы данных в безопасной облачной среде.



Есть интересные примеры бартера: Национальная служба здравоохранения Великобритании < ![CDATA[ ]]> предоставила< ![CDATA[]]> DeepMind (ИИ-подразделение Alphabet) доступ обезличенным данным 1,6 млн пациентов, чтобы умные алгоритмы помогали врачам лечить пациентов с почечной недостаточностью.

< ![CDATA[ ]]> Инфографика журнала The Economist< ![CDATA[]]>

Верните нам наши данные

Что все это значит для пользователей? Data-driven подход приводит к тому, что ИТ-продукты становятся все удобнее, а контент — все интереснее. Люди слишком привыкли к бесплатным онлайн-сервисам и не отдают себе отчета в том, за чей счет банкет. Так родился еще один расхожий афоризм: «Если ты не платишь за товар, сам становишься товаром» (англ. if you’re not paying for the product, you are the product).



Британцы < ![CDATA[ ]]> очень возмущались< ![CDATA[]]>, когда производитель бесплатного антивируса AVG решил заработать на продаже их поисковых запросов. Некоторые даже объявили бойкот. Представители AVG тогда парировали, что они открыто внесли изменения в свою политику конфиденциальности, а другие делают то же самое без ведома пользователей. Но даже платные сервисы собирают данные, чтобы потом использовать их для создания смежных продуктов.



Впереди нас ждет много битв за то, кто должен владеть данными и кто может на них зарабатывать. Де факто данными владеют и распоряжаются платформы, которые их собирают, а де юре — еще предстоит выяснить. Данные можно скопировать и продать много раз. Это несет угрозу утечек и нецелевого использования, которое может причинить вред пользователю.



Потенциал конфликта в том, что люди не понимают, какие данные о них собираются и как они будут использоваться. Они подписываются под нечитанными пользовательскими соглашениями, которые составлены в интересах бизнеса и разрешают передачу данных третьей стороне. В перспективе наши данные могут свидетельствовать против нас. Например, сначала человек покупает симку, а потом ему не одобряют кредит.



Но велики ли наши шансы на информированное согласие? В прошлом году норвежские правозащитники < ![CDATA[ ]]> прочитали< ![CDATA[]]> правила пользования 33 самых популярных в стране приложений. Это заняло у них 30 часов. А недавно британский провайдер публичного Wi-Fi < ![CDATA[ ]]> добавил< ![CDATA[]]> в пользовательское соглашение право отправить юзера сети чистить общественные туалеты. За две недели эксперимента на такие условия подписались 22 тысячи человек.



Колумнист и писатель Евгений Морозов < ![CDATA[ ]]> считает несправедливым< ![CDATA[]]>, что на данных пользователей зарабатывают все, кроме них самих. Он призывает относиться к данным как к природным ресурсам, которые должны принадлежать народу, а не корпорациям. Тогда люди сами смогут создавать для себя полезные сервисы. «Верните нам наши данные. <…> Если всеми ресурсами завладеют Google и Facebook, они позволят нам дышать, только когда мы смотрим рекламу», — говорит он.



В западных медиа все чаще звучит мысль о том, что ИИ-сервисы — продукт не только разработчиков, но и тысяч пользователей, послушно заполняющих регистрационные формы. По мнению правозащитников, люди заслуживают более весомой компенсации, чем бесплатные сервисы. Но сколько стоят наши данные?



В 2013 году американский студент Федерико Занниер < ![CDATA[ ]]> продал< ![CDATA[]]> свои данные всем желающим на Kickstarter. В течение 50 дней он фиксировал все свои действия в интернете: посещенные сайты, скриншоты просмотренных страниц, переписку с друзьями, логи приложений, движения мыши, историю передвижений. Во время работы на компьютере каждые 30 секунд его фотографировала веб-камера.



Цифровой архив Федерико за день стоил $2, весь массив — $250. «Если бы больше людей сделали то же, что и я, рекламодатели платили бы за наши данные напрямую, — написал он на странице проекта. — Это кажется безумным, равно как и отдавать наши данные бесплатно».

Занниер < ![CDATA[ ]]> собрал< ![CDATA[]]>$2,733 от 213 бэкеров

Через год эксперимент повторил голландец Шон Баклз. С помощью онлайн-аукциона он < ![CDATA[ ]]> выручил< ![CDATA[]]> за свои персональные данные 350 евро. «Обычно данные людей продаются по 50 центов, но я выложил самую интимную информацию о себе, — отметил он. — Не знаю, является ли эта сумма достаточной».



Датасет включал медицинские записи, переписку в электронной почте и соцсетях, историю перемещений, личный календарь, потребительские предпочтения, историю браузера и личные записи. Массив выкупило издание The Next Web, чтобы блеснуть этим прецедентом на конференции. Это соответствовало цели акции — привлечь внимание к этике данных. «Приватность — это право каждого быть незаметным и самостоятельно решать, какой информацией делиться и с кем», — < ![CDATA[ ]]> писал< ![CDATA[]]> Баклз. Вырученные деньги он пожертвовал голландской правозащитной организации Bits for Freedom.



Но на практике компании покупают аудиторные данные оптом, а не в розницу. Нужно быть очень успешным человеком, чтобы ваши данные стоили больше доллара. В 2013 году Financial Times опубликовала < ![CDATA[ ]]> калькулятор для расчета стоимости персональных данных< ![CDATA[]]>. Цены могли устареть, зато этот инструмент наглядно показывает, какие сведения делают вас наиболее привлекательным объектом для рекламодателей (беременность, владение яхтой, страсть к путешествиям и т.д.).

Калькулятор от FT

Будем реалистами: большинство людей никогда не удалятся из соцсетей и не прекратят пользоваться условно бесплатными сервисами. Жесткие ограничения на использование данных запрут этот невероятно ценный актив в частных дата-центрах и убьют на корню сотни будущих интеллектуальных сервисов, которые действительно сделают мир лучше. Для компаний наши данные все равно не бесплатны. Чтобы хранить растущие цифровые богатства, им приходится покупать новые серверы и платить за электричество.



Европейцы < ![CDATA[ ]]> предлагают< ![CDATA[]]> создавать биржи персональных данных, которые позволят пользователям монетизировать свое цифровое ДНК. Такой подход вернет обывателям контроль над сбором и использованием сведений о них. На Западе возникла < ![CDATA[ ]]> целая ниша< ![CDATA[]]> стартапов, которые помогают людям распорядиться своими данными: < ![CDATA[ ]]> CitizenMe< ![CDATA[]]>, < ![CDATA[ ]]> Datacoup< ![CDATA[]]>, < ![CDATA[ ]]> Mass Network< ![CDATA[]]>, < ![CDATA[ ]]> Hub of All Things< ![CDATA[]]>, < ![CDATA[ ]]> Cozy< ![CDATA[]]>, < ![CDATA[ ]]> Digi.me< ![CDATA[]]> и < ![CDATA[ ]]> другие< ![CDATA[]]>. А тайваньский стартап < ![CDATA[ ]]> Bitmark< ![CDATA[]]> делает это с помощью блокчейна.

Необходимость платить за аудиторные данные ударит по заработкам ИТ-компаний. С другой стороны, им может быть даже выгодна такая схема, ведь добровольно переданная информация гораздо точнее обрывочных сведений серого происхождения.

Все, что вы делаете в интернете, может быть использовано против вас

Компании подчеркивают, что продают и используют только обезличенные данные. Но это не снимает тревоги обывателей. < ![CDATA[ ]]> Каноничный кейс< ![CDATA[]]> торговой сети Target, чья рекомендательная система узнала о беременности школьницы раньше самой школьницы, спровоцировал горячие споры об этике больших данных. Чтобы спасти репутацию, компания подкорректировала алгоритм. Он начал разбавлять товары для беременных более нейтральными предложениями. Эта история — отличный пример того, что из наших данных можно добыть выводы, которых мы сами о себе не знаем.

Результаты опроса читателей The Guardian

В 2012 году Facebook провела < ![CDATA[ ]]> психологический эксперимент над 689 тысячами человек< ![CDATA[]]>. Половине выборки алгоритм показывал позитивный контент, другой половине — негативный, а потом анализировал реакцию пользователей. Целью исследования было доказать влияние соцсетей на настроения людей. Результаты были более чем убедительны. В 2014 году, когда их опубликовали, Facebook попала в настоящий < ![CDATA[ ]]> социальный шторм< ![CDATA[]]>. Из пользователей сделали подопытных крыс, писали тогда рассерженные блогеры. Широкая публика была поражена, что данные можно использовать не только для таргетирования рекламы, но и для манипулирования людьми.

В прошлом году соцсеть захлестнула новая волна критики. Facebook обвинили в том, что ее алгоритм формирования новостной ленты (питающийся данными о пользователях) < ![CDATA[ ]]> привел к радикализации пользователей< ![CDATA[]]>, распространению фейковых новостей и тем самым помог Трампу стать президентом.



Большинство скандалов из области data ethics связаны с несанкционированным сбором данных. Например, производители SmartTV не раз < ![CDATA[ ]]> попадались< ![CDATA[]]> на слежке за пользователями. По < ![CDATA[ ]]> прогнозу Gartner< ![CDATA[]]>, к 2018 году половина нарушений деловой этики будут нарушениями этики данных. Последствиями для компаний будут репутационный ущерб и юридические санкции.



И без того размытая грань между персональными и большими данными тоньше, чем кажется. Данные интернет-запросов нередко содержат личную информацию и < ![CDATA[ ]]> могут быть деанонимизированы< ![CDATA[]]>. Cопоставление анонимизированных больничных записей и новостей со словом «госпитализирован» < ![CDATA[ ]]> позволило< ![CDATA[]]> исследователям опознать 43% пациентов.



Ярче всех по теме приватности в мире больших данных высказался питерский фотограф Егор Цветков. В прошлом году он отменно хайпанул со своим проектом < ![CDATA[ ]]> Your face is big data< ![CDATA[]]>. Цветков сфотографировал случайных незнакомцев в метро, а потом нашел их профили «Вконтакте» через нейросетевой фотопоиск FindFace.



Интеллектуальные алгоритмы принятия решений, которые обучаются на данных, могут быть предубеждены. Например, американские судьи используют программы для предсказания рецидива преступления. Это помогает им определиться с суммой выдачи обвиняемого под залог и тяжестью наказания. В прошлом году СМИ < ![CDATA[ ]]> обвинили< ![CDATA[]]> один из самых популярных алгоритмов такого рода — программу < ![CDATA[ ]]> COMPAS< ![CDATA[]]> от компании Northpointe — в расизме.

< ![CDATA[ ]]> Впоследствии белый американец был три раза арестован за хранение наркотиков, афроамериканец — ни одного< ![CDATA[]]>

Только 20% потенциальных рецидивистов действительно совершили преступления. При этом количество ошибочных предсказаний рецидива для чернокожих оказалось вдвое выше, чем для белых.

Data-скандалы в России

В России тоже начались конфликты вокруг данных. В январе «ВКонтакте» < ![CDATA[ ]]> подала в суд< ![CDATA[]]> на компанию < ![CDATA[ ]]> Double Data< ![CDATA[]]> и < ![CDATA[ ]]> Национальное бюро кредитных историй< ![CDATA[]]>. Соцсеть требует запретить использовать профили людей в коммерческих целях. Сервисы Double Data оценивают кредитоспособность заемщиков по данным «ВКонтакте», а НБКИ < ![CDATA[ ]]> предлагает< ![CDATA[]]> эти сервисы банкам. «ВКонтакте» заявила, что алгоритмы Double Data анализируют имена, место рождения, жительства, работы и учебы, анкеты друзей, тип устройства и частоту посещений. Но ни соцсеть, ни пользователи не разрешали сторонней компании извлекать личную информацию.

< ![CDATA[ ]]> Исследование< ![CDATA[]]> PWC, 2014 год

Использование общедоступных сведений, которые люди сами разместили о себе, законно и согласовано с юристами более 30 банков, < ![CDATA[ ]]> объясняла< ![CDATA[]]> Double Data в своем блоге. Гендиректор компании Максим Гинжук назвал претензии соцсети способом конкурентной борьбы. В прошлом году Mail.ru Group запустила < ![CDATA[ ]]> собственный сервис для анализа кредитных рисков< ![CDATA[]]>. Зачем позволять другим монетизировать данные о пользователях?



В июне Национальное бюро кредитных историй заключило с «Вконтакте» мировое соглашение, а Double Data попросила время, чтобы ознакомиться с документом. На днях Арбитражный суд Москвы < ![CDATA[ ]]> примет решение< ![CDATA[]]> по громкому делу. Его исход станет важным прецедентом, который может серьезно повлиять на отечественный рынок big data. Ведь социальным скорингом в России занимаются многие компании. Согласно < ![CDATA[ ]]> исследованию FutureBanking< ![CDATA[]]>, данные из соцсетей используют также < ![CDATA[ ]]> «Аксиоматика»< ![CDATA[]]>, < ![CDATA[ ]]> Clever Datа< ![CDATA[]]>, < ![CDATA[ ]]> Scorista< ![CDATA[]]>, < ![CDATA[ ]]> Scorto< ![CDATA[]]>, < ![CDATA[ ]]> FICO< ![CDATA[]]> и < ![CDATA[ ]]> Бюро кредитных историй Equifax< ![CDATA[]]> (партнер скорингового сервиса Mail.ru Group). Double Data даже гордятся тем, что корпорация ополчилась именно на них.



Американские соцсети LinkedIn, Facebook и Twitter тоже препятствуют анализу данных пользователей сторонними компаниями. Так, осенью Facebook < ![CDATA[ ]]> запретила< ![CDATA[]]> британским страховщикам Admiral Insurance анализировать благонадежность водителей по постам в соцсети. Хотя вообще в США торговля данными идет куда бойчее, чем у нас. Там даже < ![CDATA[ ]]> продаются< ![CDATA[]]> списки людей, страдающих от психических расстройств, рака и алкоголизма.



Еще один российский скандал вокруг больших данных случился в июне. Пользователи < ![CDATA[ ]]> возмутились< ![CDATA[]]>, что компания Segmento, 50% акций которой принадлежит Сбербанку, использовала историю покупок клиентов банка для таргетирования рекламы «Макдоналдса», «Снежной королевы», Loreal и Samsung. Так, технология Segmento находила клиентов, которые недавно оплачивали фастфуд картой Сбербанка, показывала части из них рекламу «Макдоналдса» и оценивала эффективность кампании по последующим покупкам.



В описании рекламных кейсов на сайте фирмы говорилось, что Segmento обладает доступом к данным о покупательском поведении и предпочтениях 84 млн пользователей карт Сбербанка. Позже компания удалила эту информацию, что только укрепило позицию критиков. Клиенты платят банку за обслуживание не для того, чтобы им показывали рекламу и зарабатывали на их данных, писали участники < ![CDATA[ ]]> дискуссии< ![CDATA[]]>. Сбербанк парировал, что передает Segmento не персональные данные, а зашифрованный и обезличенный набор вероятностей. Поэтому нарушения закона и банковской тайны тут нет.

В любом случае, синергия со Сбербанком дает разработчикам Segmento огромные преимущества. Российский рынок больших данных называют < ![CDATA[ ]]> на 99% теневым< ![CDATA[]]>: бренды торгуют данными анонимно, чтобы не отпугнуть клиентов. Непрозрачность источников и отсутствие четких правил игры приводят к низкому качеству данных об аудитории. А чем хуже данные, тем хуже работает реклама.



Банки точно знают социально-демографические характеристики своих клиентов. Поэтому их данные куда точнее информации из соцсетей. Как и любые брендированные данные, то есть открыто продаваемые сборщиком. На российском рынке это редкость. Разработчики отечественных big data-сервисов < ![CDATA[ ]]> жалуются< ![CDATA[]]> на дефицит брендированных данных. Опасаясь негатива пользователей, бренды очень осторожно монетизируют обезличенные данные клиентов.



Телеком-операторы развивают геоаналитику, основанную на данных о перемещениях абонентов. Так, «Мегафон» < ![CDATA[ ]]> предлагает< ![CDATA[]]> траспортным компаниям свой сервис анализа трафика и пассажироперевозок. Мобильные операторы «большой тройки» < ![CDATA[ ]]> предоставляют< ![CDATA[]]> обезличенные данные московским властям, чтобы те совершенствовали городскую инфраструктуру с учетом загруженности траспорта. «Вымпелком» и МТС < ![CDATA[ ]]> оценивают< ![CDATA[]]> кредитоспособность своих абонентов по аккуратности платежей и частоте заграничных поездок, чтобы продавать банкам обезличенный результат такого скоринга.



«Вымпелком» < ![CDATA[ ]]> делится< ![CDATA[]]> с рекламодателями данными о предпочтениях своих абонентов — мобильных пользователей интернета. К числу компаний, которые открыто продают данные об интересах своих пользователей, < ![CDATA[ ]]> относятся< ![CDATA[]]> также «МаксимаТелеком» и Avito. Компании, которые не готовы тратить ресурсы на создание собственных big data-сервисов, монетизируют свои информационные богатства через биржи данных (data exchange и data management platform). Экосистема для обмена и продажи данных активно растет. Недавно такими маркетплейсами < ![CDATA[ ]]> обзавелись< ![CDATA[]]> рекламные платформы «Яндекса» и Mail.Ru Group.



Борьба за данные будет происходить не только на уровне компаний, но и на уровне государств. Об этом < ![CDATA[ ]]> предупреждает< ![CDATA[]]> глава совета директоров Alphabet Эрик Шмидт. В этом смысле данные имеют не меньший потенциал для конфликтов, чем нефть. Географическое распределение извлекаемой из данных прибыли сегодня более чем неравномерно. Большая часть дата-центров в мире находится на территории США или контролируется американскими компаниями. Европейские регуляторы то и дело осложняют им жизнь своими предписаниями. Требования по локализации персональных данных < ![CDATA[ ]]> действуют< ![CDATA[]]> в Китае, Индии, Индонезии, Малайзии и Вьетнаме.



Россия идет в том же направлении. Принятый в 2015 году < ![CDATA[ ]]> закон< ![CDATA[]]> обязывает иностранные ИТ-компании хранить персональные данные россиян на серверах внутри страны. За неисполнение этого требования Роскомнадзор < ![CDATA[ ]]> заблокировал< ![CDATA[]]> американскую деловую соцсеть Linkedin, которой пользовались 5 млн россиян. При этом Google, Apple, Facebook и Twitter пока не обзавелись серверами на территории России.

Чем большие данные отличаются от персональных данных

Российские чиновники давно обеспокоены тем, что западные ИТ-гиганты собирают и используют данные россиян в своих целях, а государство никак не может на это повлиять.

Укрощение big data

Декабрь 2015



На встрече в рамках форума «Интернет-экономика» гендиректор InfoWatch Наталья Касперская < ![CDATA[ ]]> рассказала< ![CDATA[]]> президенту о необходимости регулирования личных данных россиян: о перемещениях, политических пристрастиях, доходах, привычках, круге друзей, высказываниях и прочем. По ее словам, это дает возможность «влиять или манипулировать людьми, что, собственно, и делается. Мы это видим. То есть создался целый класс новых информационных угроз».



Июнь 2016



Подробно о регулировании больших данных в России заговорили на Петербургском экономическом форуме. Глава Роскомнадзора Александр Жаров < ![CDATA[ ]]> предложил< ![CDATA[]]> создать национального оператора big data и разработать соответствующий законопроект. По его словам, государство и бизнес должны вместе выработать правила обращения, хранения и защиты обезличенных данных. Поскольку умные алгоритмы способны деанонимизировать большие данные пользователей, их нужно защищать от злоумышленников.

“

Это должно быть государственно-частное партнерство, в котором будут участвовать и бизнес, и государство, которое будет определять рамки распространения национальной big data, то есть уровень ее трансграничности, в каких объемах она может передаваться, как, по каким каналам, а также необходимый уровень защиты.

— Александр Жаров

Об этом же говорил помощник президента Игорь Щеголев. Он считает, что каждое приложение должно предупреждать пользователя крупными буквами, как будут использоваться его данные — по аналогии с предупреждениями на табачной продукции.

“

Данные стали ресурсом, а каждого человека можно сравнить с нефтяной вышкой. Причем человек нередко еще и платит, чтобы отдать свои данные бизнесу. Это серьезная проблема, и впору говорить, чтобы бизнес не злоупотреблял данными, получаемыми от пользователей.

— Игорь Щеголев

Тогда же «Мегафон» < ![CDATA[ ]]> предложил< ![CDATA[]]> создать в России национальную биржу для торговли массивами big data — под управлением единого оператора. Предполагалось, что оператором должна стать некоммерческая организация, объединяющая ИТ-компании, телеком, соцсети, банки, платежные системы, Роскомнадзор и другие ведомства. Мировые аналоги такой системы — китайская НКО Big Data Union и европейская Big Data Value Association. Внедрение такого механизма на рынке больших данных принесет компаниям миллиарды долларов, прогнозировал представитель «Мегафона».



На роль единого оператора некоторые тогда < ![CDATA[ ]]> прочили< ![CDATA[]]> «Ростелеком» (на 53% принадлежит государству). Вскоре после этого госкомпания, которая также претендует на роль главного оператора интернета вещей в России, < ![CDATA[ ]]> предложила< ![CDATA[]]> запретить передачу за рубеж данных с заводского оборудования. Дело в том, что многие импортные станки автоматически отправляют данные производителю, а тот может удаленно корректировать и даже прерывать их работу. Для хранения этих массивов «Ростелеком» предполагал создать единую IoT-инфрастуктуру. Дальнейшее обсуждение регулирования больших данных касалось только той их части, которые генерируются пользователями.



Август 2016



К обсуждению госрегулирования больших данных < ![CDATA[ ]]> подключился< ![CDATA[]]> советник президента РФ по вопросам развития интернета Герман Клименко. Он создал специальную рабочую группу для обсуждения проблем оборота big data.



Ноябрь 2016



Наталья Касперская < ![CDATA[ ]]> заявила< ![CDATA[]]> о том, что большие данные россиян должны принадлежать государству.

“

То, что другие страны эту информацию свободно качают, и знают перемещение всех наших граждан, знают, о чем они думают и их политические предпочтения — это неправильно. Поэтому эти данные должны являться собственностью государства.

— Наталья Касперская

В числе прочих вариантов чиновники обсуждали возможность заставить иностранные компании локализовать такие данные на серверах в России — по аналогии с персональными данными. Тогда же рабочая группа по вопросам развития интернета при администрации президента < ![CDATA[ ]]> начала< ![CDATA[]]> разработку законопроекта о больших пользовательских данных.



Апрель 2017



Mail.Ru Group, «Яндекс», «Ростелеком», «МегаФон», МТС и «Вымпелком» < ![CDATA[ ]]> ускорили< ![CDATA[]]>переговоры о создании саморегулируемой ассоциации больших данных. Компании решили опередить государство, опасаясь, что запретительные меры повредят развитию отрасли.



Тогда же Роскомнадзор < ![CDATA[ ]]> оштрафовал< ![CDATA[]]> МГТС на 30 тысяч рублей за торговлю информацией о поведении пользователей. В 2016 году ведомство провело внеплановые проверки по поручению президента. Выяснилось, что МГТС передавал рекламодателям поисковые запросы, список посещенных сайтов, их тематику, а также IP-адрес абонента. Суд признал, что этой информации хватает для идентификации конкретного пользователя. Как писали «Известия», эти проверки показывают намерение Роскомнадзора плотнее взяться за серый рынок больших данных.



Май 2017



Стало известно о том, что чиновники < ![CDATA[ ]]> хотят создать< ![CDATA[]]> государственного оператора для контроля больших пользовательских данных. Причем финансировать его работу будут организации, работающие с большими данными. Они должны будут перечислять в специальный фонд до 2% своих рекламных доходов. «Ведомости» подсчитали, что за первый квартал 2017 года «Яндексу» и Mail.Ru Group пришлось бы заплатить 380 млн и 96 млн рублей соответственно.



Согласно законопроекту, вести реестр операторов больших данных и контролировать их оборот будет Роскомнадзор, а госоператором станет < ![CDATA[ ]]> радиочастотная служба при нем< ![CDATA[]]>. Участники рынка критиковали законопроект за то, что он бьет по ответственным игрокам и ничего не делает с черным рынком данных. Кроме того, он не предполагает никакой защиты передаваемых данных.



Июнь 2017



Фонд развития интернет-инициатив < ![CDATA[ ]]> объявил< ![CDATA[]]>, что вместе с бизнесом разрабатывает альтернативный законопроект о больших данных. В его основу лягут предложения «Мегафона», МТС, «Яндекса», X5 Retail Group, ассоциации «Финтех» и других крупных компаний. По словам ФРИИ, разработанный кремлевской рабочей группой законопроект очень сырой и не обсуждался с отраслью. Кроме того, он регулирует только пользовательские данные, хотя большая часть больших данных поступает от интернета вещей. Новый документ также установит легальные механизмы продажи больших данных между компаниями и правила обработки различных типов big data.



Июль 2017



< ![CDATA[ ]]> Вступили в силу< ![CDATA[]]> новые нормы (ст. 13.11 КоАП), ужесточающие сбор данных. Компании будут штрафовать за незаконное получение пользовательских данных и их несанкционированную обработку (не оговоренную пользовательским соглашением), а также за отсутствие политики конфиденциальности на интернет-ресурсах.



Разработчики альтернативного законопроекта о big data < ![CDATA[ ]]> предложили< ![CDATA[]]> обязать иностранные компании делиться собранными данными с российскими игроками и самими пользователями. Критически важные данные должны храниться и обрабатываться внутри страны, говорили участники обсуждений.



Продолжение следует…

Резюмируем:

< ![CDATA[ ]]> Источник< ![CDATA[]]>

