Big Data и bad data

Со-основатель PayPal и венчурный инвестор Питер Тиль (Peter Thiel) скептически относится к чрезмерному употреблению в технологическом сообществе таких модных слов как «облака» и Big Data ( большие данные ). И он в этом не одинок.

Тем не менее, эти призывы, похоже, не достигают своей цели на многих предприятиях. Компании часто настойчиво аккумулируют свои терабайты и петабайты данных, и их внушительные команды специалистов по работе с данными создают огромные Hadoop кластеры с потоками Apache Kafka, полагая, что обретают конкурентное преимущество. На самом деле, большинство из них страдает застарелой болезнью компьютерных вычислений: мусор на входе, мусор на выходе. Нельзя сказать, что многие из них не имеют Big Data с точки зрения сложности или объема, но многие из них имеют Бесполезные данные, что наносит вред из бизнесу. Согласно отчету Experian Data Quality, неточные данные влияют на конечные показатели 88% организаций и могут снизить их доходы до 12%.

Хорошие Big Data

Некоторые компании имеют действительно хорошие данные и знают, как ими распорядиться. От повзрослевших интернет-компаний, подобных Google, до инженерных компаний производственного цикла, подобных Boing, нижеперечисленные компании успешно управляют гигантскими объемами данных и используют их для принятия решений, основанных на анализе данных.

Netflix: дает своим пользователям то, что они хотят. Являясь третьей по объему американского интернет траффика, компания собирает огромное количество данных о пользовательских пристрастиях своих клиентов, может разделить их по регионам, времени суток, количеству часов просмотра, а также по множеству других аспектов. Такие возможности ставят компанию в уникальную позицию, когда компания способна предсказать желания своих клиентов. В подтверждение этого, Netflix из компании, продающей DVD и предоставляющей потоковый сервис, стала производителем сериалов, выпустившим такие хиты, как Карточный домик и Оранжевый – цвет сезона (House of Cards, Оrange is the New Black). Они также отбросили традиционную модель выпуска пилотного эпизода, начав сразу выпуск полноценных сезонов.

IBM и Weather Company: понимание как погода влияет на бизнес. IBM в сотрудничестве с Weather Сompany объединили свои гигантские наборы данных и тщательно анализируют их с целью предсказать, как погода влияет на бизнес. Охватывая отрасли от ритейла до страховых компаний, компании смогут с высокой точность предсказать как температура влияет на продажи или как страховые компании смогут сохранить свои деньги, выдавая рекомендации водителям по управлению автомобилями.

Icahn School Of Medicine At Mount Sinai: Предсказание состояния здоровья своих пациентов. Ведущая Нью-Йоркская медицинская школа поставила задачу Джефу Хаммербахеру (Jeff Hammerbacher), широко известному первому специалисту по обработке данных в Facebook, возглавить разработку системы, позволяющей анализировать медицинские данные полумиллиона пациентов, которые обслуживаются в клинике в течение года. Работая совместно с главой Института Геномики и Многоуровневой Биологии, они выдают предсказания, которые позволят уменьшить стоимость медицинского обслуживания – от оценки истории болезни пациента и факторов риска его здоровья до определения частоты необходимости предоставления ему медицинской помощи и возможности назначения лечения на основе риск-моделей, построенных на лабораторных данных и данных геномных исследований.

Amazon: Создание нового уровня сервиса обслуживания клиентов. Amazon имеет беспрецедентные возможности по анализу своих клиентов – от данных о книгах, которые они читают, до информации о том, как часто они восполняют запасы ватных палочек. В то время, как другие компании пренебрегали поддержкой клиентов, Amazon сделал ее ключевой основой своего бизнеса, концентрируясь на контактах и прямых отношениях со своими покупателями. Богатство данных о клиентах Amazon использует для немедленного предоставления своим представителям информации о клиенте в момент, когда он нуждается в помощи, упрощая процесс и укрепляя лояльность клиента.

Xerox: улучшение показателей удержания сотрудников. В то время, как опыт предыдущей работы в большинстве случаев был главным фактором при принятии на работу новых сотрудников, Xerox выявил, что успешный прием на работу в свой колл-центр требует совершенного другого подхода. Используя Big Data компания выяснила, что личность потенциального сотрудника является реальным индикатором соответствия кандидата выбранной должности – творческие люди склонны придерживаться работы, любознательные — нет. Вооруженные такой информацией и при помощи опросника при приеме на работу, а не менеджера по приему, компания смогла за шесть месяцев уменьшить текучесть кадров на 20%.

Однако, большинство компаний плохо используют данные.

Плохие Big Data

Традиционно, предприятия слишком мало времени уделяют на определение того, какие данные требуется собирать, и как эти данные должны быть собраны. Вместо целевого отбора они вытягивают из океана данных немыслимые объемы мусора, которым становится неструктурированная и ненужная информация. Непринятие таких сложных решений выливается в создание на предприятиях команд из специалистов по данным, которые вынуждены очищать, обрабатывать и структурировать данные ручными и полу-автоматическими методами.

Создать предприятие, имеющее продуманные и готовые к использованию данные – это цель, к которой должна стремиться каждая компания. Работы по «очистке» данных могут занимать до 80% всего времени, выделенного на работу с данными.

Согласно исследованию отрасли, проведенному компанией Wikibon, 52% инвестиций в обработку данных тратятся на технологии «переваривания» и организации данных для того, чтобы они были доступны и готовы к анализу. Однако, основная задача состоит не в тратах на инструментарий.

Применение Big Data

Чтобы стать предприятием, действительно использующем данные, стоит воспользоваться опытом и методами лучших компаний в этой отрасли.

Изучить себя. Стоит начать с понимания того, какие типы данных требуется анализировать в первую очередь: данные о событиях, финансовые данные, графики или что-то еще. Это наиболее важный фактор при определении того, требуются ли данные самого нижнего уровня или в каком-либо другом формате.

Не увлекаться делегированием. Многие компании передают задачу анализа разработчикам или IT отделу, не вовлекая в процесс бизнес-пользователей. Это критически важный момент, т.к. те, кто действительно будут пользоваться этими данными, точно знают, как данные получить и в каком виде хранить, чтобы избежать критических ошибок в будущем.

Определить сценарии использования. Не стоит впадать и в противоположную излишнему делегированию крайность и позволять бизнес-пользователям определять основные сценарии («мы хотим отслеживать источники лидов») или сценарии, не связанные с данными. Каждый элемент данных должен входить в аналитическую модель и быть частью решения проблемы. Назначение на этот этап высокообразованного в технологическом плане бизнес-пользователя или продвинутого в бизнесе представителя технического департамента позволит решить данную задачу.

Остановиться у источника данных. Мусор на входе – мусор на выходе. Убедитесь, что вы понимаете источники и типы данных, с которыми работаете. Откуда происходят данные? Корректны ли они? Если ответов на эти вопросы нет, то стоит немедленно начать поиск ответов.

Использовать правильный инструмент для работы. Существует множество прекрасных разработок для анализа данных. Воспользуйтесь формальным процессом “выпечки”, определившись с ключевыми сценариями для Вашего бизнеса и конечных пользователей, сопоставьте свои потребности с потенциальными интересными функциями, которые Вы, возможно, никогда не будете использовать.

Big Data сами по себе не стоят затрат. Создать предприятие, использующее умные, полезные данные – это то, к чему должна стремиться каждая компания.


По материалам: Jeremy Levy,Indicative   Изображение: metaroll / Foter / CC BY-NC

 

Top