«Цикл завершился». Как изменилась сфера Business Intelligence за 10 лет?
Тренды в сфере BI поменялись, но подходы остались те же. Разве что раньше они назывались другими словами. Например, Data Mining теперь зовется близкими друг другу понятиями Data Science и Machine Learning. Сбор данных упростился, хранение стало дешевле. BigData-технологии уже не на пике хайпа — это уже привычные технологии для подавляющего числа крупных компаний.
Денис Макагонов, Head of Data and Analytics в Deriv, рассказывает что происходило в Business Intelligence последние 10 лет и что произойдёт в будущем.
«Сервисы могут генерировать бесконечное число метрик и их комбинаций, параметров, измерений даже для небольших компаний»
Сейчас не возникает вопрос уровня «Сколько гигов дополнительно потребуется, если мы добавим колонку в большую базу данных?». И c переходом в cloud проблема размеров отпала сама собой, хранение терабайт и петабайт данных уже не технический, а чисто финансовый вопрос. В целом стоимость хранения данных за 10 лет снизилась на порядок.
Стало больше real time. Если раньше репорты собирались раз в день, то теперь аналитика требуется в настоящем времени, чтобы отслеживать изменения и оперативно на них реагировать. Но сами проблемы репортинга никуда не делись: консолидация данных, их очистка, верификация так и остались.
Появились новые технологии на уровне обработки потока данных, которые заменили пакетную обработку: потоковая обработка данных. Такие технологии как Apache Kafka, Apache Spark и их производные, из экзотических перешли в разряд совершенно обычных. Они помогают удовлетворять основным потребностям клиентов.
Новые технологии решают еще одну проблему клиента — управление данными. Сервисы могут генерировать бесконечное число метрик и их комбинаций, параметров, измерений даже для небольших компаний. С помощью Excel (хотя Excel все еще один из самых популярных и действенных инструментов аналитика данных) их уже не проанализировать, как это делали раньше, многое попросту будет упущено. Поэтому особое внимание уделяется выделению ключевых метрик, автоматизированному поиску и анализу отклонений в метриках. На помощь приходит в том числе и machine learning.
Однако само по себе machine learning мало полезно. Risk Scoring, lead scoring, классификаторы, рекомендательные системы должны быть внедрены внутрь процессов компании. Возьмем аналитику маркетинговой кампании. С помощью предиктивных моделей machine learning можно определить, какая прибыль будет получена с одного потребителя и «выключить» неэффективные кампании.
Причина почему технологии deep learning все еще слабо представлены в финтехе, на мой взгляд, одна — Deep learning модели, как и подавляющее большинство моделей на основе концепции нейронных сетей, представляют собой черный ящик, результаты работы которого сложно объяснить, то есть они обладают слабой описательной силой, в отличие от классических регрессионных моделей или моделей на основе деревьев решений. То есть часто непонятно, почему нейросеть пришла к тому или иному результату. В финтехе же ценится прозрачность и ясность при принятии решений. Хотя, конечно, ясность и прозрачность — это сами по себе довольно субъективные понятия. Тем не менее движение в эту сторону определенно есть.
«Machine learning все ближе становится к engineering»
Если говорить о трендах, то в топе нейросети, которые распознают образы и предметы. Причем это больше идет на client side. Например, как работает распознавание у камер последних моделей смартфонов. Это значит, что подобные BI-решения тоже переносятся на девайсы пользователей, потому что мощности уже позволяют делать это автономно.
Еще одним важным трендом является так называемый AutoML — это системы которые подбирают оптимальные алгоритмы обработки и обучения моделей в автоматическом или автоматизированном режиме на основе анализа исходного набора данных, сами выполняют оптимизацию собственных параметров и т. п.
В трендах финтех — технологии блокчейн, их онлайн-интеграции между собой.
Machine learning все ближе становится к engineering. Появилось понятие «хранилище фич» — аналог хранилища данных, которыми пользуются Data Scientists. Сформировались команды ML engineers, что соответствует концепции IDL engineers в концепции BI.
Еще один тренд — это self service BI. В профессиональном сообществе о нем неоднозначные мнения. Например, с помощью Tableau, Power BI, Google data studio, Qlick и других доступных инструментов пользователь получает доступ к хранилищу и генерирует репорты. Он получает огромное их количество и задается вопросом: а соответствуют ли они потребностям его бизнеса? Также self service BI снижает порог вхождения, что обостряет необходимость обучения обращения с данными. Для эффективного анализа нужно, как минимум, владеть терминологическим словарем, знать жизненные циклы репортов и т. д.
Второе дыхание получили системы Data Governments. Раньше они считались эксцентричными из-за размытости решаемой проблемы. Сейчас конечная цель стала понятной — это получение более управляемой системы с точными ответами, например, для маркетинга.
Наконец, концепция data driven трансформируется в data informed. Современные методы позволяют получить точные данные. Но финальное бизнес-решение принимается не только на основе их, но и других факторов. Потому что data driven — жесткий и однозначный подход, а живем мы в динамичном мире.
«Из-за быстрого роста подход к стратегии BI пришлось поменять»
Изначально Deriv строилась вокруг quantitative analytics трейдинга и прайсинга. Внедрение общего BI в маркетинг и другие департаменты произошло два с половиной года назад.
Сейчас machine learning и data science применяются в маркетинге и риск-менеджменте. С помощью lead scoring модели обучаются определять качество лидов, которые уже есть в базе. Причем используются только поведенческие характеристики, чтобы избежать искажений. Таким образом paid acquisition понимает собственную эффективность.
В риск-менеджменте Deriv такие методы помогают определить фрод-активность. Продуктом компании пользуются люди в 150 странах. Как и у любой торговой площадки, встречаются недобросовестные трейдеры, которые пытаются читить. В условиях высокой нагрузки таких пользователей было бы сложно отследить, если бы не алгоритмы machine learning.
Снова стал остро стоять вопрос data governments. Дело в том, что за последние 2 года компания выросла в шесть раз. Это тоже повлияло на стратегию BI. Изначально доступ к ядру аналитики получили около 50 человек. Но из-за быстрого роста подход к стратегии BI пришлось поменять. Понадобилось доставлять аналитику гораздо большему кругу заказчиков, что конечно же отражалось бы на стоимости, например, лицензий. Также из-за взрывного роста появились люди, которые не перешли на новую терминологию, принятую в компании. Для этого компания внедряет business glossary вроде Википедии данных.
Еще одна проблема в рамках концепции data governments — это синхронизация результатов исследований BI и исследований проводимых внутри отдельных департаментов. Иногда случается, что аналитика проводится параллельно в BI и в департаменте, используются разные методологии, и результаты получаются противоречивыми, что осложняет принятие решений. Для того, чтобы решить этот вопрос, в Deriv практикуется создание системы управления знаниями. Так, на одном из текущих маркетинговых проектов мы строим дата-хаб. В нем собираются отчеты, аналитические документы, результаты а/б тестов, опросы, дашборды, и отчеты подготовленные как BI-командой самостоятельно, так и командой маркетинга.
Наконец, Deriv продолжает переход на микросервисы. Инфраструктура компании должна быть гибкой, поэтому в необходимых местах (там где имеются высокие пиковые нагрузки и нужна возможность горизонтального расширения) применяются именно такие решения вместо монолитных систем. Вообще, это холиварный вопрос. В Deriv мы предпочитаем подходить рационально к вопросам архитектуры, если есть обоснованные аргументы за ту или иную технологию, почему бы и не применить.
Сотрудники компании понимают, что мир быстро меняется. Поэтому в работу интегрируется большое количество систем. Каждая из них тестируется с помощью plug in — plug out методики и закрепляется, выпиливается, если не подходит либо заменяется на собственные разработки.
«Еще одна из фишек Deriv — это то, что разработчики дополнительно пишут модули в Apache Airflow»
В Deriv используются 3 основные BI-системы. Первой такой системой был Metabase open source продукт для продвинутых пользователей, которые могут писать SQL запросы, они могут настроить отчеты или дашборды в Metabase, разошлют нотификации по расписанию и т. д. Но с точки зрения self service BI он подходит не всем. Вторым решением стала Tableau Online с несколькими лицензиями, позволяющих создавать репорты и несколькими десятками лицензий, которые дают доступ к просмотру этих репортов. Таким образом, BI создает отчеты и дашборды, а остальные ими пользуются.
В качестве промежуточной системы используем Google data studio, потому что главный потребитель услуг — это маркетинг. BI использует BigQuery в качестве хранилища данных, строит в нем плоские модели и передает их маркетингу. Тот с помощью Google data studio строит свои дашборды. Саппортит процесс программа Data Ambassadors. С помощью нее потребитель учится использовать полученные данные, различать метрики, выходит на единую терминологическую базу с Deriv. Все три системы подключены к единому Хранилищу данных, поэтому данные в отчетах консистентны (за исключением случаев когда применяются различные методологии расчета).
Еще одна из фишек Deriv — это то, что разработчики дополнительно пишут модули в Apache Airflow, он используется как оркестратор интеграционных процессов.
«Будут развиваться системы анонимизации и global data protection»
Например, в Power BI интегрирован голосовой помощник. Это большой пласт работы для BI, ведь нужно создать семантический уровень, который позволит помощнику трансформировать вопросы в четкие запросы к базе данных.
Если брать направления развития BI, то здесь видится два пути:
Усложнение с увеличением функций. Пример тому Facebook, который предлагает лавину опций для аналитики. Но, по факту, люди смотрят на две-три метрики.
Упрощение. Слишком много аналитики вводит в ступор, когда специалист не может выдать эффективное решение. C этой точки зрения интересна мобильная аналитика. Специалисты внедряют готовые схемы вроде Kissmetrics или Pirate Metrics в качестве фреймворков и все. В итоге получается готовая модель, которая подходит и для трейдинга, и для дейтинга приложений. Она показывает ARPU, MAU, DAU, activation rate и т. д. При этом еще и выдаст рекомендации по улучшению.
Будут развиваться системы анонимизации и global data protection. Тон задала Apple, которая ввела ограничения на сбор информации девайсов, что негативно повлияло на рекламную отрасль. С одной стороны, это защищает пользователей, но с другой, новый челлендж для BI-щиков.
Наконец, все будет переходить в облако. Это поможет упростить процессы maintenance.
Кто такой Quantitative Analyst? Обзор изнутри от Ракшитa Чудхари
О профессии рассказывает Ракшит Чудхари, СОO международной трейдинговой компании Deriv.
Продолжаем цикл материалов про ИТ-специальности. Каждую из них описывает «типичный представитель» — опытный специалист. Надеемся, что цикл поможет школьникам, студентам, переквалификантам, джуниорам и сочувствующим выбрать специальность в ИТ, оценить свои перспективы или просто сверить часы с авторитетным коллегой. Можно обсуждать и дополнять материал в комментариях, чтобы сделать его ещё полезней. Спикер и автор материала поддержат дискуссию и ответят на вопросы.
Зачем открывать офис в Минске сегодня? Рассказывает СЕО Deriv
Встретились с основателем и гендиректором компании Deriv Жан-Ивом Сиро чтобы узнать, зачем сегодня открывать физический офис в Минске, как идёт хайринг и кого ждут в компании.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.