Сайт находится в процессе разработки
Войти
Главная / Data science в трейдинге / Data Scientist: чем занимается и как им стать

Data Scientist: чем занимается и как им стать

Сегодня данные окружают нас повсюду и используются в любых сферах, от соцсетей до медицины. Дата-сайентист —специалист, который работает с этими данными и помогает компаниям совершенствовать свои продукты и услуги. Разбираемся, какие навыки и знания нужны, чтобы начать работать дата-сайентистом, даже если вы далеки от программирования. 


Чем занимается дата-сайентист?  

Любое наше действие в Интернете сегодня оставляет за собой поток данных — листаем ли мы онлайн-каталог или заказываем доставку еды. Дата-сайентист — специалист, которые собирает и анализирует такие данные, чтобы помогать компаниям принимать более точные и обоснованные решения. 


Сначала дата-сайентист собирает нужные данные, затем находит в них скрытые закономерности и создает предсказательные модели. В результате он получает программный алгоритм, который помогает решить ту или иную задачу. 

Где нужен дата-сайентист? 

Раньше данные собирались «вслепую» — компании проводили опросы и интервью клиентов, но такие данные все равно были неточны и не слишком релевантны. С появлением Интернета и развитием Data Science сбор данных значительно упростился — но компаниям все еще нужны те, кто будет эти данные интерпретировать и извлекать из них пользу. 


Спрос на дата-сайентистов сейчас только растет — ведь их навыки помогают компаниям лучше понимать своих клиентов, выстраивать стратегию развития и получать обратную связь. Сейчас дата-сайентисты требуются везде — в бизнесе, стартапах и научных организациях.


Вот в каких сферах может работать специалист по Data Science: 

  • В медицине. Создание моделей для диагностики и лечения заболеваний.

  • В финансах. Прогноз курсов валют, предсказание рисков, создание инвестиционных стратегий и персонализированных продуктов; 

  • В транспортных компаниях. Оптимизация маршрутов и расходов на топливо, повышение безопасности на дорогах. 

  • В IT-сфере. Разработка систем искусственного интеллекта и поисковых алгоритмов. 

  • В ритейле. Прогноз спроса, оптимизация ценовой политики. 

  • В образовании. Прогноз успеваемости,  оптимизация программ обучения. 

  • На производстве. Прогноз сбоев оборудования и дефектов товаров, предотвращение аварийных ситуаций, снижение издержек. 

  • В биоинформатике. Использование данных для изучения генетических заболеваний, разработка новых методов лечения.

  • В метеорологии. Улучшение точности прогноза погоды, предсказание природных бедствий. 

  • В рекламе. Анализ предпочтений пользователей, оптимизация рекламы. 


В стартапах дата-сайентист помогает разрабатывать и улучшать новые продукты. Например, платформа для поиска и бронирования жилья Airbnb активно использует Data Science для оптимизации своей бизнес-модели и улучшения пользовательского опыта, а платформа по перевозке пассажиров Uber — для определения маршрутов и повышения безопасности пассажиров. 


Как устроена работа дата-сайентиста? Например, ему нужно оптимизировать ценообразование для проекта по аренде жилья. 


Вот что он делает: 

  • собирает данные о предложениях на рынке, арендных ставках и потребительском спросе; 

  • определяет тип модели, которая поможет решить задачу; 

  • определяет факторы для оценки эффективности модели; 

  • пишет код модели; 

  • тестирует модель для прогнозирования спроса на аренду; 

  • предлагает результаты прогнозов коллегам для принятия решения об изменении цен. 


Какие навыки нужны дата-сайентисту?

Для работы в Data Science нужно знать математику за пределами школьного курса. Математика помогает анализировать данные и выявлять закономерности, тестировать гипотезы и оценивать параметры моделей. 


Чтобы в дальнейшем использовать созданные модели, дата-сайентист должен уметь программировать на Python и использовать SQL для работы с реляционными базами данных. Стоит уделить отдельное внимание фреймворкам Tensorflow или Pytorch, так как они являются стандартом для разработки ИИ моделей. Также стоит освоить библиотеку Sklearn, так как из нее можно взять большое количество алгоритмов машинного обучения. 


Чтобы писать понятный и читаемый код, дата-сайентист должен уметь работать с IDE (интегрированная среда разработки), такими как Jupyter Notebook или PyCharm. Также результаты анализа данных нужно уметь визуализировать — с помощью библиотек Matplotlib, Seaborn или Tableau.


Пример визуализации данных в Matplotlib


Визуализация данных в сфере здравоохранения. Фото: scmuncey.github.io

Плюсы и минусы профессии

Плюсы: 

  • Высокий спрос на рынке труда — дата-сайентисты востребованы во многих отраслях и спрос на эту профессию растет с каждым годом; 

  • Хорошо оплачиваемая работа, особенно в крупных городах и ведущих технологических компаниях; 

  • Можно работать с самыми современными технологиями и инструментами в области анализа данных;

  • Можно работать с разными данными и задачами, что делает работу увлекательной; 

  • Можно напрямую решать реальные бизнес-задачи компании и видеть результаты своей работы.

Минусы: 

  • Высокая конкуренция в связи с высоким спросом на специалистов; 

  • Нужно регулярно учиться, так как технологии и методы анализа данных постоянно меняются;

  • Результаты работы не всегда легко предсказать, поэтому необходимо иметь терпение и быть готовым к тому, что задачу придется начинать сначала.

Сколько зарабатывает дата-сайентист?

Data Scientist — новая и необычная профессия. Работая с данными, вы можете реально менять процессы в компании, приносить ей больше выручки и получать за это достойную оплату. Но как и везде, доход будет зависеть от знаний и навыков, а также компании и сложности решаемых задач. 


В целом ситуация на рынке такая: 

  • новичок (junior) получает от 40 до 80 тысяч рублей, middle — от 100 до 250 тысяч рублей, senior — от 250 тысяч и выше; 

  • средняя зарплата дата-сайентиста в Рооссии составляет 115–180 тысяч рублей; 

  •  в России больше всего дата-сайентистам платят в Москве, Санкт-Петербурге, Краснодаре и Казани.


Средняя годовая зарплата специалиста по дата-сайенс в Америке  — около 116 тысяч долларов в год, или около 695 тысяч рублей в месяц. Сумма зависит от опыта сотрудника, региона и условий компании-работодателя. Например, известные технологические компании, такие как Apple, Amazon и Airbnb предлагаю лучшие условия по оплате. 


Как стать специалистом по Data Science?

Освоить профессию дата-сайентиста гуманитарию может быть нелегко — нередко можно услышать мнение, что в Data Science проще попасть людям с техническим складом ума или образованием. На старте гуманитариям может и правда быть сложнее, чем людям с техническим бэкграундом, но все же сейчас в Data Science приходят люди из самых разных сфер, не только из программирования и финансов. 


Data Science — компьютерная наука на стыке разных областей, поэтому дата-сайентисту нужно разбираться в математике, статистике и машинном обучении, уметь программировать. Также пригодятся навыки презентации и коммуникации. 


При наличии мотивации освоить профессию можно самостоятельно и с нуля. Кроме того, иногда компании готовы брать на работу специалистов без опыта, но с профильным образованием. Учиться Data Science можно как в университете, так и на онлайн-курсах. Среди вузов, которые обучают этой профессии: МГТУ имени Баумана, МГУ имени Ломоносова, Высшая школа экономики и Санкт-Петербургский государственный университет. 


Более быстрый и удобный способ стать дата-сайентистом — пройти онлайн-курсы. Дистанционно студентов обучают примерно 1–2 года.


Чтобы стать Data Scientist, нужно:

  1. Изучить математику. Любому дата-сайентисту нужно знать основы математики, чтобы уметь анализировать результаты алгоритмов обработки данных. Продвинутые знания не понадобятся, но обязательно стоит разобраться с линейной алгеброй, статистическими выводами и сутью корреляции. Лучше всего осваивать математику по учебникам с простыми объяснениями. 


  1. Изучить статистику. Математическая статистика и теория вероятности используются при любом виде анализа, так что с этими темами тоже нужно познакомиться. 


Сделать это можно на онлайн-курсах,:


  1. Научиться программировать. В Data Science не получится попасть, не умея программировать. Новичкам подойдет Python — сейчас это самый распространенный язык программирования, который к тому же не так сложен в освоении. 


По Python много курсов, как бесплатных так и нет. Вот несколько из них:


Когда изучите основы Python, стоит познакомиться и с библиотеками для Data Science — Numpy, Pandas и Scipy. 


  1. Изучить алгоритмы машинного обучения. На этом этапе вам нужно научиться собирать данные для анализа. Алгоритмы бывают «с учителем», «без учителя» и «с подкреплением». 


Где осваивать машинное обучение: 


  1. Освоить визуализацию. Важно уметь визуализировать результаты работы алгоритмов, поэтому стоит освоить библиотеки визуализации данных в Python — например, Matplotlib и Seaborn. 


Курсы по визуализации: 



Пример визуализации данных. Фото: shanelynn.ie


Также вам нужно регулярно практиковаться, чтобы набраться уверенности и опыта. Чтобы увидеть, как другие дата-сайентисты решают задачи на практике, загляните на Kaggle — это платформа с огромным количеством разных кейсов по Data Science. 


Когда изучите все основы и пройдете различные курсы, можете пробовать силы в открытых проектах, а также начинать искать стажировку или работу. Кстати, недавно мы подготовили гайд для тех, кто ищет работу в Data Science без опыта — прочитайте эту статью, чтобы лучше подготовиться к собеседованию и получить оффер. 


Также подпишитесь на телеграм-канал «Data2Good» — здесь можно узнать, как Data Science и ИИ используются в самых разных сферах сегодня, найти полезную информацию и получить ответ на свой вопрос от комьюнити проекта. 


Топ-6 советов для новичков

  • Чтобы стать профессионалом, нужно качественное профильное образование. Выбирайте ведущие вузы или онлайн-школы, которые дают максимум знаний и возможность отработать навыки на практике. 

  • Изучайте не только российскую профессиональную литературу — Data Science это новая профессия, и за рубежом можно найти не меньше полезной информации.  

  • Учите английский —  он поможет вам в обучении, ведь на нем написано множество курсов и книг по Data Science. 

  • Чтобы войти в профессию, не обязательно иметь опыт — для подачи заявки на джуниора достаточно иметь в портфолио учебные проекты.

  • Улучшайте свое портфолио — размещайте ваши кейсы на GitHub и других похожих платформах. 

  • Не забывайте про практику — например, тренируясь на Kaggle, можно увидеть продвинутых дата-сайентистов и набраться опыта решения реальных задач. 

Получение исторических данных по котировкам с помощью API: пример кода
Что такое API API (Application Programming Interface) — это набор правил и протоколов, которые позволяют разным приложениям взаимодействовать друг с...
Читать далее
Полный торгово-аналитический алгоритм: базовая стратегия для трейдера
Любому трейдеру нужен проверенный алгоритм, на основе которого можно формировать собственную стратегию и заключать успешные сделки. В этой статье мы...
Читать далее
Как Big Data помогает трейдерам в работе: три крутых примера
  Big Data — крутой инструмент для трейдинга, который может угадывать цены на рынке, находить ключевых игроков и управлять рисками...
Читать далее