Кто такой Data Scientist?
16.12.2021
Data Scientist сегодня называют экспертов по аналитическим данным, обладающих техническими
навыками, которые необходимы для того, чтобы решать сложные задачи, плюс Data Scientist
обладает и необходимым любопытством, позволяющим такие задачи ставить. Data Scientist
частично являются математиками, а частично это компьютерные ученые, и частично еще и
трендспоттеры.
Профессия Data Scientist требует практических знаний в сфере статистического анализа
информации. Для этой профессии также важны навыки создания математических моделей
(начиная от нейронных сетей и заканчивая кластеризацией, и начиная с факторного и заканчивая
корреляционным анализами), навыки работы с большим количеством информации и способность
определять закономерности.
Средние зарплаты Data Scientist в США составляют около 91 тысяча долларов в год. В России же
это примерно 60-70 тысяч рублей за месяц для совсем уж «зеленых» новичков, а для опытных
специалистов зарплата может составлять до 220 тысяч.
DJ Patil, ранее работавший главным научным сотрудником отдела научно-технической политики
США, так характеризует эту профессию:«Data scientist является специалистом с уникальным
сплавом навыков, делающим невероятные находки, воплощающим в жизнь фантастические
истории — и все это ему удается делать благодаря информации».
Чем же на самом деле заняты специалисты в сфере Big Data? Эти сотрудники в своей работе
постоянно имеют дело с ограничениями, которые могут быть методологическими, техническими,
а также любыми другими — и они в этих условиях определяют пути для новых решений. Они
совершают события, прогнозируя и анализируя. В Data Science место также находится творчеству:
специалисты работают над элегантными решениями сложных задач, кроме того, они могут
качественно визуализировать информацию, делают шаблоны убедительными и понятными.
Приведем пример работы Data Scientist: «Джонатант Голдман, физик, учившийся в Стэнфорде,
пришел на работу в соцсеть LinkedIn. Здесь он работал над чем-то, что невозможно измерить в KPI
либо увидеть конечный результат: работал над сайтом, исправлял баги, внедрял фичи. Пока
разработчики напряженно думали, как можно модернизировать сайт, справившись с наплывом
его посетителей, Голдман смог создать прогностическую модель, подсказывающую владельцу
аккаунта в LinkedIn, кто из людей, зарегистрированных в данной сети, также может быть его
знакомым. Голдман убедил руководство компании опробовать его модель, что принесло сети
много новых просмотров, а также сильно ускорило ее рост».
Определенного описания профессии нет, все определяется конкретной сферой использования
навыков работы с информацией. Однако можно назвать некоторые вещи, которыми будет
заниматься абсолютно любой Data Scientist:
- сбор множества неуправляемых данных, а также преобразование этой информации в более
удобный формат;
- решение различных бизнес-задач с применением данных;
- работа с разными языка программирования, в том числе с R, SAS и Python;
- использование статистики, в том числе статистических тестов и распределений;
- применение аналитических методов, как пример можно привести машинное обучение, а также
текстовую аналитику и глубокое обучение;
- проведение сотрудничества в равной мере с бизнесом и с IT;
- определение порядка и шаблонов данных, плюс определение тенденций, которые способны
пригодиться в достижении конечного бизнес-результата.
Далее мы перечислим технологии и термины, которые необходимо знать специалисту Data
Scientist:
Визуализация данных: речь идет о представлении информации в графическом формате, это
позволит легче анализировать данные.
Машинное обучение: сфера искусственного интеллекта, которая основывается на различных
математических алгоритмах, а также на автоматизации.
Глубокое обучение: это сфера изучения машинного обучения, применяющая в работе данные для
создания сложных абстракций.
Распознавание образов: специальная технология, позволяющая распознавать шаблоны в данных
(она часто применяется взаимозаменяемо с машинным обучением).
Подготовка данных: это процесс перевода необработанной информации в иной формат, чтобы эти
данные проще было потреблять.
Текстовая аналитика: речь идет о процессе анализа неструктурированной информации, которая
нужна для получения важных бизнес-идей.
Кроме того, необходимо понимать:
Машинное обучение и статистику.
Языки программирования R, SAS, Python.
Базы данных MySQL, а также Postgres.
Технологии для визуализации информации и отчетности.
Hadoop and MapReduce.
Еще один пример – как Beeline проводит собеседование на данную должность: «Процесс
собеседования стартует с телефонного интервью, которое включает вопросы из некоторых
разделов математики. Далее кандидату предлагается тестовая задача — это конкретная задача из
области машинного обучения, она аналогична задачам на ресурсе kaggle.com. Выстроивший
хороший алгоритм, а также получивший высокий уровень качества на тестовой выборке, кандидат
переходит на следующий этап — непосредственно собеседование, где устанавливается знание
кандидатом методов анализа информации и машинного обучения, также на этом этапе
предусмотрены задачи на логику и вопросы из практики».
Стоит знать, что в Data Scientist вполне можно прийти не с нуля, однако с довольно хорошей
базой. По словам одного из специалистов, который пришел в Big Data из науки: «Контора Bidgely,
предложила ему позицию Data Scientist, оклад на которой составлял $130k в год «грязными»
(чистыми это получалось около $7400 в месяц)». Ему было предложено трудиться в офисе,
который находился в небольшом городе Sunnyvale, расположенном в Кремниевой Долине, всего
в нескольких километрах от штаб-квартир таких компаний, как Apple, Google и Linkedin, Apple. В
январе он принял решение уйти в Data Science, и при этом уже в октябре он трудился в этой сфере
в США, закончив университет в июне.
Также отметим, что тем, кто желает заниматься Data Science по-настоящему, нужно «заготовить»
не просто Excel, но и знать Python, изучить учебник по математическому анализу, и иметь
готовность учиться. Если вас интересуют Data Scientist вакансии, то найти их вы легко сможете на
специализированных ресурсах. Data Scientist курсы предлагает IT-академия «TOP». У нас вы
найдете для Data Scientist обучение, которое осуществляется настоящими профессионалами.