Извините, регистрация закрыта. Возможно, на событие уже зарегистрировалось слишком много человек, либо истек срок регистрации. Подробности Вы можете узнать у организаторов события.
22 мая приглашаем на третью дата-среду из цикла «Большие данные в экономике». Тема встречи — «Сбор данных и подходы по нейтрализации систем парирования запросов роботов».
Проведет дата-среду Сергей Бершадский, глава backend-разработки и системный архитектор, работал с различными проектами, среди которых медицинский портал ЕМИАС.ИНФО, Play2Live, toptal.com и др. Эксперт расскажет об особенностях извлечения данных из сайтов, их очистки и структуризации. Во время встречи будет рассмотрен весь процесс извлечения данных: скраппинг, обработка данных, очистка данных, параллельность, а также способы break-the-wall на примере Yandex и Google.
Предложенные кейсы осованы на использованиии библиотек python scrapy, beautiful soup asyncio. Будут рассмотрены подходы, позволяющие имитировать браузер, автоматическое использование имеющегося браузера, а также использование headless-браузеров (например, PhantomJS).
Организаторы дата-среды: АНО «Инфокультура», Ассоциация участников рынка данных и магистерские программы РАНХиГС «Системы больших данных в экономике» и «Цифровая экономика и современная комбинаторика».
Дата-среды – это серия бесплатных просветительских и обучающих встреч для журналистов, разработчиков, аналитиков и дизайнеров, на которых эксперты из разных сфер рассказывают о методах и инструментах работы с данными и делятся опытом. Материалы прошлых выступлений вы можете найти на странице проекта: datasreda.ru.