Публикуем видео-запись дата-среды «Сбор данных и методология парирования блокировки роботов» из цикла «Большие данные в экономике». Спикер Сергей Бершадский работал в качестве backend-разработчика и системного архитектора с такими проектами, как медицинский портал ЕМИАС.инфо, Play2Live, toptal и др.
Выступление посвящено особенностям извлечения данных из сайтов, их очистке и структуризации. Сергей поделился собственным опытом веб-скрейпинга с использованием библиотек python scrapy, beautiful soup, asyncio. Сергей также разобрал методы break-the-wall на примере запросов в Yandex и Google. Это подходы, которые позволяют имитировать браузер и автоматически его использовать.
Презентация опубликована по ссылке.
Смотрите запись дата-среды:
Организаторами дата-среды выступили АНО «Инфокультура», Ассоциация участников рынка данных и РАНХиГС.
Всем тем, кто хотел бы повысить квалификацию, системно и углубленно изучить современные способы анализа данных в экономике, мы рекомендуем магистерские программы РАНХиГС: «Системы больших данных в экономике» и «Цифровая экономика».
Дата-среды – это серия бесплатных просветительских и обучающих встреч для журналистов, разработчиков, аналитиков и дизайнеров, на которых эксперты из разных сфер рассказывают о методах и инструментах работы с данными и делятся опытом. Материалы прошлых выступлений вы можете найти на странице проекта: http://datasreda.ru/