datasreda

Материалы цикла лекций «Городские данные»

В конце 2018 года Инфокультура и образовательный проект для архитекторов Софт Культура провели цикл из 4 открытых лекций — «Городские данные». Архитекторы, журналисты, урбанисты, антропологи, социологи и программисты поделились своим опытом работы с данными в городских проектах. Какие данные можно использовать в исследованиях и где их взять? Какие инструменты существуют для обработки больших массивов данных? Возможно ли прогнозирование развития города на основе такой аналитики? Как овладеть инструментами и методами анализа данных? Поиску ответов на эти и другие вопросы посвящен цикл лекций. Андрей Дорожный, «Столичный дрейф: откуда чаще всего переезжают в Москву» О чем: О работе над исследованием «Столичный дрейф: из…

Дата-среда: «Как извлекать полезную информацию из текста – система PolyAnalyst»

29 мая приглашаем на четвертую дата-среду из цикла «Большие данные в экономике». Тема встречи — «Как извлекать полезную информацию из текста – система PolyAnalyst». Дата-среду проведет Сергей Ананян, генеральный директор компании Мегапьютер (www.megaputer.com), кандидат физмат наук, специалист по решению прикладных задач анализа данных. Надежное извлечение полезной информации из текстовых документов открывает путь к решению многих важнейших бизнес-задач в самых разных областях деятельности. Учитывая сложности, с которыми сталкиваются при попытке извлечения информации системы, основанные только на машинном обучении, мы представим альтернативный подход: использование специального языка запросов, базирующегося на результатах углубленного лингвистического и семантического анализа текста. Мы продемонстрируем практическую реализацию этого подхода…

Дата-среда: «Сбор данных и методология парирования блокировки роботов»

22 мая приглашаем на третью дата-среду из цикла «Большие данные в экономике». Тема встречи — «Сбор данных и методология парирования блокировки роботов». Проведет дата-среду Сергей Бершадский, ведущий backend-разработчик и системный архитектор, работал с различными проектами, среди которых медицинский портал ЕМИАС.инфо, Play2Live, toptal.com и др. Эксперт расскажет об особенностях извлечения данных из сайтов, их очистки и структуризации. Во время встречи будет рассмотрен весь процесс извлечения данных: веб-скрейпинг, обработка данных, очистка данных, а также способы break-the-wall на примере Yandex и Google. Предложенные кейсы основаны на использовании библиотек python scrapy, beautiful soup, asyncio. Будут рассмотрены подходы, позволяющие имитировать браузер, автоматическое использование имеющегося браузера,…

Инфокультура подводит итоги и поздравляет с наступающим Новым 2019 годом

Инфокультура подводит итоги 2018 года. Мы составили для вас дайджест с полезными ссылками, где представили все основные результаты проектов. Госфинансы Проект КГИ “Госзатраты” запустил бета-тестирование раздела “Субсидии”, в котором можно получить данные о всех федеральных субсидиях, их распределителях и получателях. Мы разработали несколько новых аналитических инструментов: расширение для браузера Google Chrome для получения данных о госзаказчиках в один клик; телеграм-бот (@csDownloaderBot) и скрипт для выгрузки контрактов по заданным параметрам, телеграм-бот для получения статистики об участнике госзаказа по ИНН; телеграм-канал с самыми дорогими контрактами по отраслям (@clearspending); а также “научили” читателей, как “быстро разбогатеть на госзакупках”, выпустив перевод англоязычного руководства; подготовили…

5 самых популярных лекций Инфокультуры в 2018 году

В 2018 году Информационная культура провела большое количество просветительских лекций и мастер-классов, посвященных различным аспектам работы с открытыми данными. Мы продолжили наш цикл дата-сред, организовали лекторий для некоммерческих организаций, провели различные мероприятия в рамках Дня открытых данных и проектов КГИ «Госзатраты» и «Открытая полиция». Специально для тех, кто не успел посетить наши мероприятия очно, мы сделали подборку 5 лекций 2018 года, которые стали самыми просматриваемыми на нашем youtube-канале. Дата-среда «Город и пространственные данные» Егор Котов, научный сотрудник ВШУ, провел мастер-класс по предобработке пространственных данных адресного реестра с портала data.mos.ru. На мастер-классе подробно разбираются следующие вопросы: где скачать предобработанные данные портала…

Дата-среда: «Немного про нейросети или как научить компьютер читать?»

28 ноября в 19:00 на дата-среде дата-сайентист Филипп Ульянкин проведет мастер-класс и покажет, что нейросети — это не очень больно. Из мастер-класса вы узнаете и научитесь: как работают нейросети; историю возникновения нейросетей в далекие 50-е и почему тогда они оказались непригодны для использования; почему нейросетевая революция началась только сейчас; как с помощью 10 строчек кода на питоне можно анализировать контекст текста с помощью библиотеки word2vec — ультрамодной модели, которая мгновенно стала классикой среди дата-сайентистов. анализировать тональность текстов на основе данных о событиях и сообщений из twitter’а. Филипп Ульянкин: «Мы напишем эти 10 строчек кода, потом напишем ещё десяток и научим…

Дата-среда: «Данные цифровых архивов и библиотек как общественное достояние и историческая ценность»

31 октября состоится «дата-среда», посвященная теме сохранения данных исторического и культурного наследия: архивов, библиотек и веб-сайтов. Эксперты обсудят практику использования инноваций в проектах по архивации, оцифровке и сохранению данных. Иван Бегтин, директор АНО «Информационная культура» и автор проекта Национальный цифровой архив, расскажет о международном опыте цифровой архивации и собственной инициативе сохранения веб-сайтов, находящихся под угрозой уничтожения. Иван Засурский, президент Ассоциации интернет-издателей, поднимет проблему открытого доступа к знаниям и возможностях использования технологий blockchain. Представители Национального исследовательского университета «Высшая школа экономики» поделятся опытом внедрения цифровых архивов в деятельность органов государственной власти. «Дата-среда» — это просветительский проект, организованный «Инфокультурой» в целях распространения лучших практик…

Дата-среда: «Как открытые данные меняют нашу жизнь»

Что изменили открытые данные для государства – например, как они повлияли на работу Министерства культуры и его взаимодействие с гражданами? Зачем открытые данные бизнесу и как это связано с сервисами для граждан? Что такое API и как на основе данных создавать общественные и коммерческие проекты? Где искать данные о любом бюджетном учреждении, государственных контрактах и получателях федеральных субсидий? Стоит ли нам бояться «большого брата»? Об этом и многом другом вы узнаете на «дата-среде» от ведущих экспертов по открытым данным. Своими знаниями и мнением поделятся: Тимур Алейников, заместитель директора ГИВЦ Минкультуры России Иван Бегтин, директор АНО «Информационная культура» Артур Хачуян, генеральный…

Дата-среда: Эволюция открытых данных Москвы

18 июля на площадке «Точка кипения» АСИ состоялась дата-среда «Эволюция открытых данных Москвы». Иван Фост, начальник управления стандартизации и автоматизации в ГБУ «Информационный город» и руководитель проекта «Открытые данные» Правительства Москвы, рассказал о появлении и этапах развития портала data.mos.ru, а также ответил на вопросы слушателей. Спикер поделился провалами и успехами разработки системы и отметил, что в ближайшем будущем запланировано развитие связанных открытых данных (государство, бизнес, НКО) и создание на их основе новых направлений бизнеса, а также их использование в проектах data science и data journalism. Презентация спикера и тезисы выступления доступны онлайн. Видеозапись выступления опубликована на youtube-канале Инфокультуры. Вы можете…

Дата-среда: обработка финансовых данных в OpenRefine

Приглашаем 16 мая на дата-среду, на которой Ольга Пархимович, куратор проекта Комитет гражданских инициатив «ГосЗатраты» проведет мастер-класс по использованию инструмента OpenRefine для очистки и предварительного анализа выборки данных гос. контрактов. Цель мастер-класса: познакомить слушателей с многообразием российских финансовых данных (источники и качество данных) и показать пример очистки и предварительного анализа данных о государственных контрактах проекта КГИ «ГосЗатраты» с использованием инструмента OpenRefine. Теоретическая часть будет посвящена обзору доступных финансовых данных в России, включающих: — госконтракты и госзакупки; — федеральные субсидии; — реестр участников и неучастников бюджетного процесса; — данные портала Электронный бюджет (budget.gov.ru); — данные портала bus.gov.ru. Практическая часть дата-среды предполагает…