Ксения Орлова

Открытое государство в цифровой реальности: данные или статистика

8 июня на Петербургском международном экономическом форуме прошли публичные дебаты на тему «Открытое государство в цифровой реальности: мониторинг национальных целей». Представители госслужбы, академического сообщества и общественных организаций обсудили такую сторону цифровизации государства, как открытость информации, данных и их понятность для граждан. Что такое открытость государства и как она влияет на эффективность работы? Где взять открытые данные, чтобы измерить достижимость национальных целей и нацпроектов? Какие данные нужны экономике и гражданам: статистика или большие данные? Как принимать решения на основе данных, если их качество не вызывает доверия?   Председатель Счетной Палаты РФ Алексей Кудрин считает, что внедрение лучших международных практик по открытым данным…

«Инерционная открытость»: эксперты Счетной палаты подготовили рейтинг, посвященный открытости госструктур

Только четыре российских министерства можно назвать полностью открытыми. К такому выводу пришли эксперты из АНО «Инфокультура» и Центра перспективных управленческих решений в докладе «Открытость государства в России», подготовленном для Счетной палаты. Результатом исследования стал рейтинг министерств и ведомств. Эксперты разработали методологию, которая позволяет оценить уровень взаимодействия ведомств и граждан по трем показателям: Открытость информации – это широкий спектр правовых и коммуникационных инструментов, которыми должны располагать граждане для получения информации, находящейся в ведении государственных органов; Открытые данные – механизм получения информации (данных) от государства в проактивном режиме. Это означает, что государство публикует данные независимо от наличия запросов, то есть в автономном и регулярном режиме; Открытый…

Дата-среда: «Как извлекать полезную информацию из текста – система PolyAnalyst»

29 мая приглашаем на четвертую дата-среду из цикла «Большие данные в экономике». Тема встречи — «Как извлекать полезную информацию из текста – система PolyAnalyst». Дата-среду проведет Сергей Ананян, генеральный директор компании Мегапьютер (www.megaputer.com), кандидат физмат наук, специалист по решению прикладных задач анализа данных. Надежное извлечение полезной информации из текстовых документов открывает путь к решению многих важнейших бизнес-задач в самых разных областях деятельности. Учитывая сложности, с которыми сталкиваются при попытке извлечения информации системы, основанные только на машинном обучении, мы представим альтернативный подход: использование специального языка запросов, базирующегося на результатах углубленного лингвистического и семантического анализа текста. Мы продемонстрируем практическую реализацию этого подхода…

Дата-среда: «Сбор данных и методология парирования блокировки роботов»

22 мая приглашаем на третью дата-среду из цикла «Большие данные в экономике». Тема встречи — «Сбор данных и методология парирования блокировки роботов». Проведет дата-среду Сергей Бершадский, ведущий backend-разработчик и системный архитектор, работал с различными проектами, среди которых медицинский портал ЕМИАС.инфо, Play2Live, toptal.com и др. Эксперт расскажет об особенностях извлечения данных из сайтов, их очистки и структуризации. Во время встречи будет рассмотрен весь процесс извлечения данных: веб-скрейпинг, обработка данных, очистка данных, а также способы break-the-wall на примере Yandex и Google. Предложенные кейсы основаны на использовании библиотек python scrapy, beautiful soup, asyncio. Будут рассмотрены подходы, позволяющие имитировать браузер, автоматическое использование имеющегося браузера,…

Архив Дня открытых данных-2019

2-3 марта 2019 года Информационная культура совместно с Фондом развития интернет-инициатив, Ассоциацией участников рынка данных и Комитетом гражданских инициатив провели День открытых данных в Москве. В этой публикации мы собрали презентации и видеозаписи выступлений спикеров и отдельных мастер-классов. Диалог: Открытость государства Видео Спикеры: Алексей Кудрин, председатель Счетной Палаты Российской Федерации. Кирилл Варламов, директор ФРИИ. Государство и бизнес: участники рынка данных Видео-плейлист направления Дискуссия о Национальной системе управления данными Видео. Участники: Иван Фост, руководитель направления в Аналитическом центре при Правительстве РФ; Иван Бегтин, директор Ассоциации участников рынка данных; Сергей Алимбеков, зам.директора по технологическому развитию ФРИИ. Модератор — Василий Буров, член экспертного…

Реестр субсидий: качество данных о распределении 16 трлн руб.

Распределение субсидий происходит без объявления аукциона или тендера — госорганы решением Правительства или самостоятельно определяют, кто сколько средств получит и на что их сможет потратить. На федеральном уровне “Реестр соглашений о предоставлении субсидий федерального бюджета” (реестр субсидий) публикуется на Едином портале бюджетной системы (ЕПБС). Он содержит сведения о субсидиях, субвенциях и иных межбюджетных трансфертах бюджетам субъектов РФ, юрлицам и ИП. Мы изучили структуру реестра и представленные данные и выявили ряд особенностей, которые нужно учитывать при подготовке аналитики. Впрочем, сразу нужно отметить, что благодаря Федеральному Казначейству и Минфину России на федеральном уровне данные о субсидиях машиночитаемые и регулярно обновляются, в то…

Открытые НКО: перезапуск проекта

«Открытые НКО» — это портал, где собраны в удобном виде различные данные о деятельности российских некоммерческих организаций (НКО) и их государственном финансировании. В обновленной версии проекта мы значительно расширили состав источников данных. Нам удалось сопоставить данные из Единого государственного реестра юридических лиц (ЕГРЮЛ) с реестром Минюста России, сравнение их баз данных по некоммерческому сектору тянет на отдельное аналитическое исследование. Теперь база данных проекта учитывает также данные бухгалтерских балансов Росстата, данные об арбитражах и исполнительных производствах, контракты, федеральные субсидии и гранты. Также мы улучшили интерфейс поиска, так как обогащение базы данных дало нам возможность добавить новые фильтры. Иван Бегтин, директор АНО «Информационная культура»:…

Приглашаем на пятый ежегодный День открытых данных в Москве

2-3 марта 2019 года состоится пятый ежегодный День открытых данных в Москве. Организаторами события выступят АНО “Информационная культура” (https://www.infoculture.ru/), Фонд развития интернет-инициатив (https://www.iidf.ru/) и Ассоциация участников рынка данных (http://aurd.ru/). День открытых данных (Open Data Day) — международный проект, который помогает продвигать концепцию информационной открытости и прозрачности (http://opendataday.org/). Ежегодно с 2015 года Инфокультура проводит День открытых данных в Москве, а также оказывает информационную поддержку мероприятиям, проходящим в различных регионах России (http://opendataday.ru/). От небольшого хакатона единомышленников за пять лет мероприятие выросло до масштабной конференции, которая в 2018 году объединила 70 экспертов и более 300 участников. В 2019 году мероприятие по традиции пройдет…

Инфокультура подводит итоги и поздравляет с наступающим Новым 2019 годом

Инфокультура подводит итоги 2018 года. Мы составили для вас дайджест с полезными ссылками, где представили все основные результаты проектов. Госфинансы Проект КГИ “Госзатраты” запустил бета-тестирование раздела “Субсидии”, в котором можно получить данные о всех федеральных субсидиях, их распределителях и получателях. Мы разработали несколько новых аналитических инструментов: расширение для браузера Google Chrome для получения данных о госзаказчиках в один клик; телеграм-бот (@csDownloaderBot) и скрипт для выгрузки контрактов по заданным параметрам, телеграм-бот для получения статистики об участнике госзаказа по ИНН; телеграм-канал с самыми дорогими контрактами по отраслям (@clearspending); а также “научили” читателей, как “быстро разбогатеть на госзакупках”, выпустив перевод англоязычного руководства; подготовили…

Госзатраты: Телеграм-бот для получения данных о госконтрактах

Проект КГИ «Госзатраты» разработал телеграм-бота и скрипт для быстрой выгрузки контрактов по заданным параметрам. Чаще всего к нам поступают запросы исследователей и журналистов на подготовку разных выборок данных. Например, “прислать все контракты Ленинградской области за 2017 год”, “найти все контракты на закупку молока по 44-ФЗ” или “выгрузить контракты дороже 1 млрд рублей”. Теперь нужные вам данные вы можете выгружать самостоятельно, используя телеграм-бот или запуская скрипт в командной строке. Для получения интересующих данных нужно заполнить файл-шаблон параметрами (можно указать, например, регион, ФЗ, диапазон суммы, диапазон дат заключения контрактов и т.д.), отправить его телеграм-боту @csdownloaderbot и указать почту, на которую будут отправлены…