Грандиозные планы Великобритании по обучению ИИ на государственных данных сталкиваются с серьезными препятствиями

ии Ndl данные Odi государственный сектор Dsit theregister.com

Надежды Великобритании на ИИ под угрозой: данные для Национальной библиотеки данных (NDL) непригодны. Агенты будут искать информацию в других местах, если официальные источники не приведут себя в порядок. — theregister.com

Надежды Великобритании на стимулирование передовых разработок и приложений в области искусственного интеллекта с помощью Национальной библиотеки данных (NDL) могут рухнуть, если не будут предприняты шаги для упрощения использования наборов данных.

Исследование, проведенное Институтом открытых данных (ODI), показало, что данные, доступные в настоящее время, с их вводящими в заблуждение названиями и отсутствующей метаинформацией, не могут служить основой для какого-либо значимого анализа.

В осеннем бюджете 2024 года правительство подтвердило планы по созданию NDL, пообещав исследователям и бизнесу «мощные идеи, которые будут способствовать росту и преобразовывать качество жизни людей посредством улучшения государственных услуг и передовых инноваций, включая ИИ». В январе был опубликован обновленный отчет, в котором говорилось, что этот план подкреплен инвестициями в размере 100 миллионов фунтов стерлингов в рамках 1,9 миллиарда фунтов стерлингов, выделяемых Департаменту науки, инноваций и технологий (DSIT) до 2028/29 года.

DSIT заявил, что завершил обширную фазу исследования для определения «наибольших возможностей и приоритетов» и «тестирования подходов к системной реформе» в государственном секторе.

Однако ODI опубликовал прототип «NDL-Lite» с доступом к более чем 100 000 общедоступных наборов данных. Исследование выявило, что некоторые наборы данных — особенно на data.gov.uk — плохо маркированы, устарели или фактически невидимы для инструментов ИИ. ODI предупредил, что когда авторитетные данные труднодоступны, системы ИИ обращаются к другим источникам, таким как новостные репортажи или коммерческие данные, которые не всегда предоставляют точную информацию.

Прототип собрал 38 ГБ данных из шести источников государственного сектора, обработав и стандартизировав более 100 000 файлов в единый ресурс. Хотя исследование показало, что NDL может быть создана при относительно низких затратах, оно также подчеркнуло объем работы, необходимой для того, чтобы сделать данные готовыми для ИИ.

Исследование показало, что даже общие термины, такие как «преступность», было трудно анализировать или отслеживать должным образом. Некоторые наборы данных с такой меткой представляли собой статистические отчеты местных органов власти, которые невозможно было объединить из-за отсутствия общих стандартов. Национальные наборы данных также оказались устаревшими или недоступными. Один крупный набор данных о преступности Министерства внутренних дел не обновлялся с 2018 года. Несмотря на наличие обновленной версии, доступ к ней через API, предоставляемый Управлением национальной статистики (ONS), невозможен.

Профессор Елена Симперл, директор по исследованиям в ODI, заявила The Register, что результаты подчеркивают растущий разрыв между объемом доступных государственных данных и их практической применимостью.

«Для статистики преступности ИИ-агенты затем пытались найти статистику преступности где-то еще. Если вы не обновляете свои данные, если ваша метаинформация невысокого качества и содержит много пропущенных значений, мы видели на наших экспериментах с созданным нами ИИ-агентом, что они просто обойдут доступные данные. Они пойдут в социальные сети и другие места, чтобы попытаться найти эту информацию в каком-нибудь отчете, потому что для них это намного проще», — сказала она.

«Национальная библиотека данных правительства имеет огромный потенциал, но большая часть данных, на которые она будет опираться, еще не пригодна для использования современными системами ИИ. Если это не изменится, существует риск того, что инструменты ИИ будут все больше полагаться на источники, которые легче доступны, а не на те, которые являются наиболее надежными».

Представитель правительства сообщил нам, что оно стремится «максимизировать выгоды от данных государственного сектора» в стремлении сделать услуги «более эффективными и способствовать росту экономики».

«Отражая эти выводы, мы уже проводим капитальный ремонт цифровой общественной инфраструктуры Великобритании в рамках нашей Дорожной карты по созданию современного цифрового правительства.

«Это включает в себя создание новой инфраструктуры, такой как Национальная библиотека данных, таким образом, чтобы обеспечить более легкий обмен и использование данных государственного сектора, модернизацию устаревших систем и введение нового руководства по безопасному и этичному использованию государственных данных».

Национальная библиотека данных — это новейший проект, призванный помочь исследователям и специалистам по данным находить все необходимые им общедоступные данные. Запущенная в 2004 году Служба безопасных исследований (SRS) предлагает курируемые, готовые к исследованиям наборы данных аккредитованным исследователям.

В 2020 году правительство планировало заменить эту систему Интегрированной службой данных (IDS) от ONS. Однако часть ее бюджета в размере 240,8 миллиона фунтов стерлингов была использована — с одобрения Казначейства Его Величества — для финансирования более общих расходов на технологии и данные, поскольку ONS изо всех сил пыталось избавиться от устаревших ИТ-систем. Финансирование IDS было фактически сокращено в марте, хотя существующие услуги продолжат быть доступными, в основном в рамках ONS, что не соответствует одной из основных целей.

NDL — это новый план национального обмена данными для поддержки исследований, машинного обучения и ИИ. Исследование ODI показывает объем работы, необходимой для того, чтобы этот проект не стал еще одной упущенной возможностью. ®

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: