Category:ГОСТ СИИ в клинической медицине (Часть 5 Наборы данных) (Проект)

From Стандартопедия
Jump to navigation Jump to search

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

Системы искусственного интеллекта

Системы искусственного интеллекта в клинической медицине.

Часть 5. Требования к структуре и порядку применения набора данных для обучения и тестирования алгоритмов

Тексты из тезауруса Стандартопедии

3. Термины и определения

аналитическая валидация (analytical validation): измерение способности систем искусственного интеллекта точно и достоверно формировать предполагаемые технические результаты вычислений из входных данных. Характеризуется уровнями безошибочности, повторяемости и воспроизводимости.


верифицированный набор данных (ground truth): набор данных с верифицированной медицинской информацией.


верификация: подтверждение на основании представления объективных свидетельств того, что в процессе формирования набора данных были выполнены установленные требования.


де-идентификация (обезличивание, анонимизация, де-персонификация) (de-identification): общее название любого процесса удаления связи между совокупностью идентифицирующих данных и субъектом данных.  

[ГОСТ Р 55036-2012 ISO/TS 25237:2008, п. 3.18]


клиническая валидация (clinical validation): измерение способности СИИ выдавать клинически значимые выходные данные, связанные с целевым использованием выходных данных СИИ, заданных в инструкции по применению СИИ.

Примеры показателей клинической валидации — чувствительность, специфичность, точность


клинические испытания (clinical trial): разработанные и запланированные испытания, проводимые для оценки эффективности СИИ.

[ГОСТ Р ИСО 14155-2014, пункт 3.6, с изменениями]


контроль доступа (access control): Средства, с помощью которых ресурсы системы обработки данных предоставляются только авторизованным субъектам в соответствии с установленными правилами.

[ИСО/МЭК 2382-8:1998, определение 08.04.01]


метаданные (metadata): Информация о наборе данных, являющаяся средством для классификации, упорядочивания и описания данных.

Примечания

Метаданные бывают трёх типов:

- описательные (служат для обнаружения, сбора или группирования данных по общим для них характеристикам);

- структурные (определяют состав или организацию набора данных);

- административные (используются для управления базой данных).


мониторинг (monitoring): деятельность, связанная с наблюдением для проверки того, что данные испытания проводятся и записываются, а отчет формируется в соответствии с программой испытаний, документированными процедурами, настоящим стандартом и применимыми регулирующими требованиями.

[ГОСТ Р 14155—2014, п. 3.29, с изм.]


набор данных: Упорядоченная совокупность данных и соответствующих им метаданных, организованных по определенным правилам.

Примечания

1  В зависимости от цели применения набор медицинских данных может быть представлен следующими типами данных: диагностическими изображениями, записями биомедицинских сигналов, текстовыми записями из медицинских документов, результатами генетических тестов и др.

2  В зависимости от цели применения, а также типа медицинских данных, метаданные могут содержать сведения о наличии или отсутствии патологических изменений, локализации и характере патологии, информации о верификации и принадлежности к одному из классов, извлеченных из неструктурированных записей признаков, иных связанных данных и т.п.


обеспечение качества (quality assurance (QA)): Совокупность систематических и планомерных действий, которые имеют целью обеспечить соответствие проведения исследования, сбора, регистрации и представления данных надлежащей клинической практике и нормативным требованиям

[ГОСТ Р 52379-2005, пункт 1.34]


обучающая выборка (training sample): Выборка, по которой производится настройка (оптимизация) параметров СИИ.


проверочная выборка (validation sample): Выборка, по которой осуществляется выбор наилучшей модели из множества моделей, построенных по обучающей выборке.


размерность набора данных: количество атрибутов, которые имеют объекты в наборе данных (например, значение кровяного давления, масса тела пациента, уровень холестерола и др.).


разметка (аннотация) данных:  этап обработки структурированных и неструктурированных данных, в процессе которого данным (в том числе текстовым документам, фото- и dидеоизображениям) присваиваются идентификаторы, отражающие тип данных (классификация данных), и(или) осуществляется интерпретация данных для решения конкретной задачи, в том числе с использованием CИИ.


разреженность набора данных: доля атрибутов в наборе данных, содержащих недостающие, неизвестные либо нулевые значения.


сбор данных: процесс объединения данных, поступающих из одного или более источников, в целях их использования в вычислительной машине.

[ГОСТ 33707―2016, п. 4.1218]


система искусственного интеллекта (artificial intelligence system): Техническая система, в которой используются технологии искусственного интеллекта.


система менеджмента качества: Организационная структура, функции, процедуры, процессы и ресурсы, необходимые для скоординированной деятельности по руководству и управлению организацией – производителем медицинских изделий применительно к качеству.


тестовая (контрольная) выборка (test sample): Выборка, по которой оценивается качество построенной модели.


4. Обозначения и сокращения

В настоящем стандарте применены следующие обозначения и сокращения:

МО ― медицинская организация;

НПА ― нормативно-правовые акты;

СИИ ― система искусственного интеллекта;

СМК ― система менеджмента качества.

6. Рекомендуемые этапы подготовки набора данных

Рекомендуемые этапы подготовки набора данных

Подготовка набора данных должна состоять из набора процедур, выполнение которых позволяет достигнуть цели обучения и тестирования системы искусственного интеллекта (СИИ) с обеспечением качества набора данных.

В данном стандарте рассматривается процесс подготовки набора данных, который может быть изменен в условиях конкретных задач (рис. 3).


1. Постановка цели и задач

2. Получение одобрения комитета по этике

3. Организация доступа к данным

4. Сбор данных

5. Де-идентификация

6. Структурирование набора данных

7. Разметка (аннотация)

8. Организация хранения и доступа к набору данных

?. Государственная регистрация верифицированного набора данных


Рисунок 3 – Процесс подготовки набора данных для обучения и тестирования СИИ


6.1 Определение целей

Должна быть определена цель формирования набора данных, только тогда можно оценить, является ли доступ к данным или другая деятельность по их обработке допустимыми:

― какие данные допустимо собирать;

― как их следует использовать (применительно к каким задачам);

― кому их следует раскрывать (доступ третьими лицами);

― в течение какого времени они должны быть доступны.

Цели формирования набора данных могут быть разными, включая обучение СИИ; выполнение тестирования на этапе разработки СИИ; выполнение валидации СИИ.


6.2 Постановка задачи

Постановка задачи подготовки набора данных должна включать определение предметной области и выбор методов обработки. Задача подготовки набора данных должна быть определена проблемой, на решение которой направлено создание СИИ, классом СИИ или целью проведения тестирования, классификацией СИИ, а также задачей для СИИ (кластеризация, регрессия, рейтинг и др.).


6.3

Получение одобрения комитета по этике

Рекомендуется получить одобрение локального комитета по этике для сбора данных или использования де-идентифицированных данных с целью подготовки набора данных для обучения и тестирования СИИ.


6.4 Организация доступа к набору данных

Медицинская организация (МО), выполняющая подготовку набора данных, должна обеспечить доступ к требуемым данным, находящимся в медицинской информационной системе с возможностью выполнений операций поиска, чтения и сбора данных. Процесс организации доступа должен быть задокументирован, должны быть обеспечены процессы защиты данных, в том числе персональной информации согласно действующим нормативно-правовым актам (НПА). Организация доступа должна обеспечивать скорость передачи данных, соответствующую целям и задачам такого доступа.

6.5 Сбор данных

Возможны два подхода к формированию наборов данных, в зависимости от поставленной цели:

а) представление медицинских данных (феноменов, синдромов, заболеваний, исходов), отражающее максимальную вариативность (то есть и частые, и редкие случаи представлены в одинаковом объеме). Данный подход должен быть применен в ходе формирования набора данных для аналитической валидации СИИ;

б) представление медицинских данных (феноменов, синдромов, заболеваний, исходов) согласно их частоте встречаемости, претестовой вероятности, заболеваемости, распространенности в популяции. Данный подход должен быть применен в ходе формирования набора данных для клинической валидации СИИ.


Принцип сбора данных для аналитической валидации:

― соотношение «норма»/«патология» или разные заболевания в наборе данных должны быть представлены в одинаковом объеме;

― при формировании набора данных следует использовать данные из разных МО и разных моделей/производителя оборудования. Это необходимо для снижения систематической ошибки, так как  невключение в набор данных элементов, получаемых, например, на какой-либо модели оборудования, может привести к ограничениям в процессе использования набора данных;

― планируемый размер набора данных должен быть обоснован в документации на проведение обучения СИИ или испытаний, исходя из статистических соображений и желаемой точности оценки основных метрик;

― МО должна иметь возможность самостоятельного формирования наборов данных для независимой аналитической валидации моделей СИИ без применения наборов, использованных в обучении и тестировании моделей.

Принцип сбора данных для обучения СИИ соответствует принципам сбора данных для аналитической валидации.



Принцип сбора данных для клинической валидации:

―  соотношение «норма»/«патология» или разные заболевания в наборе данных должны соответствовать распространенности целевой патологии в популяции (например, при редкой патологии с частотой встречаемости менее 1 % возможно увеличение объема патологии);

―  при формировании набора данных используют данные из разных МО и разных моделей/производителя оборудования. Это необходимо для снижения систематической ошибки, так как невключение в набор данных элементов, получаемых, например, на какой-либо модели оборудования, может привести к ограничениям в процессе использования набора данных;

―  демографические, социально-экономические характеристики и основные показатели здоровья пациентов (репрезентативная выборка), чьи данные включаются в набор данных, должны соответствовать усредненным характеристикам популяции территории, на которой планируется использование СИИ;


6.6 Де-идентификация (обезличивание)

С целью применения набора данных для обучения и тестирования СИИ элементы набора данных не должны содержать какую-либо персональную информацию согласно действующим НПА. Любая персональная информация должна быть удалена как из метаданных, так и из исходных данных.

Рекомендуется проводить также удаление из данных номера полиса обязательного медицинского страхования застрахованного лица, наименования МО, фамилии, имени, отчества пациента, места проживания, сведений о замене даты рождения и даты исследования на точный возраст (годы, месяцы) на момент исследования. Также должны быть удалены любые иные идентификаторы, с помощью которых потенциально возможно установить личность пациента [1].

Де-идентификация данных должна быть произведена в МО, в которой было проведено медицинское исследование, при условии наличия согласия пациента на обработку его персональных данных, включая де-идентификацию (обезличивание).

Примечание ― Пример: де-идентификации метаданных изображений в формате DICOM проводится в соответствии с ГОСТ Р ИСО 17432―2009.


6.7 Структурирование набора данных

Подготовленные наборы данных могут быть структурированы посредством выделения признаков. В процессе структурирования снижают размерность набора данных, оставляя достаточный список атрибутов для точного и полного описания элементов набора данных, что будет способствовать последующему обобщению шагов и проведению качественной разметки (аннотации) данных.


6.8 Разметка (аннотация) данных

1 Общие требования Существующая классификация выполняемых разметок (аннотации) данных приведена в п. 5.1, решение о выборе вида разметки выполняется на этапе постановки цели и задачи формирования набора данных.

Существует ряд подходов к аннотации медицинских данных:

1.  Наиболее распространённым является полуструктурированное текстовое описание визуальных наблюдений с указанием содержащих их анатомических объектов и типов нарушений.  

Пример: легочная паренхима: увеличивающееся образование размером 2,3 × 2,7 см, прилегающее к малой трещине в правой средней доле.

По причине возможных вариаций в используемой терминологии и структуре описаний, а также ориентировочной локализации наблюдений, автоматический поиск по таким аннотациям, а также использование их СИИ осложнены и малоэффективны.

2. Структурированная аннотация, в некоторых случаях с использованием заранее оговоренного набора терминов, для снижения вариабельности интерпретаций визуальных наблюдений. Структурированная аннотация может быть сопровождена конкретизированной информацией о локализации наблюдений, которую могут выполнять с разным уровнем точности и детализации:

а) с грубой локализацией ― приблизительное обозначение координат объектов интереса посредством задания ограничивающего параллелепипеда или эллипсоида;

б) с полной сегментацией на основе маски минимальных элементов, обозначающей положение объекта интереса на фоне остальной части данных.

Структурированная аннотация предпочтительна с точки зрения автоматизированного анализа больших наборов данных, являющегося основным сценарием методов машинного обучения.

Стандартизированные методы аннотации приведены в приложении В.

2 Первичная разметка

В рамках проведения первичной разметки необходимо отметить и охарактеризовать все целевые структуры в подготовленном наборе данных.

Первичная разметка должна быть выполнена в соответствии с установленными регламентами, характеризующими доступ к данным, используемые программные средства и методы разметки, а также шаблон выполнения аннотации элементов набора данных.

3 Экспертная валидация

Экспертную валидацию следует выполнять с привлечением экспертной группы в целях проверки и корректировки результатов первичной разметки.

Существует две группы экспертных оценок:

  • Индивидуальные оценки основаны на использовании мнения отдельных экспертов, независимых друг от друга.
  • Коллективные оценки основаны на использовании коллективного мнения экспертов.

Основные этапы обработки экспертных оценок:

  • определение компетенции экспертов;
  • определение обобщенной оценки;
  • построение обобщенной ранжировки объектов в случае нескольких оцениваемых объектов или альтернатив;
  • определение зависимостей между ранжировками;
  • оценка согласованности мнений экспертов. При отсутствии значимой согласованности экспертов необходимо выявить причины несогласованности (наличие групп) и признать отсутствие согласованного мнения (ничтожные результаты);
  • оценка ошибки исследования;
  • построение модели свойств объекта (объектов) на основе ответов экспертов (для аналитической экспертизы);
  • подготовка отчета (с указанием цели исследования, состава экспертов, полученной оценки и анализа результатов).

6.9 Организация хранения и доступа к верифицированному набору данных

1 Метаданные

Метаданные применяют для классификации, упорядочения и описания данных.

Метаданные должны быть составлены согласно принципам, содержащим базовые принципы улучшения возможностей поиска, обеспечения доступа к данным, их совместимости и повторного использования данных [4].

При аннотировании медицинских данных необходимо использовать библиотеки типовых формулировок (тезаурусы).

Список рекомендуемых метаданных для хранения медицинских изображений приведен в приложениях А, Б.

2 Организация хранения набора данных

Данные необходимо передавать либо в локальное хранилище (одноцентровое исследование), либо во внешнее хранилище данных (многоцентровое исследование). Хранение данных может быть организовано на локальном сервере или с использованием облачного хранения (ГОСТ Р ИСО/МЭК 17826―2015). При этом доступность и безопасность обеспечивают на лучшем уровне при использовании локального сервера; совместное использование данных и резервное копирование возможно при использовании облачного хранения.

3 Доступ к верифицированному набору данных

Согласно ГОСТ Р ИСО 27799―2015, статистические и научные данные, включая де-идентифицированные (обезличенные) данные, полученные посредством удаления идентифицирующих данных из персональной медицинской информации, должны быть защищены.

Должны быть установлены стандартные процедуры доступа к набору данных для третьих лиц, закрепленные в документе о политике по защите информации. При организации доступа к набору данных необходимо подписывать соглашение с МО, формирующей наборы данных. 6.10 Государственная регистрация верифицированного набора данных

Набор медицинских данных для дальнейшего применения должен пройти процедуру государственной регистрации в качестве результата интеллектуальной деятельности. Процедура регистрации выполняется согласно действующим НПА.


8. Система менеджмента качества при разработке и применении набора данных

8.4 Контроль качества

Контроль качества при подготовке набора данных

Формирование набора данных должно быть спланировано и подвержено мониторингу и управлению для обеспечения соответствия качества.

Работой группы может руководить модератор, который не принимает участие в разметке и/или аннотировании, но будет регулировать срочность, очередность и объем работы между экспертами. Зона ответственности модератора ― формирование рабочей группы для обеспечения объективности и достоверности результата.  

Должны быть применены методы оценки качества набора данных, по которому будет производиться разметка:

― проверка отсутствия пропусков элементов в наборе данных;

― проверка отсутствия некорректных элементов для решения поставленных задач;

― проверка качества элементов набора данных рекомендованным критериям профессионального медицинского сообщества.


Приложение А (справочное) Рекомендованный список метаданных для хранения верифицированного набора медицинских изображений

Приложение А

(справочное)

Рекомендованный список метаданных для хранения верифицированного набора медицинских изображений

А.1 Тип изображения:

― модальность;

― разрешение;

― общее число изображений и по сериям.

А.2 Число исследований.

А.3 Источники исследований.

― оборудование.

― типы оборудования.

― МО.

А.4 Параметры сканирования изображений

А.5 Параметры хранения изображений:

― формат данных;

― уровень и тип сжатие данных.

А.6 Аннотация (разметка):

― тип;

― что описано и как;

― привлеченная экспертная группа.

А.7 Контекст.

А.8 Как определена истинная разметка и промаркирована.

А.9 Связанные данные:

― демографические;

― клинические;

― лабораторные;

― геномные;

― временные;

― принимаемые препараты (лекарства);

― другие.

А.10 Временной диапазон сбора изображений (дата и время исследования).

А.11 Использование данных:

― какое программное обеспечение использовать для просмотра данных.

А.12 Кому принадлежат данные.

А.13 Кто ответственен за данные.

А.14 Допустимое использование.

А.15 Назначение набора данных.

А.16 Информация об одобрении комитета по этике.

А.17 Информация о де-идентификации набора данных.

А.18 Информация о проведенном контроле качества набора данных.

А.19 Параметры доступа:

― доступность;

― цена и лицензионные соглашения.

А.20 Распределение случаев (если применимо):

― % норма/патология (код МКБ);

― данные патологии: число исследований с каждой патологией.


Приложение Б (справочное) Рекомендованный список метаданных для хранения верифицированного набора физиологических данных

Приложение Б

(справочное)

Рекомендованный список метаданных для хранения верифицированного набора физиологических данных

Б.1 Параметры регистрации данных:

― модальность;

― длительность (продолжительность) регистрации;

― разрешение;

― частота дискретизации;

― частотный диапазон регистрации (диапазон пропускания сигнала);

― динамический диапазон;

― разрядность аналого-цифрового преобразователя;

― наличие калибровочных сигналов;

― количество и маркировка каналов (отведений), если в разных отведениях (каналах) регистрируются разные модальности ― указать;

― схемы монтажей отведений ― указать;

― в случае выполнения функциональных проб ― указать действующий агент, протокол применения.

Б.2 Число исследований.

Б.3 Источники исследований:

― оборудование;

― типы оборудования;

― МО.

Б.4 Параметры хранения данных:

― формат данных;

― уровень и тип сжатия данных;

Б.5 Аннотация (разметка):

― тип;

― использованный словарь или тезаурус.

Б.6 Контекст.

Б.7 Связанные данные:

― демографические;

― клинические;

― лабораторные;

― других инструментальных методов исследования;

― геномные;

― принимаемые препараты (лекарства);

― результаты хирургического лечения;

― другие.

Б.8 Временной диапазон:

― дата и время исследования.

Б.9 Использование данных:

― какое программное обеспечение использовать для просмотра данных.

Б.10 Кому принадлежат данные.

Б.11 Кто ответственен за данные.

Б.12 Допустимое использование.

Б.13 Назначение набора данных.

Б.14 Информация об одобрении комитета по этике.

Б.15 Информация о де-идентификации набора данных.

Б.16 Информация о проведенном контроле качества набора данных.

Б.17 Параметры доступа:

― доступность;

― цена и лицензионные соглашения.

Б.18 Распределение случаев (если применимо):

― % норма/ патология (код МКБ);

― данные патологии: число исследований с каждой патологией.