Talk:Методика автоматического создания машиночитаемого представления текстов

From Стандартопедия
Revision as of 16:28, 24 August 2020 by Emeshkova (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to navigation Jump to search

Обсуждение формализованных предложений для улучшения работы алгоритма выделения сущностей на страницах в Wiki

Абзацы по тексту в wiki, как в Worde

Предложение - рассмотреть возможность реализации в Wiki автоматического проставления абзацев по тексту во избежание ручного проставления в больших документах

Это конечно должно делаться автоматически, скорее всего это результат неправильной технологии преобразования ворда. Я проверю. Victor Agroskin (Vvagr) (talk) 15:46, 21 August 2020 (MSK) Спасибо, Виктор! Emeshkova (talk) 16:42, 21 August 2020 (MSK)

Работа алгоритма по выделению сущностей

Алгоритм на примере Порядка сообщения о неблагоприятных событиях (МИ) выделяет слишком много сущностей

Что нужно сделать, чтобы количество выделяемых сущностей не было избыточным в конкретном документе (акте) (?)

Алгоритмов должно быть два, как минимум, для разного уровня документов (актов). Для Законопроектов - один алгоритм. Для подзаконных актов - другой алгоритм. Почему ? Потому что сущность "медицинские изделия" как выделяемая сущность нужна в законе, но не нужна как выделяемая сущность в акте нижнего уровня - подзаконном акте, так как подзаконные акты регулируют медицинские изделия, и "медицинские изделия" зависимостей, подлежащих обсуждению экспертами, в подзаконных актах не имеют. Вывод - повторяющиеся существительные из алгоритма работы необходимо убирать, повторение существительных может означать то, что существительные транслируются из акта верхнего уровня, и в обсуждаемом акте значения не имеют.

Возможно, в алгоритме нужно предусмотреть автоматическую сверку текста документа (акта) при выделении сущностей с актом верхнего уровня, и все существительные, которые есть в акте верхнего уровня, не выделять в тексте документа (акта) в качестве сущностей. Следовательно, те существительные в акте, которые не совпали с существительными в акте верхнего уровня, необходимо выделять как сущности, исходя из принципов работы алгоритма.

Не совсем так. В актах нижнего уровня сущности из актов верхнего уровня повторяются не просто так, там содержатся некие нормы и требования, к ним относящиеся. Поэтому сущности из актов верхнего уровня должны распознаваться в актах более низкого уровня, и ссылка должна ставиться именно на них. Victor Agroskin (Vvagr) (talk) 15:46, 24 August 2020 (MSK) Emeshkova (talk) 16:27, 24 August 2020 (MSK)Возможно, но чрезмерно "красного" в актах подзаконного уровня быть не должно. Нужно ограничивать отнесение этих норм из актов верхнего уровня к акту нижнего уровня. Так как мы пока не знаем как ограничивать отнесение, исходя из возможной полезности, предлагаю повторяющиеся слова из акта верхнего уровня n = или больше 4 исключать, где n - количество повторов существительных в акте нижнего уровня в сравнении с актом верхнего уровня.

В алгоритмах для работы с нормативными документами необходимо исключить всякие "намеки" (парсера) на договорную тематику: даты, сроки, дни, года, случаи, причины, обстоятельства, обязанности, задачи и т.д. Для этого возможно загрузить справочник с договорной терминологией, делать сверку и убирать автоматом выделение тех сущностей, которые находятся в данном справочнике.

Также необходимо создать Единый справочник общеупотребительных слов, слов-связок, союзов и пр., которые не создают смысловой онтологической нагрузки в нормативных документах и договорах (если потребуется): причина, анализ, за исключением, правила, в рамках, последующий, следующий, реализация и т.д. Эти слова хорошо видны из сегодня загруженного документа (на странице) по Порядку сообщения о негативных событиях в МИ. Со справочником необходимо делать сверку, и автоматом лишние сущности будут убираться из текста, методом исключения из тех слов, которые есть в Справочнике.

Эти слова как раз во многом являются признаками отношений или логических связок. Из базовой разметки выделяемых сущностей их надо действительно исключать. Victor Agroskin (Vvagr) (talk) 15:46, 24 August 2020 (MSK)

Иерархическая структура юридических документов

Для того чтобы учесть в разметке терминов частотность и смысловую нагрузку, нужно как-то более детально конкретизировать структуру и иерархию законов и подзаконных актов. В википедии есть структура на странице: https://ru.wikipedia.org/wiki/Нормативный_правовой_акт Markveselov (talk) 16:57, 21 August 2020 (MSK) Марк, иерархия по этой ссылке правильная. Структура акта скорее всего Вам не нужна, нужна лингвистическая работа по классификаторам содержания определенных актов Emeshkova (talk) 17:48, 21 August 2020 (MSK)

А документы PDF возможно в Wiki загружать (?)

Только что загрузила документ PDF в чат WA, так как среди разрешенных форматов файлов загружаемых в wiki, формат .pdf не значится.

Евгения, загрузка PDF в вики не планируется, мы не будем превращать вики в библиотеку документов. В вики будут размещены только документы для моделирования, то есть это текстовые документы, предназначенные для дальнейшей разметки. Ссылки на PDF можно размещать, для этого PDF должен находиться на каком-то внешнем сайте. Victor Agroskin (Vvagr) (talk) 15:46, 21 August 2020 (MSK) Спасибо, Виктор! Emeshkova (talk) 16:42, 21 August 2020 (MSK)