Социальные сети

Выделение предложений из сплошного текста – процедура необходимая для дальнейшего анализа текста в любой системе анализа естественных языков.


Что такое предложение?

Первый ответ на этот вопрос – это что-то, заканчивающееся на символы «.», «!», или «?». Но если рассмотреть встречающиеся тексты более внимательно, то можно обнаружить, что «.» используется не только для определения конца предложения, но и для аббревиатур и сокращений, а иногда выполняет обе эти роли. Вне зависимости от этого точка в 90% случаев является индикатором конца предложения (Riley 1989).

Но есть исключения знать о которых необходимо: иногда другие знаки пунктуации используются для выделения фрагментов, которые мы могли бы идентифицировать как предложения. Иногда эти фрагменты выделяются с одной стороны (а иногда с обеих сторон) такими знаками как «:», «;» и «-», как например в этом простом примере:

«Сцена была написана быстро и качественно: автор находился в хорошем расположении духа, находясь в Венеции»

Другая проблема, связанная с практикой набора текстов во многих организациях, заключается в помещении закрывающих знаков кавычек после знака точки – т.е. кавычки должны быть включены в состав предложения.

На основе этой информации многие системы разрабатывают свои алгоритмы выделения предложений, но большинство похожи на такой:

  1. Поместить признак окончания предложения после всех вхождений «.», «!» и «?» (а может и после «:», «;» и «-»)
  2. Передвинуть признак окончания предложения после закрывающей кавычки, если таковая существует.
  3. Убрать признак окончания предложения в следующих случаях:

    1. Если предыдущее слово – известное сокращение, использование которого не предполагается в конце предложения, например «проф.», «ул.», «д.»
    2. Если предыдущее слово – известное сокращение, но за которым не следует слово с заглавной буквы, например: «т.д.», «мл.».
  4. Убрать признак окончания предложения после «?» и «!» в случаяе, если за ними следуют слова без заглавной буквы.

Но такие правила (с небольшими изменениями) действуют не во всех информационных доменах – при изменении правил оформления документов или наборного персонала требуется вносить изменения для повышения качества выделения предложений.

Существуют разработки связанные с использованием статистических данных для вычисления предложений. Riley использовал статистическое дерево классификации для определения границ предложения. Для этого он использовал параметры длин и регистра слов, предшествующих окончанию предложения (хотя для создания этого дерева потребовался довольно большой объём размеченных данных). Хотя есть и другие наработки, с которыми можно познакомиться в Интернете, основанные на нейро-сетях и расчёте энтропии, которые дают точность определения границ предложения 98-99% и 99,25% соответственно.

Литература:

  • Riley, Michael D. 1989. «Some applications of tree-based modeling to speech and language indexing». In Proceedings of the DARPA Speech and Natural Language Workshop, pp. 339-352. Morgan Kaufmann


Вам это будет интересно!

  • Синтаксический анализ. СГГ. Часть 1


  • Последние новости


    Шаг 5. Выбираем фирменное наименование организации

    Если вы собираетесь регистрировать новое юридическое лицо, то перед вами неизбежно встают необходимость выбора его названия и ряд сопутствующих вопросов. Следует ли проверять выбранное наименование организации на уникальность перед подачей документов на регистрацию? Можно ли зарегистрировать компанию с таким же наименованием, как и у другой, уже существующей орган...
    Читать далее »

    Шаг 4. Выбор системы налогообложения

    Действующее налоговое законодательство позволяет налогоплательщику в некоторых случаях значительно уменьшить сумму уплачиваемых налогов путем грамотного выбора режима налогообложения. Выделяют общий режим налогообложения и специальные налоговые режимы, которые следует отличать от льготных режимов. При применении общего режима налогообложения налог...
    Читать далее »

    Аренда помещений

    Самым тесным образом с фактическим адресом организации связана Аренда Ею помещений, необходимых для налаживания выбранных видов деятельности. Для деятельности любой организации необходимо помещение. Однако недвижимость стоит сейчас очень дорого, и лишь немногие организации в состоянии приобрести помещение в собственность. В связи с этим значительная част...
    Читать далее »

    Шаг 3. Выбираем место нахождения организации

    МЕСТО НАХОЖДЕНИЯ ОРГАНИЗАЦИИ, ЕЕ ЮРИДИЧЕСКИЙ, ФАКТИЧЕСКИЙ И ПОЧТОВЫЙ АДРЕСА В ГК РФ приведено понятие «место нахождения юридического лица» – так называемый юридический адрес, официально зарегистрированный в ЕГРЮЛ. Однако юридическое лицо может располагаться и по другому адресу – фактическому. В гражданском законодательстве не содержит...
    Читать далее »

    Карточка

    С образцами подписей и оттиска печати ...
    Читать далее »

    Форма

    Документа, подтверждающего наличие лицензии Приложение 26 СЕРТИФИКАТ СООТВЕТСТВИЯ ...
    Читать далее »

    Уведомление

    О регистрации юридического лица в территориальном органе Пенсионного фонда Российской Федерации по месту нахождения На территории Российской Федерации Приложение 22 Свидетельство О регистрации страхователя в территориальном фонде Обязательного медицинского страхования При обязательном мед...
    Читать далее »