Автоматическое реферирование текста

Приложение предназначено для автоматического реферирования текста.

Введение Часто при работе с большими объемами информации возникает необходимость ознакомления с кратким содержанием для выяснения целесообразности детального изучения. В текстовых работах для этого служат рефераты и аннотации. Однако они есть не для всех текстов. В таком случае остается или выборочное изучение материала или использование программ автоматического реферирования и аннотирования. Выборочное ручное изучение требует времени, поскольку не всегда возможно определить всё важное содержание. Системы автоматического реферирования позволяют очень быстро проанализировать даже большие тексты. При этом некоторые алгоритмы не уступают в точности человеку. В данной работе рассматриваются различные алгоритмы реферирования, и на основе одного из алгоритмов разрабатывается компьютерная программа.

⦁ Обзор предметной области и постановка задачи⦁ Постановка задачиЦелью данной работы является разработка приложения для автоматического реферирования и аннотирования текста. Для достижения данной цели необходимо решить следующие задачи:⦁ изучить различные алгоритмы реферирования текстов;⦁ спроектировать приложение;⦁ реализовать в приложении выбранный алгоритм;⦁ проверить его работоспособность;⦁ составить документацию для пользователя.Приложение должно быть разработано на языке С# в среде Visual Studio. Приложение должно иметь оконный, интуитивно понятный интерфейс, работать на современных компьютерах в операционной системе Windows. Реферирование должно по возможности не требовать участие пользователя, работать с различными языками, быть улучшаемым.

⦁ Изучение предметной областиРеферирование текстов – это процесс выделения наиболее важной информации из текста для создания новой сокращенной версии документа, исходя из конкретной цели. Основными типами резюме являются:

⦁ основные положения любого документа,

⦁ аннотации научных трудов,

⦁ краткое содержание новостных рубрик,

⦁ сниппеты – небольшие фрагменты исходного текста, содержащие слова запроса пользователя и используемые поисковыми системами для описания ссылок,

⦁ краткое содержание email переписки,

⦁ сжатие предложений для упрощения и сокращения размера текста,

⦁ генерация ответов на сложные вопросы при помощи краткого содержания нескольких документов.

В данной работе основными являются два подхода к реферированию: упрощение предложений и выделение основных наиболее информативных предложений.

В ходе данной работы были изучены способы и алгоритмы реферирования текстов. Для реализации был выбран алгоритм TF+IDF и Позиция. TF+IDF определяет важность предложения на основе частот слов входящих в него. Для выделения тематических слов частоты сравниваются с частотами в корпусе текста, также удаляются стоп-слова. Алгоритм позиции является дополнением и изменяет рассчитанную значимость в зависимости от расположения предложения в тексте. Поскольку считается, что наиболее важные мысли находятся в начале текста. На основе этих алгоритмов было разработано приложение для автоматического реферирования. К приложению было составлено руководство пользователя. Комментарий от разработчика:Использовал алгоритм TF+IDF+ Позиция из документа http://seminar.at.ispras.ru/wp-content/uploads/2012/07/Pavlovic-thesis.pdf Т.е. коротко, чем чаще слово встречается, тем оно важнее (но учитываем только те слова, которые встречаются чаще, чем в корпусе), и чем выше предложение, тем оно важнее. Корпус слов для сравнения взял отсюда http://opencorpora.org/?page=downloads Для примера текста скачал статью с гиктаймса в файл example.txt, в программе открываем его. Подойдет любой текст на русском в файле txt.

Содержание архива

  • исходный код  на C# для Visual Studio 2010
  • Пояснительная записка
  • Исходники блок-схем и диаграмм классов

Присоединяйся

Зарегестрируйся с помощью социальных сетей.

Публикуй

Опиши работу, прикрепи файлы и назначь цену.

Зарабатывай

Получай пассивный доход с продажи работ.

Тебе понадобится 5 минут для публикации работы на сайте.
Купить

1160,00 

(без учета комиссии 3,8 %)

RefAn.zip
5282327
Оцени работу

рейтинг

Поделись работой с друзьями

Мы не грузим циферки, чтоб ты увидел контент как можно быстрее;

Комментарии (0)

klausms

/ /

Оставить комментарий

Ты не можешь комментировать

Только зарегестрированые пользователи имеют возможность комментировать работы
Автоматическое реферирование текста
Часто при работе с большими объемами информации возникает необходимость ознакомления с кратким содержанием для выяснения целесообразности детального изучения. В текстовых работах для этого служат рефераты и аннотации. Однако они есть не для всех текстов. В таком случае остается или выборочное изучение материала или использование программ автоматического реферирования и аннотирования. Выборочное ручное изучение требует времени, поскольку не всегда возможно определить всё важное содержание. Системы автоматического реферирования позволяют очень быстро проанализировать даже большие тексты. При этом некоторые алгоритмы не уступают в точности человеку. В данной работе рассматриваются различные алгоритмы реферирования, и на основе одного из алгоритмов разрабатывается компьютерная программа.
Категория: Образование
Стоимость: 1160,00