Приложение предназначено для автоматического реферирования текста.
Введение Часто при работе с большими объемами информации возникает необходимость ознакомления с кратким содержанием для выяснения целесообразности детального изучения. В текстовых работах для этого служат рефераты и аннотации. Однако они есть не для всех текстов. В таком случае остается или выборочное изучение материала или использование программ автоматического реферирования и аннотирования. Выборочное ручное изучение требует времени, поскольку не всегда возможно определить всё важное содержание. Системы автоматического реферирования позволяют очень быстро проанализировать даже большие тексты. При этом некоторые алгоритмы не уступают в точности человеку. В данной работе рассматриваются различные алгоритмы реферирования, и на основе одного из алгоритмов разрабатывается компьютерная программа.
Обзор предметной области и постановка задачи⦁ Постановка задачиЦелью данной работы является разработка приложения для автоматического реферирования и аннотирования текста. Для достижения данной цели необходимо решить следующие задачи:⦁ изучить различные алгоритмы реферирования текстов;⦁ спроектировать приложение;⦁ реализовать в приложении выбранный алгоритм;⦁ проверить его работоспособность;⦁ составить документацию для пользователя.Приложение должно быть разработано на языке С# в среде Visual Studio. Приложение должно иметь оконный, интуитивно понятный интерфейс, работать на современных компьютерах в операционной системе Windows. Реферирование должно по возможности не требовать участие пользователя, работать с различными языками, быть улучшаемым.
⦁ Изучение предметной областиРеферирование текстов – это процесс выделения наиболее важной информации из текста для создания новой сокращенной версии документа, исходя из конкретной цели. Основными типами резюме являются:
⦁ основные положения любого документа,
⦁ аннотации научных трудов,
⦁ краткое содержание новостных рубрик,
⦁ сниппеты – небольшие фрагменты исходного текста, содержащие слова запроса пользователя и используемые поисковыми системами для описания ссылок,
⦁ краткое содержание email переписки,
⦁ сжатие предложений для упрощения и сокращения размера текста,
⦁ генерация ответов на сложные вопросы при помощи краткого содержания нескольких документов.
В данной работе основными являются два подхода к реферированию: упрощение предложений и выделение основных наиболее информативных предложений.
В ходе данной работы были изучены способы и алгоритмы реферирования текстов. Для реализации был выбран алгоритм TF+IDF и Позиция. TF+IDF определяет важность предложения на основе частот слов входящих в него. Для выделения тематических слов частоты сравниваются с частотами в корпусе текста, также удаляются стоп-слова. Алгоритм позиции является дополнением и изменяет рассчитанную значимость в зависимости от расположения предложения в тексте. Поскольку считается, что наиболее важные мысли находятся в начале текста. На основе этих алгоритмов было разработано приложение для автоматического реферирования. К приложению было составлено руководство пользователя.Комментарий от разработчика:Использовал алгоритм TF+IDF+ Позиция из документа http://seminar.at.ispras.ru/wp-content/uploads/2012/07/Pavlovic-thesis.pdf Т.е. коротко, чем чаще слово встречается, тем оно важнее (но учитываем только те слова, которые встречаются чаще, чем в корпусе), и чем выше предложение, тем оно важнее. Корпус слов для сравнения взял отсюда http://opencorpora.org/?page=downloads Для примера текста скачал статью с гиктаймса в файл example.txt, в программе открываем его. Подойдет любой текст на русском в файле txt.
Блок-схема:
Содержание:
Содержание архива
- исходный код на C# WinForms для Visual Studio
- Пояснительная записка (22 страницы)
- Исходники блок-схем и диаграмм классов
klausms