СИМПЛІСТИЧНИЙ МЕТОД ТЕМАТИЧНОЇ ІДЕНТИФІКАЦІЇ НАТУРАЛЬНОМОВНОГО ТЕКСТУ НА ОСНОВІ РОЗПОДІЛУ КЛЮЧОВИХ ТЕРМІВ У ТЕКСТІ

A. A. Dehtiariov, T. A. Zaytseva

Анотація


Пропонується спосіб оцінки ступеня належності тексту до певної, наперед заданої тематики. Тематичний індекс розраховується як дійсне число та може бути використаний для порівняння з деяким пороговим значенням при визначенні тематичної сутності тексту. Підхід базується лише на припущенні, що задана множина характеристичних слів для оцінюваного тематичого напрямку. Запропонований метод має просту реалізацію, яка підходить як для розв’язку задач, де висока точність оцінки не є пріоритетною вимогою, так і для розв’язку більш складних задач, де даний метод може бути використаний у контексті попередньої оцінки тексту у багатоетапному процесі тематичної ідентифікації.


Ключові слова


обробка натуральних мов; тематична ідентифікація; розпізнавання тематичного напрямку; тематичний індекс; оцінка тематичної належності тексту; автоматична каталогізація текстів

Повний текст:

PDF

Посилання


Steyvers M., Griffiths T. Probabilistic topic models. / Latent Semantic Analysis: A Road to Meaning – University of California, Irvine, 2007. – Р. 1–15.

Andrzejewski D., Zhu X., Craven M., Recht B. A Framework for Incorporating General Domain Knowledge into Latent Dirichlet Allocation using First-Order Logic // IJCAI – 2011.

Dai M. A., Storkey A. J. The Grouped Author-Topic Model for Unsupervised Entity Resolution. // ICANN – 2011.

Singhal A., Mitra M., Buckley C. Learning routing queries in a query zone. // In Proc. of the SIGIR'97. – 1997. – Р. 25–32.

Hatzivassiloglou V., Gravano L., Maganti A. An investigation of linguistic features and clustering algorithms for topical document clustering. // In Proc. of the SIGIR'2000. – 2000.

Salton G., Allan J., Singhal A. Automatic text decomposition and structuring. // Information Processing & Management. – 1996. – 32(2) –

р. 127–138.

Salton G., Singhal A., Mitra M., and Buckley C. Automatic text decomposition and summarization. // Information Processing & Management. – 1997. – 33(2) р. 193–208.

McDonald R., Nivre J. Analyzing and Integrating Dependency Parsers. // Computational Linguistics. – vol. 37. – 2011.

Дегтярьов А. А. Контекстно-зважена тематична валідація тексту довільного характеру. /А. А. Дегтярьов // Системний аналіз та інформаційні технології: Матеріали 12-ї міжнародної науково-технічної конференції SAIT 2010, Київ, 25-29 травня, 2010 р. – К., 2010. – 544 с.

Дегтярёв А. А. Лингвостатистическая модель оценки репрезентативности текстового фрагмента с применением адаптационных механизмов определения границ предложения. / А. А. Дегтярёв, Т. А. Зайцева // Питання прикладної математики і математичного моделювання. – Дніпропетровськ, 2012. – С. 94–102.




DOI: http://dx.doi.org/10.15421/431205

Посилання

  • Поки немає зовнішніх посилань.


Контактна інформація:

Байбуз Олег Григорович - відповідальний редактор 

Тел: (056) 766-49-52

Mail: obaybuz@ua.fm

Україна, 49010, м. Дніпро, пр. Гагаріна, 72

--------------------------------------------------------------------

Дніпровський національний університет імені Олеся Гончара

National Library of Ukraine Vernadsky

Google Scholar

Open Academic Journals Index

Bielefeld Academic Search Engine

Open Archives

  Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.


Open Science in Ukraine - website development