Корзина пуста.
Войти

Markup of scientific and technical texts in the aspect of developing of the corpus

Ю.И. Бутенко, Г.О. Лукьянова
$2.50

УДК 81`4

https://doi.org/10.20339/PhS.1-22.014         

 

Бутенко Юлия Ивановна,

кандидат технических наук, доцент кафедры

романо-германских языков

Московский государственный технический университет им. Н.Э. Баумана

e-mail: iubutenko@bmstu.ru

 

Лукьянова Галина Олеговна,

кандидат филологических наук,

заведующая кафедрой иностранных языков

Российский университет дружбы народов

e-mail: go_lukyanova.rudn@mail.ru

 

Рассмотрены особенности разметки научно-технических документов при создании корпуса узкоспециализированных текстов. Перечислены научно-технические тексты и их структурные элементы как источники наполнения корпуса. Дан их анализ с позиции разметки текстовых элементов разных уровней. Обоснована необходимость введения межуровневых видов разметки. Подчеркнута значимость введения структурной разметки при создании корпуса научно-технических текстов. Обсуждены проблемы автоматического извлечения терминов из научно-технических текстов. Показано, что наибольшую сложность представляет разметка многокомпонентных терминологических единиц в корпусе научно-технических текстов. Выделены литеральные термины как объекты, требующие разработки дополнительного инструментария для их обработки, в состав которых могут входить различные буквы, символы, цифры или их комбинации. Проанализированы референции как фактор влияния на классификацию и рубрикацию научно-технических текстов. Обоснована необходимость изучения видов референций и способов их автоматической разметки, а также введения отдельной разметки примеров в научно-технических текстах.

Ключевые слова: научно-технический текст, корпус, разметка, иерархически структурированный тест, многокомпонентный термин.

 

Литература

1. Захаров В.П. Корпуса русского языка // Труды Института русского языка имени В.В. Виноградова. 2015. Т. 6. С. 20–65.

2. Захаров В.П., Хохлова М.В. Автоматическое извлечение терминов из специальных текстов с использованием дистрибутивно-статистического метода как инструмент создания тезаурусов // Структурная и прикладная лингвистика. 2012. № 9. С. 222–233.

3. Чащина И.И., Андреева Н.П., Терентьева Г.П. История становления терминоведения, перспективы развития // Казанская наука. 2021. № 2. С. 94–99.

4. Гринев-Гриневич С.В., Сорокина Э.А. Перспективные направления развития терминологических исследований // Вестник Московского государственного областного университета. Серия: Лингвистика. 2018. № 5. С. 18–28.

5. Бутенко Ю.И., Семенова Е.Л. Влияние лингвистических особенностей текстов стандартов на информационный поиск // Филологические науки. Научные доклады высшей школы. 2019. № 6. С. 29–35. DOI 10.20339/PhS.6-19.029.

6. Butenko Iu.I., Margaryan T.D., Bolotova E.E. Scientific and technical text corpus as the basis for aerospace terminology standardization // Applied Linguistics Research Journal. 2021. Vol. 5 (3). Р. 113–119.

7. Кружков М.Г. Информационные ресурсы контрастивных лингвистических исследований: электронные корпуса текстов // Системы и средства информатики. 2015. Т. 25. № 2. С. 140–159.

8. Лесников В.С. Виды разметок текстовых корпусов русского языка // Научно-техническая информация. Сер. 2: Информационные процессы и системы. 2019. № 9. С. 27–30.

9. Butenko Iu. I., Garazha V.V. BMSTU corpus of scientific and technical texts: conceptual framework // Applied Linguistics Research Journal. 2021. Vol. 5 (3). Р. 76–81.

10. Попова Н.Г. Введение к научной статье на английском языке: структура и композиция // Высшее образование в России. 2015. № 6. С. 52–58.

11. Иванов В.П. Как написать научную статью (структура материала и организация работы) // Вестник Полоцкого государственного университета. Сер. В: Промышленность. Прикладные науки. 2016. № 3. С. 195.

12. Рыбакова Г.Р. О категории «учебный текст» в научной литературе // Научное обозрение. Сер. 2: Гуманитарные науки. 2011. № 6. С. 64–73.

13. Лейчик В.М. Исходные понятия, основные положения, определения современного терминоведения и терминографии // Вестник Харьковского политехнического университета. 1994. № 1. C. 147–180.

14. Гринев-Гриневич С.В., Сорокина Э.А. Опыт описания формальной структуры термина (на материале английской терминологии лексикологии) // Вестник Московского государственного областного университета. Серия: Лингвистика. 2020. № 5. С. 74–85.

15. Захаров В.П., Хохлова М.В. Автоматическое выявление терминологических словосочетаний // Структурная и прикладная лингвистика. 2014. № 10. С. 182–200.

16. Citron D.T., Ginsparg P. Patterns of text reuse in a scientific corpus // PNAS. 2015. Р. 25–30.

17. Козловская Н.В., Янурик С. ИИ-композиты как объект неологии и неографии в XXI веке // Филологические науки. Научные доклады высшей школы. 2021. № 2. С. 23–30. DOI 10.20339/PhS.2-21.023.

18. Батура Т.В. Методы автоматической классификации текстов // Программные продукты и системы. 2017. № 1 (30). С. 85–99.