You shouldn't see thisYou may have access to the free features available through My Research. You can save searches, save documents, create alerts and more. Please log in through your library or institution to check if you have access.

If you log in through your library or institution you might have access to this article in multiple languages.

Styles include MLA, APA, Chicago and many more. This feature may be available for free if you log in through your library or institution.

You may have access to it for free by logging in through your library or institution.

You may have access to different export options including Google Drive and Microsoft OneDrive and citation management tools like RefWorks and EasyBib. Try logging in through your library or institution to get access to these tools.

The rapid development of computer software and network technologies has facilitated the intensive application of specialized statistical software not only in the traditional information technology spheres (i.e., statistics, engineering, artificial intelligence) but also in linguistics. The statistical software R is one of the most popular analytical tools for statistical processing a huge array of digitalized language data, especially in quantitative corpus linguistic studies of Western Europe and North America. This article discusses the functionality of the software package R, focusing on its advantages in performing complex statistical analyses of linguistic data in corpus-driven studies and creating linguistic classifiers in machine learning. With this in mind, a three-stage strategy of computer-statistical analysis of linguistic corpus data is elaborated: 1) data processing and preparing to be subjected to a statistical procedure, 2) utilizing statistical hypothesis testing methods (MANOVA, ANOVA) and the Tukey post-hoc test, and 3) developing a model of a linguistic classifier and analyzing its effectiveness. The strategy is implemented on 11 000 tokens of English detached nonfinite constructions with an explicit subject extracted from the BNC-BYU corpus. The statistical analysis indicates significant differences in the realization of the factors of the parameter “Part of speech of the subject”. The analyzed linguistic data are employed to build a machine model for the classification of the given constructions. Particular attention is devoted to the methodological perspectives of interdisciplinary research in the fields of linguistics and computer studies. The potential application of the elaborated case study in training undergraduate, master, and postgraduate students of Applied Linguistics is indicated. The article provides all the statistical data and codes written in the R script with comprehensive descriptions and explanations. The concluding part of the article summarizes the obtained results and highlights the issues for further research connected with the popularization of the statistical software complex R and raising the awareness of specialists in this statistical analysis system.
Динамічний розвиток обчислювальної техніки, мережевих технологій та прикладного програмного забезпечення уможливлює широке використання спеціалізованих статистичних комплексів для вирішення різного типу і складності завдань не лише в межах класичних напрямів застосування інформаційних технологій (статистиці, інженерії, штучному інтелекті), а й у мовознавстві. Статистична система аналізу даних R є одним із найпопулярніших аналітичних інструментів оброблення великих масивів диджиталізованих мовних даних, особливо у квантитативно-корпусних розвідках Західної Європи та Північної Америки. Запропонована стаття розкриває переваги застосування функціоналу програмного комплексу R для виконання складних статистичних аналізів лінгвальних даних у корпусо-керованих дослідженнях та в машинному навчанні для створення лінгвістичних класифікаторів. З цією метою у роботі запропоновано стратегію комп’ютерно-статистичного аналізу лінгвальних корпусних даних, що складається з трьох послідовних етапів: 1) опрацювання й стандартизація даних для застосування статистичних методів, 2) застосування методів перевірки статистичних гіпотез (MANOVA, ANOVA) та апостеріорного тесту Тьюкі, 3) створення моделі лінгвістичного класифікатора та аналіз її ефективності. У результаті застосування запропонованої стратегії до 11 000 токенів англійських відокремлених нефінітних конструкцій з експліцитним суб’єктом, відібраних з корпусу BNC-BYU, встановлено статистично значущі відмінності в реалізації лінгвальних факторів параметру “Частиномовна приналежність суб’єкту” та побудовано машинну модель класифікації досліджуваних конструкцій у корпусному матеріалі. Окремим питанням розглянуто методологічні аспекти міжпредметних досліджень з лінгвістики та комп’ютерних наук та окреслено можливості практичного застосування презентованого кейсу в підготовці бакалаврів, магістрів та аспірантів у галузі прикладної лінгвістики. Стаття містить необхідні статистичні дані, представлені в таблицях, та код, написаний із застосуванням скрипту R. Усі матеріали супроводжуються детальним описом та поясненнями. У підсумку аналізуються отримані результати та окреслюються перспективи подальших досліджень, які пов’язуються з популяризацією статистичного програмного комплексу R та підвищенням обізнаності фахівців з цією статистичною системою аналізу. .
Динамическое развитие вычислительной техники, сетевых технологий и прикладного программного обеспечения позволяет широко использовать специализированные статистические комплексы для решения различного типа и сложности задач не только в пределах классических направлений применения информационных технологий (статистике, инженерии, искусственном интеллекте), но и в языкознании. Как следствие, наблюдается экспоненциальное увеличение числа прикладных языковедческих исследований, в частности в таких технологически ориентированных отраслях, как корпусная и компьютерная лингвистика. Статистическая система анализа данных R является одним из популярнейших аналитических инструментов обработки больших массивов диджитализированных языковых данных, особенно в квантитативно-корпусных исследованиях Западной Европы и Северной Америки. Предложенная статья раскрывает преимущества применения функционала программного комплекса R для выполнения сложных статистических анализов лингвальных данных в корпусоуправляемых исследованиях и в машинном обучении для создания лингвистических классификаторов. С этой целью в работе предложено стратегию компьютерно-статистического анализа лингвальных корпусных данных, которая включает три последовательных этапа: 1) разработка и стандартизация данных для применения статистических методов, 2) применение методов проверки статистических гипотез (MANOVA, ANOVA) и апостериорного теста Тьюки, 3) создание модели лингвистического классификатора и анализ ее эффективности. В результате применения предложенной стратегии к 11 000 токенов английских обособленных нефинитных конструкций с эксплицитным субъектом, отобранных из корпуса BNC-BYU, установлено статистически значимые различия в реализации лингвальных факторов параметра “Частеречная принадлежность субъекта” и построено машинную модель классификации исследуемых конструкций в корпусном материале. Отдельным вопросом рассмотрены методологические аспекты междисциплинарных исследований в лингвистике и компьютерных науках, а также указаны возможности практического использования представленного кейса в подготовке бакалавров, магистров и аспирантов в области прикладной лингвистики. Статья содержит необходимые статистические данные, представленные в таблицах, и код, написанный с применением скрипта R. Все материалы сопровождаются подробным описанием и объяснениями. В выводах анализируются полученные результаты и определяются перспективы дальнейших исследований, которые связываются с популяризацией статистического программного комплекса R и повышением осведомленности специалистов с этой статистической системой анализа.
Title
STATISTICAL SOFTWARE R IN CORPUS-DRIVEN RESEARCH AND MACHINE LEARNING
Author
Zhukovska, Viktoriia V

; Mosiiuk, Oleksan O
Section
The methodology, theory, philosophy and history of the use of ICT in education
Institute for Digitalisation of Education of the National Academy of Educational Sciences of Ukraine
Source type
Scholarly Journal
Language of publication
English
ProQuest document ID
3028058720
Back to toplOnrMzRrauu5pWd2YarFxg==:pvnINfeFnceBiJIJOHY2CVRkyIY/5j4JWfEdDl/Au7uzW3dsViz/W2rnWdRaKKK0bqxdzBlrNvJlfX7vKyqZRDAikOvTPEJ2ILMGI+LEovvIry1xAjO7UQyy39g16LW/76dWvOTPUtdjMzinO0O31QwQBKgqZSXqt+IGAB9akuNcVkO2Y7H0QKX9rnMwHAvbKuRgyM61o1LjukBrcFd+bzmnO56dY5JBnjg8kKIh0vHS00DzkLJgokQMplwx3qeTSHjQoO0nFiqRgWFF+LTUcmwRsEdq+K9sP2xJgVlfo2iS5eOVDoCr+4XZ+M0YABvSE5N2tXM1GAdyLC76+kpwBI/WCNY4ZrxFH0PXy2fjBxe8dVxmZA2KGeBY/Qtszap9kS4YiQBNWnYdhr/VcHAY1w==