Журналов:     Статей:        

Политическая лингвистика. 2019; : 177-187

Лингвистическое атрибуционное исследование коротких письменных текстов: качественные и количественные методы

Хоменко А. Ю.

https://doi.org/10.26170/pl19-02-20

Аннотация

В настоящей статье речь пойдет о практическом исследовании, проведенном на основе интегративной атрибуционной методики, сочетающей качественный и количественный подходы к атрибуции текста и используемой в судебном автороведении. Качественный анализ представляет собой исследование авторского индивидуального стиля как целостного конструкта, репрезентирующего речевые компетенции автора текста и уровень владения ими. С помощью этого вида анализа имеется возможность создать лингвистическую модель авторского индивидуального стиля. Количественный анализ есть экстрагирование статистических данных из текстового массива. Эти данные помогают сделать атрибуционную экспертизу более полной, всесторонней и объективной. Описанное в статье исследование предваряется критическим анализом теории, практики и методической базы судебной атрибуционной экспертизы за рубежом, преимущественно в англоязычных странах, Британии и Америке, и в России. Сделан вывод о сходной методической базе атрибуционной экспертизы в указанных регионах. Также на основе этого анализа сформулирован постулат о необходимости применения междисциплинарного подхода к исследованию текста в судебном автороведении. Сделаны выводы о целесообразности использования статистических текстовых данных в ходе судебного атрибуционного анализа для объективации его результатов и повышения верифицируемости выводов. Подтверждено утверждение о важной функции идиосинкратических параметров индивидуального стиля при атрибуции текста.
Список литературы

1. Баранов А. Н. Введение в прикладную лингвистику : учеб. пособие. - М. : Эдиториал УРСС, 2001. 360 с.

2. Батура Т. В. Формальные методы определения авторства текстов // Вестн. НГУ. Сер.: Информационные технологии. 2012. Т. 2. Вып. 4.

3. Вул С. М. Криминалистическое исследование признаков письменной речи. - Киев, 1973.

4. Вул С. М. Особенности оценки следователем и судом заключения идентификационной судебно-автороведческой экспертизы // Криминалистика и судебная экспертиза. - Киев, 1982. Вып. 24.

5. Вул С. М., Горошко Е. И. Судебно-автороведческая классификационная диагностика: установление половой принадлежности автора документа // Современные достижения науки и техники в борьбе с преступностью : материалы науч.-практ. конф. - Минск, 1992.

6. Вул С. М. Судебно-автороведческая идентификационная экспертиза: методические основы : метод. пособие. - Xарьков : ХНИИСЭ, 2007. 64 с.

7. Вул С. М. Теоретические и методические вопросы криминалистического исследования письменной речи. - М., 1977.

8. Галяшина Е. И., Ермолова Е. И. Лингвокриминалистические возможности авторизации письменных и устных текстов : Междунар. науч. конф. - М., 2005.

9. Галяшина Е. И., Ермолова Е. И. Перспективы развития автороведческой экспертизы в России // Судебная экспертиза. - Саратов, 2005. № 3.

10. Захаров В. Н., Леонтьев А. А., Рогов А. А., Сидоров Ю. В. Программа систем поддержки атрибуции текстов статей Ф. М. Достоевского // Труд / ПетрГУ. - Петрозаводск, 2000. Вып. 9. Сер. «Прикладная математика и информатика». С. 113-122.

11. Лексикатор [Электронный ресурс]. URL: http://corplings. pythonanywhere.com/.

12. Мартыненко Г. Я. Стилеметрия: возникновение и становление в контексте междисциплинарного взаимодействия // Структурная и прикладная лингвистика : межвуз. сб. Вып. 11 / под ред. А. С. Герда, И. С. Николаева. - СПб. : Изд-во С.-Петерб. ун-та, 2015. С. 9-28.

13. Марусенко М. А. Атрибуция анонимных и псевдонимных текстов как типичная задача распознавания образов // Историография и источниковедение отечественной истории. - СПб, 2003. Вып. 3.

14. Медведева Т. Н. Формальные модели в лингвистике : учеб. пособие. - Саратов : Науч. книга, 2010. 56 с.

15. Родионова Е. С. Лингвистические методы атрибуции и датировки литературных произведений (к проблеме «Мольер - Корнель») [Электронный ресурс] : автореф. дис. … канд. филол. наук, 2008. URL: http://epir.ru/pragmat!/projects/ corneille/files/autoreferat.pdf (дата обращения: 29.11.2018).

16. Родионова Е. С. Методы атрибуции художественных текстов // Структурная и прикладная лингвистика : межвуз. сб. Вып. 7 / под ред. А. С. Герда. - СПб. : Изд-во С.-Петерб. ун-та, 2008. С. 118-127.

17. Романов А. С. Методика и программный комплекс для идентификации автора неизвестного текста : автореф. дис. … канд. техн. наук. - Томск, 2010. 26 с.

18. Хоменко А. Ю. Атрибуция текстов малого объема. Статистические закономерности // Язык. Право. Общество : сб. ст. 5-й Междунар. науч.-практ. конф. (г. Пенза, 22-25 мая 2018 г.) / под. ред. О. В. Барабаш. - Пенза : Изд-во ПГУ, 2018. 483 с. С. 123-127.

19. Хоменко А. Ю. Алгоритм для автоматической идентификации автора письменного речевого произведения в судебном автороведении // Юрислингвистика. - Барнаул : Изд-во Алтайск. гос. ун-та. 2014. Вып. 3 (14). С. 83-93.

20. Хоменко А. Ю. Анализ языковой личности автора текста с применением методов математической статистики как способ установления авторства текста // Проблемы языковой картины мира в синхронии и диахронии : сб. ст. по материалам Всерос. науч. конф. молодых ученых (15-16 апр. 2014 г.). - Н. Новгород : Мининский ун-т, 2014. - Вып. 12. С. 293-297.

21. Хоменко А. Ю. Апробация методов математической статистики при атрибуции текста в рамках судебного автороведения // Язык. Право. Общество : сб. ст. Всерос. науч.-практ. конф. (г. Пенза, 23-24 апр. 2013 г.) / под ред. О. В. Барабаш, Г. И. Канакиной. - Пенза : Изд-во ПГУ, 2013.

22. Хоменко А. Ю. К вопросу об исследовании письменного речевого произведения в рамках автороведческой экспертизы на предмет его оригинальности // Политическая лингвистика. 2014. № 4 (50). С. 306-312.

23. Хоменко А. Ю. Лингвистическое моделирование как инструмент выявления искажений речевых навыков автора письменного речевого произведения. Опыт практического исследования // Вопросы психолингвистики. - М. : Ин-т языкознания РАН, 2018. Вып. 2 (36). С. 209-226.

24. Argamon-Engelson Sh., Koppel M., Avneri G. Style-based Text Categorization: What Newspaper Am I Reading? Technical Report WS-98-05. Compilation copyright, 1998.

25. Baayen H., van Halteren H., Tweedie F. Outside the cave of shadows: using syntactic annotation to enhance authorship attribution [Electronic resource] // Literary and Linguistic Computing. 1996. Vol. 11, Iss. 3. P. 121-132. URL: https://doi.org/10.1093/ llc/11.3.121 (date of access: 29.11.2018).

26. Campbell L. The Sophisties and Polilicus of Plato. - Oxford : Clarendon, 1867. 170 p.

27. Coulthard M. Author identification, idiolect, and linguistic uniqueness // Applied Linguistics. 2004. No 24 (4). P. 431-447.

28. Forensic Linguistics: advances in forensic stylistics / G. R. McMenamin, 2002. 331 p.

29. Foster D. An Elegy by W.S.: A Study in Attribution. - Newark : Univ. of Delaware Pr., 1989.

30. Foster D. Author Unknown: On the Trail of Anonymous. - New York : Henry Holt and Company, 2001.

31. Fucks W. On the mathematical analysis of style // Biometrika. 1952. Vol. 39. P. 122-129.

32. Holmes D., Forsyth R. The Federalist Revisited: New Directions in Authorship Attribution // Literary and Linguistic Computing. 1995. Vol. 10, Iss. 2. P. 111-127. DOI: https://doi.org/10. 1093/llc/10.2.111.

33. Holmes D. I. Authorship attribution // Computers and the Humanities. 1994. Vol. 28, No. 2. P. 87-106.

34. Jule G. U. The Statistical study of Literary Vocabulary. - Cambridge, 1944.

35. Juola P., Sofko J., Brennan P. A Prototype for Authorship Attribution Studies // Literary and Linguistic Computing. 2006. Vol. 21. Iss. 2. P. 169-178. DOI: https://doi.org/10.1093/llc/fql0.

36. Koppel M., Schler J. Exploiting Stylistic Idiosyncrasies for Authorship Attribution // Proceedings of IJCAI'03 Workshop on Computational Approaches to Style Analysis and Synthesis. 2003. No 69. P. 72-80.

37. Kruh L. The Beale cipher as a bamboozlement: Part II // Cryptologia. 1988. Vol. 12. No. 4. P. 241-246.

38. Labbe C., Labbe D. Inter-Textual Distance and Authorship Attribution. Corneille and Molière // Journ. of Quantitative Linguistics / Taylor & Francis (Routledge). 2001. No 8 (3). P. 213-231.

39. Lutoslawski W. The origin and growth of Plato’s logic. - London, 1897. 547 p.

40. Mendenhall T. The characteristic curves of composition // Science. 1887. No 9. P. 237-249.

41. Merriam T. An Application of Authorship Attribution by Intertextual Distance in English // Corpus. 2003. № 2. P. 142-168.

42. Merriam T. An Experiment with the Federalist Papers // Computers and the Humanities. 1989. No. 23. P. 251-254.

43. Matthews R. Neural Computation in Stylometry II: An Application to the Works of Shakespeare and Marlowe // Literary and Linguistic Computing. 1994. No 9 (1). P. 1-6.

44. Mosteller F., Wallace D. L. Applied Bayesian and Classical Inference: The Case of the Federalist Papers. - Springer, 1964.

45. Somers H. Statistical methods in literary analysis // The Computer and Literary Style / J. Leed, ed. - Kent, OH : Kent State Univ. Pr., 1972.

46. Wright D. Using word n-grams to identify authors and idiolects: A corpus approach to a forensic linguistic problem [Electronic resource] // International Journal of Corpus Linguistics. 2017. No 22 (2). P. 212-241. URL: https://benjamins.com/#cata log/journals/ijcl.22.2.03wri/details (date of access: 29.11.2018).

Political Linguistics. 2019; : 177-187

Linguistic Attributional Examination of Short Written Texts: Qualitative and Quantitative Methods

Khomenko A. Y.

https://doi.org/10.26170/pl19-02-20

Abstract

This article focuses on practical research conducted on the basis of an integrative attributional technique combining qualitative and quantitative approaches to text attribution and used in forensic authoring expertise. Qualitative analysis is a study of the author's individual style as a holistic construct, representing the author’s speech competences and the level of their mastery. Using this type of analysis, it is possible to create a linguistic model of the author's individual style. Quantitative analysis is an extraction of statistical data from the text. These data help to make attributional expertise more complete, comprehensive and objective. The study described in the article is preceded by a critical analysis of the theory, practice and methodological basis of the forensic attributional expertise abroad, mainly in English-speaking countries - Great Britain and the USA - and in Russia. According to the analysis, the conclusion about the similar methodological base of attributional expertise in these regions has been made. The postulate on the need to apply an interdisciplinary approach to forensic attributional text study has been also formulated. The conclusions about the expediency of using statistical text data to objectify the results of forensic attributional expertise and increase the verifiability of conclusions have been drawn. The article has confirmed the statement about the important function of idiosyncratic parameters of the individual style of the author in text attribution.
References

1. Baranov A. N. Vvedenie v prikladnuyu lingvistiku : ucheb. posobie. - M. : Editorial URSS, 2001. 360 s.

2. Batura T. V. Formal'nye metody opredeleniya avtorstva tekstov // Vestn. NGU. Ser.: Informatsionnye tekhnologii. 2012. T. 2. Vyp. 4.

3. Vul S. M. Kriminalisticheskoe issledovanie priznakov pis'mennoi rechi. - Kiev, 1973.

4. Vul S. M. Osobennosti otsenki sledovatelem i sudom zaklyucheniya identifikatsionnoi sudebno-avtorovedcheskoi ekspertizy // Kriminalistika i sudebnaya ekspertiza. - Kiev, 1982. Vyp. 24.

5. Vul S. M., Goroshko E. I. Sudebno-avtorovedcheskaya klassifikatsionnaya diagnostika: ustanovlenie polovoi prinadlezhnosti avtora dokumenta // Sovremennye dostizheniya nauki i tekhniki v bor'be s prestupnost'yu : materialy nauch.-prakt. konf. - Minsk, 1992.

6. Vul S. M. Sudebno-avtorovedcheskaya identifikatsionnaya ekspertiza: metodicheskie osnovy : metod. posobie. - Xar'kov : KhNIISE, 2007. 64 s.

7. Vul S. M. Teoreticheskie i metodicheskie voprosy kriminalisticheskogo issledovaniya pis'mennoi rechi. - M., 1977.

8. Galyashina E. I., Ermolova E. I. Lingvokriminalisticheskie vozmozhnosti avtorizatsii pis'mennykh i ustnykh tekstov : Mezhdunar. nauch. konf. - M., 2005.

9. Galyashina E. I., Ermolova E. I. Perspektivy razvitiya avtorovedcheskoi ekspertizy v Rossii // Sudebnaya ekspertiza. - Saratov, 2005. № 3.

10. Zakharov V. N., Leont'ev A. A., Rogov A. A., Sidorov Yu. V. Programma sistem podderzhki atributsii tekstov statei F. M. Dostoevskogo // Trud / PetrGU. - Petrozavodsk, 2000. Vyp. 9. Ser. «Prikladnaya matematika i informatika». S. 113-122.

11. Leksikator [Elektronnyi resurs]. URL: http://corplings. pythonanywhere.com/.

12. Martynenko G. Ya. Stilemetriya: vozniknovenie i stanovlenie v kontekste mezhdistsiplinarnogo vzaimodeistviya // Strukturnaya i prikladnaya lingvistika : mezhvuz. sb. Vyp. 11 / pod red. A. S. Gerda, I. S. Nikolaeva. - SPb. : Izd-vo S.-Peterb. un-ta, 2015. S. 9-28.

13. Marusenko M. A. Atributsiya anonimnykh i psevdonimnykh tekstov kak tipichnaya zadacha raspoznavaniya obrazov // Istoriografiya i istochnikovedenie otechestvennoi istorii. - SPb, 2003. Vyp. 3.

14. Medvedeva T. N. Formal'nye modeli v lingvistike : ucheb. posobie. - Saratov : Nauch. kniga, 2010. 56 s.

15. Rodionova E. S. Lingvisticheskie metody atributsii i datirovki literaturnykh proizvedenii (k probleme «Mol'er - Kornel'») [Elektronnyi resurs] : avtoref. dis. … kand. filol. nauk, 2008. URL: http://epir.ru/pragmat!/projects/ corneille/files/autoreferat.pdf (data obrashcheniya: 29.11.2018).

16. Rodionova E. S. Metody atributsii khudozhestvennykh tekstov // Strukturnaya i prikladnaya lingvistika : mezhvuz. sb. Vyp. 7 / pod red. A. S. Gerda. - SPb. : Izd-vo S.-Peterb. un-ta, 2008. S. 118-127.

17. Romanov A. S. Metodika i programmnyi kompleks dlya identifikatsii avtora neizvestnogo teksta : avtoref. dis. … kand. tekhn. nauk. - Tomsk, 2010. 26 s.

18. Khomenko A. Yu. Atributsiya tekstov malogo ob\"ema. Statisticheskie zakonomernosti // Yazyk. Pravo. Obshchestvo : sb. st. 5-i Mezhdunar. nauch.-prakt. konf. (g. Penza, 22-25 maya 2018 g.) / pod. red. O. V. Barabash. - Penza : Izd-vo PGU, 2018. 483 s. S. 123-127.

19. Khomenko A. Yu. Algoritm dlya avtomaticheskoi identifikatsii avtora pis'mennogo rechevogo proizvedeniya v sudebnom avtorovedenii // Yurislingvistika. - Barnaul : Izd-vo Altaisk. gos. un-ta. 2014. Vyp. 3 (14). S. 83-93.

20. Khomenko A. Yu. Analiz yazykovoi lichnosti avtora teksta s primeneniem metodov matematicheskoi statistiki kak sposob ustanovleniya avtorstva teksta // Problemy yazykovoi kartiny mira v sinkhronii i diakhronii : sb. st. po materialam Vseros. nauch. konf. molodykh uchenykh (15-16 apr. 2014 g.). - N. Novgorod : Mininskii un-t, 2014. - Vyp. 12. S. 293-297.

21. Khomenko A. Yu. Aprobatsiya metodov matematicheskoi statistiki pri atributsii teksta v ramkakh sudebnogo avtorovedeniya // Yazyk. Pravo. Obshchestvo : sb. st. Vseros. nauch.-prakt. konf. (g. Penza, 23-24 apr. 2013 g.) / pod red. O. V. Barabash, G. I. Kanakinoi. - Penza : Izd-vo PGU, 2013.

22. Khomenko A. Yu. K voprosu ob issledovanii pis'mennogo rechevogo proizvedeniya v ramkakh avtorovedcheskoi ekspertizy na predmet ego original'nosti // Politicheskaya lingvistika. 2014. № 4 (50). S. 306-312.

23. Khomenko A. Yu. Lingvisticheskoe modelirovanie kak instrument vyyavleniya iskazhenii rechevykh navykov avtora pis'mennogo rechevogo proizvedeniya. Opyt prakticheskogo issledovaniya // Voprosy psikholingvistiki. - M. : In-t yazykoznaniya RAN, 2018. Vyp. 2 (36). S. 209-226.

24. Argamon-Engelson Sh., Koppel M., Avneri G. Style-based Text Categorization: What Newspaper Am I Reading? Technical Report WS-98-05. Compilation copyright, 1998.

25. Baayen H., van Halteren H., Tweedie F. Outside the cave of shadows: using syntactic annotation to enhance authorship attribution [Electronic resource] // Literary and Linguistic Computing. 1996. Vol. 11, Iss. 3. P. 121-132. URL: https://doi.org/10.1093/ llc/11.3.121 (date of access: 29.11.2018).

26. Campbell L. The Sophisties and Polilicus of Plato. - Oxford : Clarendon, 1867. 170 p.

27. Coulthard M. Author identification, idiolect, and linguistic uniqueness // Applied Linguistics. 2004. No 24 (4). P. 431-447.

28. Forensic Linguistics: advances in forensic stylistics / G. R. McMenamin, 2002. 331 p.

29. Foster D. An Elegy by W.S.: A Study in Attribution. - Newark : Univ. of Delaware Pr., 1989.

30. Foster D. Author Unknown: On the Trail of Anonymous. - New York : Henry Holt and Company, 2001.

31. Fucks W. On the mathematical analysis of style // Biometrika. 1952. Vol. 39. P. 122-129.

32. Holmes D., Forsyth R. The Federalist Revisited: New Directions in Authorship Attribution // Literary and Linguistic Computing. 1995. Vol. 10, Iss. 2. P. 111-127. DOI: https://doi.org/10. 1093/llc/10.2.111.

33. Holmes D. I. Authorship attribution // Computers and the Humanities. 1994. Vol. 28, No. 2. P. 87-106.

34. Jule G. U. The Statistical study of Literary Vocabulary. - Cambridge, 1944.

35. Juola P., Sofko J., Brennan P. A Prototype for Authorship Attribution Studies // Literary and Linguistic Computing. 2006. Vol. 21. Iss. 2. P. 169-178. DOI: https://doi.org/10.1093/llc/fql0.

36. Koppel M., Schler J. Exploiting Stylistic Idiosyncrasies for Authorship Attribution // Proceedings of IJCAI'03 Workshop on Computational Approaches to Style Analysis and Synthesis. 2003. No 69. P. 72-80.

37. Kruh L. The Beale cipher as a bamboozlement: Part II // Cryptologia. 1988. Vol. 12. No. 4. P. 241-246.

38. Labbe C., Labbe D. Inter-Textual Distance and Authorship Attribution. Corneille and Molière // Journ. of Quantitative Linguistics / Taylor & Francis (Routledge). 2001. No 8 (3). P. 213-231.

39. Lutoslawski W. The origin and growth of Plato’s logic. - London, 1897. 547 p.

40. Mendenhall T. The characteristic curves of composition // Science. 1887. No 9. P. 237-249.

41. Merriam T. An Application of Authorship Attribution by Intertextual Distance in English // Corpus. 2003. № 2. P. 142-168.

42. Merriam T. An Experiment with the Federalist Papers // Computers and the Humanities. 1989. No. 23. P. 251-254.

43. Matthews R. Neural Computation in Stylometry II: An Application to the Works of Shakespeare and Marlowe // Literary and Linguistic Computing. 1994. No 9 (1). P. 1-6.

44. Mosteller F., Wallace D. L. Applied Bayesian and Classical Inference: The Case of the Federalist Papers. - Springer, 1964.

45. Somers H. Statistical methods in literary analysis // The Computer and Literary Style / J. Leed, ed. - Kent, OH : Kent State Univ. Pr., 1972.

46. Wright D. Using word n-grams to identify authors and idiolects: A corpus approach to a forensic linguistic problem [Electronic resource] // International Journal of Corpus Linguistics. 2017. No 22 (2). P. 212-241. URL: https://benjamins.com/#cata log/journals/ijcl.22.2.03wri/details (date of access: 29.11.2018).