Журналов:     Статей:        

Вестник Томского государственного университета. 2017; : 17-25

Гендерная атрибуция текстов компьютерной коммуникации: статистический анализ использования местоимений

Степаненко А. А.

https://doi.org/ 10.17223/15617793/415/3

Аннотация

Представлены результаты применения методов количественного контент-анализа текстов интернет-коммуникации с целью установления гендерных маркеров методами компьютерной лингвистики. Приводятся результаты статистического анализа различий использования местоимений мужчинами и женщинами в компьютерной коммуникации, осуществляется поиск существующих закономерностей их использования в тексте при помощи кластерного анализа. Доказано наличие статистически значимых различий в использовании местоимений Я-группы в текстах мужчин и женщин.
Список литературы

1. Patrick Juola. How a Computer Program Helped Show J.K. Rowling write A Cuckoo's Calling. Author of the Harry Potter books has a distinct linguistic signature // Scientific American. 2013. Р. 24-29.

2. Maciej Eder, Jan Rybicki. Go Set A Watchman while we Kill the Mockingbird in Cold Blood, with Cats and Other People // Digital Humanities. Krakow, 2016. Р. 184-186.

3. Мартыненко Г.Я. Основы стилеметрии. Л. : Изд-во Ленинград. ун-та, 1988. 173 с.

4. Резанова З.И., Романов А.С., Мещеряков Р.В. О выборе признаков текста, релевантных в автороведческой экспертной деятельности // Вестник Томского государственного университета. Филология. 2013. № 6 (26). C. 38-52.

5. Аверьянов Л.Я. Контент-анализ. М. : Изд-во РГИУ, 2007. 456 с.

6. Антонова И. Анализ количества деловой информации как инструмент маркетинга // Информационные ресурсы России. 2003. № 5. С. 18-20.

7. Марусенко М. А. Атрибуция анонимных и псевдонимных литературных произведений методами распознавания образов. Л. : Изд-во Ле нинград. ун-та, 1990. 164 с.

8. Гилилов И.М. Игра об Уильяме Шекспире, или Тайна Великого Феникса. М. : Междунар. отношения, 2007. 536 с.

9. Рогов А.А., Гурин Г.Б., Котов А.А., Сидоров Ю.В., Суровцова Т.Г. Программный комплекс СМАЛТ // Электронные библиотеки: пер спективные методы и технологии, электронные коллекции : тр. Х Всерос. науч. конф. «RCDL'2008». Дубна, 2008. 160 с.

10. Поликарпов А.А., Поддубный В.В., Кукушкина О.В., Кубарев А.И., Варламов А.А., Суровцева Е.В., Пирятинская Е.Ф. Комплексная тексто-аналитическая система «СтилеАнализатор-2», основанная на Web-технологиях: разработка, наполнение данными и тестирование на прикладных задачах. М., 2013. 66 с.

11. Милов Л.В. От Нестора до Фонвизина. Новые методы определения авторства. М. : Прогресс, 1994. С. 356.

12. Фоменко В.П. Авторский инвариант русских литературных текстов // Фоменко В.П., Фоменко Т.Г. Новая хронология Греции. Античность в Средневековье. М. : Изд-во Учебно-научного центра довузовского образования Моск. гос. ун-та, 1996. Т. 2. С. 820.

13. Хмелев Д.В. Классификация и разметка текстов с использованием методов сжатия данных. Краткое ведение. URL: http://compression.graphicon. ru/download/articles/classif/intro.html, свободный (дата обращения: 16.09.2016).

14. Azarbonyad H. Time-Aware Authorship Attribution for Short Text Streams // Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. N.Y., 2015. Р. 727-730.

15. Литвинова Т. А. Русский письменный текст как носитель информации об индивидуально-личностных характеристиках его автора (на материале корпуса текстов нового типа Personality) // Известия ВГПУ. Сер.: Педагогические науки; Гуманитарные науки. 2015. Т. 266, № 1. С. 196-198.

16. Поршнева О.С. К вопросу об атрибуции текстов записей солдатских разговоров // Информационный бюллетень ассоциации «История и компьютер» / отв. ред. Л.И. Бородкин. М., 2002. № 30. С. 31-44.

17. Хьетсо Г. Кто написал «Тихий Дон»? М. : Книга, 1989. 186 с.

18. Дроздова Т.Н. Диагностические и классификационные задачи в автороведческой экспертизе блогов // Актуальные проблемы российского права. 2010. № 2 (15). С. 394-404.

19. Романов А.С. Методика и программный комплекс для идентификации автора неизвестного текста : автореф. дис.. канд. техн. наук. Томск, 2010. 130 с.

20. Мамаев М.М. Гендерная атрибуция переводных текстов как специфический случай исследования языкового сознания автора // Вестник МГОУ. Сер. Лингвистика. 2015. № 2. C. 25-31.

21. Mukherjee A., Liu B. Improving Gender Classication of Blog Authors // Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, 2010. Р. 32-38.

22. Yan X., Yan L. Gender Classification of Weblog Authors // Computational Approaches to Analyzing Weblogs. AAAI, 2006. Р. 18-26.

23. Shlomo Argamon Gender, Genre, and Writing Style in Formal Written Texts // Shlomo Argamon, Moshe Koppel, Jonathan Fine, Anat Rachel Shimoni Springer, Sex Roles. 2010 Jun. № 62 (11-12). Р. 705-720.

24. Резанова З.И., Романов А.С., Мещеряков Р.В. Задачи авторской атрибуции текста в аспекте гендерной принадлежности (к проблеме междисциплинарного взаимодействия лингвистики и информатики) // Вестник Томского государтсвенного универистета. 2013. № 370. С. 24-28.

25. Marcelo Luiz. Brocardo Authorship Verification for Short Messages using Stylometry, 2014. URL: https://www.deepdyve.com/lp/institute-of-electrical-and-electronics-engineers/authorship-verification-for-short-messages-using-stylometry-JM5XWbkHyN (дата обращения: 7.07.2016).

26. Arroju M. Age, Gender and Personality Recognition using Tweets in a Multilingual Setting // 6th Conference and Labs of the Evaluation Forum (CLEF 2015): Experimental IR meets multilinguality, multimodality, and interaction, 2015. Р. 23-31.

27. Рубинштейн С.Л. Основы общей психологии. М. : Педагогика, 1989. Т. 1. 720 c.

28. Pennebaker J.W., MR Mehl K.G. Niederhoffer Psychological aspects of natural language use: Our words, our selves // Annual review of psychology. 2003. Р. 548-571.

29. Вольф Е.М. Грамматика и семантика местоимений. М. : Наука, 1974. 223 с.

30. Verhoeven В.С. TWISTY: A Multilingual Twitter Stylometry Corpus for Gender and Personality Profiling // Ben Verhoeven, Walter Daelemans and Barbara Plank CLiPS Research Center, University of Antwerp, Belgium University of Groningen, The Netherlands, 2015. Р. 1632-1637.

31. Баранов А.Н. Введение в прикладную лингвистику. М. : Эдиториал УРСС, 2001. 347 с.

Tomsk State University Journal. 2017; : 17-25

Gender attribution in social network communication: the statistical analysis of pronouns frequency

Stepanenko A. A.

https://doi.org/ 10.17223/15617793/415/3

Abstract

Authorship attribution in literature is one of the rapidly developing areas in linguistics, which was formed 40 years ago. Today it combines different methods of science: linguistics, logic, mathematics. The combination of methods has allowed using their variety, which could increase accuracy in authorship attribution of the text. However, the main problem of this field is connected with choosing initial criteria and indicators during quantitative text analysis. This article describes the modern criteria for the text analysis of markers based on the frequency determination of the syntactic units, phraseological and stylistic levels. Unlike art texts, network communication is not structured and it has a small size. In this aspect, the problem of network text analysis is more focused on the marker identification of group speakers than on author's individual invariant. Therefore, modern research in text attribution needs method transformation taking into account the above problems. In this article, the author adapts quantitative linguistics methods of art text attribution taking into account differences in using gender markers during computer communication. This research consisted of the following stages: 1) collection of text material and grouping of computer communication dialogues by gender (male and female); 2) choice of variables the objects are assessed by in the sample, i.e. search for the attribute space on the gender basis; 3) analysis of statistically significant differences between the two independent groups in selected attributes. The attributes include pronouns as gender markers which express differences in I-positions in communication. To identify gender differences in the expression of I-positions, the author analyzed informal dialogues from the social network VKontakte. All texts represented informal communication between men and women (18-20 y.o.). The total number of respondents was 38 people. The size of each dialogue was about 150-200 KB (one conversation made up 10 printed pages). To find statistically significant values in the dialogues, they were divided into files containing male and female lines (49-50 KB each). Personal pronouns in the texts were marked and classified into several groups. The hierarchical cluster analysis method (k-means) was used as the main method for the research objects. The results of the statistical analysis showed differences in the distribution of personal pronouns in "I-group". However, the frequency of the use of the personal pronoun in the singular suggests that women aged 18-20 use more "I-group" pronouns, while the use of pronouns other functional-semantic groups did not reveal statistically significant differences. These figures showed that women's communication is more self-centered and exclusive. The further object of the search is a quantitative analysis of emotional markers in communication and building a classifier.
References

1. Patrick Juola. How a Computer Program Helped Show J.K. Rowling write A Cuckoo's Calling. Author of the Harry Potter books has a distinct linguistic signature // Scientific American. 2013. R. 24-29.

2. Maciej Eder, Jan Rybicki. Go Set A Watchman while we Kill the Mockingbird in Cold Blood, with Cats and Other People // Digital Humanities. Krakow, 2016. R. 184-186.

3. Martynenko G.Ya. Osnovy stilemetrii. L. : Izd-vo Leningrad. un-ta, 1988. 173 s.

4. Rezanova Z.I., Romanov A.S., Meshcheryakov R.V. O vybore priznakov teksta, relevantnykh v avtorovedcheskoi ekspertnoi deyatel'nosti // Vestnik Tomskogo gosudarstvennogo universiteta. Filologiya. 2013. № 6 (26). C. 38-52.

5. Aver'yanov L.Ya. Kontent-analiz. M. : Izd-vo RGIU, 2007. 456 s.

6. Antonova I. Analiz kolichestva delovoi informatsii kak instrument marketinga // Informatsionnye resursy Rossii. 2003. № 5. S. 18-20.

7. Marusenko M. A. Atributsiya anonimnykh i psevdonimnykh literaturnykh proizvedenii metodami raspoznavaniya obrazov. L. : Izd-vo Le ningrad. un-ta, 1990. 164 s.

8. Gililov I.M. Igra ob Uil'yame Shekspire, ili Taina Velikogo Feniksa. M. : Mezhdunar. otnosheniya, 2007. 536 s.

9. Rogov A.A., Gurin G.B., Kotov A.A., Sidorov Yu.V., Surovtsova T.G. Programmnyi kompleks SMALT // Elektronnye biblioteki: per spektivnye metody i tekhnologii, elektronnye kollektsii : tr. Kh Vseros. nauch. konf. «RCDL'2008». Dubna, 2008. 160 s.

10. Polikarpov A.A., Poddubnyi V.V., Kukushkina O.V., Kubarev A.I., Varlamov A.A., Surovtseva E.V., Piryatinskaya E.F. Kompleksnaya teksto-analiticheskaya sistema «StileAnalizator-2», osnovannaya na Web-tekhnologiyakh: razrabotka, napolnenie dannymi i testirovanie na prikladnykh zadachakh. M., 2013. 66 s.

11. Milov L.V. Ot Nestora do Fonvizina. Novye metody opredeleniya avtorstva. M. : Progress, 1994. S. 356.

12. Fomenko V.P. Avtorskii invariant russkikh literaturnykh tekstov // Fomenko V.P., Fomenko T.G. Novaya khronologiya Gretsii. Antichnost' v Srednevekov'e. M. : Izd-vo Uchebno-nauchnogo tsentra dovuzovskogo obrazovaniya Mosk. gos. un-ta, 1996. T. 2. S. 820.

13. Khmelev D.V. Klassifikatsiya i razmetka tekstov s ispol'zovaniem metodov szhatiya dannykh. Kratkoe vedenie. URL: http://compression.graphicon. ru/download/articles/classif/intro.html, svobodnyi (data obrashcheniya: 16.09.2016).

14. Azarbonyad H. Time-Aware Authorship Attribution for Short Text Streams // Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. N.Y., 2015. R. 727-730.

15. Litvinova T. A. Russkii pis'mennyi tekst kak nositel' informatsii ob individual'no-lichnostnykh kharakteristikakh ego avtora (na materiale korpusa tekstov novogo tipa Personality) // Izvestiya VGPU. Ser.: Pedagogicheskie nauki; Gumanitarnye nauki. 2015. T. 266, № 1. S. 196-198.

16. Porshneva O.S. K voprosu ob atributsii tekstov zapisei soldatskikh razgovorov // Informatsionnyi byulleten' assotsiatsii «Istoriya i komp'yuter» / otv. red. L.I. Borodkin. M., 2002. № 30. S. 31-44.

17. Kh'etso G. Kto napisal «Tikhii Don»? M. : Kniga, 1989. 186 s.

18. Drozdova T.N. Diagnosticheskie i klassifikatsionnye zadachi v avtorovedcheskoi ekspertize blogov // Aktual'nye problemy rossiiskogo prava. 2010. № 2 (15). S. 394-404.

19. Romanov A.S. Metodika i programmnyi kompleks dlya identifikatsii avtora neizvestnogo teksta : avtoref. dis.. kand. tekhn. nauk. Tomsk, 2010. 130 s.

20. Mamaev M.M. Gendernaya atributsiya perevodnykh tekstov kak spetsificheskii sluchai issledovaniya yazykovogo soznaniya avtora // Vestnik MGOU. Ser. Lingvistika. 2015. № 2. C. 25-31.

21. Mukherjee A., Liu B. Improving Gender Classication of Blog Authors // Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, 2010. R. 32-38.

22. Yan X., Yan L. Gender Classification of Weblog Authors // Computational Approaches to Analyzing Weblogs. AAAI, 2006. R. 18-26.

23. Shlomo Argamon Gender, Genre, and Writing Style in Formal Written Texts // Shlomo Argamon, Moshe Koppel, Jonathan Fine, Anat Rachel Shimoni Springer, Sex Roles. 2010 Jun. № 62 (11-12). R. 705-720.

24. Rezanova Z.I., Romanov A.S., Meshcheryakov R.V. Zadachi avtorskoi atributsii teksta v aspekte gendernoi prinadlezhnosti (k probleme mezhdistsiplinarnogo vzaimodeistviya lingvistiki i informatiki) // Vestnik Tomskogo gosudartsvennogo univeristeta. 2013. № 370. S. 24-28.

25. Marcelo Luiz. Brocardo Authorship Verification for Short Messages using Stylometry, 2014. URL: https://www.deepdyve.com/lp/institute-of-electrical-and-electronics-engineers/authorship-verification-for-short-messages-using-stylometry-JM5XWbkHyN (data obrashcheniya: 7.07.2016).

26. Arroju M. Age, Gender and Personality Recognition using Tweets in a Multilingual Setting // 6th Conference and Labs of the Evaluation Forum (CLEF 2015): Experimental IR meets multilinguality, multimodality, and interaction, 2015. R. 23-31.

27. Rubinshtein S.L. Osnovy obshchei psikhologii. M. : Pedagogika, 1989. T. 1. 720 c.

28. Pennebaker J.W., MR Mehl K.G. Niederhoffer Psychological aspects of natural language use: Our words, our selves // Annual review of psychology. 2003. R. 548-571.

29. Vol'f E.M. Grammatika i semantika mestoimenii. M. : Nauka, 1974. 223 s.

30. Verhoeven V.S. TWISTY: A Multilingual Twitter Stylometry Corpus for Gender and Personality Profiling // Ben Verhoeven, Walter Daelemans and Barbara Plank CLiPS Research Center, University of Antwerp, Belgium University of Groningen, The Netherlands, 2015. R. 1632-1637.

31. Baranov A.N. Vvedenie v prikladnuyu lingvistiku. M. : Editorial URSS, 2001. 347 s.