The information density of Old Hungarian and Middle Hungarian translations of the gospels
Abstract
The information density of a text captures the extent to which we can use elements of the text to predict other elements. The mathematical tools that express information density are related to linguistic, structural properties of the text, such as syntactic and paradigmatic complexity. This allows us to use information density as a general linguistic measure of text. This paper compares mediaeval and early modern Hungarian translations of the first four books of the New Testament in terms of information density. The results allow an interpretation according to which the successive translations reveal the gradual emergence of Hungarian literary language.
References
Ackerman, Farrell – Malouf, Robert (2013), Morphological organization: the low conditional entropy conjecture. Language 89/3: 429–464.
Atkinson, Mark – Kirby, Simon – Smith, Kenny (2015), Speaker input variability does not explain why larger populations have simpler languages. PLOS ONE 10/6: e0129463.
Bates, Douglas – Maechler, Martin – Bolker, Ben (2011), lme4: Linear mixed-effects models using S4 classes.
Beckner, Clay – Blythe, Richard – Bybee, Joan – Christiansen, Morten H. – Croft, William – Ellis, Nick C. – Holland, John – Ke, Jinyun – Larsen-Freeman, Diane – Schoenemann, Tom (2009), Language is a complex adaptive system: position paper. Language Learning 59: 1–26.
Bentz, Christian – Ruzsics, Tatyana – Koplenig, Alexander – Samardzic, Tanja (2016), A comparison between morphological complexity measures: typological data vs. language corpora. In: Proceedings of the Workshop on Computational Linguistics for Linguistic Complexity (CL4LC). 142–153.
Bloomfield, Leonard (1933), Language. Henry Holt, New York.
Dębowski, Łukasz – Bentz, Christian (2020), Information theory and language. Entropy 22/4: 435.
Dye, Melody – Milin, Petar – Futrell, Richard – Ramscar, Michael (2018), Alternative solutions to a language design problem: the role of adjectives and gender marking in efficient communication. Topics in Cognitive Science 10/1: 209–224.
Erdős József (1906), Az Újszövetségi kánon fordításairól. Franklin-Társulat nyomdája, Budapest.
Erdős Károly (1937), Az Újszövetség magyar fordításai a reformáció óta. Újszövetségi Füzetek 1/1: 7.
Fügedi Erik (1992), A középkori Magyarország történeti demográfiája. In: Dányi Dezső (sorozatszerk.), A Központi Statisztikai Hivatal Népességtudományi Kutatóintézetének történeti demográfiai füzetei 10. Központi Statisztikai Hivatal, Budapest.
Gailly, Jean-loup – Adler, Mark (1992–2024), gzip 1.13. Free Software Foundation. https://www.gnu.org/software/gzip/
Gelman, Andrew – Hill, Jennifer (2006), Data analysis using regression and multilevel/hierarchical models. Cambridge University Press, Cambridge.
Gibson, Edward – Futrell, Richard – Piantadosi, Steven P. – Dautriche, Isabelle – Mahowald, Kyle – Bergen, Leon – Levy, Roger (2019), How efficiency shapes human language. Trends in Cognitive Sciences 23/5: 389–407.
Hausser, Jean – Strimmer, Korbinian (2021), entropy: estimation of entropy, mutual information and related quantities. R package version 1.3.1. https://CRAN.R-project.org/package=entropy
Hegedüs Béla (2013), János evangéliumának eleje hat bibliafordításunkban. In: „...hogy legyen a víznek lefolyása...”: Köszöntő kötet Szilágyi N. Sándor tiszteletére. Erdélyi Múzeum-Egyesület, Kolozsvár. 181–186.
Holland, Tom (2019), Dominion: the making of the Western mind. Hachette UK, London.
Kobayashi, Hayato (2014), Perplexity on reduced corpora. In: Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 797–806.
P. Kocsis Réka (2022), A névelők alaki kérdései az ún. huszita biblia kódexeiben. In: Forgács Tamás – Németh Miklós – Sinkovics Balázs (szerk.), A nyelvtörténeti kutatások újabb eredményei IX. SZTE Magyar Nyelvészeti Tanszék, Szeged. 173–188.
Korompay Klára (2006), Árpád-kori szövegek: mit képvisel az, amit ránk maradt? In: Mártonfi Attila – Papp Kornélia – Slíz Mariann (szerk.), 101 írás Pusztai Ferenc tiszteletére. Argumentum Kiadó, Budapest. 116–122.
Korompay Klára (2015), Gondolatok egy régi-új vitához: az ún. Huszita Biblia eredetének kérdésköre. In: Bárth M. János – Bodó Csanád – Kocsis Zsuzsanna (szerk.), A nyelv dimenziói. Tanulmányok Juhász Dezső tiszteletére. ELTE BTK Magyar Nyelvtörténeti, Szociolingvisztikai, Dialektológiai Tanszék, Budapest. 79–88.
Korompay Klára (2023), Szóbeliség és írásbeliség viszonya a korai ómagyar korban. Magyar Nyelv 119/2: 153–170. https://doi.org/10.18349/MagyarNyelv.2023.2.153
Lupyan, Gary – Dale, Rick (2010), Language structure is partly determined by social structure. PLOS ONE 5/1: e8559.
Madas Edit (1998), Középkori bibliafordításainkról. Iskolakultúra 8/1: 48–54.
Máthé Dénes (2004), Heltai Gáspár nyelvhasználati sajátosságairól. Keresztény Magvető 110/4: 428.
Mohay, Zsuzsanna (2018), Múltidő-használat a középmagyar korban. Doktori disszertáció. Eötvös Loránd Tudományegyetem, Budapest.
Li, Ming – Vitányi, Paul M. B. (2019), An Introduction to Kolmogorov Complexity and Its Applications. 4th edition. Springer, Cham. https://doi.org/10.1007/978-3-030-11298-1
Moscoso del Prado, Fermin (2013), The missing baselines in arguments for the optimal efficiency of languages. In: Proceedings of the Annual Meeting of the Cognitive Science Society 35. 1032–1037.
Nádor Orsolya (2000), A magyar nyelv státusának változásai a honfoglalástól a XIX. század közepéig. Hungarológiai Évkönyv 1: 54–71.
Nettle, Daniel (2012), Social scale and structural complexity in human languages. Philosophical Transactions of the Royal Society B 367/(1597): 1829–1836.
Piantadosi, Steven T. – Tily, Harry – Gibson, Edward (2011), Word lengths are optimized for efficient communication. Proceedings of the National Academy of Sciences 108/9: 3526–3529.
Parry, Milman (1933), Whole formulaic verses in Greek and Southslavic heroic song. Transactions and Proceedings of the American Philological Association 64: 179–197.
M. Pintér Tibor (2024), Magyar nyelvű bibliafordítások statisztikai elemzése. Alkalmazott Nyelvtudomány, Különszám 2024/1: 22–36. http://dx.doi.org/10.18460/ANY.K.2024.1.002
R Core Team (2025), R: a language and environment for statistical computing. R Foundation for Statistical Computing, Vienna.
Raviv, Limor – Meyer, Antje – Lev-Ari, Shiri (2019), Larger communities create more systematic languages. Proceedings of the Royal Society B 286/1907: 20191262.
Resnik, Philip – Olsen, Mari Broman – Diab, Mona (1999), The Bible as a parallel corpus: annotating the „Book of 2000 Tongues”. Computers and the Humanities 33: 129–153.
Ruden, Sarah (2023), The Gospels: a new translation. Modern Library, New York.
Sapir, Edward (1912), Language and environment. American Anthropologist 14/2: 226–242.
de Saussure, Ferdinand (1916), Cours de linguistique générale. Payot, Lausanne – Paris.
Shannon, Claude Elwood (1948), A mathematical theory of communication. Bell System Technical Journal 27/3: 379–423.
Shcherbakova, Olena – Michaelis, Susanne Maria – Haynie, Hannah J. – Passmore, Sam – Gast, Volker – Gray, Russell D. – Greenhill, Simon J. – Blasi, Damián E. – Skirgård, Hedvig (2023), Societies of strangers do not speak less complex languages. Science Advances 9/33: eadf7704.
Simon Eszter – Kalivoda Ágnes (2020), A párhuzamos bibliakorpusz és Bibliaolvasó fejlesztése. Általános Nyelvészeti Tanulmányok 32: 429–438.
Simon Eszter – Sass Bálint (2012), Nyelvtechnológia és kulturális örökség, avagy korpuszépítés ómagyar kódexekből. Általános Nyelvészeti Tanulmányok 24: 243–264.





