A két héttel ezelõtti rejtvény helyes megfejtése: az idézet Chaucer Canterbury Tales címû mûvébõl származik, amely valamikor a XIV. században keletkezett, középangol (Middle English) nyelven. Mivel csak két helyes megfejtés érkezett, egy könyvet sorsoltam ki pénzfeldobással. A nyertes nem más, mint Mazák Károly. A múlt heti feladvány megfejtését a jövõ félévben tesszük közzé.

Bíró Tamás cikkével kívánok nektek igen boldog Karácsonyt és új évet!


Fizika és Nyelvészet

A Nyelvi Sarok több cikkben is igyekezett bemutatni a szoros kapcsolatot a nyelvészet és a természettudományok között. Biológia és nyelvészet kapcsán szó esett az emberi nyelv kialakulásáról az evolúció során, de talán érdemes lesz egy külön cikkben foglalkozni az afáziás betegekkel is: ezek olyan személyek, akik - például baleset során - agysérülést szenvedtek, és ennek következtében károsodott a nyelvi kompetenciájuk. Hibáik jellege a nyelvészeti elméletekre éppúgy hatással van, mint az agykutatásra.

Biológia, fizika és nyelvészet közös határterülete a fonetika. A fonetika a beszédhangok tudománya, szemben a fonológiával, mely a hangok, a fonémák nyelvi rendszerben elfoglalt helyét vizsgálja. A század elsõ felébõl származó hasonlat szerint úgy viszonyul a fonetika a fonológiához, mint a numizmatika a közgazdaságtanhoz. Elõbbi a pénz anyagával, formájával, mintázatával foglalkozik, míg az utóbbi a gazdaságban játszott szerepével. A fonetika a beszédhangokat három aspektusból vizsgálja: a hangképzés, a hangérzékelés, ill. a hangok fizikai tulajdonságai alapján. Ezek a kérdések rendre biológiai, biofizikai és akusztikai ismereteket tételeznek fel. Például a különbözõ magán- és mássalhangzók "hangszínképe" sok tanulsággal szolgál, akár egy mérnök számára is (beszédfelismerés, beszélõ gépek).

A szûkebb értelemben vett nyelvészetbe is beszivárogtak természettudományos módszerek. Az 1950-es évektõl a matekosok és progmatosok által jól ismert formális nyelvek elmélete meghatározó a fonológiai és a szintaktikai (mondattani) kutatásokban. A szemantika, azaz a jelentéstan nagyon komoly formális logikai eszközöket használ, míg a kvantitatív nyelvészet a statisztika fegyvereivel ostromolja a nyelvet. A számítógépes nyelvészet a nyelv elemeinek olyan reprezentációit kutatja, amelyek az automataelmélet segítségével késõbb akár számítógépen is megvalósíthatók lesznek. Ezeken túl, a modern nyelvészet egyre nagyobb számban használ a természettudományokból átvett metaforákat (gráf, fa, mátrix, aktivációs energia stb.).

Az alábbiakban két olyan nyelvi témájú megfigyelést szeretnék bemutatni, amelyek a statisztikus fizikával foglalkozó kutatók érdeklõdését is felkeltették. Az elsõ az ún. Zipf-törvény. G. K. Zipf az 1930-as években vette észre azt, hogy ha egy szövegben összeszámoljuk az egyes szavak elõfordulási gyakoriságát, majd sorba rendezzük a szavakat gyakoriságuk alapján, és ábrázoljuk a gyakoriságot annak a függvényében, hogy hányadik a szó a sorban, akkor egy jó közelítéssel hatványfüggvény szerint lecsengõ görbét kapunk, "-1"-hez közeli kitevõvel. A jelenség az emberi nyelvek univerzális tulajdonságának bizonyult, sõt hasonló viselkedést kapunk, ha nem a szavakat, hanem az összefüggõ szöveg egymás melletti karakter-n-eseit (ahol n = 3…8) vizsgáljuk. A törvény igazán mély magyarázatát még nem sikerült megtalálni, habár sok jó próbálkozás született már. Valószínûleg, a törvény matematikai (statisztikus fizikai) és nyelvészeti vetületei egyaránt fontosak.

A második megfigyelés szerint hosszú távú korrelációk fedezhetõk fel szövegekben. A szövegeket már a nyolcvanas években próbálták Markov-láncokkal modellezni, amelyek a rövid távú korrelációkat jól visszaadhatják. Például a magyar helyesírás szabályszerûségei miatt, a 'c' betû után jóval nagyobb valószínûséggel számíthatunk 's' betûre, mint például 'n' betûre. A rövid távú korrelációk másik okát a fonotaktikában kereshetjük: ez a fonológia azon ága, amely annak a szabályszerûségeit vizsgálja, hogy milyen hangok követhetik egymást egy adott nyelvben. Például, ha egy szó a magyarban [n]-re kezdõdik, minimális annak a valószínûsége, hogy [g] legyen a második hangja: az egyetlen ilyen szó (nganaszán, egy uráli nyelv neve) elhanyagolható gyakorisággal fordul elõ a magyar szövegekben.

Ez eddig még nem meglepõ. Annál meglepõbb, hogy hosszú távú korrelációkat fedeztek fel, vagyis azt, hogy a szöveg valamelyik karakterének a milyensége befolyásolja a tõle nagy távolságban lévõ karakter milyenségét. Hogyan derült ez ki?

Kódoljuk át a szövegünket binárisan, például ASCII-vel, de a "0"-k helyett "-1"-eket írjunk. Helyezzünk el egy bolhát a számegyenes origójába, majd olvassuk fel neki a bináris szövegünket: ha "1"-et hall, elõreugrik egy egységet, és ha "-1"-et hall, akkor hátra. A bolha véletlen bolyongásának fraktális tulajdonságait megvizsgálva azt kapták, hogy az írott szövegekben hosszú távú korrelációk vannak: a korrelációs függvény nem exponenciálisan cseng le, valamely R karakterisztikus hosszal, hanem hatványfüggvény szerint, karakterisztikus hossz nélkül.

Erre a jelenségre sincs még igazán jó magyarázat. Szerepet játszhat éppúgy nyelvészeti, mint helyesírási (csak írott szövegekre, például regényekre vagy a Bibliára végezték el a kísérletet) vagy más tényezõ is. Ha a szöveg szavait vagy mondatait permutáljuk, eltûnik a korreláció. Ugyanakkor szótár esetén, a korreláció túlnyúlik a szócikkek tipikus hosszán, pedig a szócikkek között nyilván nincs semmiféle összefüggés. A Biblia kiugróan magas korrelációkat mutat, a fordításai során viszont csökken a korreláció az eredeti, héber verzióhoz képest.

A BTK-n, az elméleti nyelvészet szakon van "Matematikai és logikai ismeretek szigorlat". TTK-s mércével mérve nem túlságosan nehéz, de jelzi azt, hogy a nyelvészet igényli a matematikai (leginkább az algebrai) és a logikai ismereteket. Az érdeklõdés a másik irányban is megvan: természettudósok is érdeklõdnek nyelvészeti kérdések iránt. Ha az írásom benned is felkeltette az érdeklõdést, úgy szívesen válaszolok a kérdéseidre, ha írsz nekem:

birot@ludens.elte.hu