Skip to content

Játék szöveggel és szavakkal

Múlt hét végén írtam a fidesz programról, abból az egy és az ország többsége számára érdektelen szempontból, hogy foglalkozik-e az internettel, informatikával. Az írásra hivatkozott Pollner, a hivatkozás alatt pedig Pocakos felvetette, hogy ha az internet ilyen ritkán fordul elő a szövegben, akkor mik lehetnek a gyakori szavak. A válasz megtalálható a kérdés után, itt a bájos technikai részletek következnek.

Ez különben azoknak a remek témáknak az egyike, amiben van számítástechnika és majdnem el lehet kezdeni a ‘már az ókori görögök’ fordulattal is. A konkordanciával vizsgált első szövegek szent iratok voltak régen, a Biblia, a Korán, aztán meg minden más, ami “ősi titkokat” tartalmazhatott. Ráth-Végh hosszasan ír erről valamelyik könyvében.

A google által kidobott eszközök nagyrészét még Classic rendszerre írták. Ezek startból kiestek, mert 1, a Classicot futtató gépeim lassúak a nagyobb szövegek masszírozásához 2, felesleges küzdelemmel járna a konvertálgatás mac roman (ezt biztosan támogatják) és a unicode (a pdf2rtf kimenete) között.

Maradt három freeware OS X-re írt - de legalábbis azon is futni képes - program. Elsőnek a legjobban kinéző TextStat esett ki, mert működés helyet python hibaüzeneteket dobált. Tette ezt mind a rendszerrel járó 2.3-mas, mint a később kézzel (meg vérrel és verítékkel) upgradelt 2.4.1-es pythonnal. Másodszorra a Concorder Próról mondtam le, az ő és ű karakterek után megtörte a szavakat, emiatt a szólista tele lett marhaságokkal. A betűkészlet-, nyelv definiálása sem hatotta meg igazán. Viszont angol szöveghez egészen biztosan jó, ha valaki játszani akar, ezt válassza.

Végül maradt a Concorder, a Pro kistestvére, ami buta mint az álgyú, de működik. Tud gyakoriság és ábécé szerint rendezni, és ezzel végig is vettük a fícsörlistát. A két listázási mód segítségével kézzel ki lehet szűrni a ragozott igealakokat, már ha van hozzá türelme a felhasználónak. (Én nem tettem meg, itt a “vizsgálat” módszertan hibáját el is árultam.) Két vagy több egymás mellett gyakran előforduló kifejezést keresni azonban nem tud, sőt a kontextust sem mutatja.

A mese vége az, hogy kaptam egy python szkriptet Trevizétől - ezúttal is köszönöm - ami annyit tud, mint a Concorder, csak lényegesen gyorsabban, továbbá vérzik a szívem, hogy a TextStat nem hajlandó elindulni.