Dan Tufiş, Florin Gh. Filip (coordonatori)
Limba Română
în
Societatea Informaţională - Societatea Cunoaşterii
ACADEMIA ROMÂNĂ
Secţia de Ştiinţa şi Tehnologia Informaţiei Institutul de Cercetări pentru Inteligenţă Artificială
Limba Română în Societatea Informaţională - Societatea Cunoaşterii Coordonatori: Dan TUFIŞ, Florin Gh. FILIP
Colecţia Societatea Informaţională Coordonator:
Prof. dr. ing. Doina BANCIU
ACADEMIA ROMÂNĂ
Secţia de Ştiinţa şi Tehnologia Informaţiei Institutul de Cercetări pentru Inteligenţă Artificială
Limba Romana
111
Societatea Informaţională Societatea Cunoaşterii
Coordonatori: Dan TUFIŞ, Florin Gh. FILIP
Academia română
Bucureşti, decembrie 2002
Volumul de faţă a fost produs de Institutul de Cercetări pentru Inteligenţă Artificială (RACAI) al Academiei Române în cadrul Proiectului "Strategii şi soluţii pentru Societatea Informaţională -Societatea Cunoaşterii în România" din Programul Naţional de Cercetare-Dezvoltare "INFOSOC", condus de Institutul Naţional pentru Cercetare-Dezvoltare în informatică (ICI),
Bucureşti
^EDITURA f
Coediţie
Bucureşti, România
Editor şi coordonare editorială: Valeriu IOAN-FRANC Redactori: Mircea FAŢĂ, Paula NEACŞU, Irina STĂNESCU Concepţia grafică, machetare şi tehnoredactare: Luminiţa LOGIN Coperta: Nicolae LOGIN
Toate drepturile asupra acestei ediţii aparţin Academiei Române. Reproducerea fie şi parţială şi pe orice suport, este interzisă fără acordul prealabil al editorului,' fiind supusă prevederilor legii drepturilor de autor.
ISBN 973-8177-83-9 Apărut 2002-
DEDICAŢIE
Acest volum este dedicat Academicianului Mihai Drăgănescu, Profesorul şi mentorul unei întregi generaţii de specialişti în ştiinţa şi tehnologia informaţiei în general şi al problemelor societăţii informaţionale şi a cunoaşterii în special. Marea majoritate a contribuţiilor din acest volum aparţin unor experţi ce fac parte din Comisia de Informatizare a Limbii Române, comisie a Academiei Române la a cărei naştere un rol esenţial l-a avut Profesorul Drăgănescu, preşedintele Secţiei de Ştiinţa şi Tehnologia Informaţiei. Savantul Mihai Drăgănescu are numeroase contribuţii în ştiinţa contemporană, binecunoscute atât în ţară cât şi în străinătate. Pentru cine îl cunoaşte pare incredibilă puterea sa de muncă, debordanta creativitate şi neostoita căutare a noului. Profesorul Drăgănescu este indiscutabil port-drapelul conceptului de societate informaţională-societate a cunoaşterii în România. în lucrările sale din urmă cu peste 25-30 de ani se regăsesc cu claritate multe concepte foarte actuale în zilele noastre, previziuni curajoase atunci, acum realităţi cotidiene. în lucrările domniei sale din ultima vreme, apare un nou concept ce avem convingerea că se va impune: Societatea Conştiinţei, o treaptă superioară a societăţii cunoaşterii. Nu este de mirare deci că în contextul societăţii informaţionale şi a cunoaşterii profesorul Drăgănescu a susţinut cu consecvenţă şi a afirmat cu claritate rolul Inteligenţei Artificiale în devenirea noilor societăţi ale cunoaşterii. între domeniile Inteligenţei Artificiale un loc de frunte în promovarea principiilor societăţii cunoaşterii îi revine Tehnologiei Limbajului Natural. Profesorul Drăgănescu a fost unul dintre puţinii oameni de ştiinţă români care au înţeles şi au sprijin total aceste direcţii. Cu aproape douăzeci de ani în urmă (1983), Profesorul Drăgănescu edita (împreună cu Adrian Davidoviciu şi loan Georgescu) volumul "Inteligenţa Artificială şi Robotica' pentru ca trei ani mai târziu (împreună cu Corneliu Burileanu) să editeze un alt volum de referinţă "Analiza şi sinteza semnalului vocal". Astăzi, cercetările mondiale în domeniul tehnologilor lingvistice au atins un nivel de maturitate ce permit sinergizarea eforturilor lingviştilor, informaticienilor, matematicienilor şi a altor specialişti din sectorul academic sau industrial, să abordeze proiecte mari, interdisciplinare având ca obiectiv prelucrarea automată, în mediile de comunicare electronică, a din ce în ce mai multe*limbi naturale. Printre acestea, limba română îşi face loc încet dar sigur. Volumul de faţă este o mărturie în acest sens. în acelaşi timp, volumul se constituie într-o nouă confirmare a realităţilor pe care Profesorul Mihai Drăgănescu le prefigura cu mulţi ani în urmă.
Dr. Dan Tufiş, m.c.A.R, Acad. Florin Gh. Filip
7
CUPRINS
INTRODUCERE..........................................................................................9
SECŢIUNEA I:
LINGVISTICĂ TEORETICĂ Şl FORMALĂ; TERMINOLOGIE
Resurse lingvistice pentru limba română elaborate la Institutul de
Lingvistică "Iorgu Iordan" - Ioana Vintilă-Rădulescu..................19
Contribuţia lingvisticii la studiul terminologiilor ştiinţifice -
Angela Bidu-Vrănceanu...................................................................33
Gramaticile generative nontransformaţionale - Emil lonescu....................... 39
Către o teorie X-bar funcţională - Neculai Curteanu....................................... 51
Teoria HPSG. Studiu de caz: acordul încrucişat - Ana-Maria Barbu............ 87
După 10 ani de experienţă terminografică: noul model de date
terminologice al TermRom - Dan Matei.................................... 109
Probleme de reprezentare a datelor terminografice într-o bază de date
relaţională - Sorin Gheţaru........................................................... 121
SECŢIUNEA II:
_TEHNOLOGII ALE LIMBAJULUI SCRIS_
RO-BALKANET - ontologie lexicalizată, în context multilingv,
pentru limba română - Dan Tufiş, Dan Cristea...........................137
Algoritmi de segmentare a textului în unităţi de tip clauzal -
Dan Gălea, Neculai Curteanu, Cristian Linteş...............................165
O metodă automată pentru inserarea diacriticelor în texte
în limba română- Rada F. Mihalcea, Vivi A. Năstase...................191
Contribuţii privind structura statistică de cuvinte în limba română scrisă -Adriana Vlad, Adrian Mitrea..........................................................207
Dezambiguizarea automată a cuvintelor din corpusuri paralele folosind
echivalenţii de traducere - Dan Tufiş..........................................235
T
_9
8
Referenţialitate şi cursivitate în relaţie cu structura de discurs -
DanCristea......................................................................................269
DLIR - un sistem de căutare documentară multilingv -
Amalia Todiraşcu.............................................................................303
Mediu hermenofor pentru asistarea învăţării unor concepte dintr-o
limbă străină - Ştefan Trăuşan-Matu............................................317
SECŢIUNEA III: TEHNOLOGII ALE LIMBAJULUI VORBIT
Experimente în vederea recunoaşterii vorbitorului - Corneliu Burileanu,
Luigi Bojan.......................................................................................335
Prelucrarea iniţială a textului de intrare în cadrul unui sistem de sinteză a vorbirii pornind de la text în limba română -Dragoş Burileanu............................................................................ 359
Utilizarea tehnicilor nuanţate (fuzzy) şi de dinamică neliniară pentru
sinteza adaptivă a vorbirii - Horia-Nicolai L. Teodorescu.......... 381
Dicţionarele multimedia ale limbii române. Secvenţe de implementări şi experimentări - Dumitru Todoroi, Diana Micusa, Zinaida Todoroi, Ion Lingă, Ion Covalenco, Nicolae Objeleanu, Ştefan Spătaru, Stela Lungu, Virginia Ţurcanu, Elena Cozlov, Nadejda Ambrozii, Victor
Slobodeanu, Igor Coşeru, Cătălina Suruceanu............................... 401
Mediu pentru editarea transcrierilor fonetice în limba română. Realizarea atlasului lingvistic român pe regiuni -
Silviu Bejinariu, Vasile Apopei, Mariana Roman...........................423
SECŢIUNEA IV:
_DEZBATERI Şl DISCUŢII_
Asupra a doi vectori funcţionali ai societăţii cunoaşterii: managementul cunoaşterii şi învăţarea electronică. Cultura şi societatea
cunoaşterii - Mihai Drăgănescu.....................................................441
între lingvistica matematică şi cea computaţională -
Solomon Marcus............................................................................. 471
între lingvistica matematică şi cea computaţională:
o altă perspectivă - Dan Tufiş...................................................... 481
INTRODUCERE
Programul de cercetare aplicativă "Strategii şi soluţii pentru Societatea Informaţională - Societatea Cunoaşterii în România (SI-SC), din subprogramul A-strategic, al Programului Naţional INFOSOC a avut ca principale obiective stabilirea unui program de veghe conceptuală pentru menţinerea pe linia tendinţelor mondiale ale avansului SI-SC, sensibilizarea factorilor de decizie şi a publicului larg, crearea unui cadru de reflecţie prospectivă pe temele prioritare ale SI-SC: economice, sociale, culturale, tehnologice, ambientale, precum şi operaţionalizarea unor soluţii de interes prioritar pe plan naţional. în cadrul acestui proiect a fost elaborat volumul "Societatea Informaţională - Societatea Cunoaşterii. Concepte, soluţii şi strategii pentru România" (publicat la Ed. Expert in anul 2000), realizat sub coordonarea Academicianului Florin Gheorghe Filip. Acest volum avea ca scop construirea unei viziuni si conţinea o serie de studii şi cercetări care au aprofundat rezultatele programului prioritar al Academiei Române privind Societatea Informaţională -Societatea Cunoaşterii şi au identificat o serie de orientări strategice cerute de susţinerea unei dezvoltări de tip "salt" a SI-SC în România. Prin prisma obiectivelor proiectului, au fost analizate principalele aspecte conceptuale ale SI-SC, probleme legate de infrastructurile informatice şi de comunicaţii ale SI-SC, formarea profesională şi pregătirea generală a populaţiei în şi pentru SI-SC, rolul ştiinţei, cercetării şi inovării, aspecte sociale şi juridice, instituţiile statului şi relaţia lor cu cetăţeanul, dezvoltarea economiei şi afacerilor, dimensiunea culturală a SI-SC, actorii sociali ai creării şi difuzării tehnologiei informaţiei şi comunicaţiilor în contextul SI-SC. Studiile tematice, ancheta Delphi pentru consultarea opiniei experţilor privind tendinţele globale şi opţiunile posibile de raportare la ele, scenariile de evoluţie elaborate au susţinut funcţia prospectivă a proiectului.
Funcţia operativă a acestui proiect, respectiv identificarea de soluţii tehnice privind rezolvarea principalelor priorităţi identificate în faza analizei prospective urma sa se manifeste în perioada imediat următoare, printr-o dintr-o serie de cercetări/dezvoltări tehnologice ce vor trata pe larg problematica specifică a fiecăruia dintre direcţiile amintite anterior. Această serie este deschisă prin prezentul volum ce înglobează contribuţii ale unor specialişti români reprezentativi în domeniul prelucrării automate a limbajului natural şi a resurselor lingvistice necesare utilizării limbii române în mediile de comunicare electronică.
în [1] este definit conceptul de "Societate Informaţională - Societate a Cunoaşterii" (SI-SC) precum şi principalii săi vectori tehnologici şi funcţionali. în acest context "internetul dezvoltat" (ca vector tehnologic) şi "managementul
10
11
utilizării morale a cunoaşterii la nivel global" (ca vector funcţional) sunt prezentaţi ca factori motrici esenţiali ai Societăţii Cunoaşterii, şi în perspectivă, a Societăţii Conştiinţei. "Din momentul în care intervine Internetul cu marile avantaje pe care acesta le aduce (e-mail, comerţ electronic şi tranzacţii electronice, piaţa Internet, distribuţia de 'conţinut') prin cuprinderea în sfera informaţiei electronice a unui număr cât mai mare de cetăţeni se trece la societatea informaţională. Cunoaşterea este informaţie cu înţeles şi informaţie care acţionează. De aceea societatea cunoaşterii nu este posibilă decât grefată pe societatea informaţională şi nu poate fi separată de aceasta. în acelaşi timp, ea este mai mult decât societatea informaţională prin rolul major care revine informaţiei-cunoaştere în societate." [1]
în 1984, William Gibson, un dizident cognitiv - după cum se autocaracterizează, publică volumul SF "Neuromancef (Ace Book, July 1984, ISBN: 0-441-56959-5), carte care pe lângă o mulţime de premii literare i-a adus notorietatea şi pentru crearea termenului "cyberspace": "the total interconnectedness of human beings through computers and telecommunication without regard to physical geography... A consensual hallucination experienced daily by billions of legitimate operators, in every nation, by children learning mathematical concepts...a graphical representation of data abstracted from the banks of every computer in the human system. Unthinkable complexity. Lines of light ranged in the nonspace of the mind. Clusters and constellations of data. Like city lights receding..." (op. cit).
Termenul a făcut carieră, actualmente fiind o noţiune care din punct de vedere tehnic subsuma conceptul "lnternet"( scris cu majusculă): "cyberspace: The impression of space and community formed by computers, computer networks, and their users; the virtual "world" that Internet users inhabit when they are online The term internet (spelled with a lower case T) is distinguished from the Internet (spelled with the "I" capitalized). The Internet refers to a specific, historic, ubiquitous worldwide digital communication network." (cf. Glossary of Telecommunications, American National Standard T1.523-2001, www.atis.org/ ta2k/ cvberspace.html, 05.08.2002).
Dimensiunea tehnică (evocată mai sus) a noţiunii de "ciberspaţiu" este complementată de dimensiunea socio-culturală şi din această perspectivă de problemele "satului global" previzionat de Societatea Informaţională - Societatea Cunoaşterii. Idea atenuării schismei dintre specialiştii din domeniul tehnic şi cei din zona ştiinţelor umaniste în contextul SI-SC este susţinută puternic şi de M. Derouzos [5] , cel care a propus conceptul de "piaţa informaţională", pe care îl consideră mai realist decât cel de "ciberspaţiu". De altfel, dimensiunile socio-culturale ale SI-SC au fost evocate în capitolele 2, 3, 4 şi 6 ale volumului "Societatea Informaţională -Societatea Cunoaşterii. Concepte, soluţii şi strategii pentru România"
Printre componentele socio-culturale ale SI-SC, utilizarea limbii materne în mediile de lucru şi comunicare electronice a accesului universal la ciberspaţiu [2, 3, 4] constitue priorităţi absolute.
în contextul actual, al comunicării mediate de tehnologia informaţiei şi de telecomunicaţii, limba devine obiect al investigaţiei tehnice. Tehnologia limbajului impune metodologii specifice de cercetare/dezvoltare, dezvoltarea sau adaptarea resurselor lingvistice fundamentale cum ar fi dicţionarele, tezaurele, corpusurile şi gramaticile computerizate, în conformitate cu standardele sau recomandările existente. în funcţie de resursele lingvistice disponibile, de volumul şi calitatea lor, de compatibilitatea codificării lor în raport cu recomandările şi standardele internaţionale etc, se poate vorbi de nivelul de tehnologizare al unei limbi naturale. Nivelul de tehnologizare al unei limbi naturale este în corespondenţă directă cu statutul de limbă de circulaţie electronică. Această sintagmă, o parafrază la expresia limbă de circulaţie internaţională, încearcă să elimine antinomia, pe cât de cunoscută pe atât de goală în conţinut spiritual şi cultural, "limbi mari/limbi mici". Conceptul de "limbă de circulaţie electronică", pe lângă semnificaţia lui directă, are profunde implicaţii culturale, sociale şi nu în ultimul rând economice implicând dreptul fiecărui cetăţean de a avea acces în propria limbă la cunoştinţele, informaţiile şi serviciile ciberspaţiului.
Promovarea limbii române în SI-SC presupune informatizarea limbii române ca factor infrastructural fundamental (vector funcţional) precum şi stimularea utilizării curente (prin vectori tehnologici) a limbii române în utilizarea tehnologiilor şi a serviciilor informatice. Acest obiectiv presupune eforturi umane şi materiale substanţiale şi de dimensionarea lor se leagă orizontul de timp al realizării sale.
Volumul de faţă reuneşte lucrări ce tratează aspecte specifice prelucrării limbajului natural, în marea lor majoritate cu aplecare directă asupra limbii române. Inerent, volumul de faţă nu poate acoperi întreaga arie problematică a domeniului după cum nici reprezentarea specialiştilor români în domeniul tehnologiei limbajului nu este completă, dar cititorul va găsi un larg evantai de direcţii de cercetare, în care specialiştii români au obţinut rezultate importante.
Volumul este structurat în patru părţi (aspecte teoretice şi probleme de terminologie, prelucrarea limbajului scris, prelucrarea limbajului vorbit, dezbateri şi discuţii) care pot fi citite în mod independent, în funcţie de interesul specific al cititorului.
Prima parte "Lingvistică teoretică şi formală; terminologie" cuprinde 7 lucrări din domeniul lexicografiei, sintaxei şi terminologiei.
în lucrarea "Resurse lingvistice elaborate la Institutul de Lingvistică «lorgu Iordan»" Ioana Vintilă Rădulescu face o trecere în revistă a celor mai importante resurse lingvistice realizate în cei peste 50 de ani de activitate la Institutul de Lingvistică «lorgu Iordan».
Angela Bidu-Vrânceanu prezintă în lucrarea "Contribuţia lingvisticii la studiul terminologiilor ştiinţifice" concluziile a trei contracte de cercetare ştiinţifică
12
13
având ca obiect studiul terminologic al limbajului folosit în diverse domenii (matematică, filozofie, mineralogie, arte plastice).
Articolul "Gramaticile nontransformaţionale" al lui Emil lonescu face o prezentare generală a gramaticilor bazate pe unificare şi constrângeri precum şi a principalelor realizări, în contextul acestei paradigme, în cercetarea lingvistică din România.
Neculai Curteanu propune în lucrarea "Către o teorie X-bar funcţională" o reconsiderare a teoriei clasice X-bar prin perspectiva modelului propriu SCD (Segmentare-Coeziune-Dependenţă).
Ana-Maria Barbu prezintă în lucrarea sa "Teoria HPSG: studiu de caz: acordul încrucişat" principalei caracteristice ale teoriei HPSG şi discută în acest context un caz de dependenţă încrucişată specific limbii române, respectiv clauzele relative în care pronumele relativ este precedat de articolul genitival.
O serie de probleme legate de terminologia computaţională sunt prezentate în ultimele două lucrări ale primei secţiuni. în articolul" După 10 ani de experienţă terminologică: noul model de date terminologice al TERMROM" Dan Matei prezintă modelul dezvoltat în conformitate cu noile tendinţe şi standarde în domeniu şi adoptat de Asociaţia Română de Terminologie - TERMROM.
Lucrarea lui Sorin Geţaru "Probleme de reprezentare a datelor terminografice într-o bază de date relaţională" aduce în discuţie aspecte specifice reprezentărilor standardizate necesare realizării dezideratului de interschimb şi interoperabilitate între diverse tezaure terminologice şi discută elementele distinctive ale standardului ISO-12200 MARTIF (Machine-Readable Terminology Interchange Format).
Secţiunea a doua a volumului ("Tehnologii ale limbajului scris") este deschisă de lucrarea lui Dan Tufiş şi Dan Cristea "RO-BALKANET - ontologie lexicalizată în context multilingv pentru limba română" care descrie stadiul dezvoltării unui dicţionar, pentru limba română, structurat ca o reţea semantică, de tip EuroWordNet, rezultat al unui program european ce-şi propune extensia EuroWordnet (în prezent implementat pentru 10 limbi europene) cu încă 5 limbi.
Articolul lui Dan Gâlea, Neculai Curteanu şi Cristian Linteş "Algoritmi de segmentare a textului în unităţi de tip clauzal" tratează o problemă delicată a prelucrării limbajului natural, respectiv cea a identificării, în raport cu un anumit criteriu funcţional, a structurilor "clauzale" şi prezintă contrastiv doi algoritmi diferiţi (unul dintre ei aparţinând autorilor), atât prin prisma modelării lingvistice cât şi al performanţei computaţionale.
Rada Mihalcea şi Vivi Năstase prezintă în articolul lor o metodă de inserare automată a caracterelor diacritice în texte scrise (cu studiu de caz pentru
limba română) fără diacritice şi comentează rezultatele proprii în comparaţie cu cele ale altor metode dezvoltate pentru rezolvarea aceleiaşi probleme.
Adriana Vlad şi Adrian Mitrea prezintă în lucrarea lor "Contribuţii privind structura statistică de cuvinte în limba română scrisă" rezultate recente în caracterizarea statistică a limbii române scrise, prin aproximarea ei ca un lanţ Markov ergotic multiplu cu ordin de multiplicitate mai mare decât 30, rezultate obţinute prin analiza riguroasă a unui corpus foarte mare de texte.
Articolul "Dezambiguizarea semantică automată în corpusuri paralele" al lui Dan Tufiş prezintă o alternativă la spinoasa problemă a dezambiguizării cuvintelor polisemantice, bazâdu-se pe extragerea cunoştinţele implicite existente într-un corpus multilingv (creat de traducători profesionişti) şi apelând la tehnici şi euristici ale lingvisticii corpusului.
Dan Cristea prezintă în articolul "Referenţialitate şi cursivitate în structura discursului" elementele definitorii ale teoriei sale asupra structurii discursive a textelor (teoria nervurilor) şi îşi exemplifică argumentaţia prin analiza dihotomiilor structură-referenţialitate şi structură-coerenţă.
în lucrarea "DLIR - un sistem de căutare documentară multilingv" Amalia Todiraşcu prezintă o abordare bazată pe logici terminologice, ontologii şi tehnici de prelucrare a corpusurilor în implementarea unui sistem de regăsire documentară bilingv (română şi franceză).
Partea a doua a volumului se încheie cu articolul lui Ştefan Trăuşan-Matu "Mediu hermenofor pentru asistarea învăţării unor concepte într-o limbă străină" care după o prezentare a noţiunilor cu care operează în lucrare, descrie un modul de prelucrare a metaforelor utilizate în limbaje specializate (studiu de caz: limbajul financiar) incorporat într-un sistem de instruire inteligentă în învăţarea conceptelor într-o limbă străină, sistem distribuit dezvoltat în cadrul unui proiect european.
Secţiunea a treia a volumului este dedicată problemelor de prelucrare a vorbirii. Corneliu Burileanu şi Luigi Bojan se opresc asupra tehnicilor de recunoaştere a vorbitorului ca etapă distinctă şi strict necesară pentru recunoaşterea automată a vorbirii şi prezintă o parte a rezultatelor obţinute de către autori.
Lucrarea lui Dragoş Burileanu "Prelucrarea iniţială a textului de intrare în cadrul unui sistem de sinteză a vorbirii pornind de la text în limba română" abordează problemele sintezei limbajului vorbit pornind de la un text în format electronic şi detaliază etapa de preprocesare a textului ca etapă primară în procesul transformării sale în semnal vocal inteligibil şi coerent.
Tot în domeniul sintezei vorbirii se plasează şi lucrarea lui Horia Nicolai Teodorescu "Utilizarea tehnicilor nuanţate (fuzzy) şi de dinamică neliniară pentru
14
15
sinteza adaptivă a vorbirii" ce subliniază rolul esenţial al prozodiei şi al modelării sale algoritmice în realizarea unor sinteze vocale de calitate, purtătoare de informaţie emoţională.
Un proiect de anvergură, este prezentat de Dumitru Todoroi, Diana Micusa, Zinaida Todoroi, Ion Lingă, Ion Covalenco, Nicolae Objeleanu, Ştefan Spătaru, Stela Lungu, Virginia Turcanu, Elana Cozlov, Nadejda Ambrozii, Victor Slobodeanu, Igor Coşeru şi Cătălina Suruceanu în lucrarea "Dicţionarele multimedia ale limbii române. Secvenţe de implementări şi experimentări".
Secţiunea a treia a volumului se încheie cu lucrarea elaborată de Silviu Bejinariu, Vasile Apopei şi Mariana Roman "Mediu pentru editarea transcrierilor fonetice în Limba Română. Realizarea Atlasului Lingvistic Român pe Regiuni" ce prezintă un instrument ce permite realizarea facilă a transcrierilor fonetice într-un limbaj standardizat (IPA), oferă extensii specifice de adnotare fonetică (realizate până acum manual) şi prefigurează realizarea variantei computerizate a atlaselor lingvistice româneşti.
Ultima secţiune a volumului (Dezbateri şi discuţii) conţine trei contribuţii. Prima dintre ele, elaborată de Mihai Drăgănescu, "Asupra a doi vectori funcţionali ai Societăţii Cunoaşterii: Managementul Cunoaşterii şi învăţarea Electronică. Cultura şi Societatea Cunoaşterii" reprezintă liantul dintre volumul precedent (Societatea Informaţională - Societatea Cunoaşterii. Concepte, soluţii şi strategii pentru România, coordonator FI. Gh. Filip) şi volumul de faţă, rafinând clasificarea din lucrarea anterioară şi adâncind o serie de probleme ridicate în [1].
Ultimele două contribuţii reprezintă două puncte de vedere asupra problematicii prelucrării limbajului natural, prima poziţie "între lingvistica matematică şi cea computaţională" fiind susţinută de Solomon Marcus, iar cea de a doua "între lingvistica matematică şi cea computaţională: o altă perspectivă" fiind prezentată de Dan Tufiş.
Referinţe bibliografice
[1] M. Drăgănescu "Societatea informaţională şi a cunoaşterii. Vectorii societăţii cunoaşterii" în F.G. Filip (coord.) Societatea Informaţională - Societatea Cunoaşterii. Concepte, soluţii şi strategii pentru România. Academia Română, Editura Expert, ISBN 973-8177-42-1, 2001, pp. 43-112
[2] *** The Multilingual Information Society, Report of Commission of the European Communities, COM(95) 486/final, Brusseîs, November 1995.
[3] *** Multilingualism in an Information Society, International Symposium organized by EC/DGXIII, UNESCO and Ministry of Foreign Affairs of the French Government, Paris 4-6 December 1997.
[4] *** Promotion and Use of Multilingualism and Universal Access to Cyberspace, UNESCO 31st session, November 2001.
[5] M. Dertouzos. "What It will Be". Harper Edge. New York,1997 (trad. în Ib. română "Ce va fi", Ed. Tehnică, Bucureşti, 2000).
Mulţumiri
Coordonatorii acestui volum, mulţumesc tuturor celor care au participat la realizarea proiectului "Strategii şi soluţii pentru societatea informaţională-societatea cunoaşterii în România" derulat cadrul programului naţional INFOSOC. Mulţumiri speciale se cuvin directorului programului INFOSOC, Profesor Doina Banciu, care a susţinut şi a manifestat un interes deosebit faţă de desfăşurarea acestui proiect.
Secţiunea I
LINGVISTICA TEORETICA SI FORMALĂ; TERMINOLOGIE
19
Resurse lingvistice pentru limba română
elaborate la Institutul de Lingvistică "lorgu Iordan"
Ioana VINTILĂ-RĂDULESCU
Institutul de Lingvistică "lorgu Iordan - Al. Rosetti"
Bucureşti, Calea 13 Septembrie 13
e-mail: ioanar@fx.ro
1. Consideraţii generale
Numind resursă în general o "rezervă sau sursă de mijloace (materiale sau spirituale) susceptibile de a fi valorificate într-o împrejurare dată"1, înţelegem prin resurse lingvistice pentru limba română izvoarele fundamentale de informaţii cu privire la aceasta, stocate convenabil (chiar dacă încă preponderent în manieră tradiţională) şi care, în calitate de componente ale culturii în sensul cel mai larg, sunt susceptibile de a fi valorificate pentru studierea limbii române, precum şi în diverse scopuri conexe, inclusiv aplicative, în cadrul societăţii informatice actuale.
Cât priveşte Institutul de Lingvistică "lorgu Iordan"2, acesta nu mai există formal ca atare, deoarece la începutul anului 2002, printr-o hotărâre de guvern adoptată la propunerea conducerii Academiei Române, s-a produs re-unirea sa şi a Institutului de Fonetică şi Dialectologie "Al. Rosetti". (Spunem reunire întrucât cercetările de fonetică şi de dialectologie formaseră iniţial obiectul unui sector, respectiv al unei secţii a Institutului de Lingvistică din Bucureşti al Academiei Române (înfiinţat în 1949), devenită din 1961 centru şi apoi institut independent.) întrucât în 1998 fusese oficializată, tot prin hotărâre de guvern, propunerea celor două institute, aprobată de Prezidiul Academiei, de a-şi adăuga fiecare în titulatură numele fostului său director, institutul în cadrul căruia cele două nuclee care au fuzionat acum îşi continuă de fapt activitatea poartă numele dublu de Institutul de Lingvistică "lorgu Iordan - Al. Rosetti".
Fără îndoială, cele mai numeroase şi mai importante resurse lingvistice pentru limba română s-au realizat la acum fostul Institut de Lingvistică "lorgu
*** (1975). Dicţionarul limbii române (DLR). Serie nouă. Tomul IX, Litera R, Bucureşti, s.v. 2 Pentru o imagine de ansamblu asupra activităţii acestui institut şi a istoriei sale v. Mioara Avram, Marius Sala, Ioana Vintilă-Rădulescu (coordonatori) (1999). Institutul de Lingvistică "lorgu Iordan". 50 de ani de existenţă (1949-1999), Bucureşti.
20
21
Iordan", înglobând, până în 1961 direct şi apoi numai indirect, şi contribuţia colegilor foneticieni şi dialectologi3, precum şi, în unele cazuri, în colaborare cu alte institute de specialitate din ţară ale Academiei - Institutul de Lingvistică şi Istorie Literară "Sextil Puşcariu" din Cluj şi Institutul de Filologie Română "Alexandru Philippide" din laşi - şi cu cadre didactice de la facultăţile de profil mai ales ale Universităţii din Bucureşti. Această activitate este continuată şi în noul cadru organizatoric de sectoarele fostului institut, pe care în cele ce urmează îl vom numi, pe scurt, Institutul.
2. Resurse lexicografice
Dintre resursele lingvistice tradiţionale dezvoltate până în prezent de Institut, cele mai importante din punctul de vedere care interesează aici sunt cele lexicografice - dicţionarele (mono- şi bilingve) -, activitatea lexicografică din Institut, începută încă de la înfiinţarea sa, desfăşurându-se din 1959 în cadrul unui sector specializat cu acest profil, condus până în 1985 de Mircea Seche, iar de atunci încoace de Ion Dănăilă4.
2.1. Dicţionare monolingve
2.1.1. Dintre dicţionarele româneşti monolingve se distinge, prin anumite trăsături ale sale, dicţionarul "explicativ general academic" intitulat pur şi simplu Dicţionarul limbii române - dar mai cunoscut ca "Dicţionarul Academiei" a cărui realizare se apropie de sfârşit şi care va cuprinde o mare parte a "tezaurului" lexical al limbii române - fără a putea şi nici a intenţiona să includă însă ansamblul cuvintelor româneşti folosite în toate epocile, în toate regiunile şi în toate domeniile5. în ciuda marilor sale calităţi, care sunt bine cunoscute şi asupra cărora nu credem deci că mai este nevoie să insistăm aici, acest dicţionar prezintă un dezavantaj major din punctul de vedere al utilizării sale ca resursă de bază (pe lângă faptul că nu se prezintă şi sub forma unei variante electronice, care nici nu putea fi imaginată până nu de mult) şi anume caracterul său fatalmente neunitar,
3 Aceştia au produs mai ales "resurse" de un tip specializat, concretizate în principal în atlase lingvistice şi în arhiva fonogramică a limbii române, de care nu ne vom ocupa în mod direct aici, dar care, ca şi contribuţiile similare ale altor institute, au avut şi un aport indirect la resursele fundamentale despre care vorbim, printre izvoarele cărora s-au numărat
4 Pentru detalii cu privire la lucrările acestuia v. Ion Dănăilă (1999). Sectorul de lexicologie şi lexicografie, în Mioara Avram, Marius Sala, Ioana Vintilă-Rădulescu, op. cit, p. 98-113.
5 Ideea, relativ utopică şi controversată, a înregistrării şi chiar a descrierii semantice a întregului inventar lexical al limbii române (ILEX) din toate timpurile, incluzând atât numele comune, cât şi cele proprii (v. Ion Dănăilă (1993). Pentru un inventar general al limbii române, în "Limba română" XLII, nr. 2, p. 61-68), nici nu a început a fi pusă în practică.
datorat faptului că a fost elaborat pe parcursul a aproape un secol6, de unde marile deosebiri dintre cele două părţi ale sale: cea publicată între 1907 şi 1949 sub conducerea marelui lingvist Sextil Puşcariu şi cea care a început să apară din 1965 şi a cărei publicare se apropie, în fine, de sfârşit. "Seria veche" a dicţionarului academic, desemnat de aceea prin sigla DA, cuprinde literele A-C (inclusiv puţinele neologisme scrise acum cu k-, iar în DA cu c/?-) şi F-J complet, iar literele D şi L parţial (până la cuvântul de, respectiv lojniţă), totalizând 3.142 de pagini de tipar, format mare, dintre ele lipsind în întregime, după cum se observă, litera E. Această primă jumătate a dicţionarului se distinge prin lista de cuvinte, bogată mai ales sub aspectul fondului tradiţional, prin tratarea amănunţită a semantismului, bazată pe numeroase citate, prin dimensiunile şi valoarea comentariului etimologic, precum şi prin traducerea sensurilor în limba franceză7. Desigur, nu aveau cum figura în aceste prime volume numeroasele neologisme încetăţenite în româneşte după elaborarea lor, ilustrarea sensurilor prin utilizarea lor de către autori mai noi şi în general toate aspectele care sunt rodul evoluţiei ulterioare a limbii române, al cercetărilor dialectale, etimologice, filologice etc. mai recente şi al dezvoltării lingvisticii şi metodelor ei, în general. Din 1965 dicţionarul şi-a reînceput apariţia, în format asemănător, ca Serie nouă (de data aceasta sub o siglă diferită, menţionată în titlu, DLR), cu litera M, sub conducerea, la început, a lui lorgu Iordan, Alexandru Graur şi Ion Coteanu, iar actualmente a lui Gh. Mihăilă şi Marius Sala. Noua serie păstrează, în mare, principiile lui Sextil Puşcariu, dar beneficiază de toate avantajele elaborării sale mai aproape de zilele noastre: ea include modificări şi amplificări reflectând evoluţia limbii române, a lexicografiei româneşti şi a studiului limbii române în ansamblu, precum şi a lingvisticii în general, dar nu mai cuprinde, în schimb, traducerea sensurilor (în anii '60 nefiind considerat oportun acest lucru, deşi era util mai ales pentru cunoaşterea limbii române de către străini, fără a fi, este drept, uzual într-un dicţionar monolingv explicativ), iar secţiunea etimologică a fost redusă, dicţionarul păstrându-şi însă caracterul istoric (sensurile sunt date în ordinea atestării lor în texte şi în alte surse)8. Institutul bucureştean a redactat literele M, N, P, S şi Z9 şi este pe cale de a încheia
V., printre altele, Marius Sala (1999). Institutul de Lingvistică "lorgu Iordan" la 50 de ani, în Mioara Avram, Marius Sala, Ioana Vintilă-Rădulescu, op. cit, p. 35-37.
7 Pentru o descriere amănunţită a DA v. Mircea Seche (1969). Activitatea lexicografică a lui Sextil Puşcariu, în Schiţă de istorie a lexicografiei române, voi. II, De la 1880 până astăzi, Bucureşti, p. 42-72.
8 V. şi Mircea Seche (1969). Seria nouă a Dicţionarului academic general în Schiţă de istorie a lexicografiei române, voi. II, De la 1880 până astăzi, Bucureşti, p. 72-79.
lorgu Iordan, Al. Graur, I. Coteanu (red. resp.) et al. (1965-2000). Dicţionarul limbii române (DLR). Serie nouă, Bucureşti: T. VI, Litera Mt 1965-1968 (apărut iniţial în fascicule); VII, Partea 1, Litera N, 1971; Partea a 2-a, Litera O, 1969] VIII, Litera P.' Partea 1, P-PĂZUI, 1972; Partea a 2-a, PE-PÎNAR, 1974; Partea a 3-a, PÎNĂ-POGRIBANIE, 1977; Partea a 4-a, POGRIJENIE-PRESIMŢIRE, 1980; Partea a 5-a, PRESIN-PUZZOLANĂ, 1984; IX, Litera R, 1975; X. Litera S. Partea 1, S-SCLĂBUC, 1986; Partea a 2-a, SCLADĂ-SEMÎNŢĂRIE, 1987; Partea a 3-a, SEMN-SÎVEICĂ, 1990; Partea a 4-a,% SLAB-
22
23
reluarea şi terminarea literei D absentă din prima parte (trei volume); numai primele patru litere elaborate la Bucureşti însumează 51.847 de cuvinte şi variante, totalizând 5.839 p. Institutului din Cluj i-au revenit literele O, R, T, Ţ (totalizând 2.044 de pagini de tipar), U (aflată sub tipar) şi, din prima parte, reluarea şi terminarea unei părţi din litera L, iar celui din laşi - literele Ş, V (Ş şi prima parte din cele trei ale literei V - singura dintre acestea apărută până acum - totalizând 599 de pagini de tipar), l/V, X, Y, precum şi, din prima parte, elaborarea literei lipsă £ şi reluarea şi terminarea unei părţi din litera L\ pentru etimologii au fost consultaţi specialişti din mai multe centre universitare. Majoritatea literelor au apărut, unele pe sărite (M între 1965 şi 1968, N în 1971, O în 1969, P între 1972 şi 1984, R în 1975, S între 1986 şi 1994, Ş în 1978, T în 1983, Tîn 1994, prima parte din V (până la a veni) în 1997 şi Zîn 2000) - în total 20 de volume -, cu excepţia literelor D, E, K, L, U, a puţinelor cuvinte începând cu litera Q şi a ultimelor părţi ale literei V (începând cu venin), la care se adaugă literele W, X şi Y Deosebirea cea mai importantă constă în tipurile de cuvinte reprezentate în cele două serii: la majoritatea primelor litere ale alfabetului (cu excepţia celor care s-au redactat abia acum), neologismele sunt slab reprezentate, nu numai din cauza faptului că foarte multe nici nu se încetăţeniseră încă în limba română la vremea elaborării volumelor respective, dar şi din cauza reticenţei lui Puşcariu cu privire la acest sector al vocabularului; într-o situaţie asemănătoare se află termenii regionali, deoarece cercetările dialectale se aflau în acea vreme abia la început. Prima parte prezintă în schimb avantajul de a putea servi ca bază pentru o prelucrare bilingvă, întrucât includea şi traducerea sensurilor în limba franceză, la care a trebuit să se renunţe în perioada comunistă. Reluarea şi completarea acestui dicţionar, absolut necesară, nu ni se mai pare astăzi recomiandabil şi nici posibil de realizat prin mijloace tradiţionale (fişe etc), ci exclusiv pe baze informatizate. Ea ar trebui să valorifice, printre altele, şi banca de texte şi cea de inovaţii a limbii române, despre care va fi vorba mai departe. Ar fi necesar ca partea publicată înainte de 1949 să fie reluată şi adusă la zi, cu atât mai mult cu cât puţine persoane şi chiar biblioteci posedă dicţionarul în întregime (chiar în cazul seriei noi, tirajele diverselor litere au fost diferite şi în continuă scădere), iar îmbătrânirea hârtiei în cazul seriei vechi o face fragilă şi greu de consultat. Având în vedere că pentru noua serie a dicţionarului s-au adunat, manual, peste şase milioane de fişe cu extrase şi atestări (dintre acestea, în DLR au fost incluse cea 3.200.000 de citate10, reprezentând aproximativ 88% din totalul textului), este de sperat că la reluarea, într-un viitor mai mult sau mai puţin apropiat, a primei serii se va putea uza de
SPONGHIOS, 1992; Partea a 5-a, SPONGIAR-SWING, 1994; XI Partea 1, Litera Ş, 1978; Partea a 2-a, Litera T, T-TOCĂLIŢĂ, 1982; Partea a 3-a, TOCĂNA-TWIST, 1983; XII, Partea 1, Litera Ţ, 1994; XIII, Partea 1, Litera V, V-VENI, 1997; XIV, Litera Z, 2000. ) în legătură cu reflectarea noilor norme ortografice ale limbii române în volumele DLR elaborate după 1993, semnalăm faptul că forma sânt, reflectând un fonetism real, vechi şi popular, este păstrată în citatele în care nu era folosit sunt.
avantajele elaborării computerizate, valorificându-se băncile de date în curs de elaborare în institut.
Având în vedere diferenţele semnalate (dintre care unele se regăsesc şi între primele şi ultimele litere din seria nouă), este foarte binevenită ideea actualilor responsabili ai DLR de a se publica, pentru operativitate, un Supliment - care se poate realiza relativ mai lesne - "care să înregistreze neologismele adoptate de limba literară de la începutul secolului" 20 "până în prezent, precum şi o serie de cuvinte regionale incluse în atlasele lingvistice şi în culegeri de pe teren sau termeni vechi extraşi din documente ale secolelor al XVI-lea - al XVIII-lea, editate în ultimele decenii"11.
2.1.2. Din motivele expuse mai sus, la care se adaugă şi faptul că DA/DLR este accesibil mai ales specialiştilor şi mai puţin publicului larg, institutul bucureştean pregăteşte între timp, la sugestia conducerii Academiei Române, o sinteză a marelui dicţionar academic, fără citate şi izvoare şi cu un sistem foarte economic de prezentare a informaţiilor lexicografice. Acest Mic dicţionar academic (MDA)12 (care va avea totuşi patru volume), inclus, alături de DLR, printre lucrările fundamentale ale Academiei Române, va avea cea 175 000 de intrări (cea 125.000 de cuvinte şi cea 50.000 de variante); primul volum (A-C) a fost publicat în anul 2001 de editura Univers Enciclopedic. Proiectul Micului dicţionar academic, numit astfel în opoziţie cu "marele" dicţionar academic, şi-a propus să reducă decalajul dintre cele două serii ale acestuia, îmbogăţind primele litere pe baza unor surse lexicografice mai noi. La rândul său, acest nou dicţionar prezintă însă dezavantajul de a fi fost obligat, prin dimensiuni, să renunţe la citatele ilustrative, ceea ce limitează posibilitatea utilizării lui ca sursă de informaţii morfologice, gramaticale şi stilistice; numărul neobişnuit de mare de abrevieri netransparente, utilizate din acelaşi motiv de economie, constituie un argument suplimentar în favoarea realizării unei versiuni electronice a MDA care să permită regăsirea automată a informaţiilor.
2.1.3. Spre deosebire de DA/DLR, o reflectare în general unitară a vocabularului limbii române oferă Dicţionarul explicativ al limbii române13, despre a cărui siglă, DEX, se afirmă, pe drept cuvânt, că a devenit un apelativ; denumirea, care ar fi trebuit protejată prin înregistrare, a fost preluată abuziv de Noul dicţionar explicativ al limbii române publicat pe CD-Rom de firmele Litera în sigla NODEX, sugerând că ar fi "un nou DEX". Prima ediţie, un volum de 1.049 de pagini, cuprinzând 56.569 de cuvinte şi variante, a fost urmată de un Supliment la
11 Marius Sala, G. Mihăilă (2000). Cuvânt înainte, în Dicţionarul limbii române (DLR). Serie ^nouă. Tomul XIV. Litera Z, Bucureşti, p. VI.
V. /. Dănăilă (1994). De ce este nevoie de un MDA?, în "Limba română" XLIII, 9-10, p.
397-406 şi Marius Sala (2001). Prefaţa, în Micul dicţionar academic (MDA), voi. I, A-C, ^Bucureşti.
I. Coteanu, Luiza Seche, M. Seche (conducătorii lucrării) et al. (1975). Dicţionarul explicativ al limbii române (DEX), Bucureşti.
24
25
Dicţionarul explicativ al limbii române (DEX-S)14. Ediţia a doua a DEX15 totalizează 1.204 pagini; această ediţie, care se publică în continuare în tiraje succesive, totalizase numai în primii patru ani de la apariţie 65.000 de exemplare vândute, după un calcul sumar rezultând că la 42 de locuitori ai României revenea un DEX. Actualmente, se poate într-adevăr afirma că, prin DEX, best-sellerul lingvisticii româneşti, Institutul a intrat în marea majoritate a caselor din România. Se preconizează ca DEX să fie realizat, în fine, într-un viitor relativ apropiat, şi în format electronic. El a fost deja supus, de către Centrul de Cercetări Avansate în învăţarea Automată, Prelucrarea Limbajului Natural şi Modelarea Conceptuală al Academiei Române, codificării conform TEI16. Se estimează că ediţia a lll-a a DEX, concepută sub conducerea lui Ion Dănăilă, va avea în plus faţă de precedenta cea 30.000 de cuvinte. Sub conducerea lui Ion Coteanu şi Ion Dănăilă, la sectorul de specialitate al Institutului a fost conceput şi un Nou dicţionar explicativ al limbii române (NEX), cu caracteristici diferite de cele ale DEX: inventar de cea 100.000 de cuvinte şi variante (deci aproape de două ori mai multe decât prima ediţie a DEX), definiţii mai concise, prin eliminarea sinonimelor şi - din păcate!-, neinclude-rea etimologiei cuvintelor; revizuit de cei doi responsabili, el aşteaptă introducerea în calculator, în vederea efectuării corelaţiilor semantice definiţionale şi sinonimice.
2.1.4. DEX a scos practic din circulaţie dicţionarele explicative mai vechi, limitate la limba română literară, DLRLC şi DM17. Prima siglă reprezintă Dicţionarul limbii române literare contemporane18, elaborat de institutele din Bucureşti şi Cluj pornind de la "baza manuscrisă" a DA şi apărut între 1955 şi 1957 în patru volume. El se mai foloseşte şi astăzi - deşi din el lipsesc cuvintele, sensurile şi citatele neconforme cu ideologia vremii - pentru citatele cu care, spre deosebire de dicţionarele de dimensiuni comparabile mai noi, sunt ilustrate sensurile cuvintelor (chiar dacă, pentru unele neologisme, citatele provin, aşa cum era obligatoriu în epocă, din traducerile "operelor clasicilor" marxism-leninismului!). El mai merită deci atenţie în virtutea faptului că, spre deosebire de DEX şi de MDA,
Ion Coteanu, Ion Dănăilă, Nicoleta Tiugan (conducătorii lucrării) et al. (1988). Supliment la Dicţionarul explicativ al limbii române (DEX-S) Bucureşti.
J Ion Coteanu, Lucreţia Mareş (sub conducerea) et al. (1996), Dicţionarul explicativ al limbii române (DEX), ediţia a ll-a, Bucureşti.
' Dan Tufiş (2000). Cercetare şi colaborare internaţională în ingineria lingvistică la RACAI, în "Terminologia în România şi în Republica Moldova", Cluj-Napoca, p. 34-36 şi Recherche et collaboration internaţionale en industries de la langue â l'Academie Roumaine, în "Terminometro Hors-serie n° 4. La terminologie en Roumanie et en Republique de Moldova", p. 38-40.
7 Pentru detalii cu privire la aceste două dicţionare v. Mircea Seche (1969). Dicţionarele explicative ale limbii române literare, în Schiţă de istorie a lexicografiei române, voi. II, De la 1880 până astăzi, Bucureşti, p. 135-147.
' D. Macrea, E. Petrovici (sub direcţia) et al. (1955-1957). Dicţionarul limbii române literare contemporane (DLRLC), Editura Academiei, Bucureşti, voi. I, A-C; //, D-L 1956' III M-R 1957; IV, S-Z, 1957. '       ' '
include citate ilustrative, care din păcate au fost eliminate din dicţionarele următoare.
2.1.5. O versiune prescurtată a acestui dicţionar, cu un inventar puţin mărit şi cu adăugarea etimologiei cuvintelor, dar cu eliminarea citatelor, a fost publicată de Institutul din Bucureşti în 1958 sub titlul Dicţionarul limbii române moderne19 (abreviat DM).
2.1.6. Un dicţionar de un tip special, cu o utilitate mult mai largă decât aceea care i se recunoaşte de obicei, elaborat de data aceasta de colectivul de gramatică al Institutului (condus până de curând de Mioara Avram20}, este Dicţionarul ortografic, ortoepic şi morfologic al limbii române (DOOM) \ Este singurul dicţionar al limbii române (mai bogat decât DEX) care conţine ample informaţii cu privire la formele flexionare ale cuvintelor variabile incluse, putând servi astfel (chiar dacă aceste informaţii nu sunt exhaustive) ca sursă pentru studii şi aplicaţii de morfologie. Institutul ar.e în prezent în lucru, sub conducerea subsemnatei, o a doua ediţie, parţial revăzută şi adăugită, a DOOM (care va cuprinde şi cuvinte neînregistrate în nici un dicţionar românesc până în prezent). Aceasta va apărea în anul 2003, inclusiv pe CD-Rom, şi va trebui să servească drept bază unui nou corector ortografic şi morfologic, care să ţină seamă de modificarea unor recomandări oficiale în raport cu cele încă în vigoare.
2.1.7. în fine, un dicţionar mai puţin obişnuit, Dicţionarul invers22, în care cuvintele sunt ordonate alfabetic pornind dinspre sfârşitul lor, este deosebit de util specialiştilor pentru studierea terminaţiilor, a desinenţelor şi a sufixelor, dar şi poeţilor,' fiind utilizabil şi ca dicţionar de rime. Această lucrare - care, spune "legenda", a valorificat experienţa din copilărie a uneia dintre autoare, care folosise în joacă o păsărească de acest fel - ar merita şi ea o nouă elaborare, pe baza unui inventar mai bogat şi actualizat de cuvinte şi a unui program care să permită "răsturnarea" lor automată.
2.1.8. Institutul a publicat, încă din 1968, un dicţionar al lexicului unui autor, primul ales neputând fi altul decât Eminescu - Dicţionarul limbii poetice a lui Eminescu23, care însă, la acea vreme, nu se putea baza, evident, pe stabilirea concordanţelor aşa cum se realizează ea în zilele noastre.
2.1.9. Institutul a elaborat de asemenea o serie de dicţionare ale limbii române pe epoci sau pe probleme, cum sunt Dicţionarul limbii române literare
19 D. Macrea (sub direcţia) (1958). Dicţionarul limbii române moderne, Bucureşti.
20 Pentru activitatea acestuia v. Mioara Avram (1999). Colectivul de gramatică, în Mioara Avram, Marius Sala, Ioana Vintilă-Rădulescu, op. cit., p. 113-125.
21 Mioara Avram (red. resp.) et al. (1982). Dicţionarul ortografic, ortoepic şi morfologic al limbii române (DOGM), Bucureşti, 1982.
22 *** (fgsjy Dicţionar invers, Bucureşti. V. şi Mircea Seche (1969). Schiţă de istorie a lexicografiei române, voi. II, De la 1880 până astăzi, Bucureşti, p. 254-255.
23 Tudor Vianu (sub redacţia) et al. (1968). Dicţionarul limbii poetice a lui Eminescu, Bucureşti.
26
27
vechi24 şi Dicţionarul împrumuturilor latino-romanice în limba română veche25, publicate de sectorul de limbă literară, filologie şi poetică26, condus de Ion Gheţie,' iar în prezent de Alexandru Mareş - şi Dicţionarul elementelor româneşti din documentele slavo-române27, elaborat la sectorul de slavistică28 - dicţionare destinate în primul rând specialiştilor.
2.1. 10. Un cercetător din institut, Constant Mâneca, a publicat, împreună cu Florin Marcu, un extrem de util, cu toate criticile care i s-au adus, Dicţionar de neologisme29, reluat şi dezvoltat, după moartea celui dintâi, de Florin Marcu, în numeroase variante, de diverse dimensiuni, la diferite edituri, inclusiv pe CD-Rom.
2.1.11. Se află în lucru şi Dicţionarul etimologic al limbii române (DELR) -coordonator: Marius Sala -, altă lucrare fundamentală a Academiei Române, la care colaborează cercetători din toate sectoarele Institutului, cercetători din Cluj şi Timişoara şi cadre didactice de la universităţile din Bucureşti, Cluj şi Timişoara.
2.1.12. Pe lângă resursele privitoare la numele comune, Institutul a elaborat şi importante lucrări consacrate numelor proprii30.
Astfel, în domeniul toponimiei, după clasica lucrare a lui lorgu Iordan31, s-a realizat în Institut Dicţionarul toponimic al României, partea I, Oltenia32, elaborat sub conducerea lui Gh. Bolocan în colaborare cu cadre didactice de la Universitatea din Craiova, din care au apărut în perioada 1993-2001 primele trei volume, precum şi al doilea dicţionar din serie, consacrat Munteniei şi aflat în curs de definitivare.
24 Mariana Costinescu, Magdalena Georgescu, Florentina Zgraon (1987). Dicţionarul limbii române literare vechi (1640-1780). Termeni regionali Bucureşti.
25 Gh. Chivu, Emanuela Buză, Alexandra Roman Moraru (1992). Dicţionarul împrumuturilor latino-romanice în limba română veche (1421-1760) Bucureşti.
26 V. Ion Gheţie (1999). Colectivul de limbă literară şi filologie, în Mioara Avram, Marius Sala, Ioana Vintilă-Rădulescu, op. cit, p. 132-143.
27 Gheorghe Bolocan (redactor responsabil) et al. (1981). Dicţionarul elementelor româneşti din documentele slavo-române. 1374-1600, Bucureşti.
28 Cu privire la care v. Virgil Nestorescu (1999). Sectorul de lexicografie bilingvă. Fostul sector de slavistică, în Mioara Avram, Marius Sala, Ioana Vintilă-Rădulescu, op cit p 165-174.
29 F. Marcu, C. Mâneca (1961-1978). Dicţionar de neologisme, Bucureşti, 1961; ed. II revăzută şi adăugită, 1966; 31978. V. şi Mircea Seche (1969). Schită'de istorie a
Jexicografiei române, voi. II, De la 1880 până astăzi, Bucureşti, p. 154-159.
Pentru activitatea în acest domeniu v. Gheorghe Bolocan, Ecaterina Mihăilă (1999).
Colectivul de onomastică şi Domniţa Tomescu (1999). Grupul de lucru PatRom, în Mioara
Avram, Marius Sala, Ioana Vintilă-Rădulescu, op. cit, p. 125-132. 31 lorgu Iordan (1952-1963). Nume de locuri româneşti în Republica Populară Română
Bucureşti, 1952; Toponimia românească, Bucureşti, 1963.
2 Gh. Bolocan (sub redacţia) et al. (1993-2001). Dicţionarul toponimic al României. Oltenia (DTRO), voi. I-III, Craiova, Editura Universitaria.
în domeniul onomasticii, de asemenea urmând altei lucrări clasice a lui lorgu Iordan33, Institutul colaborează şi la proiectul internaţional PatRom, care realizează un dicţionar istoric de antroponimie romanică, în care este reprezentată şi limba română, şi din care până acum a fost publicat un prim volum de prezentare34.
2.2. Dicţionare bilingve şi multilingve
2.2.1. Pe lângă dicţionarele monolingve ale limbii române, Institutul a realizat şi unele din cele mai importante dicţionare bilingve35 (englez-român36, german-român37, rus-român38, ceh-român39 şi sârb-român40 - perechea sa, dicţionarul român-sârb, fiind în curs de redactare; un dicţionar francez-român a rămas nepublicat) şi frazeologice (spaniol-român, sub tipar, şi român-spaniol, în curs de elaborare), cărora li se adaugă dicţionare bilingve41 - care au început a fi transpuse şi pe CD-Rom - şi dicţionare frazeologice româneşti42 şi bilingve43 elaborate de unii membri ai Institutului; Dicţionarul elen-român, lucrare colectivă, se apropie şi el de sfârşit.
2.2.2. Institutul a colaborat şi la mai multe dicţionare multilingve44, dintre care se distinge în mod deosebit un lexicon multilingv de un tip special - o adevărată premieră internaţională - Dicţionarul elementelor latineşti savante din limbile romanice, elaborat la sectorul de romanistică (condus iniţial de marele
33 lorgu Iordan (1983). Dicţionar al numelor de familie româneşti, Bucureşti.
34 *** (fQQj) pictionnairehistorique d'anthroponymie romane (PatRom). Presentation d'un projet, Tubingen.
35 V. şi llinca Constantinescu. (1999). Fostul sector de germanistică, în Mioara Avram, Marius Sala, Ioana Vintilă-Rădulescu, op. cit, p. 174-179.
36 L. Leviţchi (red. resp.) etal. (1974). Dicţionar englez-român, Bucureşti. Suplimentul la acest dicţionar, care nu a mai apărut, coordonat de llinca Constantinescu, va fi inclus într-o nouă ediţie, mult mărită, a dicţionarului, aflată sub tipar şi care va reprezenta cel mai bogat dicţionar englez-român.
37 M. Isbăşescu, Măria lliescu (coord. şi revizie) et al. (1966, 1988). Dicţionar german-român, Bucureşti, 1966; ediţia a ll-a revăzută şi îmbogăţită, Bucureşti, 1988.
38 Gheorghe Bolocan (redactor responsabil) (1964). Dicţionar rus-român, Bucureşti.
39 S. Staţi (red. resp.) et al. (1967). Dicţionar ceh-român, Bucureşti.
40 M. Tomici (1998-2000). Dicţionar sârb-român, 3 voi, Timişoara.
41 Gh. Bolocan (1972). Dicţionar bulgar-român, Bucureşti - Sofia; Gh. Bolocan et al. (1980). Dicţionar român-rus, Bucureşti - Moscova; Al. Calciu, C. Duhăneanu, D. Munteanu (1979). Dicţionar român-spaniol, Bucureşti; Ana Canarache (coord.) (1967, 1978). Dicţionar român-francez, Bucureşti, 21978; M. Isbăşescu (red. resp.) (1963), Dicţionar român-german, Bucureşti; Valeria Neagu (2001). Dicţionar român-spaniol (cu transpunere pe CD-Rom), Bucureşti.
42 V. Breban et al. (1969). Dicţionar de expresii şi locuţiuni româneşti Bucureşti.
43 Gh. Bolocan et al. (1968). Dicţionar frazeologic rus-român, Bucureşti; H. Mantsch et al. (1979). Dicţionar frazeologic român-german, Bucureşti.
44 *** flQQiy Dictionnaire de la presse ecrite et audiovisuelle. Espagnol-frangais-italien-portugais-roumain, Paris; *** (2001). Usage Dictionary of Anglicisms in Selected European Languages (UDASEL) Oxford ş.a.
28
29
romanist lorgu Iordan, apoi de Marius Sala şi în prezent de subsemnata)45, în colaborare cu cadre didactice de la Facultatea de Limbi şi Literaturi Străine a Universităţii din Bucureşti şi în coordonarea prof. dr. Sanda Reinheimer Rîpeanu, decanul Facultăţii. Negăsindu-şi un editor "clasic" din cauza costurilor prea ridicate, acest dicţionar va fi publicat direct pe Internet, sub auspiciile Universităţii din Bucureşti.
3. Bănci de date
3.1. Institutul a avut în proiect încă din anii 1978-80 realizarea primei bănci computerizate de date lingvistice din România (Banca de date fono-morfo-semantice a limbii române - BANDASEM)46, cel dintâi modul fiind cel de semantică, proiectat pentru un Dicţionar confruntativ de sinonime, de analogii şi de asociaţii al limbii române (DCSAAs). Redactarea acestuia, care a ajuns la litera S, s-a făcut însă cu mijloace tradiţionale, deşi prin colaborarea cu Centrul de Calcul al Universităţii din Bucureşti se elaborase un modul de program în sistemul Socrate pentru recunoaşterea şi selectarea, ca probă, a analogiilor şi a asociaţiilor cuvântului blitz. Elaborarea DCSAAs a fost întreruptă pentru un timp în favoarea lucrărilor prioritare al Academiei, iar reluarea lui se va putea face, sperăm, cu mijloacele informatice disponibile actualmente47.
3.2. O minibancă iniţiată în cadrul sectorului de gramatică al Institutului, a cărei alimentare a fost din păcate întreruptă în favoarea concentrării forţelor pentru realizarea ediţiei a doua a "Gramaticii Academiei", este Banca de inovaţii a limbii române, bazată pe monitorizarea presei scrise şi audiovizuale actuale.
3.3. Având în vedere că în DOOM informaţia este atomizată, în folosul cititorului neprofesionist, în cadrul fiecărui cuvânt-titlu în parte, dar este greu de sistematizat de către specialist, Institutul are în proiect, începând din 2003, realizarea unui baze de date care să permită nu numai elaborarea unui Nou dicţionar ortografic, ortoepic şi morfologic al limbii române şi a unor dicţionare specializate de un tip asemănător, precum şi aducerea lor permanentă la zi, ci şi gruparea cuvintelor în clase în funcţie de caracteristicile lor fonetice, grafice şi morfologice48.
Cu privire la activitatea acestuia v. Marius Sala (1999). Sectorul de limbi romanice şi clasice, în Mioara Avram, Marius Sala, Ioana Vintilă-Rădulescu, op. cit, p. 147-164.
46 Ion Dănăilă (2000). Proiecte de prelucrare electronică a vocabularului limbii române, în "Terminologia în România şi în Republica Moldova", Cluj-Napoca, p. 36-37.
47 Partea de fonetică/grafematică şi de morfologie a BANDASEM a fost cedată institutului L | omolog din Cluj, pentru care v. Felicia Şerban et al. (2000). Baza de date a limbii române, în || "Terminologia în România şi în Republica Moldova", Cluj-Napoca, p. 37-38 şi La base de l|                 donnees de la langue roumaine, în "Terminometro Hors-serie n° 4. La terminologie en
j Roumanie et en Republique de Moldova", p. 40 -42.
|| 48 Clasificarea cuvintelor româneşti conform modului lor de flexiune, realizată de Alf
II Lombard, Constantin Gâdei (1981). Dictionnaire morphologique de la langue roumaine,
3.4. Institutul are în proiect şi elaborarea sau definitivarea unor resurse terminologice49 (dicţionare terminologice bi- şi multilingve, valorificând cele elaborate în cadrul proiectului PRACTEAST din cadru programului COPERNICUS al Comisiei Europene50 şi un dicţionar al termenilor oficiali); de altfel, mai mulţi membri ai Institutului au colaborat la realizarea Băncii de date terminologice (BDT) multilingve a Asociaţiei Române TermRom51, care, cu sprijinul Direcţiei de terminologie şi inginerie lingvistică a Uniunii Latine, este accesibilă pe site-ul TermRom găzduit de CIMEC (http://www.cimec.ro/tr) şi, de curând, şi pe CD-Rom. Reprezentarea României (prin subsemnata) în Reţeaua Panlatină de terminologie (Realiter)52 şi în Reţeaua Francofonă de Amenajare Lingvistică (Rifal)53 vor constitui desigur un sprijin în dezvoltarea resurselor terminologice pentru limba română în conformitate cu normele şi recomandările internaţionale.
Lund - Bucureşti, bazată pe inventarul DEX1f prezintă unele inexactităţi din cauza insuficientei cunoaşteri de către autori a limbii române actuale; ea constituie una din bazele realizării, în Republica Moldova, a unui pachet de programe destinat elaborărilor de nivel morfologic, pentru care v. Elena Boian et al. (2000). Instrumentar pentru aplicaţii lingvistice, în "Terminologia în România şi în Republica Moldova", Cluj-Napoca, p. 38-40 şi Instruments pour applications linguistiques, în "Terminometro Hors-serie n° 4. La terminologie en Roumanie et en Republique de Moldova", p. 42-44; o grupare pe tipuri a unui număr limitat de cuvinte ale limbii române a fost realizată de Flora Şuteu, Elisabeta Şoşa (1999) în îndreptar ortografic şi morfologic; Bucureşti.
} V. Ioana Vintilă-Rădulescu (1999). Institutul de Lingvistică "lorgu Iordan" din Bucureşti, în "Terminologia în România şi în Republica Moldova", Cluj-Napoca, p. 13-15, şi L'lnstitut de Linguistique lorgu Iordan de Bucarest, în "Terminometro Hors-serie n° 4. La terminologie en Roumanie et en Republique de Moldova", p. 22-23.
} Nicoleta Petuhov. (2000). Colaborarea românească la proiectul PRACTEAST, în "Terminologia în România şi în Republica Moldova", Cluj-Napoca, p. 58-59 şi La collaboration roumaine au projet Practeast, în "Terminometro Hors-serie n° 4, La terminologie en Roumanie et en Republique de Moldova", p. 64-66. 1 Dan Matei (2000). Banca de date terminologice a TermRom, în "Terminologia în România şi în Republica Moldova", Cluj-Napoca, p. 29-30 şi La banque de donnees terminologiques de TermRom, în "Terminometro Hors-serie n° 4, La terminologie en Roumanie et en ^Republique de Moldova", p. 32-33.
1 Dan Matei (2000). Prezenţa românească în reţeaua panlatină de terminologie (Realiter), în "Terminologia în România şi în Republica Moldova", Cluj-Napoca, p. 56-58 şi La presence roumaine dans le Reseau panlatin de terminologie Realiter, în "Terminometro Hors-serie n° 4. La terminologie en Roumanie et en Republique de Moldova", p. 63-64. 3 Ioana Vintilă-Rădulescu (2000). Colaborarea în cadrul ACCT/Agenţiei Interguverna-mentale a Francofoniei şi al Rifal, în "Terminologia în România şi în Republica Moldova", Cluj-Napoca, p. 51-52 şi La cooperation dans le cadre de l'ACCT (Agence Intergouvernementale de la Francophonie), în "Terminometro Hors-serie n° 4. La terminologie en Roumanie et en Republique de Moldova", p. 57-58.
30
31
4. Corpusuri
O altă categorie importantă de resurse lingvistice o constituie corpusurile, la Institut fiind în curs de realizare o Bancă de texte româneşti, care cuprinde texte din secolele al XVI-lea - al XVII Mea, introduse integral în calculator, şi în care se prevede introducerea câtorva sute de texte din toate epocile. Iniţiată de directorul institutului, acad. Marius Sala, Banca a fost deja valorificată în elaborarea unor teze de doctorat, printre altele la aceea a Janei Balacciu-Matei. Pentru exploatarea ei deplină în vederea identificării primelor atestări ale cuvintelor limbii române din fondul vechi, necesare MDA şi Dicţionarului etimologic al limbii române (DELR), a îmbogăţirii dicţionarelor limbii române în general şi a dezvoltării studiilor privind istoria limbii române literare şi a limbii noastre în ansamblu este necesară achiziţionarea unor programe de ultimă oră, precum şi specializarea unor persoane pentru utilizarea lor eficientă. Sperăm de asemenea că într-un viitor nu prea îndepărtat se va realiza şi dorita joncţiune cu Banca de texte din faza modernă şi contemporană a limbii române, proiectată a se realiza la Centrul de Studii Româneşti de pe lângă Universitatea din Anvers, inaugurat în primăvara anului 2000 sub conducerea cunoscutei romaniste şi romaniste Liliane Tasmowski.
5. Resurse bibliografice
Amintim pe scurt şi principalele resurse bibliografice privitoare la limba română elaborate de Institut sau de membri ai acestuia54. Bibliografia limbii române, iniţiată de Al. Rosetti şi definitivată de Aurel Nicolescu, a rămas nepublicată. Bibliografia românească de lingvistică (BRL) referitoare la lucrările de lingvistică apărute în ţară începând din 1944 apare anual în revista "Limba română"; în 1999, ea totalizase deja 64.340 de titluri, în peste 3.300 de pagini de tipar; se preconizează introducerea în calculator a tuturor numerelor din BRL în vederea publicării unui volum cu itemurile ordonate pe autori şi pe domenii (descrise şi separate mai amănunţit decât în forma apărută, cronologic, cu indice de domenii, materii, cuvinte, autori etc).
Pentru domeniul terminologiei s-au realizat bibliografii ale dicţionarelor terminologice, respectiv ale studiilor de terminologie55 şi ale standardelor româneşti de/cu terminologie56, precum şi un repertoriu bio-bibliografic al terminologilor
'1. Coteanu, I. Dănăilă (1970). Introducere în lingvistica si filologia românească Probleme. Bibliografie, Bucureşti; T. Vianu (red. resp.) et al. (1972). Bibliografia analitică a limbii române literare. 1780-1866, Bucureşti; Gh. Chivu, Mariana Costinescu (1974). Bibliografia filologică românească. Secolul al XVI-lea, Bucureşti.
' Anca Fezi et al. (2000). Bibliografia lucrărilor de terminologie (1990-1999). România, în "Terminologia în România şi în Republica Moldova", Cluj-Napoca, p. 103-113 şi pe discheta anexată revistei Terminometro Hors-serie n° 4. La terminologie en Roumanie et en Republique de Moldova".
'Aurora Peţan, EdySăvescu (2000). Standarde româneşti de/cu terminologie (1990-1999). România, în "Terminologia în România şi în Republica Moldova", Cluj-Napoca, 2000, p.
din România57, inclus în repertoriul internaţional al terminologilor din domeniul neolatin pregătit de Uniunea Latină şi accesibil pe Internet.
6. Concluzii
Nu ne vom referi aici la alte tipuri de lucrări (gramatici58, tratate59, enciclopedii60 etc.) elaborate de Institut sau de cercetători ai acestuia ori la alte tipuri de resurse care ar merita să fie elaborate de noul institut, pentru a înlocui lucrări mai vechi şi a valorifica posibilităţile oferite culturii de societatea informaţională, de exemplu un nou dicţionar de frecvenţă al limbii române ş.a.
Deşi dicţionarele pe CD-Rom şi cele pe Internet sunt solicitatete de tot mai mulţi utilizatori din ţară şi din străinătate, care cer tot mai des informaţii cu privire la eventuale dicţionare româneşti on-line, până în prezent a existat la noi o anumită reticenţă a editurilor proprietare ale drepturilor asupra ediţiilor pe suportul tradiţional de hârtie faţă de acest nou mod de difuzare. Nu trebuie însă să existe temerea că folosirea şi a noilor suporturi ar diminua vânzarea cărţilor, în condiţiile în care, în ciuda tuturor eforturilor, un procent încă infim din populaţia Românei are acces la PC-uri. De altfel, practica altor ţări a arătat că, în mod neaşteptat, difuzarea şi în format electronic chiar a sporit desfacerea cărţilor, cărora le-a făcut în felul acesta reclamă şi care prezintă, la rândul lor, alte avantaje în utilizare în raport cu CD-Romurile, cele două tipuri specializându-se şi în funcţie de necesităţi. Astfel, având în vedere culegerea lor computerizată, atât DEX, cât şi MDA şi DOOM ar putea fi primele dicţionare ale Institutului difuzate în viitor şi pe CD-Rom.
Credem că şi diverse lucrări valoroase ale Institutului, care, exclusiv din motive financiare, nu-şi găsesc editori de ani de zile, nici în ţară, nici în străinătate (ca Bibliografia limbii române, Dicţionarul spaniolei americane ş.a.), ar putea fi
117-126 şi pe discheta anexată revistei Terminometro Hors-serie n° 4. La terminologie en Roumanie et en Republique de Moldova". 57 Adriana Marinescu (2000). Repertoriul bibliografic al terminologilor. România, în "Terminologia în România şi în Republica Moldova", Cluj-Napoca, 2000, p. 128-139 şi pe discheta anexată revistei Terminometro Hors-serie n° 4. La terminologie en Roumanie et en Republique de Moldova".
8 *** (1954, 1963). Gramatica limbii române, Bucureşti, ed. I, 1954; ed. a ll-a, revăzută şi adăugită, 1963; Mioara Avram (1986, 1997, 2001). Gramatica pentru toţi, Bucureşti, 1986; s 21997;32001.
59 Al. Rosetti (redactor responsabil) et al. (1965, 1969). Istoria limbii române. Bucureşti, voi. I. Limba latină, voi. al ll-lea; Al. Graur, Mioara Avram (1970-1989). Formarea cuvintelor în limba română, Bucureşti: I. Fulvia Ciobanu, Finuţa Hasan (1970). Compunerea; //. Mioara Avram et al. (1978). Prefixele, 1978; III. Laura Vasiliu (1989). Sufixele, 7. Derivarea
6Qverbală etc.
Marius Sala, Ioana Vintilă-Rădulescu (1981). Limbile lumii. Mică enciclopedie, Bucureşti; (1984). Les langues du monde. Petite encyclopedie, Bucureşti - Paris; Marius Sala (coord.) etal. (1989). Enciclopedia limbilor romanice, Bucureşti; (2001), Enciclopedia limbii române, Bucureşti.
32
33
valorificare prin aducerea lor la cunoştinţa celor interesaţi pe această cale, tot mai utilizată în societatea informaţională actuală. O condiţie pentru viitor este realizarea din capul locului a lucrărilor institutului pe calculator, care a devenit posibilă prin tot mai buna dotare tehnică a Institutului, realizată prin eforturile directorului său, precum şi prin însuşirea, de către un număr tot mai mare de cercetători din Institut, în special din generaţiile tânără şi mijlocie, a cunoştinţelor de operare pe calculator, inclusiv, în unele cazuri, a lucrului cu baze de date.
Prin realizarea proiectelor de editare pe CD-Rom şi pe Internet vom recupera relativa întârziere în acest domeniu faţă de difuzarea în România, de către Grupului Editorial Litera din Republica Moldova şi firma Litera Internaţional, cu sediul în Bucureşti, a unor CD-Romuri cuprinzând, în diverse combinaţii, mai multe titluri61. Sperăm că CD-Romurile consacrate unor dicţionare ale Institutului vor fi, deşi tot protejate, mai uşor de instalat decât cele de la Litera şi că vor oferi mai multe facilităţi în utilizare decât acestea, care nu sunt foarte practice, mai ales pentru cercetători, în ciuda structurii lor modulare şi a interfeţei lor comune, despre care în reclamă se spune că permit activarea simultană a tuturor dicţionarelor.
Pentru progresul cercetărilor şi dezvoltarea şi prelucrarea resurselor la nivelul exigenţelor pe plan mondial, credem că în viitor se impune o mai bună colaborare, în interes reciproc, între lingvişti şi informaticienii preocupaţi de probleme asemănătoare.
Corectorul electronic ORTO 2001 ROM SP, Dicţionarul ortografic al limbii române, Gramatica uzuală a limbii române, Noul dicţionar explicativ al limbii române^ Marele dicţionar de neologisme de Florin Marcu, Dicţionarul de dublete etimologice ale limbii române de Marcu Gabinschi şi un Dicţionar de termeni de afaceri englez-român.
Contribuţia lingvisticii la studiul terminologiilor
ştiinţifice
Angela BIDU-VRÂNCEANU
Universitatea din Bucureşti, Edgar Quinet nr. 5-7
vrancean@gpsnet.ro
1. Se admite "laicizarea" ştiinţelor [1] sau importanţa lor socio-culturală, economică şi pedagogică tot mai mare în societăţile moderne. Aceasta înseamnă că limbajele specializate şi terminologiile lor nu mai reprezintă coduri total inaccesibile vorbitorilor obişnuiţi, nespecializaţi sau de altă specialitate. în direcţia deschiderii, chiar şi parţiale a codurilor ştiinţifice, dicţionarele generale [2], care includ un număr destul de mare de termeni ştiinţifici joacă un rol deosebit pentru a asigura accesul la sensul specializat oricărui vorbitor insuficient informat, pentru a-l ajuta să rezolve ambiguităţile de diferite tipuri şi chiar să utilizeze adecvat o terminologie. Permanenta raportare la dicţionarele generale ca forme instituţio-nalizate de reglare a uzului nu numai al cuvintelor din limba comună, ci şi a termenilor specializaţi constituie premisa de la care pornim pentru a susţine importanţa lingvisticii în descrierea terminologiilor ştiinţifice, în receptarea şi utilizarea lor adecvată chiar şi de către nespecialişti.
Pe aceste poziţii s-a situat activitatea în cadrul a trei contracte de cercetare ştiinţifică pe anii 1997, 1999 şi 2000, finanţate de CNCSIS (Consiliul Naţional de Cercetare Ştiinţifică). Au fost studiate limbajul filozofic, terminologiile matematică, mineralogică şi din artele plastice şi, dintr-o perspectivă mai limitată medicina, lingvistica şi ştiinţele politice. Rezultatele cercetărilor au fost publicate în două volume: Lexic comun, lexic specializat [3], care conţine studii cu caracter monografic şi Lexic ştiinţific interdisciplinar [4], reprezentând o sinteză a lexicografiei generale şi specializate pentru termenii din fiecare dintre domeniile studiate care apar mai mult decât într-o terminologie ştiinţifică.
în toate cercetările întreprinse s-a urmărit adoptarea unei grile metodologice comune atât pentru clase de cuvinte din limba comună (abstractele), cât şi pentru termenii specializaţi din orice domeniu. S-a obţinut atât caracterizarea fiecărei terminologii studiate în parte, cât şi desprinderea unor trăsături generale ale terminologiilor ştiinţifice, relevante din punct de vedere lingvistic. S-au avut în vedere aspecte paradigmatice privind diferitele modalităţi de definire a sensului, relaţiile semantice (monosemie/polisemie, hiponimie, sinonimie) din perspectiva necesităţii ca termenii ştiinţifici să fie monoreferenţiali, univoci din punct de vedere
34
35
semantic şi să nu aibă sinonime. Analiza sintagmatică a gradului de non-determinare contextuală ca o condiţie de exprimare a sensului specializat a individualizat terminologiile ştiinţifice studiate, de la o libertate contextuală mai mare (terminologia matematică, mineralogică) sau relativă (terminologia filozofică) până la o strictă determinare contextuală (terminologia politică şi din artele plastice). Acolo unde independenţa contextuală e mai mare, determinările contextuale exprimă în mod similar în diferite terminologii (matematică, filozofică, lingvistică) subcategorii ştiinţifice care dezambiguizează lexicul ştiinţific intedisci-plinar. Caracterizarea termenilor ştiinţifici prin mărci diastratice în dicţionarele generale şi enciclopedice ca tipuri de informaţii sintagmatice reprezintă un aspect foarte important pentru uzajul adecvat de către specialişti, aspect deficitar, inegal rezolvat.
De pe poziţia receptorului nespecializat care decodează sensul total sau parţial, un rol important îl are definiţia lexicografică care, spre deosebire de cea terminologică trebuie să fie mai mult sau mai puţin naturală şi prin aceasta accesibilă. Existenţa celor două tipuri de definiţii ale termenilor specializaţi este în general admisă şi compararea lor este favorizată de prezentarea sintetică, sinoptică propusă de noi [4]. Chiar şi în cazul definiţiilor strict terminologice, Em. Vasiliu [5] a susţinut şi demonstrat prin diferite exemple relevanţa diferită a unor componente de sens pentru vorbitorul specialist sau non-specialist. Pornind de la aceste constatări de principiu, ar fi justificat ca termenii ştiinţifici să aibă definiţii alternative, ştiinţifice şi pre-ştiinţifice [6], condiţionate atât de o interpretare semantică, cât şi de una pragmatică. Din această perspectivă, definiţiile termenilor ştiinţifici în dicţionarele generale ar trebui să difere de cele din dicţionarele specializate pentru a facilita deschiderea codurilor ştiinţifice şi pentru a dezambiguiza lexicul ştiinţific interdisciplinar (din principiu, de interes mai larg) sau tangenţele cu limba comună. Din păcate, cu mici excepţii (matematica) selecţia termenilor ştiinţifici şi definirea lor nu diferă aproape deloc în dicţionarele generale şi în cele specializate.
2. Din perspectivă lingvistică, terminologiile investigate prezintă o serie de particularităţi:
Matematica se caracterizează prin cel mai mare grad de abstractizare şi de ermetism la nivelul sensurilor şi definiţiilor lor. Compararea definiţiilor specializate cu cele din dicţionarele generale arată că acestea din urmă definesc diferit şi mai accesibil termenii, fără a afecta precizia lor semantică. Sensurile univoce, fără sinonime nu sunt condiţionate contextual; sintagmele mai mult sau mai puţin fixe diferenţiază subcategorii conceptuale ( de ex. sistem de ecuaţii, ~ de curbe, ~ de numeraţie, ~ de referinţă) şi nu afectează independenţa semantică a acestora. Această terminologie dispune de cea mai bună marcare diastratică în DEX, chiar dacă există numeroase situaţii în care apartenenţa la matematică rezultă numai din definiţie (manieră de caracterizare practicată sistematic şi nu întotdeauna convenabil de DEX în cazul altor terminologii). Matematica are cel
mai bogat lexic ştiinţific interdisciplinar, cei mai numeroşi termeni comuni fiind cu fizica, filozofia, logici, dar şi cu lingvistica, biologia, arhitectura ş.a.; termenii interdisciplinari îşi păstrează aproape neschimbat sensul, indiferent de domeniul în care se utilizează. Dacă în unele cazuri (relaţia cu fizica, logica, filozofia) punctul de plecare pentru lexicul interdisciplinar nu se poate stabili cu certitudine, în destule alte situaţii, matematica este sursa "împrumutului" făcut de alte ştiinţe (arte plastice, arhitectură, lingvistică ş.a.)
Mineralogia reprezintă şi ea un grad mare de ermetism sau închidere a codului, majoritatea termenilor fiind univoci semantic, monoreferenţiali şi implicit, independenţi contextual. Determinările contextuale reprezintă subtipuri, ca şi în alte terminologii (matematică, filozofie de ex.; acvamarin brazilian, ~ sintetic, ~ siamez, etc.) Are un număr mai limitat de termeni comuni cu alte ştiinţe (chimia, artele plastice, simbolistica) şi, cel puţin pentru ultimele două, mineralogia este punctul de origine al termenilor interdisciplinari. în ciuda caracterului strict specializat al acestei terminologii, marcarea diastratică din dicţionarele generale este deficitară.
Terminologia filozofică se caracterizează printr-un grad oarecare de ambiguitate, determinat de variaţii de interpretare în funcţie de curente şi tipuri de texte, dar şi de contactele cu alte ştiinţe sau cu limba comună. De aceeadefiniţiile termenilor filozofici nu se pot limita la dicţionare, fiind necesară analiza strategiilor argumentative şi a figurilor textuale; Invers proporţional cu această necesitate de dezambiguizare, DEX-ul prezintă o marcare diastratică deficitară atât pentru termenii filozofici, cât şi pentru celelalte terminologii cu care se stabilesc interdisciplinarităţi, cum ar fi matematica, lingvistica şi alte domenii umaniste. O bună parte a lexicului ştiinţific interdisciplinar are ca punct de plecare filozofia, al cărei sens se păstrează ca o medie semantică în majoritatea disciplinelor. Ca şi în alte ştiinţe, determinarea contextuală exprimă în general subtipuri (de ex. sistem al ştiinţelor, ~ axiomatic, ~ filozofic).
Terminologia artelor plastice prezintă aspecte paradoxale. Maniera de înregistrare şi de definire echivocă, imprecisă a acestor termeni în dicţionarele generale dă impresia unui nespecialist de falsă accesibilitate, interpretare contrazisă categoric de definiţiile precise, riguroase din dicţionarele şi textele specializate. Dependenţa contextuală strictă a numeroşi termeni din artele plastice, al căror sens specializat e condiţionat de sintagmele fixe în care apare (de ex. acord cromatic, compoziţie de gen, semn plastic) reprezintă o altă caracteristică a acestei terminologii. Artele plastice au un lexic ştiinţific interdisciplinar bogat, în care se remarcă faptul că sunt preluaţi cu unele modificări semantice (privind interesul pentru acest domeniu) termeni din alte ştiinţe, cum ar fi chimia, mineralogia, matematica, fizica. DEX-ul nu utilizează decât mărcile diastratice (pictură), (sculptură) dispuse nesistematic şi rar, ceea ce contribuie la o tratare deficitară a acestei terminologii.
36
37
Lexicul ştiinţelor politice prezintă, din prespectiva analizei întreprinse de noi, o serie de particularităţi (unele asemănătoare cu artele plastice). Se remarcă dependenţa contextuală strictă a acestei terminologii, nici unul dintre termeni nefiind total liber contextual. Sensul specializat în ştiinţele politice se exprimă, deci, aproape exclusiv pe cale sintagmatică, în contexte mai mult (celulă de criză, agregare de interese, de ex.) sau mai puţin fixe (diverse combinaţii cu adjectivul politic în sintagme nominale: capital politic, cartel ~ algoritm ~, contract ~, dialog ~ alternanţă politică). Preia (fără să fie niciodată punct de plecare termeni din numeroase şi variate ştiinţe: economia, filozofia, dreptul, dar şi lingvistica, biologia, medicina, geografia, fizica, psihologia, sportul. în majoritatea acestor cazuri nu există o motivare de conţinut strictă (dincolo de întrebuinţarea metaforică), ceea ce determină, în mare parte, mai curând un lexic ştiinţific interferent decât unul interdisciplinar. Poate şi din cauza modificărilor continue şi rapide din domeniul politicii, DEX-ul înregistrează în mică măsură termeni şi sensuri din acest domeniu diastratic, ceea ce constituţie un dezavantaj în impunerea acestei terminologii.
3. Analiza lingvistică a limbajelor ştiinţifice (care ar putea fi extinsă) permite caracterizarea unor terminologii ca "puternice" (matematica, mineralogia de ex.), iar a altora mai "slabe" în diferite forme şi grade (de ex. ştiinţele politice, artele plastice), cu dificultăţi mai mari de deschidere a codurilor în cazul primei categorii.
Delimitarea componentelor de sens relevante diferit în funcţie de vorbitori specializaţi şi nespecializaţi ar putea constitui o bază obiectivă pentru rezolvarea mai eficientă a definiţiilor alternative în dicţionarele generale, foarte importante în "laicizarea" ştiinţelor necesară în grade diferite în epoca actuală. Exprimarea sensului specializat condiţionat de dependenţele contextuale mai mici (pentru terminologiile "puternice") sau mai mari (pentru terminologiile "slabe") constituie o caracterizare lingvistică relevantă. în schimb, în unele cazuri (ca pentru terminologia politică), determinările contextuale sunt mai favorabile, "transparenţei" semantice sau deschiderii codurilor specializate.
Analiza lexicului ştiinţific interdisciplinar (LSI) poate contribui şi ea la determinarea specificului unor terminologii. Ştiinţele care constituie sursa, punctul de plecare pentru o parte a LSI îşi susţin, şi pe această cale, statutul de terminologie "puternică" (de ex. matematica, fizica şi, din acest punct de vedere filozofia). Dimpotrivă, atunci când punctul de plecare nu se poate stabili aproape niciodată la nivelul unor terminologii (ştiinţele politice, artele plastice), aceasta constituie o modalitate de determinare specifică. Diferenţierea interdisciplinarităţilor (cu o motivare de conţinut determinată de considerarea referentului din diferite puncte de vedere sau de un transfer conceptual) de simplele interferenţe (mai puţin sau deloc motivate, cu modificări de sens ale termenilor, multe metaforice) se bazează pe aprecierea distanţei semantice, verificată obiectiv.
Dat fiind rolul dicţionarelor generale în impunerea şi extinderea terminologiilor ştiinţifice, de interes pentru diferite categorii de vorbitori, carenţele constatate în tratarea sensului şi în marcarea lor diastratică riguroasă conduc la concluzia necesităţii unei reconsiderării şi remedieri a manierei de tratare din perspectiva "laicizării" ştiinţelor.
Referinţe bibliografice
[1] F. Rastier (1995) Le terme; entre ontologie et linguistique. Banque des mots 1995/7, p. 35-65.
[2] DEX - Dicţionar explicativ al limbii române, (1996) ed.a 2-a sub coord. acad- I. Coteanu şi Dr. Lucreţia Mareş, Ed. Univers Encilopedic, Bucureşti 1996.
[3] A. Bidu-Vrânceanu - coordonator (2000). Lexic comun, lexic specializat, Editura Universităţii din Bucureşti, 2000, cu colaboratorii: Alice Toma (matematică), Silvia Săvulescu (mineralogie), Claudia Ene (filozofie), Alexandra Vrânceanu (arte plastice).
[4] A. Bidu-Vrânceanu - coordonator (2001). Lexic ştiinţific interdisciplinar, Editura Universităţii din Bucureşti, 2001, cu colaboratorii: Silvia Săvulescu (ştiinţe politice şi mineralogie), Alice Toma (matematică),Claudia Ene (filozofie), Alexandra Vrânceanu (arte plastice).
[5] Em. Vasiliu (1980). Sens şi definiţie lexicografică "Studii şi cercetări lingvistice", an XXXI, 465, 1980.
6] Em. Vasiliu (1982/1983). Adevăr analitic şi definiţie lexicografică "Analele ştiinţifice ale Universităţii "Al. I Cuza" din laşi", secţiunea III, tom XXVIII/XXIX, 1982/1983.
39
Gramaticile generative nontransformationale
Emil IONESCU
Universitatea Bucureşti, Facultatea de Litere Str. Edgar Quinet nr. 5-7, Email: eionescu@racai.ro
Acest articol este o prezentare generală a gramaticilor generative nontransformationale (GNT) şi a prezenţei lor în cercetarea lingvistică din România. în prima secţiune a articolului este descrisă geneza acestor gramatici. în secţiunea a doua, sunt prezentate pe scurt caracteristicile lor, în timp ce în partea treia şi a patra se menţionează principalele realizări ştiinţifice şi formele de existenţă instituţională ale curentului. Partea a cincea este consacrată iniţiativelor şi paşilor care au dus la pătrunderea acestor gramatici în mediile ştiinţifice de la noi. Concluziile articolul se vor a fi o pledoarie în sprijinul eforturilor de dezvoltare a acestei direcţii în cultura ştiinţifică românească.
1. Gramaticile generative nontransformationale: apariţia lor
Gramaticile generative nontransformationale reprezintă, în interiorul lingvisticii formale contemporane, o direcţie extrem de influentă şi de un remarcabil dinamism. Istoria acestei direcţii este, desigur, mai recentă decât istoria generativismului din care face parte. Este însă o istorie deja bogată şi diversă. Printre altele, diversitatea se exprimă şi prin faptul că suntem obligaţi să vorbim despre gramatici şi nu despre o gramatică nontransformaţională, pur şi simplu.
Putem plasa începuturile acestei istorii la cumpăna dintre anii 70 şi '80. Sunt anii când programul gramaticii universale al lui Noam Chomsky este pe punctul să depăşească starea de impas atinsă prin faza denumită de istoricii mişcării "teoria standard". Privită din perspectiva prezentului, lucrarea din 1981 a lui Chomsky ("Lectures on Government and Binding") tocmai acest lucru îl subliniază: depăşirea crizei prin propunerea unui model nou de gramatică universală.
Punctele în care gramatica universală este reformulată în cadrul modelului "Government and Binding" (GB) nu sunt puţine şi nici neînsemnate. Dar cea mai importantă modificare a fost operată într-una din componentele care născuse iniţial cele mai mari speranţe: componenta transformărilor. Formulată succint, regândirea
52177^
40
41
conceptului de transformare în cadrul modelului GB înseamnă două lucruri: simplificare şi îngrădire. Simplificare, deoarece marea varietate de transformări se reduce acum la o singură operaţie: deplasarea unui constituent oarecare a. Şi îngrădire, pentru că deplasarea nu se poate produce oricum, ci numai în condiţiile în care anumite reguli foarte generale, numite principii, sunt respectate.
Nu toţi adepţii generativismului au fost însă mulţumiţi cu noua propunere. Ceea ce s-a reproşat a fost că transformările rămâneau mai departe mecanisme prea puternice - în ciuda îngrădirilor şi a simplificărilor - deoarece ele operau pe un domeniu prea larg: cel al structurilor sintactice. O altă obiecţie viza temeiurile mentale ale operaţiei de deplasare: în ciuda plauzibilităţii aparente a acestei ipoteze, nu există dovezi - susţineau criticii - că mintea implicată în utilizarea limbajului ar face uz de o astfel de operaţie. în sfârşit, existau cercetători care considerau că noul model de gramatică universală era greoi din punct de vedere computaţional, tocmai din cauza operaţiei de deplasare: anume, pentru fiecare deplasare de constituenţi, este necesară o verificare a compatibilităţii dintre principii şi deplasarea constituentului.
în ansamblu, divergenţele legate de conceptul de transformare au pregătit cea mai mare ruptură pe care a cunoscut-o în istoria sa curentul gramaticii universale. Criticii radicali ai conceptului de transformare au propus renunţarea la acest mecanism, propunere pe care Chomsky şi cei ce l-au urmat nu au acceptat-o niciodată. începând cu anul 1981, ruptura se oficializează. Apar pe rând Gramatica Lexico-Funcţională (LFG - Bresnan şi Kaplan), Gramatica Sintagmatică Generalizată (GPSG - Gazdar, Klein Pullum şi Sag), Gramatica Arborilor Adăugaţi (TAG - Joshi), Gramatica Centrilor de Sintagmă (HPSG - Pollard şi Sag), Gramaticile Categoriale de Unificare (CUG- Uzkoreit)
trăsătură (atribut)-valoare, orice fel de informaţie lingvistică - fonologică, morfologică, sintactică semantică, pragmatică - îşi găseşte o reprezentare adecvată. Câteva exemple: notaţia [P(arte de )V(orbire): nume] spune că o anumită entitate lingvistică este un nume. Reprezentarea [F(ormă)V(erbală): gerunziu] precizează că avem a face cu un verb la gerunziu; reprezentarea [RAM(ură): v(aloare)n(on)v(idă)] spune că obiectul lingvistic în chestiune are structură internă şi este prin urmare o sintagmă. Este uşor de remarcat că notaţia atribut-valoare aplică principiul general al funcţiilor: unui anumit atribut îi corespunde o anumită valoare, întocmai cum unui argument dat îi corespunde o anumită valoare, datorită unei legi specifice de corespondenţă. Reprezentările de care se face uz în GNT sunt denumite structuri de trăsături.
2.2 Unificarea
GNT se mai numesc şi gramatici de unificare. Unificarea are drept obiect structurile de trăsături. Unificarea a două structuri de trăsături A şi B (notată AuB) este structura minimală de trăsături care cuprinde în acelaşi timp şi pe A şi pe B. Dacă o astfel de structură nu există, unificarea "eşuează" (ceea ce e notat cu 1). Unificarea verifică aşadar compatibilitatea dintre două structuri de trăsături şi produce o structură rezultantă care conţine toată informaţia din structurile supuse unificării, lată câteva exemple:
(1) [CAT: det] u [CATmume] = ± (eşec)
(2) [CAT: det]u [ACORD: [NUM: singfl =
CAT: det ACORD: [NUM :sing]^
2. Caracteristicile GNT
Dincolo de varietatea lor, gramaticile nontransformationale au un set de trăsături comune:
• Exploatează în mod generalizat reprezentările în termeni de trăsături
• Fac recurs la mecanismul unificării
• Se bazează pe constrângeri
• Sunt gramatici lexicaliste
• Au adecvare computaţională
2.1. Reprezentări: structurile de trăsături
Reprezentările în termeni de trăsături sunt bine cunoscute în lingvistica modernă, datorită fonologiei şi semanticii structurale. GNT au meritul de a fi generalizat această notaţie la scara întregii teorii lingvistice. Prin perechea
(3) [CAT: nume] u
	GEN:	mase	
ACORD:			
	NUM	:sing	
CAT: nume
GEN: mase NUM: sing
ACORD:
Operaţia de unificare din primul exemplu eşuează pentru că structura rezultantă ar trebui să conţină atributul CAT cu două valori diferite (determinator şi nume). Unificarea se realizează normal în (2) şi (3), şi produce o structură mai complexă.
Se poate remarca faptul că rolul unificării este acela de a explica tot ceea ce este corect în variate compartimente de limbă. Dacă are loc o unificare de informaţii fonologice, aceasta explică un aspect al corectitudinii fonologice pentru o limbă dată. O unificare de informaţii morfologice dă seama de un aspect al corectitudinii morfologice, ş.am.d. Nu e însă exclusă nici unificarea de informaţii diferite, de exemplu, semantice şi morfologice, semantice şi sintactice etc.
59577^
42
43
2.3. Constrângeri
în exemplul (1) din paragraful precedent, unificarea eşuează deoarece nici o structură de trăsături nu poate avea valori diferite pentru acelaşi atribut. Aceasta este o "lege" inerentă unificării, tot astfel cum în logica bivalentă o "lege inerentă" este terţiul exclus. Se poate spune că (1) defineşte o limită a unificării şi implicit o constrângere asupra acestei operaţii. Constrângerea este de natură formală, pentru că derivă din natura însăşi a unificării. Dar pentru scopurile unei teorii lingvistice, astfel de constrângeri nu pot fi suficiente. Polona, de pildă, face la verbele de persoana I deosebirea între verbele folosite de un bărbat şi cele folosite de o femeie. Verbul are aşadar gen în polonă, dar nu şi în română. Pentru a face această diferenţă între cele două limbi trebuie să' se admită că unificarea informaţiei de gen cu cea de verb se poate face în polonă dar nu se poate face şi în română. Numai că de această dată constrângerea privind unificările nu mai are temei formal. Nu se poate spune că în mod necesar verbul are sau nu gen. Unificările acestor informaţii sunt prin urmare "contingente", sau cu un alt termen, "empirice", tocmai pentru că ele nu derivă din natura însăşi a operaţiei. Gramatica unei limbi se descrie mai ales în termenii unificărilor "contingente".
2.4 Lexicalism
în teoriile contemporane ale gramaticii, lexicalismul este o opţiune privitoare la modul în care este concepută structura cuvintelor în relaţia lor cu sintaxa. Există teorii, precum GB, care consideră că procesul de constituire morfologică a cuvintelor are loc în sintaxă. în acest sens, GB este o morfosintaxă deoarece generalizează operaţia de deplasare la nivelul morfologiei înseşi, prin mecanismul numit "deplasare centru-centru" (engl, "Head to Head Movement"). Gramaticile de unificare adoptă o strategie distinctă: ele consideră că procesele de constituire morfologică a cuvintelor sunt independente de sintaxă. în această perspectivă, rezultatul proceselor morfologice furnizează sintaxei inputul necesar: cuvintele gata formate. Modularizarea celor două componente ale gramaticii se dovedeşte preferabilă mai ales în cazul limbilor cu morfologie bogată.
Un alt aspect al lexicalismului asumat de GNT este ilustrat de modul în care sunt construite explicaţiile de gramaticalitate. Explicaţiile în GNT se sprijină în măsura posibilului (dar într-o măsură mult mai mare decât în alte teorii) pe proprietăţile cuvintelor. In istoria generativismului, pasivul, de pildă, a fost considerat multă vreme o structură explicabilă sintactic, adică o construcţie rezultată din transformări ale unei alte structuri sintactice. GNT afirmă însă că nu e nevoie să se recurgă la structuri sintactice anumite, deoarece toate elementele de care e nevoie pentru a explica o construcţie pasivă pot fi codificate la nivelul cuvintelor1. Un tratament asemănător
Preferinţa aceasta pentru un compartiment de limbă în defavoarea altui compartiment, atunci când se pune problema mecanismelor care justifică o anumită construcţie nu e înţeleasă încă nici azi de unii lingvişti. Este vorba de aceia care cred că a avansa o explicaţie lexicalistă atunci când există deja una sintactică pentru un fenomen oarecare
poate fi observat în cazul dependenţelor la distanţă, sau în cel al construcţiilor de ridicare (engl. "raising"), unde rolul unităţilor lexicale în determinarea proprietăţilor acestor construcţii este de asemenea semnificativ.
2.5 Adecvare computaţională
în lingvistică, o teorie este considerată adecvată, dacă teoria acoperă domeniul de fapte pentru care este construită ca o explicaţie. O morfologie a unei limbi, de pildă, este adecvată dacă prin regulile propuse dă seamă de construcţiile morfologic corecte ale limbii supuse analizei.
Acest principiu foarte general a fost nuanţat de către Chomsky. Nuanţarea este deja celebră: pornind de la ideea că utilizarea limbajului este o proprietate a minţii omeneşti, Chomsky a susţinut că o teorie trebuie socotită adecvată nu doar pentru că produce explicaţii ale cazurilor de corectitudine, ci şi pentru că mecanismele utilizate sunt dovedite (sau cel puţin presupuse) a fi însuşite de către mintea omenească. Quine afirmase că dacă avem două gramatici care cu mijloace diferite explică aceeaşi realitate lingvistică, nu există criterii suplimentare de alegere a uneia dintre ele. Chomsky a replicat că un astfel de criteriu există totuşi, el fiind măsura în care fiecare dintre aceste gramatici se foloseşte de operaţii cunoscute ca aparţinând minţii în procesele ei cognitive.
Criteriul suplimentar formulat de Chomsky în evaluarea teoriilor lingvistice a apropiat comunitatea generativiştilor de cea a psihologilor şi a impulsionat cercetările de psiholingvistică. S-au obţinut rezultate interesante şi s-au construit ipoteze neaşteptate. De pildă, regulile de constituenţi sînt socotite astăzi nişte operaţiuni cu mare probabilitate de a fi folosite de inteligenţa umană. Recursivitatea este şi ea considerată a fi o proprietate de care inteligenţa umană face uz în utilizarea limbajului.
Criteriul lui Chomsky a condus însă şi la cercetări cu rezultate greu de judecat. De pildă, despre realitatea psihologică a urmelor, concept cardinal al teoriei GB, s-a argumentat şi pro şi contra, şi este foarte dificil chiar şi azi să se poată lua o poziţie.
Un lucru este cert totuşi în evoluţia raporturilor dintre teoria lingvistică şi realitatea ei psihologică: comparativ cu faza de început, interesul psihologilor şi al psiholingviştilor faţă de ipotezele venite din comunitatea "chomskyeniior" a scăzut semnificativ. A crescut însă interesul psiholingviştilor pentru ipotezele venite din lumea inteligenţei artificiale. Este celebră în acest sens ipoteza de organizare a cunoştinţelor lexicale a lui Quillian, care a atras atenţia în mod special colectivităţii
înseamnă doar a propune variaţiuni pe aceeaşi temă. Diferenţele sunt în realitate cruciale şi privesc mecanismele cognitive angajate în utilizarea limbajului. Este deja cunoscut că procesarea unităţilor lexicale este mai uşor de efectuat decât unele dintre procesările structurilor sintactice. Acest fapt oferă un criteriu valoros de judecare a plauzibilităţii unei gramatici privite din unghi cognitiv.
557592
44
45
de psihologi şi de psiholingvşti. Un al treilea factor intra astfel în joc, rezultatul fiind că unele teorii lingvistice au devenit atente la operaţiile şi mecanismele utilizate de inteligenţa artificală. Erau exact teoriile generative netransformaţionale. Consecinţa principală a acestei deplasări de interes a fost că teoriile în cauză au devenit accesibile utilizării automate. Cu alte cuvinte - şi spre deosebire de gramaticile lui Chomsky - ele pot fi implementate computaţional.
Vom numi adecvarea unei teorii la domeniul de fapte pe care îl abordează adecvare lingvistică. Măsura în care o teorie lingvistică aparţine (sau poate fi presupusă a aparţine) minţii omeneşti defineşte adecvarea ei psihologică. Iar gradul în care ea este livrabilă inteligenţei artificiale indică adecvarea ei computaţională. Direcţia actuală a curentului de idei pare să fie următoarea: legăturile şi dialogul dintre psihologia cognitivă şi inteligenţa artificială sunt într-o continuă creştere, astfel încât adecvarea computaţională a unei teorii lingvistice are şanse mari să-i confere şi adecvare psihologică. Pe această direcţie sunt plasate gramaticile generative netransformaţionale.
3. Realizări
Una dintre cele mai importante realizări ale gramaticilor nontransformationale îl reprezintă numărul mare de aplicaţii. O enumerare a limbilor supuse analizelor nu este posibilă aici, dar se poate preciza că aproximativ doua treimi din familiile de limbi (considerate in eşantioanele lor reprezentative) au fost analizate din perspectiva netransformaţională. Este caracteristic acestor analize faptul că refuză deosebirea chomskyană centru-periferie ("core-periphery"). Ele se concentrează asupra varietăţii de date oferite de corpusuri.
Ceea ce este însă cel mai important sub aspectul realizărilor este faptul că GNT au reuşit să producă replici viabile la analizele paradigmei dominante, cea chomskyană. O serie de fenomene gramaticale - privite de obicei ca fiind de la sine caracterizabile prin mecanismul deplasării constituenţilor - au primit in cadrul GNT analize alternative. Aşa s-a întâmplat cu construcţiile pasive, cu fenomenul de ridicare (şi mai general cu fenomenele de depedenţă limitată), cu construcţiile nonlocale (precum topicalizările, structurile relative si interogative). In această privinţă, GNT au continuat tradiţia firească, inaugurată de structuralism, tradiţie constând in regândirea fenomenelor de limbă odată cu fiecare nouă şcoala lingvistică.
4. Forme instituţionale de susţinere
i r
GNT sunt bine reprezentate instituţional. Ele şi-au făcut loc în primul rând în programele curiculare ale unor universităţi de prestigiu, precum Universitatea
Stanford, Universitatea Statului Ohio (Columbus), Universitatea Tuebingen, Universitatea Saarbruecken, Universitatea Groningen, King's College din Londra Universitatea Edinburgh, Universitatea Paris 7. Extensiile acestor programe curiculare sunt şcolile de vară. O prestigioasă şcoală de acest fel ("European Summer School in Logic Language and Information" - ESSLLI) este organizată anual din 1989, cu rolul de diseminare a evoluţiilor si curentelor formate în interiorul gramaticilor netransformaţionale. Este apoi de semnalat, în aceeaşi linie a "didacticii" gramaticilor nontransformationale, nou înfiinţata scoală de vară de la Konstaz (Germania).
în planul congreselor ştiinţifice, HPSG si LFG au de multă vreme propriile lor conferinţe anuale. Iar un congres ţinut o dată la doi ani - cel de gramatici formale - urmăreşte să adune sub acelaşi acoperiş toate şcolile aceleiaşi familii.
Până de curând, gramaticile nontransformationale nu au avut o revistă proprie. Lucrările însă au fost şi sunt publicate in reviste de prestigiu, precum "Computaţional Linguistics" "Natural Language and Linguistic Theory", "Journal of Linguistics", "Language" sau "Langages". O revistă orientată explicit spre aceste gramatici este editată de puţină vreme la cunoscuta editură olandeză Kluwer. Este vorba despre revista "Grammars". De asemenea, pe lângă Centrul de Studii asupra Limbajului si Informaţiei de la Universitatea Stanford există de mai multă vreme o deja celebră editură care publică lucrările esenţiale ale domeniului.
5. Gramaticile nontransformationale în România
Prezenţa GNT în România poate fi discutată având în vedere două coordonate: cea a contribuţiilor ştiinţifice şi cea a programelor curiculare.
Din primul punct de vedere, întâia contribuţie (după cunoştinţa noastră, cel puţin) a venit din partea Adrianei Costăchescu ([14]). Adriana Costachescu este autorul unui studiu, din perspectiva GPSG (teorie care a precedat si inspirat HPSG), asupra relaţiei dintre coordonarea adversativă si subordonarea concesivă. Studiul a fost elaborat in 1993 şi publicat in 1996.
Lucrări de prezentare generală a diferitelor forme de GNT sau, dimpotrivă, de prezentare a trunchiului comun - unificarea - au fost publicate în ultimii şase ani de Adrian Atanasiu, Verginica Barbu, Ana-Maria Barbu, Florentina Hristea, Emil lonescu şi Rodica Tătar.
Printre "pionierii" aplicaţiilor acestor gramatici la limba română trebuie menţionaţi Liviu Ciortuz şi cercetătoarea italiană Paola Monachesi. Amândoi au folosit teoria HPSG. Rolul lui Monachesi în stimularea aplicaţiilor de acest tip la limba română trebuie în mod special subliniat. Studiile sale asupra criticelor pronominale din română au determinat o "mobilizare" a energiilor câtorva
46
47
cercetători români. Este vorba despre Ana-Maria Barbu, Emil lonescu şi Amalia Todiraşcu.
Ana-Maria Barbu a aplicat HPSG în analiza elementelor gravitând în jurul verbului - adverbul de negaţie, semiadverbele, auxiliarele - şi a ajuns la concluzia că acestea sunt mai apropiate de afixe decât de cuvinte. Concluzia analizei se întâlneşte cu concluzia exprimată în lucrarea Valeriei Guţu Romalo, "Morfologie structurală a limbii române", în care formele compuse ale verbelor sunt considerate forme cu afix mobiL
O alta contribuţie a Anei-Maria Barbu priveşte ordinea constituenţilor in grupul nominal. Valorificând sugestiile de analiză ale lui Valerio Allegranza', Ana-Maria Barbu a propus o clasificare a constituenţilor grupului nominal, care este relevantă pentru problema ordinii acestora. Analiza produce astfel soluţii clare şi eficiente într-o problemă complicată de gramatică a limbii române.
Semnalând unele neajunsuri în analiza GB a fenomenului de anticipare clitică a complementului direct nominal în română, Verginica Barbu şi Emil lonescu propun o abordare alternativă HPSG. Analiza poate fi extinsă şi la alte limbi care prezintă fenomenul în cauză. Analiza susţine că pronumele neaccentuate nu au un comportament uniform, proprietăţile lor depinzând de faptul dacă participă sau nu la structuri de dublare. Noutatea abordării vine din faptul că fenomenul anticipării obiectului direct este în mod ultim justificat prin proprietăţile lexicale ale verbului tranzitiv.
Un fenomen care, în aparenţă cel puţin, implică recursul la mecanismul deplasării - este vorba de prezenţa pronumelor neaccentuate în acuzativ în contexte în care ele nu sunt subordonate faţă de vreun element din acel context -este tratat într-un alt studiu asupra cliticelor pronominale româneşti2 (). Studiul arată că ipoteza deplasării constituenţilor nu este necesară în analiza fenomenului. Este propusă în alternativă o analiză fără deplasări care captează toate proprietăţile fenomenului.
O analiză HPSG este propusă de asemenea pentru fenomenul negaţiei duble şi multiple în română [23]. în sfârşit, Amalia Todiraşcu abordează într-unui din studiile sale asupra limbii române, o categorie de dependenţe limitate (aşa-numitele tough-constructions), din aceeaşi perspectivă HPSG.
în aceeaşi linie a contribuţiilor ştiinţifice, merită amintită o intiativă instituţională: acreditarea de către CNCSIS,' în anul 2001, a Centrului de Lingvistică Computaţională de pe lângă Facultatea de Litere. Centrul este perechea universitară a Centrului de Studii Avansate în Inteligenţă Artificială. Apariţia sa a fost semnalată în buletinul european ELSNEWS.' Unul dintre programele de cercetare pe anul 2002 ale centrului are în vedere dezvoltarea aplicaţiilor de gramatici netransformaţionale la limba română.
în engleză, fenomenul este cunoscut sub numele de tlitic climbing", si este ilustrat în română de structuri de tipul Nu-I pot suferi pe Ion.
în planul programelor curiculare, GNT şi-au făcut loc mai greu, şi au fost întâmpinate uneori nu doar cu neîncredere, ci şi cu ostilitate. A existat însă din fericire un sprijin substanţial şi constant al factorilor de decizie. Ne referim la decanul Facultăţii de Litere, acad. prof. Dan Horia Mazilu, la rectorul Universităţii Bucureşti, prof. dr. loan Mihăilescu, la prorectorul aceleiaşi instituţii, prof. dr. loan Pânzaru, şi la acad. Dan loan Tufiş, directorul Centrului de Studii Avansate în Inteligenţă' Artificală al Academiei Române, cărora autorul acestor rânduri le exprimă via şi profunda sa gratitudine, pentru susţinerea pe care a simţit-o mereu în iniţiativele sale. Mulţumită acestui sprijin, au devenit realitate câteva proiecte care pot fi considerate succese:
• în programa cursurilor opţionale de limbă pentru anul al IV-lea al Facultăţii de Litere a fost introdus în 1996 un curs introductiv de GPSG, iar din 1997 pînă în 2001 s-a ţinut un curs introductiv de gramatici de unificare cu referire specială la HPSG.
• Din 1999, se predă la Facultatea de Matematică a Universităţii din Bucureşti un curs opţional de un an de prelucrare automată a limbii naturale, în care un loc important îl ocupă gramaticile de unificare.
• Din 1997 pînă în prezent masteratul de lingvistică teoretică al Facultăţii de Litere din cadrul aceleiaşi universităţi găzduieşte un curs de un semestru de teorie HPSG aplicată la limba română.
• Din 1999, acelaşi masterat oferă un seminar de gramatici cu implementare computaţională.
• în anul 2000, un proiect de dezvoltare a componentei de lingvistică computaţională în cadrul masteratului de lingvistică teoretică a primit sprijin de finanţare din partea Băncii Mondiale şi a Guvernului României, sprijin care a făcut posibile printre altele organizarea unor cicluri de conferinţe pe teme de GNT (în special HPSG) la Facultatea de Litere a Universităţii Bucureşti. Au conferenţiat Ivan Sag (Universitatea Stanford), Anne Abeille şi Daniele Godard (Universitatea Paris 7), Ştefan Muller (Universitatea din Jena), Robert Malouf (Universitatea Groningen), Howard Gregory (King's College, Londra), Erhard Hinrichs (Universitatea Tubingen), toţi fiind personalităţi recunoscute ale domeniului. Mulţumită aceluiaşi program, cercetătorii români au putut petrece stagii de specializare la universităţile din Lille şi Stanford, sau au putut participa la manifestări reprezentative, cum ar fi colocviul UNESCO asupra spaţiilor virtuale şi multilingvismului de la Paris (aprilie 2001), colocviul de gramatici bazate pe constrângeri Trondheim (august 2001), sau congresul de prelucrare automată a limbilor naturale de la Tokyo,' (noiembrie, 2001). Cea mai importantă realizare legată de acest program, a constat însă în posibilitatea unor mobilităţi studenţeşti, concretizate în vizitele de studiu ale studenţilor masteratului de lingvistică teoretică, la universităţile din Darmstadt, Tubingen, Paris 7 şi Sienna.
691779
48
49
6. Concluzii
Deşi GNT au pătruns în mediile ştiinţifice din România mai târziu decât în alte ţări, faptul că ele sunt prezente la noi este un lucru încurajator. Există tentaţia de a privi aceste eforturi de sincronizare cu mişcarea de idei din domeniul lingvisticii formale drept tentative mimetice şi superficiale. Este o greşeală gravă. Diversele comunităţi de lingvişti pot desigur ignora un curent, precum cel prezentat mai sus, dar aceasta este o atitudine, pentru a spune aşa, pe proprie răspundere. GNT şi teoria lingvistică pe care ele au inspirat-o şi-au făcut deja loc în lingvistica zilelor noastre şi au devenit una din paradigmele majore. în plus, dubla deschidere a acestor gramatici către psihologia cognitivă, pe de-o parte, şi către inteligenţa artificială, pe de altă parte, recomandă această paradigmă drept cadrul privilegiat de dialog interdisciplinar din ştiinţele umaniste ale contemporaneităţii. Din acest triunghi, sunt aşteptate să apară noi aplicaţii - unele au şi apărut deja - care vor extinde într-un mod neaşteptat conceptul de lingvistică aplicată. Pentru toate aceste motive, tentativele de a păstra un contact viu şi de perspectivă cu comunitatea ştiinţifică internaţională a GNT reprezintă o investiţie sigură pe temen lung.
Bibliografie
[1] Abeille, A. Les nouvelles syntaxes. Grammaires d'unification et analyse du frangais, Armând Colin, Paris, 1993
[2] Atanasiu, A. Curs de lingvistică matematică, Editura Universităţii Bucureşti, 1998 '
[3] Barbu, A.M. Gramatici categoriale. Studiu comparativ cu gramaticile de constituenţi, "Limba Română", XVLI, 4-6, p 239-252, Ed. Academiei, 1997
[4] Idem, Complexul verbal, "Studii şi Cercetări Lingvistice", Ed. Academiei, sub tipar.
[5] Idem, Romanian Determiners: Order and Classification, "Revue Roumaine de Linguistique", Ed. Academiei, sub tipar
[6] Idem, Funcţiile sintactice în Teoria X-Bară, "Studii şi Cercetări Lingvistice", Ed. Academiei,  sub tipar Barbu, A.M.  şi  E.  lonescu  Teorii gramaticale contemporane: Gramatica Centrilor de Sintagmă, "Limba Română" 1 1996 31-55 '
[7] Idem, Accusative Clitic Doubling in Romanian, Liviu Ciortuz, Paola Monachesi, Hans Uszkoreit (editori) "Informai Proceedings of the GE&GL Workshop: Grammar Engineering and Grammar Learning", Tuşnad, România, 1997
[8] Barbu, V. Despre gramaticile de unificare, Analele Universităţii Bucureşti, seria
limbă şi literatură română, 2001, p. 45-52 [9] Barbu, V. şi E. lonescu Anticiparea complementului direct în limba română în
perspectiva HPSG, Lucrările colocviului "Perspective moderne asupra limbii
române", Bucureşti, Editura Universităţii din Bucureşti, (sub tipar) [10] Borsley, R. Syntactic Theory: A Unified Approach, Edward Arnold, London,
1991
[11] Bresnan, J (editor) The Mental Representation of Grammatical Relations, MIT,
Press, Ca. Mass, 1982 [12] Ciortuz, L. An HPSG Kernel for Romanian, manuscris, 1996
[13] Ciortuz, L, P. Monachesi, şi H. Uszkoreit (editori; Informai Proceedings of the GE&GL Workshop: Grammar Engineering and Grammar Learning, Tuşnad, România, 1997
[14] Costăchescu, A. "Coordination" adversative et "subordination" concessive,
lliescu, M. şi S. Sora, (editori), Rumănisch: Typologie, Klassification,
Sprachcharakteristik, Mtinchen, 1996, p. 121-134 [15]Gazdar, G, E. Klein, G. Pullum şi I. Sag, Generalized Phrase Structure
Grammar, Cambridge, Harvard University Press, 1985 [16] Gerlach, B. şi J. Grijzenhout (editori) Clitics in Phonology, Morphology and
Syntax, John Benjamins Publishing Company, Amsterdam / Philadelphia,
2000
[17]Hristea, F. Introducere în procesarea limbajului natural cu aplicaţii în
PROLOG, Editura Universităţii Bucureşti, Bucureşti, 2000 [18] lliescu, M. şi S. Sora, (editori), Rumănisch: Typologie, Klassification,
Sprachcharakteristik, Mtinchen, 1996, p. 121-134 [19] lonescu, E. A Type of SOV Construction in Romanian, "Cahiers de
Linguistique Theorique et Appliquee", tomes XXXII-XXXIII, 1995-1996, 19-39
[20] Idem, Accusative Weak Pronouns in Romanian, "Cahiers de Linguistique Theorique et Appliquee", tomes XXXII-XXXIII, 1995-1996,19-39
[21] Idem, Accusative Clitic Doubling in Romanian, "Cahiers de Linguistique Theorique et Appliquee" tomes XXXII-XXXIII, 1995-1996, 53-73
[22] Idem,, Accusative Clitic Climbing in Romanian, "Cahiers de Linguistique Theorique et Appliquee", tomes XXXII-XXXIII, 1995-1996, 74-87
[23] Idem, A Quantification-based Approach to Negative Concord in Romanian in Geert-Jan M. Kruijff and Richard T. Oehrle (editori), Proceedings of Formal Grammar Conference Utrecht,1999, p. 25-36
[24] Idem, pro-Drop: An HPSG Account without Lexical Rules, "Bucharest Working Papers in Linguistics", voi. I, nr.1, 1999, 117-124
50
[25] Idem, On the Status of PE in the Direct Object Construction in Romanian, Romanian Journal of Information Science and Technology, volume 4, numbers 3-4, 2001, p. 293-310
[26] Joshi, A. Introduction to Tree Adjoining Grammar, Manaster Ramer, A. (editor) The Mathematics of Language, John Benjamins, Amsterdam,1987, p. 87-114
[27] Kruijff, G-J. M. and R. T. Oehrle (editori), Proceedings of Formal Grammar Conference, Utrecht, 1999
[28] Manaster Ramer, A. (ed.) The Mathematics of Language, John Benjamins Publishing Company, Amsterdam, 1987
[29] Monachesi, P. Clitic Placementin the Romanian Verbal Complex, Gerlach and Grijzenhout (2000), p. 255-294.
[30] Pollard, C. şi I. A. Sag, Information-based Syntax and Semantics, CSLI, University of Chicago Press 1987
[31] Idem, Head-driven Phrase Structure Grammar, The University of Chicago Press, Chicago, 1994
[32] Shieber, St. An Introduction to Unification-based Theories of Grammar, CSLI, University of Chicago Press, 1986
[33] Tătar, D. Inteligenţă artificială, Editura Albastră, Cluj, 2001
[34] Todiraşcu, A. Romanian Tough-Constructions, Ciortuz, L, P. Monachesi, şi H. Uszkoreit (editori; Informai Proceedings of the GE&GL Workshop: Grammar Engineering and Grammar Learning, Tuşnad, România, 1997
[35] Wood, M. McGee, Categorial Grammars, Routledge London and New York, 1993
51
Către o teorie X-bar funcţională
Neculai CURTEANU
Institutul de Informatică Teoretică, Academia Română, Filiala laşi curteanu@iit.tuiasi.ro
1. Teorii X-bar mai vechi şi mai noi
Scopul prezentei lucrări este dublu: (a) de a propune o nouă X-bar schemă, numită X-bar schemă funcţională şi recursivă (pe scurt, FX-bar schemă), mai generală şi mai adecvată decât cele existente, care să satisfacă cerinţele unei abordări funcţionale a limbajului natural (LN), în particular, ale strategiei lingvistice SCD (Segmentare-Coeziune-Dependenţă) [1], [2], şi (b) de a pune în evidenţă faptul că teoria FX-bar propusă poate reprezenta o posibilă (şi necesară) soluţie la următoarea problemă ridicată de Noam Chomsky în teoria Minimalist Program [3]: în două capitole diferite, Chomsky afirmă (în două abordări diferite, aparent contradictorii, asupra structurii sintactice a LN) atât importanţa crescândă a teoriei X-bar cât şi posibilitatea ca teoria X-bar standard să fie "largely eliminated in favor of bare essentials" (vezi secţiunea 5).
1.1. Teoria X-bar clasică
Printre (sub)teoriile care reprezintă substanţa majoră pentru câteva teorii formale importante asupra sintaxei (LN), un rol fundamental este jucat de către aşa-numita teorie X-bar. X-bar schemele propuse sunt de obicei însoţite de definiţii, ipoteze, restricţii, principii şi alte (sub)teorii gramaticale care specifică într-o cât mai mare măsură modul concret în care X-bar schemele sunt utilizate pentru a construi structurile sintactice de bază ale LN. în general, teoria X-bar stabileşte categoriile gramaticale principale, proiecţiile lor lingvistice (minimale şi maximale), relaţiile de dominare dintre categorii în cadrul acestor proiecţii, sub-, co-, sau supra-ordonarea lor. Toate aceste aspecte asigură numai coloana vertebrală (infrastructura) consistentă a structurii sintactice în reprezentarea LN. Un capitol de o importanţă deosebită este relaţia dintre teoria X-bar şi alte sub(teorii) sintactice şi semantice care formează întregul corpus al unei anumite teorii lingvistice.
Prima formă a X-bar teoriei este propusă de către Noam Chomsky în 'ucrarea Remarks on Nominalizations (1970) [4]. Chomsky scoate în evidenţă diferenţele reale existente în următoarele sintagme nominale:
52
53
(1.1) John 's criticism of the book\
(1.2) John's criticizing the book;
în special datorită şablonului verbal (similar cu al verbului "criticize") rezultat din gerunziul nominal (pentru engleză) "criticizing", în comparaţie cu forma nominală derivată "criticism".
Teoria X-bar originală propusă de Chomsky identifică trei categorii lexicale primitive, N [Eng: noun], V [Eng: verb] şi A [Eng: adjective], fiecare dintre ele cu câte două categorii sintagmatice corespunzătoare. Mai exact, utilizând notaţia X = N, V, A, categoria gramaticală X se întâlneşte ca nucleu [Eng: head] într-o categorie intermediară X' (sau X1, sau X1), tradiţional numită X-bar, precum şi într-o categorie maximală X" (sau X2, sau X2), tradiţional numită XP, reprezentând proiecţia maximală a categoriei gramaticale X (lexicală sau nelexicală). Categoria
X este numită nucleul sintagmelor X' (sau X1) şi X" (sau X2) care o conţin. Să mai notăm că prescurtarea pentru categoria prepoziţională este P.
Ulterior au fost considerate patru categorii lexicale, bazate pe următoarele combinaţii ale celor două trăsături N şi V (considerate ca fiind generice pentru categoriile lexicale):
N este o categorie X cu trăsăturile [+N, -V];
V este o categorie X cu trăsăturile [-N,+V];
A este o categorie X cu trăsăturile [+N, +V];
P este o categorie X cu trăsăturile [-N, -V].
Teoria X-bar poate fi înţeleasă şi ca o specificare a modalităţii în care unele categorii gramaticale sunt dominate de către altele, deci ca o teorie a dominanţei gramaticale (sau, aşa cum spune Chomsky, a "guvernărir), care arată cum un nucleu (sau o categorie lingvistică) X se proiectează (se extinde) către categoriile mai complexe (structurile sintagmatice) X' (sau X1) şi X" (sau X2, sau XP). Structurile sintactice X1 şu X2 devin categorii gramaticale esenţiale ale organizării şi reprezentării textului în LN.
Deci, X-bar teoria clasică consideră că X, împreună cu o secvenţă de complemente (sau argumente, notate Argj) este imediat dominată de X1, în timp ce
XI împreună cu o secvenţă de specificatori (notată Speq) este imediat dominată de către X2 (sau. XP). Utilizând binecunoscutele notaţii din domeniul teoriilor lingvistice formale, (X' = X1, X" = X2 = XP), categoriile lexicale şi gramaticale ale teoriei X-bar clasice a lui Chomsky sunt următoarele:
NP VP AP PP
N      Arg V     Arg       A      Arg AP    P NP
Figura 1.1. Proiecţiile categoriilor lexicale din teoria X-bar clasică
1.2. Extinderea teoriei X-bar la categorii non-lexicale
Stowell [5] propune ca teoria X-bar clasică să fie extinsă la categorii nelexicale sau funcţionale. în particular, categoria gramaticală S [Eng: sentence\ Rom: frază], care corespunde uneia sau mai multor propoziţii gramaticale (clauze), este văzută ca 12 sau IP, deci ca proiecţia maximală a categoriei nelexicale "I", sau INFL [Eng: Inflectionaf]. Nucleul nelexical I (INFL) reprezintă mulţimea de trăsături de flexionare atribuite nucleului lexical al clauzei-matrice (propoziţia principală, sau chiar una regentă) dintr-o frază, aşa cum sunt timpul, aspectul etc. în clauza unei fraze. Remarcăm categoria S, care introduce un anumit grad de ambiguitate în analiza gramaticală, atât în engleză cât şi în română. Termenul adecvat pentru realitatea lingvistică codificată de categoria S ar trebui să fie acela de "clauză gramaticală" pentru engleză [Eng: (grammatical) clause], şi de "propoziţie gramaticală" pentru limba română, cu două sorturi principale: clauză finită, prescurtată CLF sau mai simplu CL, şi clauză infinită, prescurtată CLI.
Astfel în extensia nelexicală a teoriei X-bar, S este proiecţia (lingvistică) maximală a categoriei virtuale (nelexicale) I, în timp ce S1 este văzută ca fiind C2, sau CP, unde nucleul C este un complementizator, o categorie gramaticală ce corespunde unei expresii (unui delimitator) sau unei sintagme care introduce o clauză subordonată, e.g. pronume relativ, conjuncţie, locuţiune conjuncţională etc. Teoria X-bar extinsă acreditează următoarele structuri:
I
78698749
54
IP = S
SI
NP
John
II
I VP
read
CP = S1
SpecCP CI
IP
thaî John reads
Figura 1.2. Teoria X-bar extinsă la categorii nelexicale
Sunt necesare câteva remarci:
(a) Teoria X-bar extinsă utilizează terminologia de "categorii nelexicale (sau funcţionale)", prin care Stowell, Chomsky şi alţi lingvişti definesc noile nuclee ale structurilor sintactice considerate. Categoria virtuală "I" este, desigur, una nelexicală, şi susţine o anumită funcţionalitate depinzând de categoria lexicală căreia îi este atribuită. Categoria C nu este, de obicei, nelexicală (exceptând situaţia, posibilă, când ea lipseşte) deoarece C corespunde unor categorii gramaticale lexical nevide. în ceea ce priveşte funcţionalitatea lui C, suntem de acord că C corespunde într-adevăr unor funcţii şi relaţii sintactice şi semantice importante pe care le numim marcheri de propoziţie [1], [2], [6], uneori incluşi în clase mai largi cum sunt cea a marcherilor de discurs [7], reprezentând în acelaşi timp şi un element (deci o relaţie) de co-referinţă în cadrul fenomenului de legare, şi/sau o "barieră" [8] în cadrul teoriei limitării [9]. Aceste aspecte multi-funcţionale ale categoriei C nu sunt contradictorii ci doar complementare, întregind un tablou complex al funcţionalităţii lexical-semantice pentru o categorie lingvistică atât de specială cum este C.
(b) A doua observaţie este dedicată rolului unor categorii nelexicale în cadrul X-bar schemelor extinse. Din Fig. 1.2. reiese că subiectul NP are rolul (nesigur) al unui specificator pentru S = IP, în timp ce VP reprezintă complementul categoriei virtuale I. De asemenea, S1 = CP se consideră a fi proiecţia maximală a categoriei C, în timp ce complementul sintagmei CP este IP. Admiţând că în engleză, din punct de vedere sintactic, această supoziţie are sens deoarece categoria C reprezintă nucleul acestor sintagme, în alte limbaje, inclusiv româna, acest lucru este nedecis, în special din perspective semantice şi funcţionale. Unele abordări funcţionale ale acestor probleme sunt discutate în mai multe lucrări, dar
55
ne vom restrânge să menţionăm aici soluţiile oferite de către teoria gramaticii funcţionale [10] şi strategia lingvistică SCD [1], [2], [6]. Un interes special prezintă abordarea lexicală (inclusiv funcţională) a teoriei X-bar ca subteorie de bază în cadrul teoriei sintactice HPSG [Eng: Head-driven Phrase Structure Grammar] [11]. O analiză comparativă cu FX-bar schema propusă în această lucrare va fi făcută într-o lucrare viitoare.
1.3. X-bar schemele din teoria GB
X-bar schemele propuse de teoria Government and Binding (GB) a lui Chomsky [5] sunt următoarele:
Specifier     XI Modifier
X0 Argument
{thatjor}    NP     I VP
iii.
John    to   see the movie
Figura 1.3. X-bar schema generală din GB, X = N, V, A, P, S
în teoria GB există următoarele X-bar echivalenţe pentru proiecţiile categoriilor gramaticale (lexicale şi nelexicale).
Tabelul 1.3
x !	XI I	X2
N	NI	NP
V	VI	VP
A	Al	AP
P	PI	PP
I	S	SI
în lucrările GB [5] si cele care urmează, Chomsky consideră categoria I ca fiind nucleul lui S, iar complementizatorul C ca fiind nucleul iui S1. în subsecţiunea următoare teoria sintactică GPSG a lui G. Gazdar [12] face un important pas
56
înainte către lexicalitate şi către utilizarea explicită a trăsăturilor lingvistice atribuite categoriilor gramaticale.
1.4. Teoria X-bar în GPSG
în teoria lingvistică GPSG [Eng: Generalized Phrase Structure Grammar] [12], [13] etc, (sub)teoria X-bar joacă de asemenea un rol central, o sintagmă a LN fiind definită ca proiecţia trăsăturilor lingvistice atribuite nucleului [Eng: head] acelei sintagme. Informaţia cuprinsă în trăsăturile nucleului determină caracteristicile principale ale comportamentului sintactic al sintagmelor LN. Reamintim că o categorie sintactică în GPSG se reprezintă ca o mulţime de perechi <trăsătură, valoare>. De exemplu, eticheta NP [Eng: noun phrase] (sau N2), prin care se notează o sintagmă nominală, reprezintă o abreviere pentru mulţimea {<N, +>, <V, ->, <BAR, 2>}, unde BAR este numele trăsăturii ce codifică nivelul de proiecţie a categoriei sintactice N = {<N, +>, <V, ->}. Trăsătura BAR poate lua valorile 0, 1, 2. Teoria GPSG consideră N, V, A şi P ca fiind categorii sintactice majore. Toate celelalte sunt considerate de GPSG ca fiind categorii minore: determinatori, com-plementizatori, marcheri, cuantificatori, alte particule etc. Categoriile majore sunt considerate de către teoria GPSG ca având întotdeauna o valoare pentru trăsătura BAR. Valoarea BAR pentru categoriile minore nu este definită niciodată în GPSG.
Teoria sintactică a GPSG aduce câteva elemente noi şi interesante comparativ cu teoria GB: (a) X-bar schemele au, ca şi în GB, trei nivele de proiecţie (valorile trăsăturii BAR); (b) Pentru economia reprezentării, GPSG propune ca în X-bar schemele de bază, nivelul proiecţiei lingvistice să fie conservat când se trece de la nucleu către expresiile subcategorizate, mai puţin în cazul în care acest lucru se face prin (alte) reguli explicite; (c) Printr-un mecanism de moştenire implicită, nivelele BAR de proiecţie a nodului-rădăcină şi ale nodurilor-fiice rămân aceleaşi, mai puţin în cazul în care există o indicaţie contrară expresă.
O altă caracteristică este aceea că în GPSG nu se întâlnesc categorii abstracte, non-lexicale, cum ar fi "I" (INFL) din GB. Acest lucru este posibil deoarece în GPSG, pentru aceste categorii nelexicale, nu există un nivel de proiecţie pe care ele să fie reprezentate (sub nivelul lexical BAR = 0). Consecinţa este aceea că, în GPSG, S este proiecţia unei categorii V. Mai exact, proiecţiile maximale ale lui V sunt VP, S, şi S1, depinzând de următoarele valori luate de către trăsăturile SUBJ şi COMP (= complementizator = C):
V[BAR 2][SUBJ-][COMP NIL] = VP;
V[BAR 2][SUBJ +][COMP NIL] = S;
V[BAR 2][SUBJ +][COMP a] = S1; unde a e {that, for, whether, if).
în sfârşit, trebuie să remarcăm că GPSG trebuie să rezolve problemele întâlnite în mod obişnuit în formalismele gramaticale bazate pe unificarea lingvistică (şi/sau logică), de exemplu PATR-II [14], HPSG [15], [16] etc. O astfel
57
de problemă este, în particular, transmiterea informaţiei despre timpul verbului între forma flexionară codificată de verb şi nodul S. Pentru teoriile lingvistice care permit inserarea în arborele de derivare a cuvintelor flexionate, aşa cum este cazul cu GPSG, HPSG etc, informaţia despre forma flexionară trebuie să poată fi mutată în ambele direcţii pe nivelele X-bar schemei. Din aceasta derivă, în GPSG, condiţia ca V să fie nucleul structurii clauzale care corespunde categoriei S. Pe de altă parte, în GB, informaţia asupra timpului unui verb poate fi transmisă dinspre nodul I către proiecţia sa în S înainte ca I să fie combinat cu forma flexionată a verbului din S. Această situaţie poate produce potenţiale dificultăţi procedurale şi de reprezentare.
Este important de menţionat că proiecţiile categoriilor din Tabelul 1.3 rămân aceleaşi pentru GPSG şi LFG [Eng: Lexical Funcţional Grammar] (vezi de exemplu [13]), cu diferenţa notabilă că prima celulă din ultima linie a Tabelului 1.3 este goală, deoarece în aceste două teorii lingvistice (ca şi în altele), categoria virtuală I lipseşte.
1.5. O formulare recursivă a X-bar schemelor din teoria Tbarr
Vom propune în această subsecţiune o formulare recursivă a teoriei X-bar avându-şi originea în teoria barierelor (TBarr) [8], [17] şi fiind compatibilă cu teoria sintactică a Programului Minimalist (MinP) [3] şi cu modelul său gramatical din Principii şi Parametri (P&P) [3]. în conformitate cu MinP şi P&P, gramaticile concrete ale limbajelor naturale (LN) reale pot fi modelate de mulţimi de parametri şi valorile lor, care specifică principii şi teorii lingvistice universal valabile. Pentru o asemenea setare (asignare) a valorilor parametrilor, relaţiile de precedenţă (de ordonare liniară) dintre categoriile gramatice sunt obţinute din proprietăţi ca marcarea cazuală, atribuiri de roluri tematice ((0 - roluri şi 8 - marcheri), împreună cu alte relaţii şi marcheri ce se aplică la nivelul sintagmelor, clauzelor, şi unităţilor de discurs. Din acest motiv, relaţiile de precedenţă pentru X-bar schemele propuse pot fi utilizate independent pe arborii sintactici consideraţi, informaţia de ordonare (liniară) a categoriilor fiind dată de următorii parametri de precedenţă.
(OrdPar) Un anumit parametru (depinzând de limbaj) precizează dacă secvenţa de specificatori precede sau succede nucleul, iar un alt parametru (depinzând de limbaj) precizează când secvenţa complementelor precede sau succede nucleul din X-bar schemă.
De exemplu, în engleză, specificatorii preced de obicei nucleele lor nominale, în timp ce în română, în mod normal, ei succed nucleelor. în general, complementele (argumentele) succed nucleele lor şi în engleză şi în română. Un caz special al argumentului este subiectul (sintactic). Această exprimare a (OrdPar) poate fi încă particularizată în funcţie de categoriile lexicale concrete, din LN concrete. De exemplu, atât în română cât şi în engleză, când o sintagmă
adjectivală (adverbială) este predicaţional activă, fiind urmată de anumite argumente (complemente sau adjuncţi), atunci este obligatoriu ca ea să succeadă propriul nucleu şi nu să îl preceadă.
Consecinţa principală a parametrizării dependentă de limbaj a precedenţei categoriilor lingvistice este că în exprimarea teoriilor lingvistice se pot utiliza arbori neordonaţi, iar principiile propuse de teoria X-bar primesc un puternic caracter de independenţă relativ la regulile de dominare ale structurilor sintagmatice. Este important faptul ca X-bar schemele obţinute în cadrul teoriei X-bar considerate să asigure proiecţii adecvate ale categoriilor lexicale, permiţând inserarea adjuncţilor, obţinerea categoriilor de proiecţie maximală, şi acceptarea faptului că unele proiecţii minimale sau maximale din structura de adâncime pot fi vide (deci noduri care să domine categorii vide), conform [9], [8], [17].
Fiind stabilit principiul (OrdPar), teoriile GB şi Tbarr consideră următoarele trei nivele ale proiecţiei din teoria X-bar, sintetizate de următoarele reguli (principii) şi de X-bar schemele corespunzătoare:
(PXO) Fiecare nod XO dintr-o schemă X-bar este fie vid, neavând nici o trăsătură, fie este nodul-mamă al unui element lexical a cărei categorie gramaticală şi trăsături sunt specificate la nivelul lexiconului.
XO
NIL
X0[F]
lex-item[F]
Figura 1.5.1. Nodul XO în TBarr
(PX1) Fiecare nod X1 (X' sau X1) având trăsăturile lexicale F este fie nodul-rădăcină al exact unui nod X (care este nucleu) cu trăsăturile F şi al unei secvenţe de noduri XP (care sunt complemente, sau argumente), fie este rădăcina unui nod identic X1 împreună cu exact un nod XP (care este adjunct).
Figura 1.5.2. Nodul X1 în TBarr
(PX2) Fiecare nod XP care are trăsăturile lexicale F trebuie să satisfacă una şi numai una din următoarele condiţii: (i) XP este un nod-frunză (nu mai are nici un nod-fiică) şi mulţimea F este vidă; (ii) XP este rădăcina unei secvenţe de
XPs (specificatori) şi a exact unui nod X1 moştenind trăsăturile F; (iii) XP este rădăcina unei secvenţe de XPs (complemente, sau argumente) şi a exact unui nod X cu trăsăturile F; (iv) XP este rădăcina unui alt nod XP moştenind trăsăturile F şi a exact unui nod XP.
O observaţie importantă este aceea că unele dintre secvenţele XP specificate în regulile (PX1) şi (PX2) pot fi vide.
Figura 1.5.3. Nodul X2 în teoria TBarr
Combinând recursiv X-bar schemele rezultate din regulile (XPo)-(XP1)-(Xp2) se pot obţine toate structurile sintactice întâlnite în X-bar teoria clasică şi extinsă
XP [F]	XP[F]	
/W ^Xl^^CP^S^ XPm(Spec)	/ \x XI [F] XP,	\ XPm
X[F] XP,(Arg) XP„(Arg)	/ \> XI [F] Adjunct, i i	Adjunctn
Figura 1.5.4. Formele generale (şi recursive) ale X-bar schemelor din TBarr
60
2. X-bar teoria din modelul P&P al teoriei MinP
2.1 Sistemul Chomskyan al gramaticii universale
Această subsecţiune conturează câteva aspecte implicate de către teoria X-bar în cadrul teoriilor MinP (Minimalist Program) şi P&P (Principles and Parameters) [3]. Pentru a înţelege contextul, este necesar să schiţăm teoria lui Chomsky a gramaticii universale UG [Eng: Universal Grammar] şi a relaţiilor sale cu abordarea MinP bazată pe P&P. Sunt introduse următoarele concepte de UG.
Capacitatea utilizării şi înţelegerii LN se bazează în esenţă pe proceduri care pot genera obiecte numite descrieri structurale (SDs). SDs sunt expresii de limbaj. Teoria unui LN particular constituie gramatica acestuia, în timp ce teoria tuturor limbajelor şi a expresiilor pe care le generează ele reprezintă Gramatica Universală (UG).
Se consideră că UG specifică anumite nivele lingvistice, sau sisteme de reprezentare a informaţiei lingvistice. UG a lui Chomsky [3] presupune că fiecare SD este o secvenţă (8, a, n, X) de patru reprezentări pe următoarele nivele, respectiv: structură de adâncime (D-structură), structură de suprafaţă (S-structură), formă fonetică (PF) şi formă logică (LF). O ipoteză constructivă pentru UG este aceea că limbajul este scufundat în sisteme de performanţă care permit ca exprimări în LN să fie folosite pentru articulare, interpretare, referire, interogare, reflecţie şi alte acţiuni, în timp ce SDs devin un complex de instrucţiuni pentru aceste sisteme de performanţă.
O altă ipoteză standard pentru construcţia UG este aceea că un LN este format din două componente: un lexicon şi un sistem computaţional. Această construcţie este o inovaţie esenţială comparativ cu teoria GB, care pretinde independenţa sa faţă de orice aspecte computaţionale sau de implementare. Lexiconul specifică elementele de intrare pentru sistemul computaţional, în timp ce acesta foloseşte intrările de lexicon pentru a genera derivări şi SDs. Derivarea unei exprimări lingvistice particulare implică alegerea elementelor din lexicon şi evaluarea, construind perechea pe două nivele de performanţă, numite şi reprezentări de interfaţă. Una din ipotezele de bază ale teoriei lui Chomsky Minimalist Program este aceea că în construcţia SD, utilizând lexiconul şi sistemul de evaluare, sunt luate în considerare numai două nivele de interfaţă, corespunzând lui PF (formă fonetică) şi lui LF (formă logică), împreună cu mulţimile de perechi (n, X) rezultate din cele două forme.
în abordarea P&P a teoriei lingvistice MinP, UG asigură un sistem de principii fixat, asociat cu un tablou finit de parametri evaluaţi (pe un număr finit de valori). Regulile pentru un LN particular se reduc la alegerea valorilor pentru aceşti parametri. Noţiunea de construcţie gramaticală este eliminată, împreună cu regulile particulare de construcţie, specifice gramaticilor generative. Construcţii ca
61
VP, clauză relativă, pasivul etc. devin doar elemente ale unei taxonomii generale, sau colecţii de fenomene explicate prin interacţiunea principiilor de UG, legate (setate) cu anumite valori fixate ale parametrilor.
în sistemul computaţional al UG există un set de principii invariante, fiecare cu un domeniu de opţiuni restrânse la elementele funcţionale şi proprietăţile generale ale lexiconului. O selecţie Z printre aceste opţiuni determină LN concret. în schimb, un limbaj determină o mulţime infinită de SDs lingvistice, fiecare pereche (n, X) fiind obţinută din nivelele de interfaţă (PF, LF), respectiv. Achiziţia de limbaj implică fixarea mulţimii 2, în timp ce gramatica limbajului se reduce la specificarea lui 2. în fine, un sistem de parsare care este invariant şi neantrenat (cum adesea se presupune) poate fi văzut ca o transformare a perechii (I, ti) într-o schemă structurată similară cu o SD. Condiţiile asupra reprezentărilor LN impuse pentru diferite principii şi (sub)teorii, cum ar fi teoria legării, teoria cazurilor, ^-teoria etc, sunt satisfăcute pe nivelele de interfaţă ale sistemelor de performanţă. Toate aceste ipoteze fac parte din teoria MinP a lui Chomsky şi din construcţia sa pentru UG.
2.2 (Sub)teoria X-bar în contextul teoriei MinP
Sistemul computaţional al unui LN concret preia reprezentările unei forme date şi le modifică, în timp ce UG trebuie să furnizeze mijloacele de a reprezenta o mulţime de elemente din lexicon într-o formă care să poată fi accesată şi procesată de către sistemul computaţional. Forma sub care este accesat lexiconul de către sistemul computaţional poate fi considerată ca fiind o anumită versiune a teoriei X-bar. Schemele X-bar pot fi asociate în mod natural cu structuri de trăsături lingvistice [18], ca un tip de date lingvistice standard şi invariant pentru a reprezenta şi a procesa LN eficient. în strategia SCD, schemele X-bar augmentate [19] considerate până acum nu sunt doar tipuri de reprezentare a datelor la nivelul lexiconului ci ele pot asigura structurile invariante fundamentale pentru a reprezenta şi a procesa textul în LN la nivel sintactic [1], [2], [6].
în teoria Minimalist Program şi modelarea P&P a UG, proprietăţile şi relaţiile esenţiale sunt formulate în termenii simpli şi elementari ai teoriei X-bar. Astfel, o structură X-bar este compusă din proiecţiile lingvistice ale nucleelor selectate din lexicon. în schema X-bar a teoriei MinP reprezentată în Fig. 2.2.1. sunt prezente două relaţii locale: relaţia Specificator-Nucleu de la ZP la X, şi relaţia Nucleu-Complement de la X şi YP (ordinea categoriilor nu este esenţială, fiind stabilită de către parametri P&P adecvaţi de ordonare). Relaţia Nucleu-Complement (Nucleu-Argument) nu este numai "locală" ci şi fundamentală deoarece este asociată (8) relaţiilor tematice.
Figura 2.2.1. Schema X-bar din teoria MinP
62
Dacă, pentru moment, nu este luată în considerare relaţia de adjuncţie sau adjuncţii se consideră a se afla printre argumentele-complemente, X-bar structurile pot fi reduse la X-bar schema din Fig. 2.2.1, cu următoarele specificări: (a) Sunt considerate numai relaţiile locale (deci nici o relaţie de proiecţie între X şi vreo sintagmă inclusă în proiecţiile maximale YP sau ZP); (b) Relaţia Nucleu-Complement reprezintă relaţia locală de nucleu [Eng: core relation]; (c) O relaţie locală admisibilă a schemei X-bar din MinP este cea Nucleu-Nucleu. De exemplu, relaţia unui verb predicativ cu nucleul predicaţional (deverbal) al unei sintagme nominale pe care o subcate-gorizează; (d) O altă relaţie în X-bar schema din MinP este legătura de lanţ [Eng: chain //n/c], corespunzând unui lanţ de dominare sau de guvernare.
Guvernarea realizată de nucleu joacă un rol central în toate componentele teoriei MinP asupra UG. Una dintre problemele-cheie este asignarea corectă a trăsăturilor nucleului. în HPSG şi SCD, de exemplu, acest lucru este realizat la nivel lexical (BAR = 0), după aplicarea flexionării, cât şi la nivel de lexicon (nivel de proiecţie notat convenţional cu BAR = -1) pentru clasa categoriilor lingvistice cu proprietăţi funcţionale (predicaţionale, relaţionale), fie ele verbe, substantive, adjective, marcheri de sintagmă, marcheri de discurs etc. care antrenează un comportament sintactic funcţional [2], [6]. în particular, pentru teoria MinP, subteorii ca S-guvernarea şi guvernarea de caz, corespunzând 6-marcării şi Caz-marcării, sunt cele mai importante forme de dominare. Un studiu comparativ al guvernării categoriilor (dependenţă, dominare), relaţie prezentă firesc în cele mai importante teorii sintactice formale existente în acest moment, este inclus în [20].
Structurile propuse de teoria X-bar trebuie "animate" de către (sub)teoriile (de asemenea complementare) conţinute în MinP şi P&P, şi care explicitează fenomenele de guvernare, legare, limitare etc. ce s-au dovedit a fi importante pentru orice teorie lingvistică deoarece ele asigură reguli pentru organizarea lexiconului şi a sistemului computaţional care generează şi recunoaşte SDs.
De exemplu, în funcţionarea teoriei cazurilor in contextul schemelor X-bar din MinP, ipoteza standard din MinP este aceea că, într-o frază (propoziţie), relaţia Specificator-Nucleu atrage după sine cazul structural pentru poziţia de subiect, în timp ce poziţia de obiect primeşte cazul sub guvernarea nucleului V, incluzând construcţii în care obiectul marcat cazual de către un verb nu este complementul său ci doar un adjunct (aşa-numita marcare de caz excepţională).
în continuare este prezentată structura X-bar de bază a clauzei în teoria MinP, cu următoarele notaţii uzuale: C = COMP = Complementizator, T = Timpul, Agrs = acordul subiectului; Agr0 = acordul obiectului etc.
Figura 2.2.2. X-bar structura clauzei în teoria MinP
Schemele X-bar clauzale clasice din Fig. 1.2. şi Fig. 1.3. sunt expandate în Fig. 2.2.2., cu următoarea posibilă interpretare funcţională: X-bar schema MinP are ca nucleu VP, care îşi selectează sintagma-Obiect (sau argument, mai general) prin acord şi marcare, afectată apoi de Specificator. Un timp finit T aplicat sintagmei Verb-Obiect generează sintagma TP [Eng: tensed phrase], căreia i se aplică apoi aceleaşi funcţii de selecţie a subiectului (acord, marcare, specificare), generând sintagma Verb-Obiect-Subiect, care este de fapt clauza finită simplă (notată S). în fine, prin aplicarea asupra lui S (văzută ca sintagmă AgrsP) a unui complementizator C (sau marcher clauzal, marcher de discurs etc.) se obţine o clauză "completă" ce poate, prin recursie, să genereze orice frază [Eng: sentence].
Alte exemple de X-bar scheme bazate pe MinP şi P&P, ce pot fi discutate în contextul mai general al fenomenelor de guvernare sunt date de Fig. 2.2.3. care urmează.
Figura 2.2.3. X-bar scheme în fenomene de "ridicare" la nivel de Spec în MinP
Concluzia este aceea că teoria X-bar din MinP sintetizează relaţiile fundamentale de dependenţă, descrise de X-bar schemele propuse, şi implicate în procesele de organizare a lexiconului şi a sistemului computaţional din UG. X-bar teoria în abordarea MinP reflectă în principal aspectele statice întâlnite în fenomenele de guvernare (c-comandă, m-comandă, bariere, categorii de blocare etc), în teoria legării şi în procesele de referinţă-coreferinţă, în stabilirea dependenţelor la mare distanţă (extra-clauzale) etc Nu vrem să intrăm în detalii şi să explicităm mecanismele de lucru ale X-bar schemelor considerate, ci mai curând să atragem atenţia asupra teoriei X-bar ca o componentă fundamentală a unei teorii lingvistice noi şi elaborate cum este MinP şi modelul său P&P [3].
Teoriile MinP şi P&P nu reprezintă un punct-terminus pentru evoluţia teoriei X-bar. Dimpotrivă, asigură o bază de pornire pentru o strategie radical diferită în care Chomsky examinează cele mai serioase argumente pentru a abandona (!) teoria X-bar [3; Cap. Categorii şi transformări]. Această alternativă şi consecinţele sale sunt discutate în secţiunea 5, şi ar trebui să reprezinte una dintre cele mai importante provocări prezente pentru domeniul analizei şi proiectării teoriilor lingvistice [21].
Unul dintre principalele scopuri ale secţiunii care urmează este de a introduce propunerea noastră de scheme X-bar funcţionale (scheme FX-bar) în cadrul strategiei lingvistice SCD. Propunerea noastră o considerăm a fi o poziţie pragmatică şi echilibrată în direcţia teoriei X-bar, atrăgând atenţia asupra adevăratului său rol şi oportunităţilor computaţionale din lingvistica reală, înţelegerea corectă a aspectelor statice şi dinamice ale acestei versiuni a teoriei X-bar ar trebui să fie de asemenea o consecinţă a unei priviri cuprinzătoare a întregului context al teoriilor lingvistice care stabilesc principiile de dependenţă,
65
pasele de marcheri, categoriile şi ierarhiile, regulile de referire şi structurare, în Strânsă relaţie cu formele şi regulile de construcţie ale (sub) schemelor FX-bar.
3. Scheme X-bar funcţionale şi strategia lingvistică SCD
în [19], în contextul strategiei lingvistice SCD (Segmentare-Coeziune-Dependenţă) [22], [19], [1], [2], [6], este definită o clasă de scheme X-bar augmentate (scheme AX-bar), scheme destinate a reprezenta invarianţi sintactici generali de reprezentare şi operare cu structurile gramaticale ale LN, în particular pentru limba română, ca soluţie la problemele de analiză şi generare automată a LN. Schemele FX-bar (funcţionale) propuse aici completează şi extind schemele AX-bar [19], şi pot fi interpretate în mai multe moduri: (1) din punct de vedere static, schemele FX-bar pot furniza câteva de tipuri fundamentale de date pentru reprezentarea informaţiei lingvistice în structuri de trăsături lingvistice, standardizate şi tipizate; (2) din punct de vedere dinamic, schemele FX-bar pot codifica informaţia lingvistică în formă procedurală ca funcţii şi relaţii standard ce sunt (recursiv) apelate în cadrul proceselor de analiză şi generare a LN; (3) schema FX-bar generală poate fi de asemenea interpretată şi utilizată ca un automat pe baza căruia să se realizeze o analiză on-line a textului unei fraze, cuvânt cu cuvânt.
3.1. Câteva preliminarii asupra SCD
Sunt necesare unele precizări asupra noţiunilor şi notaţiilor cu care lucrează strategia lingvistică SCD. Unul dintre elementele importante este că nivelul 2 (BAR = 1) în X-bar schema clasică joacă un rol-cheie în SCD pentru construcţia structurilor sintactice, şi este utilizat sub numele de grup nominal (NG), grup verbal (VG), grup adjectival-adverbial (AG), în general XG, pentru X = N, V, A. Grupul XG corespunde proiecţiei lexicale X1, cu X = N, V, A, şi clauzei minimale CLO, în X-bar schema fundamentală propusă în Fig. 3.2.1.
Să menţionăm că orice XG (X1) este un XP (X2), dar nu şi invers, deoarece proiecţia categoriei X în cazul XG lucrează numai pentru nivelul BAR ^1. SCD face de asemenea distincţie între câteva tipuri de NGs (NGs elementare, Predicaţionale, non-predicaţionale, etc), VGs (VGs la un timp finit şi la un timp non-finit) etc
O altă trăsătură esenţială şi specifică a SCD este un tratament adecvat al Proprietăţilor funcţionale ale categoriilor lingvistice, ca şi al tuturor categoriilor Naţionale şi sintagmelor (expresiilor) de discurs. Mecanismul utilizat pentru a obţine acest lucru se bazează pe clase de marcheri lingvistici şi ierarhiile lor [1], 12]i [6], [7], [45]. Câteva observaţii se impun:
66
67
(a) Marcherii din SCD, numiţi marcheri de structuri sintagmatice (PS-Ms) [Eng: phrase-structure markers], sunt cu totul diferiţi de ceea ce teoria lui Chomsky numeşte formal "marcheri de sintagmă" [Eng: phrase-markers] în [17], sau T(ree)-marcheri în [3]. Marcherii Chomsky sunt definiţi ca "tăieturi orizontale" (sau "factorizări") în cadrul unui arbore de derivare, sau ca fiind arborele însuşi. Mult mai apropiaţi de ceea ce sunt PS-Ms în HPSG [16], marcherii de structuri sintagmatice (PS-Ms) din SCD sunt acele categorii lexicale şi nelexicale care se aplică cuvintelor şi structurilor sintagmatice (PSs) cu scopul de evidenţia, de a marca, anumite funcţii şi relaţii sintactice şi semantice pe care PSs respective le joacă în cadrul unei exprimări. Punerea în evidenţă a anumitor funcţii care se aplică PSs se referă la (cel puţin) câteva elemente: tipul funcţiei (sintactic, semantic, relaţional, logic, pragmatic, discursiv etc), locul, în text, unde începe aplicarea funcţiei sau relaţiei, şi domeniul (domeniile, conexe sau nu) de aplicare a funcţiei sau relaţiei (limitele textuale între care se aplică).
Exemple tipice de PS-Ms din SCD sunt: (a) trăsăturile predicative generate de către categoriile predicaţionale (de fapt, verbe, substantive, adjective şi adverbe predicaţionale); (b) acele mijloace gramaticale prin care sunt introduse noi NGs (grupuri nominale în limbajul SCD), VGs, AGs (Caz-marcarea, acordul, gradele de comparaţie, etc); (c) acele categorii şi expresii (numite şi marcheri de discurs) care introduc noi clauze; (of) PS-Ms care introduc proprietăţi relaţionale asupra PSs şi clauzale (de exemplu de marcheri de tip logic cum sunt structurile dacă-atunci-altfel, deoarece, etc, dar şi marcheri de tip sintactico-semantic cum sunt aceia care introduc categorii şi clauze subordonate etc)
(b) SCD se aseamănă din unele puncte de vedere cu abordarea [16] a HPSG şi, parţial, cu [15], care exploatează, pentru prima o$ră în clasa teoriilor lingvistice bazate pe gramatici de PSs (PS-Gs), într-o mult mai mare măsură, categoria lingvistică a marcherilor PS-Ms. în [16], Pollard & Sag "postulează o nouă parte a marcherilor de discurs,... ce se remarcă ... printr-un nou atribut al categoriilor (în plus faţă de NUCLEU şi SUBCAT) numită MARKING, cu valori din sortul marking". Teoria HPSG enunţă PRINCIPIUL MARCĂRII [16, p. 400] după cum urmează:
"într-o sintagmă cu nucleu, valoarea trăsăturii MARKING este lexical-identică cu cea a trăsăturii MARKER-DAUGHTER dacă aceasta există, şi cu cea a trăsăturii HEAD-DAUGHTER în caz contrar.
Modul în care HPSG [16] pune la lucru PS-Ms reprezintă un bun şi esenţial pas înainte, deşi credem că nu exploatează îndeajuns potenţialul funcţional şi relaţional al diferitelor clase de marcheri şi ierarhiile acestora (aşa cum face strategia SCD, vezi şi [7], [45]).
(c) Continuând şi extinzând construcţia limbajului, ca o expresie de convergenţă între gramatica categorială şi Minimalist Program, Chomsky [3] consideră transformările generalizate (GTs) şi concepe un demers de înlocuire a
X-bar teoriei, ce explică în Programul Minimalist structura constituenţilor (sintagmatici) complecşi, prin GT Merge care construieşte obiecte sintactice pornind de la obiecte sintactice simple (de exemplu, "speaks" şi "French" sunt "reunite" într-un nou obiect sintactic "speaks French" etc). Mai multe formalizări ale acestui nou curent al ideilor lui Chomsky pot fi găsite în cadrul gramaticilor logice multi-modale şi de tipuri categoriale, e.g. [21], [23], [24] etc (vezi şi secţiunea 5).
(d) Dintr-o perspectivă diferită dar oarecum similară, gramatica funcţională (FG) [25] a lui Simon Dik, orientată funcţional şi semantic, încearcă să facă aceleaşi lucruri. Ca şi în SCD, FG găseşte patru tipuri ierarhice de bază ale categoriilor relaţionale, aceste tipuri corespunzând într-o bună măsură cu clasele de marcheri PS-Ms şi ierarhiile lor stabilite în SCD [7], [2], [6]. PS-Ms reprezintă acele mijloace lingvistice de "suprafaţă" pe care le utilizează un limbaj natural pentru a organiza sintactic şi semantic structurile codificate în construcţii gramaticale. Se impune în viitor o analiză comparativă între cele patru nivele sau "straturi1 din organizarea formală şi semantică furnizată de FG [25], şi cele patru nivele de proiecţie lingvistică, împreună cu clasele de marcheri corespunzătoare, din SCD: (1) cuvântul (lexical); (2) sintagma XG (X = N, V, A) subclauzală; (3) clauza (finită şi infinită); (4) unitatea de discurs (una sau mai multe fraze, care să formeze un segment de discurs).
(e) în fine, privitor la utilizarea intensivă a caracterului predicaţional pe care categoriile lexicale majore (N, V, A) îl poartă (proprietate moştenită sau dobândită apoi de alte categorii gramaticale), strategia lingvistică SCD este comparabilă în special cu FG, cu accentul particular pe ierarhiile de delimitare şi marcare aplicate structurilor sintactico-semantice. SCD porneşte de la lexicon şi stabileşte la acest nivel o taxonomie predicaţională iniţială pentru categoriile lexicale majore. Un exemplu simplu al acestei taxonomii predicative este dat de către cele două categorii importante de substantive comune: substantive existenţiale sau obiectuale, a căror predicaţionalitate (trăsătură PRED) este EXIST (e.g. [Eng: student, table; Rom: elev-student, masă]) şi a căror reprezentare funcţională reflectă categorii individuale sau personale, de exemplu predicatul uni-variabil student(X), masă(X) etc, şi substantive de tip-predicaţional, a căror predicaţionalitate (trăsătură PRED) are valoarea ACT, e.g. [Rom: întâlnire, invidie, marcare etc], şi ale căror reprezentări funcţionale depind de mai multe variabile, de exemplu întâlnire(X, Y,...), invidie(X, Y,...), marcare(X, Y) etc Substantivele proprii şi/sau personificările sunt codificate prin constante ale variabilelor din predicatele de mai sus. Câteva din remarcile anterioare vor fi aprofundate în concluziile finale ale lucrării.
Schemele FX-bar, ca şi precursoarele lor schemele AX-bar [19], reflectă Pentru SCD faptul că un XPG (grupul sintagmatic de nucleu X), sau mai simplu XG, conţine un nucleu, reprezentat printr-o categorie lexicală (nevidă) sau printr-o categorie virtuală (vidă), înconjurat (prin relaţii de coeziune) de specificatori şi/sau Codificatori de tipul A (adjectival-adverbial). Este esenţial să facem următoarea specificare: un XG din SCD nu include nici un complement (argument obligatoriu)
sau adjunct. Complementele şi adjuncţii, împreună cu nucleele de nivel BAR = 1 formează nivelul BAR = 2 în FX-bar schema propusă în Fig. 3.2.1. Pentru un anumit nivel de specificare semantică, FX-bar schemele nu fac o distincţie clară între complemente (argumente obligatorii) şi adjuncţi, considerând toate structurile subcategorizate ca fiind argumente sintactice] clasificări ulterioare (suplimentare) sunt făcute pe baza şabloanelor verbale şi restricţiilor sintactice, semantice, şi pragmatice asupra componentelor şablonului, la nivel de lexicon.
O problemă a cărei soluţie poate influenţa în mod special şi teoria X-bar este aceea a asignării corecte a complementelor şi adjuncţilor, în particular, a stabilirii corecte a dependenţelor dintre grupurile nominale (NGs). Soluţia acestei probleme nu se poate obţine la nivel sintactic, iar o soluţie completă nu se poate obţine uneori nici chiar în contextul unui nivel semantic minimal (vezi [26], [27]). Chomsky remarcă realitatea că "... the distinction between modifiers and arguments is notoriously difficult in certain cases" [9, p. 44]. Exemple simple ilustrează această problemă: în TBarr [8], sintagmele "the students ofphysics" este văzută ca un NP cu un argument PP, în timp ce sintagma "the students in. the yard" este considerată a fi un NP cu un adjunct modificator PP. De fapt, în numeroase LNs, inclusiv engleză, se pot aduce multiple argumente serioase pentru ca cele două sintagme să poată fi la fel de bine interpretate fie într-un fel, fie în celălalt.
Soluţia SCD pentru acest exemplu foarte particular este următoarea (schiţând şi soluţia problemei generale): substantivul "students" este obiectual, adică nu are o natură predicaţională prin el însuşi, astfel că ambele sintagme nominale care îl succed sunt considerate de către SCD ca fiind modificatori pentru NG "students". Natura acestor modificatori poate fi diferită deoarece "physics" este introdus de marcherul de caz (genitiv) "of, în timp ce "the yard1 este introdus de marcherul prepoziţional "in". în general, când nucleul lui NG posedă o trăsătură predicaţională, atunci NG care urmează nucleului predicaţional asigură o distribuţie sintactică ce satisface un anumit şablon (verbal) al predicatului (verbului) corespunzător.
Clasele din PS-Ms şi ierarhiile lor din SCD [7], [45] sunt responsabile pentru delimitarea structurilor sintagmatice propuse de schemele FX-bar, şi pentru stabilirea dependenţelor sintactico-semantice. Diferitele tipuri de marcheri sunt adesea aplicate simultan (deci multiplu) asupra aceloraşi categorii gramaticale, în cadrul anumitor nivele de structurare (proiecţii pe BAR-nivel). Similar cu unele teorii lingvistice (LFG, FG, şi parţial HPSG) dar contrar altora (GB, GPSCB etc), SCD nu consideră prepoziţia (X = P) ca fiind o categorie lexicală majoră. în SCD, P primeşte rolul unui marcher (funcţional), având atât proprietăţi de marcher de caz cât şi de complementizator. Categoriile HPSG PP[+PRD] sau PP[-PRD] (vezi [16]) sunt irelevante pentru SCD deoarece trăsătura +PRD în HPSG este atribuită numai lui PP subcategorizat de un V, în timp ce trăsătura (predicaţională) PRED din SCD poate fi în mod egal atribuită lui V, N, sau A (la nivelul lexiconului, cel puţin) dar nu şi lui P.
în SCD proprietăţile de subcategorizare sunt exploatate ab initio, la nivelul de organizare a lexiconului, pe baza trăsăturii funcţionale PRED de predicaţionalitate, asignată sau nu, unora din categoriile sintactice majore N, V, A. Observaţii lingvistice
Empirice ne-au convins, încă de la începuturile cristalizării SCD [22], că o taxonomie funcţională şi predicativă adecvată ar trebui să reprezinte punctul de plecare al oricărei teorii lingvistice, atât din motive teoretice cât şi computaţionale, şi că multiple din abordările actuale (cum ar fi [27]-[32]) aduc o susţinere puternică pentru multe din ideile esenţiale din SCD, în special folosirea intensivă a predicativităţii şi ^funcţionalităţii descrierilor lexical-semantice ale categoriilor lingvistice atât în ^procesarea automată a LN cât şi în organizarea bazelor de cunoştinţe lexicale.
[19] propune următoarea specificare a Principiului Proiecţiei Maximale k(PMP) [Eng: Principie of Maximal Projection], ca un pas important către folosirea intensivă a trăsăturilor predicaţionale (funcţionale) ale categoriilor lexicale majore îh SCD. Propunem aici
O specificare a PMP (formă actualizată): Proprietăţile de subcategorizare ale categoriilor sintactice majore N, V, A depind de trăsătura lor lexical-semantică PRED(icativity), cu valorile ACT şi EXIST, şi de trăsătura lor morfo-semantică TENS(e), cu valorile FINI(te) şi
INFI(nite).
Trăsătura PRED, atribuită categoriilor majore N, V, A la nivel de lexicon, primeşte două valori: valoarea ACT, pentru acele categorii care au proprietăţi r predicaţionale (în literatură este folosit adesea termenul "deverbale"), şi valoarea ; EXIST, pentru acele categorii N, V, A cu caracter existenţial, obiectual, non-predicaţional. Trăsătura TENS primeşte valorile FINI(te) pentru acele forme ale „^categoriei V care posedă un timp sau aspect finit, personal, şi valoarea INFI(nite) pentru toate celelalte categorii şi situaţii. Exemple:
[Eng: boy,.pencil\ Rom: băiat, pix]        PRED:= EXIST; şi       TENS:= INFI; [Eng: attempt, showing, proved; Rom: încercare, arătând, demonstrat]
PRED:=ACT;şi TENS:= INFI;
[Eng: are; Rom: sunt] PRED:= EXIST; şi       TENS:= FINI;
[Eng: gives; Rom: dă] PRED:= ACT; şi TENS:= FINI.
într-un grup verbal VG reprezentând un compus la un timp finit, valorile "pozitive" de trăsături, cum sunt ACT sau FINI sunt moştenite de la nucleul V al VG de către întreaga sintagmă VG, sau pot fi obţinute cumulativ prin proiecţia morfo-sintactică.
Specificarea PMP de mai a funcţiei proiecţiei maximale este necesară în SCD deoarece îh multe LNs, inclusiv în română, calitatea deverbală (predicaţională, deci funcţională) a categoriilor lexicale tradiţional non-verbale cum ar fi N şi A trebuie descoperită cât mai devreme posibil şi asignată la nivel de lexicon. De exemplu, în engleză, deşi pentru substantivele care 'verbalizează în "-ing" valoarea trăsăturii lor TENS este INFI, aceste substantive posedă, pentru trăsătura PRED, aceeaşi valoare ACT sau EXIST pe care o au verbele din care provin
18963^84
70
substantivele (sau gerunziile) în "-/ng", şi astfel posedă aceleaşi proprietăţi de subcategorizare ca ale verbului de origine.
3.2. Ipoteze de lucru şi aspecte caracteristice ale FX-bar schemei
Continuând ideile de bază ale schemelor AX-bar din [19], propunem, pentru SCD, FX-bar schema generală din Fig. 3.2.1. Muchiile din stânga conţin noduri cu rol funcţional sau relaţional: marcheri, cuantificatori, specificatori, modificatori (eventual adjuncţi). Pentru a obţine reprezentări sintactice şi semantice corecte, nodurile funcţionale se aplică (recursiv) nucleelor Xk şi CLk, k = 0, 1, 2, iar nucleele, cu rol funcţional (predicaţional, X1) sau relaţional (eventual X2), au ca argumente clauze infinite (complemente, X1) sau finite (X2). Precizăm că la acest nivel nu se poate face distincţia dintre complemente COMPLi (argumente obligatorii) şi adjuncţi ADJCTj (argumente opţionale). în mod normal, în Fig. 3.2.1., ADJCTj sunt "amestecaţi" printre ARGj ,'la nivel sintactic nefiind discernabili de complementele obligatorii ale unui nucleu predicaţional. Poziţia funcţională (la stânga nodului X1) a nodurilor ADJCT poate rezulta doar în urma unor calcule semantice şi pragmatice suplimentare, din care se obţine rolul tematic al argumentelor ARGs ale lui X1.
S = CL2
S = X3-marcheri        X2 = CLI [TENS=FINI]
Z2 = CLl1CLl2...CLlm (Clauze Finite-Infinite)
X2-marcheri ADJCT,...ADJCTm      X1=XG=CL0 ARG, ... ARGn
(Adjunc{i=Modif) [PRED=ACTv TENS=FINI] (Complemente)
X1 -marcheri Specif--Cuant
Modif= XO-formă_lexicală = A1 [PRED-F] sau A2
XO-marcher flexional
X(-l )-formă_lexicon [PRED-F]
Figura 3.2.1. Schema (funcţională) FX-bar generală
(*) Aspecte specifice ale schemei FX-bar propuse: (*1) Sunt permise un număr arbitrar de argumente (sau sateliţi In sensul [10], [31]), toate notate cu ARGs. In SCD, ARGs sunt formate din complemente obligatorii (COMPLs) şi din adjuncţi
71
(ADJCTs), sau complemente opţionale. ADJCTs pot fi reprezentaţi la nivel sintactic tot ca argumente ale nucleului, însă la nivel semantic ADJCTs au rol de modificatori ai nucleului. Notaţia "A-poziţie" din teoriile Chomskyene, care înseamnă ARG-poziţie, nu trebuie confundată cu notaţia noastră pentru categoria A = adjectiv-adverb. în teoriile şi notaţia lui Chomsky, COMPLs sunt în A-poziţie (ARG-poziţie), în timp ce ADJCTs nu. SCD se situează pe o poziţie sintactică similară cu HPSG [16], care utilizează lista SUBCAT pentru a codifica toate sintagmele pe care le subcategorizează un nucleu semantic, adică atât COMPLs cât şi ADJCTs (sau ARGs din SCD). (*2) Sintagmele AG = A0 sau A1, sau AP = A2 sunt postulate de către SCD ca fiind de tipul categoriei funcţionale Modif, manifestate prin categoriile A (de nivel XO, şi aplicabile la nivel XO), ADJCTs (de nivel X1, şi aplicabile la nivel XO şi X1), şi clauza relativă (de nivel X2, şi aplicabilă la nivel XO şi X1). (*3) Categoria generică Specif (sau Spec), în care intră cuvintele şi sintagmele ce desemnează cuantificatori de toate tipurile (generalizaţi), determinatori (în particular), este postulată de către SCD ca fiind o categorie funcţională ce poartă trăsături de natură cuantificaţională la nivel lexical (în particular, negaţia la nivelul X1), inclusiv articularea (hotărâtă sau nu), suprapunându-se deci uneori peste X1-marcheri de trăsături funcţionale cum este acordul. Relaţiile (funcţionale) de acord sunt esenţiale pentru coeziunea locală şi globală în cadrul strategiei SCD: acordul dintre XO-Modif şi XO-Specif cu nucleul XO (la nivel X1), acordul Nucleu-Subj (sau chiar Nucleu-COMPL) şi acordul COMPL-PronEmfat (Pronume emfatic) (la nivel X2), o anumită corespondenţă a timpurilor evenimentelor într-o clauză şi între clauze. Aceste tipuri de relaţii de acord, referinţă şi coreferinţă, coeziune, coerenţă, etc. sunt responsabile pentru o largă clasă de dependenţe locale şi globale, inclusiv dependenţe la distanţă mare şi în extra-poziţie. Accentul în componenta de coeziune a strategiei SCD (Segmentare-Coeziune-Dependenţă) cade pe mijloacele sintactice şi de "suprafaţă", mai curând decât pe cele semantice, încercând să găsim, să extragem, şi să utilizăm într-o măsură maximală informaţii de ordin superior, cum ar fi informaţia de discurs [34], pragmatică, semantică etc. (*4) Sintagma tradiţională PP din teoriile lingvistice clasice, iar în SCD, grupul prepoziţional PG (format dintr-un grup nominal NG care este precedat de o prepoziţie sau o locuţiune prepoziţională) este întotdeauna considerată un ARG (COMPL sau ADJCT) în FX-bar schemele al căror nucleu (lexical nevid sau vid) este N, V, A. Această ipoteză de bază asupra PG este justificată de SCD prin faptul că P nu este considerată o categorie majoră, adică o categorie de nivel X1 în schema FX-bar din Fig. 3.2.1. ci doar o categorie de nivel XO. Proprietăţile de subcategorizare ale N, V, A (dar nu şi P) pot fi asignate ab initio, 'a nivel de lexicon, începând cu trăsătura lexicală PRED a categoriilor predicaţionale. Categoria P poate primi proprietăţi funcţionale, cel mai adesea ca marcher de caz, uneori proprietăţi relaţionale (de exemplu [Eng: on; Rom: asupra]), dar nu şi Proprietăţi de subcategorizare. (*5) Subiectul (Subj) în SCD, lexical nevid sau vid (pRO), este considerat ca un argument special al proiecţiilor maximale ale categoriilor X = N, V, A într-o clauză finită (de nivel X2) sau infinită (de nivel X1). (*6) In ipotezele (*5) şi (*2) de mai sus, categoria lingvistică tradiţională VP este dizolvată într-un grup verbal VG (finit sau infinit), înconjurat (de cele mai multe ori
I I
l
72
73
urmat) ca nucleu de ARGs şi formând o clauză finită, respectiv infinită. (*7) Teoria limitării şi multe probleme majore legate de TBarr [8], [9], [17] sunt explicitate şi rezolvate în cadrul realizat de SCD şi schemele FX-bar, în principal datorită delimitării clare a funcţiilor şi relaţiilor care se aplică cuvintelor şi sintagmelor, a reprezentării lor lexicale prin clasele de PS-Ms, şi a specificării domeniului lor de aplicare. Acest rol este realizat explicit în cadrul claselor si ierarhiilor de marcheri propuse şi utilizate de SCD [2], [6], [7], [45]. Trebuie să remarcăm că în lucrările sale cele mai recente [34], [35], Chomsky adoptă o tehnică similară de "limitare" a operaţiilor de construire [Eng: merge] şi transformare [Eng: move] doar la "domeniul" sintactic al unei "faze" [Eng: phase], o unitate textuală (care în general coincide cu clauza!) în care Chomsky propune următorul principiu de impenetrabilitate "într-o fază (clauză n.n.) F cu nucleul H, domeniul lui H nu este accesibil la operaţii în exteriorul lui F, ci este accesibil numai H şi muchia sa (nodul său ascendent)" [34]. Exact aşa este construită şi funcţionează schema FX-bar! De asemenea, fenomene de teoria legării [9], [8], [3], [16], legăturile [Eng: linking] din [27], mecanisme de coeziune (locală şi globală) şi discurs întâlnite în [36], [31], [33], etc. sunt mai uşor de [ pus în evidenţă şi de rezolvat în cadrul oferit de strategia lingvistică SCD si teoria FX-bar.
(♦) Observaţii asupra ipotezelor de lucru pentru schema FX-bar din Fig. 3.2.1.: (41) Schema FX-bar este proiectată să lucreze în asociere cu un parser care este capabil să recunoască clasele de PS-Ms şi structurile sintagmatice considerate [ de strategia lingvistică SCD. Schema FX-bar este organizată pe patru nivele de proiecţie BAR = (H-3 (deasupra nivelului de lexicon, notat convenţional BAR = -1); i trei nivele X0-X1-X2 corespund proiecţiei dintre nivelul lexical (BAR = 0) si nivelul f clauzal, al structurilor uni-eveniment, alte trei nivele CL0(=X1)-CL1(=X2)-CL2 f corespund proiecţiei dintre nivelul clauzal minimal CLO = X1 şi nivelul frazei, al ! structurilor multi-eveniment. Nivelele uni-eveniment X0-X1-X2 exprimă predicaţia clauzei (propoziţiei) simple în care sunt distribuite categoriile lexicale de bază şi sintagmele pe care le generează, în timp ce nivelele CL0-CL1-CL2 exprimă relaţiile logice şi predicaţionale (de ordinul doi) dintre clauzele simple. Schema FX-bar lucrează într-o manieră recursivă (top-down sau bottom-up), atât în situaţiile de analiză cât şi în cele de generare în care este antrenat parserul asociat, în strânsă cooperare cu strategia lingvistică SCD, cu clasele de PS-Ms şi ierarhiile lor si, mai ales, pe baza meta-algoritmilor SCD de analiză-generare [1],' [2], [6], [7]. Să mai observăm că FX-bar schema din Fig. 3.2.1. poate fi utilizată independent de aşa numita ordine canonică (sau sistemică) a cuvintelor si sintagmelor dintr-o clauză, I specifică fiecărui LN [37], [38]. (^2) Valoarea ACT de trăsătură (funcţională) pentru | categoriile N şi A (şi implicit V) este atribuită acestor categorii la nivel de lexicon ! atunci când ele corespund unor evenimente cu actanţi şi/sau stări multiple. Valoarea [ EXIST este implicit sau explicit introdusă de formele şi înţelesurile verbelor j existenţiale (a fi), modale (a trebui), etc. (^3) Trăsătura (funcţională) TENS este I similară cu categoriile virtuale I (INFL) şi T (Tense) din teoriile GB si TBarr ale lui I Chomsky şi din schemele S-bar corespunzătoare (Fig. 1.3. şi Fig. 2.2.3.). Pentru un VG finit (TENS = FINI), structura V2 corespunzătoare devine clauza finită clasică.
Dacă sintagma XG (X1) este un grup a cărei categorie-nucleu X posedă valorile de trăsături PRED = ACT şi TENS = INFI, atunci XG devine noul nucleu al unei clauze infinite ce face parte dintr-o structură de nivel X2 (XP). (^4) Poziţia specială a subiectului sintactic (Subj) este considerată de către SCD atât o ARG-poziţie (asemănătoare, de fapt, cu o COMPL-poziţie) cât şi o Caz-poziţie. în concordanţă cu TBarr [8] şi cu HPSG [16], Subj primeşte poziţia specială a primului element din lista SUBCAT [16]. Aceasta este în esenţă o poziţie sintactică, iar Subj poate primi o funcţie tematică (Opoziţie) autentică doar ca rezultat al unor calcule sintactice şi semantice suplimentare! (^5) Aşa cum rezultă din schema FX-bar din Fig. 3.2.1., sintagmele AP şi PP din teoriile lingvistice clasice sunt segmentate de către marcherii SCD [7], [45] în sintagme mai mici XG, X = N, V, A. Aşa cum am precizat deja, SCD atribuie noilor sintagme următoarele roluri: AG = Modif, cu rol funcţional la nivelul de proiecţie X1, şi PG = ARG (COMPL sau ADJCT), ADJCT purtând de asemenea rol de Modif al nucleului de nivel X2. PG devine deci un NG P-marcat, iar orice categorie A are de la început reprezentarea (nesaturată) A(X), unde X = N, V, A este nucleul ([existent, viitor, sau lipsind pur şi simplu) al sintagmei de nivel X1 în care Modif = A. în mod similar, orice categorie Specif (determinator, cuantificator, etc.) joacă un rol similar, schema FX-bar impunând reprezentarea funcţională Specif(X), unde X este nucleul sintagmei. (^6) în ciuda anumitor asemănări (inerente) între schemele FX-bar şi versiunea MinP a teoriei X-bar, există diferenţe de bază în ce priveşte organizarea şi funcţionarea constructivă dintre schemele (F)X-bar din Fig. 3.2.1. şi Fig. 2.2.1. De exemplu, în schema FX-bar, fiecare element lexical se proiectează într-o categorie obiectuală sau funcţională (relaţională), aceasta este (coeziv şi ^recursiv) înconjurată de către Specif şi/sau Modif, iar dacă valoarea ACT a trăsăturii HPRED a nucleului este prezentă, atunci această valoare ACT este moştenită de către întreaga sintagmă al cărei nucleu a fost specificat sau modificat. Această sintagmă cu nucleu predicaţional îşi subcategorizează complementele (argumentele obligatorii COMPLs) şi adjuncţii ADJCTs (care modifică sintagma-nucleu). în schema X-bar din Fig. 2.2.1.,'se întâmplă tocmai invers deoarece "The Head-Complement relation is the "most local" relation of an XP to a terminal Head Y, all other relations within YP being Head-Specifier (apari from adjunction, ...)" [3: p. 53]. (^7) Deşi schema FX-bar generală a fost proiectată având în vedere în primul rând limba română, ea poate fi aplicată pentru a reprezenta, grafic şi logic, structuri sintactico-semantice ale LNs cu valori ale parametrilor gramaticali foarte diferite, cum ar fi engleză-germană sau franceză-germană. Distribuţia complementelor (argumentelor) în română (engleză, franceză) poate fi foarte diferită de cea din germană; de exemplu, într-o clauză al cărei verb principal din compusul său verbal VG se află în poziţie finală, sau pentru o categorie A (adjectiv-adverb) având valoarea de trăsătură PRED = ACT.
Ex. 3.2.2.R. /Paharul /spart //de Ion/ cu mingea /de fotbal/
Ex. 3.2.2.E. /The glass /broken //by Ion/ with / the football /
Ex. 3.2.2.G. /Das/von lon/mit/dem Fuflball //zerbrochene //Glass/
După cum am remarcat în (t1), schema FX-bar poate fi utilizată incJependent de regulile structurilor sintagmatice şi ordinea lor (din română sau
74
germană), aceasta deoarece principiile rămân aceleaşi şi diferă numai anumiţi parametri şi valorile lor pentru LNs distincte: în română (şi engleză, franceză) argumentele succed o categorie A ce reprezintă un nucleu predicaţional, în timp de în germană ele îl pot precede. Dacă un nucleu V al unei clauze are valorile de trăsături PRED = ACT şi TENS = FINI, atunci distribuţia ARGs este similară cu cea din română, cu posibile (şi probabile) diferenţe impuse de ordinea sistemică, strict dependentă de LN, a ARGs (a se vedea [37} dar şi [27]).
Dacă se încearcă utilizarea formei FX-bar ca "schelet" pentru un automat (sau gramatică formală) de analiză şi generare a LN, un asemenea automat ar trebui să mimeze atât forma generală a schemei FX-bar cât şi regulile gramaticale de analiză-generare. Partea din automat care reflectă cele patru nivele de organizare a structurilor LN în schema FX-bar ar trebui să fie independentă de limbaj (cel puţin pentru o largă clasă de limbaje europene), în timp ce (sub)partea constituentă care recunoaşte structurile lingvistice pe fiecare nivel individual Xk (k = 1, 2, 3) trebuie să fie dependentă de limbaj (acest fapt este binecunoscut şi parametrizat). Reprezentarea schemei FX-bar pentru Ex.3.2.2.G. este aceeaşi cu reprezentările FX-bar pentru Ex.3.2.2.R.-E., şi similară cu figura pentru Ex.4.1.2.R.-E.
4. Exemple de aplicare a schemelor FX-bar
Vom expune câteva exemple de aplicare^ a schemelor FX-bar la reprezentarea sintagmelor, clauzelor şi frazelor. în exemplele prezentate, categoriile gramaticale pentru care PRED = ACT sau TENS = FINI vor fi subliniate, iar PS-Ms care se aplică sintagmelor Xk (k = 0, 1, 2) sunt reprezentaţi grafic în text prin apariţia unuia sau mai multor semne 'slash' /. Să notăm că schemele (augmentate) AX-bar din [19], deşi oarecum asemănătoare în spirit sunt efectiv scufundate în schema FX-bar generală, diferenţele substanţiale constând în forma unitară a FX-bar schemei şi în criteriile sintactice şi logico-semantice mai clare, pe baza cărora clasele de PS-Ms şi ierarhiile lor sunt explicit propuse şi aplicate în funcţionarea schemei FX-bar.
Care este relaţia dintre exemplele de FX-bar scheme şi formulele logice ataşate după reprezentarea grafică? Prima formulă este o reprezentare uzuală a LN, care foloseşte limbajul logicii predicatelor, reprezentare mai apropiată de exprimarea în LN, conţinând toate variabilele ce codifică referinţele-coreferinţele, dar (pentru simplitate) fără cuantifcatorii corespunzători. A doua formulă este traducerea mai completă a primei formule în limbajul de programare logică Prolog, folosind tehnici clasice de reprezentare a cunoştinţelor de LN în Prolog. Pe o scală ascendentă a măsurii în care sintagmele LN ar fi analizate, schema FX-bar poate fi văzută ca un prim rezultat al procesului de parsare (analiză), prima formulă ar urma procesului de parsare, incorporând fenomenele de referinţă (şi coreferinţă, rezoluţie a anaforei, etc), iar a doua formulă ar reprezenta o rafinare a primei formule. Formulele de tipul doi reprezintă de asemenea atât un stadiu final al procesului de analiză a frazei cât şi punctul de pornire în procesul de generare a
75
unei fraze (conform cu abordarea [39], [6] a generării automate a LN, însă diferită de [31], de exemplu).
Este important să remarcăm că schema FX-bar propusă reflectă, în principal, relaţiile de dependenţă dintre diferitele categorii, sintagme, şi clauze dintr-o frază, împreună cu marcherii corespunzători care controlează, în parte, şi comportamentul lor distribuţional. Deoarece am văzut în ce măsură ordinea argumentelor este (parametric) dependentă de limbaj în schemele FX-bar, acestea pot codifica nu numai situaţii în care argumentele succed (situaţia obişnuită) sau în care ele preced nucleul lor semantic (Ex.3.2.2.), dar şi în care argumentele aceluiaşi nucleu sunt interschimbabile. Deci aceleiaşi scheme FX-bar i se pot atribui mai multe formule logice corespunzătoare "echivalente".
4.1. De la text la scheme FX-bar
, \ Strategia SCD propune următoarele scheme FX-bar pentru exemplele de mai jos. Deşi muchiile ale căror noduri sunt Modif sau Specif sunt situate în dreapta nucleului corespunzător (pentru convenienţe grafice), ele trebuie înţelese ca având rol funcţional (situate la stânga şi aplicându-se nucleului X1). La fel şi cu unii adjuncţi, la nivel X2. Diferenţele dintre codificarea formei pentru engleză şi cea pentru română sunt nesemnificative (cu excepţia unor aspecte suplimentare de acord, care sunt puse în evidenţă). Forma codificată a textului pentru limba engleză este un argument suplimentar pentru versatilitatea schemelor FX-bar propuse.
~Ex. 4.1.1.R. /floare albă/de cireş / Ex. 4.1.1 .E. / the cherry / white blossom /
Mark = Def NI
Mark N Spec Modif^Al     NIL Mark N Spec=Def Modif
A      /|\\      /\    | |
Mark blossom Mark A Spec Modif Mark c/ierry   the NIL blossom    Mark white cherry
white
20079377
76
77
LR.4.1.1.R. de( cireş)( albă( floare( X)));
LR.4.1.1.E. quant( indef, X, white( blossom( X)), cherry( X)).
Ex. 4.1.2.R. /floare albă/ //bătută//de vânt/
Ex. 4.1.2.E./tf7e white blossom/ //blown//bv the wind/
object, = O,; eventj = ef
Ni
Mark NI; Spec Mark Ni Spec Modif = Ai
Modif =A2
Mark Al
y\ —vim^/f^^^  =|N1 ^^x?
ST blossom; Mark A Spec Modif  Mark A Sm* MoHîf  I    _ (\. \ >s
^SST«Ţm^±A Spec Modif  MarU sVldif  ^   Mark N SpecModif
blossom  Mark white      NILPRED=act blown      NIL / 1
^/j tens=înft/i
pred=exist whitp ' r ,
tens=infi pred=act pred=exist m^
- tens=infi
£;y w/W the NIL
LR.4.1.2.R. albă( floare( X)) a bătută( de( vânt( Y)), X); LR.4.1.2.E. quant( indef, X, white( blossom( X)),
quant( indef, Y, by( the( wind( Y))), blown( Y, X))).
Ex. 4.1.3.R. //educat//[de tatăl săul//corespunzător//cu vechile principii/ Ex. 4.1.3.E. //educated//[bv his fatherl//accordinalv// with old-fashioned principles/
NI
Mark N Spec      A2 = Modif
n. Mark Al
ARGi =N1
ARG2 = N1 by  N Spec Modif = NI •
pred = act/ /'l^^^"*"""'^'^''^^       /\ /T^X^^^
tens =       educated  Mark ^1    ARQi   ARG2 = N1 Mark toi      Mark N Spec Modif
pred = act educate j |   \ 0i      /     \    ^\ /
Mark A Spec Modif MarkN Spec Modif =AlMark/af/K?r NIL
/INI
Mark accordingly NIL   with principles   Mark A Spec Modif
pred = âctm kA Spec Modif =A2 Oj tens = r -
FINI v INFI
accordins
Mark 'old-\
ushioned NIL
old-fashion
LF.4.1.3.R. corespunzător X, cu( vechile( principii( Y))))
( educaţ( X, de( său( tatăl( Z))))); LF.4.1.3.E. quant( indef, X, educated( X, by( his( father( Z)))), quant( indef, Y, with(
old( principles( Y))), accordinqlv( X, Y))).
Ex.4.1.4.R. // Omul, // căruia, // PRO] / h -am dat // cartea // PROj a părăsit // ţara.// Ex.4.1.4.E. // The man\ //whom\/l\ /pave//the book//PRO\ left //the country.//
4.1.4.E. Readinq 1 (left = pastjense(feave))
S = CL2
CLlF = ec
™irk CLlF=V2=er
Mark
whom   Mark \h
who
MarkvWwm MJk^ SpecM^jf Mar£ ^ ^ M^,up
ARG2 = ni
Mark  n Spec Modif
A
Mark/
PRED=a6t    I NIL  Mark™™i"*   Mark   VI     ARGj=Nl    ARGjZnÎ country the NIL
tens= I ^ ^
FINI v INFI Ih*
Case+ whom = Ot /     \ \ +CL-m      / Mark V Spec Modif ,
wh° I I I
pred=act f>ave NIL TENS=FINI
the book Oj
Mark N Spec   Moăif = I   CL1F= V2
Mark
man, the M k V1 ARGj=m
:N1
Mark
ARG3 = NI
whom,  V /   Mark N Sp\ ^od.f=
'TENS= FINI j
who
CL1F=,
PRED^EXISI" TENS= INFI
Mark gave Mark the   \m i 1,1
.      | JJ   ^   Mark^V ARG2=N1
Mark V Spec Modif     the Oj
PRED=ACT jg TENS= ~Ţ~ FINI v INFI live
book
NIL
country
4.1.4.E. Readinq3 ([Eng: leff\ - [Rom: stânga])..
LF.4.1.4.R. a-părăsit( omul( X) a am-dat( Y, cartea( Z), X), ţara( T); LF.4.1.4.E. quant( def, X, and( man( X), quant( def, Y, l( Y), quant( def, Z, book( Z), qavef Y, Z, X)))), quant( def, T, country( T), jeft( X, T))).
Ex. 4.1.5.R. //lon\ //a convins^ //pe Mariaj //că //deplasarea* //e/j /la Lodra /
/a fost utilă //ek / Universităţii. // Ex. 4.1.5.E. // John\//convinced I/Mary^ //that //her^ //departure* // to London
//was useful//ek / to the University. //
objectj = Oj; eventj = ej
S = CL2
Mark     CLIF = er =V2
ARGi = es
Mark   ^1   ARGi=Nl ARG2=N1    ARG3=CL1F= es
that Mark V Spec Modif John-, Maryx MarkVl
Mark convinced NIL     Mark V Spec Modif=CLlI
=A2
ARGi=CLlI=
convince
PRED=EXIST was     '    ' ^    adTT^j,  Mark N Spec Modif        _ to,
TENS=FINI    /     Mark -     ARGi=Nlq ARG^=N 1 „   v      ,      =Oj London
to be
Mark   Nl^    ARG^Nl ARG2=N1
er Oj
INI /\KAJi:
rk N ~     ' " " 7     MarK ai   akui=iniq aku2=ini —\.
( ]  \    A .
Mark A Spec Modif  eq   to the • Mark departure NIL A University / L .       -L PRED=ACT deal
PRED=ACT useful NIL TENS=INFI |
touse
departure
LF.4.1.5.R. a-convins( ion, -o( pe( mariaj)), că( a-fost-utilă(
deplasarea( ei( Xj), la(londra)), universităţii( Y)))); LF.4.1.5.E. convinced( john = X, mary = Y, quant( def, X, her( X), departuref X, to( london)) = E, quant( def, Z, university( Z), was-useful( E, Z)))).
4.2. Observaţii generale
(*1) Nu este scopul prezentei lucrări să arate cum sunt obţinute ^prezentările FX-bar ale structurilor LN (într-o manieră mai mult sau mai puţin 3'goritmică), ci doar să propună schema FX-bar generală ca un mecanism esenţial ^reprezentare a informaţiei lingvistice, să sugereze cum lucrează, şi să explice
80
81
raţiunile introducerii acestui mecanism. Teoria FX-bar este integrată ca4 o componentă importantă a strategiei lingvistice SCD, însă ea poate fi utilizată şi în alte contexte computaţionale, cu condiţia de a include ingredientele necesare, şi anume, clasele de PS-Ms, ierarhiile acestor clase, o taxonomie funcţională (predicaţională) şi relaţională a categoriilor majore şi a marcherilor, un algoritm (în particular, algoritmii SCD) de obţinere a structurilor de dependenţă, etc. Aspecte mai detaliate ale SCD au fost prezentate în [1], [2], [6], [7], [45]. (*2) Funcţionarea corectă a schemelor FX-bar expuse arată clar cât de necesară este utilizarea (intensivă) a trăsăturilor predicative şi funcţional-relafionale pentru fiecare categorie lexicală. Din experienţa noastră în ce priveşte analiza şi generarea automată a limbii române [6], considerăm că accentul pus pe trăsăturile funcţionale ale categoriilor gramaticale, cuplat cu punerea în evidenţă a PS-Ms, reprezintă elemente-cheie în utilizarea cu succes a teoriilor X-bar curente în procesarea automată a LN şi în cadrul unor teorii lingvistice moderne (UG, FG, HPSG, etc). (a3) Punerea în valoare a trăsăturilor funcţionale (în particular, predicaţionale) ale categoriilor majore N, V, A, şi a celor relaţionale ale claselor de marcheri (marcheri numiţi în literatură şi "cue phrases" [Rom: sintagme indicatoare] [28], [31], sau conective [29], [30] etc), deşi esenţiale, nu poate rezolva toate problemele. De exemplu, asignarea dependenţelor corecte în juxtapunerea de NGs este o problemă binecunoscut de dificilă, imposibil de rezolvat complet doar la nivel sintactic. Există însă în prezent un puternic curent către acest tip de abordări, aceasta deoarece ele reflectă mult mai adecvat structura reală a textului de LN (cel puţin pentru o clasă largă de LNs europene). Aceste abordări pot diferi substanţial în instrumentele şi tehnicile de parsare, însă principiile rămân foarte similare (de exemplu, [19], [29], [31], [33], etc (*4) PS-Ms (marcherii de structuri sintagmatice) joacă un rol fundamental în delimitarea structurilor sintactice şi semantice, şi stabilirea dependenţelor corecte între aceste structuri, SCD a pus accentul încă de la începuturi pe acest aspect [22]. Se remarcă în prezent o întreagă mişcare către reconsiderarea rolului esenţial al marcherilor, în special la nivel de discurs şi în analize complexe ale marilor unităţi textuale (regăsirea informaţiei, rezumare automată, planificare şi generare automată de text, etc). Strategia SCD, cu componenta ei de teorie FX-bar, încearcă să pună la lucru întreaga paletă de PS-Ms, de la nivel lexical şi de coeziune (locală), până la nivel de discurs (coeziune şi coerenţă globală), punând accentul pe sintaxă (nivelul de "suprafaţă", [Eng: shallow]) şi pe un nivel minimal de semantism. în funcţie de problema de LN ce trebuie rezolvată, acest nivel poate fi amplificat în mod corespunzător, (a5) Cuplarea schemelor FX-bar cu: (a) clasele de marcheri SCD şi cu ierarhia lor ce corespunde celor patru nivele de proiecţie lingvistică din FX-bar [7], [45]; (b) o taxonomie bazată pe predicaţionalitate a categoriilor majore N, V, A; (c) exploatarea maximală a trăsăturilor funcţionale (predicaţionale) şi relaţionale ale tuturor categoriilor lexicale şi nelexicale (deci şi ale PS-Ms); (d) o schemă X-bar simplă şi unică, apelată recursiv pe cele patru nivele ale sale, pornind de la lexicon (convenţional, BAR = -1) şi până la nivelul de discurs al frazei multi-eveniment (BAR = 3), aceste aspecte reprezintă principalele diferenţe (şi noutăţi) dintre teoria FX-bar şi teoriile X-bar precedente, (a6) Schema FX-bar poate fi de asemenea
asociată cu un automat dependent de limbaj (pentru o largă clasă de LNs), care începe să lucreze pentru fiecare frază, primeşte on-lirie cuvânt cu cuvânt, şi se opreşte odată cu semnul de punctuaţie final al frazei. Pentru valori adecvate ale parametrilor de LN cum sunt ordinea cuvintelor (argumentelor) şi direcţia proiecţiei lingvistice pentru categoriile majore şi pentru marcheri, schema FX-bar poate reprezenta corect dependenţele structurilor lingvistice (inclusiv pentru Ex.3.2.2.G).
5. Problema X-bar teoriei actuale
Mai este necesară X-bar teoria sau nu? Este teoria X-bar pe moarte sau nu? Care este valoarea teoretică şi, mai ales, practică a (sub)teoriei X-bar în cadrul teoriilor lingvistice şi al tehnologiilor actuale ale LN? Cum trebuie să percepem în mod corect X-bar teoria atunci când, în aceeaşi carte a lui Chomsky, găsim următoarele două pasaje:
(Chomskyl): "The concepts of X-bar theory are therefore fundamental. In a minimalist theory, the crucial properties and relations will be stated in the simple and elementary terms of X-bar theory." [3, p. 172],
(Chomsky2): "Standard X-bar theory is thus largely eliminated in favor of bare essentials." [3; p. 246].
Subliniem că aceste citate nu sunt extrase din text astfel încât să nu aibă relevanţă în context, cu intenţia de a provoca confuzie. Dimpotrivă! De asemenea, scopul nostru nu este de a căuta o posibilă incoerenţă ci de a pune în evidenţă noua poziţie a lui Noam Chomsky, între 1992 şi 1995. încercăm să deschidem o discuţie pe această temă deoarece considerăm că există o problemă, şi că ea este de o reală importanţă.
în această secţiune urmărim cinci obiective: (A) Să enunţăm problema X-bar teoriei. (B) Să rezumăm soluţiile existente în momentul de faţă. (C) Să stabilim rolul X-bar teoriei în interiorul contextului teoriilor lingvistice şi să sugerăm posibile dezvoltări. (D) Să specificăm poziţia FX-bar schemelor propuse privitor la dilema eliminării complete a X-bar teoriei şi, în special, relaţia noii FX-bar teorii conturate în contextul strategiei lingvistice SCD. (E) Căteva concluzii şi perspective.
(A) Să considerăm următoarea problemă: reflectă teoria X-bar o realitate lingvistică a LNs, şi dacă da, prin ce mijloace această realitate lingvistică ar putea fi cel mai bine reflectată? Proiecţia categoriilor lingvistice este un fapt lingvistic de netăgăduit. Chomsky şi alţi distinşi lingvişti au fost în completă eroare în ultimii 25-30 de ani? Credem că nu. Problema este dacă teoria X-bar poate încă să mai fie un bun model, sau vehicul, care să exprime acest fapt, şi cu ce preţ de utilitate. Principiul Proiecţiei Extinse [3, p. 55] şi Principiul Proiecţiei Maximale (propus în [19] şi secţiunea 3.1.) au ca scop să stabilească forma şi marginile cele mai probabile ale unităţilor textuale obţinute în cadrul procesului de proiecţie a categoriilor lingvistice.
82
83
(B) Ipoteza (Chomskyl) de mai sus dă un răspuns afirmativ la această întrebare în timp ce (Chomsky2) reprezintă, aparent, opusul acestui răspuns. Abordarea din [3, Cap. Categories and Transformations] pentru ipoteza (Chomsky2) este că disoluţia schemelor X-bar, deci a proiecţiei categoriilor lingvistice, poate fi înlocuită cu succes prin folosirea proprietăţilor de funcţionalitate, predicativitate, tipologie şi transformare intrinseci acestor categorii, deşi aceste proprietăţi sunt reprezentate în [3] cu acelaşi aparat X-bar pe care îl combat! în cadrul unei teorii a "structurii sintagmatice pure", operaţiile unui sistem computaţional al LN "construiesc recursiv obiecte sintactice", iar "categoriile sunt construcţii elementare rezultate din proprietăţile elementelor lexicale", cu condiţia "să nu fie adăugate obiecte noi în cursul procesării, înafară de rearanjări ale proprietăţilor lexicale" [3]. Rezultatul pare să fie spectacular: dispar nivelele de proiecţie (în sensul teoriei X-bar), astfel spus, nu se face nici o deosebire între elementele lexicale şi nucleele proiectate din ele, în timp ce "teoria structurilor sintagmatice poate fi eliminată în întregime, se pare, pe baza celor mai elementare ipoteze" [3, p. 294].
Nu ar fi pentru întâia oară când teoria lingvistică încearcă să renunţe la (sub)teoria X-bar. Chomsky sugerează că nivelele de proiecţie lingvistică pot fi înlocuite de către "proprietăţile (funcţionale n.n.) ale elementelor lexicale". Acesta este chiar cazul gramaticii funcţionale (FG) [25] în care, formal, lipseşte teoria X-bar. Dar chiar şi în gramatica funcţională a lui Dik, conţinutul ascuns al teoriei X-bar este scufundat de fapt în cele patru nivele de structuri ierarhice ale functorilor şi operatorilor ce se aplică pe categoriile şi structurile cu care FG lucrează la fiecare nivel sintactic. O situaţie specială avem în SCD, unde nivelele de proiecţie a categoriilor lingvistice sunt recuperate pe baza unei funcţionalităţi ierarhice a elementelor lexicale, iar FX-bar schema propusă poate fi utilizată (recursiv) ca un invariant sintactic constructiv al structurilor sintagmatice în cadrul proceselor de analiză şi generare automată a LN (limbii române).
Schema FX-bar propusă (Fig. 3.2.1.) poate fi considerată ca un compromis, o negociere, între (Chomskyl) şi (Chomsky2), deoarece (Chomsky2) se prezintă fără mecanisme concrete pentru a-şi susţine ipoteza: în timp ce teoriile X-bar clasice nu mai pot fi utilizate ca instrumente operaţionale pentru a reflecta o viziune exclusiv funcţională (şi relaţională) asupra sintaxei, teoria FX-bar propusă poate face acest lucru.
(C) Poziţia noastră privind problema (A) asupra teoriei X-bar poate fi rezumată astfel: (C1) Proiecţia categoriilor gramaticale este un fapt lingvistic. (C2) Acest fapt poate fi corect reflectat prin "nuclee" şi "nivele (bar) c/e proiecţie" în interiorul schemelor X-bar, dar şi prin proprietăţile funcţionale "intrinsec? ale categoriilor lexicale şi gramaticale. (C3) Teoria X-bar include deci o componentă de adevărată construcţie lingvistică, iar ingredientul său de bază este confecţionat din relaţiile funcţionale stabilite între elementele lexicale (şi nelexicale) conţinute în cadrul schemelor X-bar. (C4) Atunci când proprietăţile funcţionale ale categoriilor lexicale nu sunt evaluate şi exploatate corespunzător, teoria X-bar este inconsistentă şi produce dificultăţi de calcul şi rezultate incorecte. (C5) Acestea
sunt consecinţele unui aspect mult mai general, şi anume că teoria X-bar nu trebuie să fie văzută ca o teorie gramaticală singulară, construită pentru sine, ci ca un dispozitiv component al unui mecanism lingvistic teoretic şi computaţional mai generat, ale cărui principii să guverneze teoria X-bar. Axiomatica (bazele constructive ale) teoriei X-bar trebuie să fie un rezultat al bunei ei funcţionări, pe fenomenele concrete de limbaj, şi nu invers! (C6) Ad limitum, se poate concepe că mecanismul lingvistic teoretic menţionat mai înainte poate funcţiona şi fără includerea dispozitivului reprezentat de teoria X-bar, aşa cum încearcă teoria MinP să propună în [3, Cap. Categories and Transformations] (dar folosindu-se în explicare tot de aparatul de reprezentare al teoriei X-bar), precum şi în cazul FG [25].
(D) Considerăm că schemele (funcţionale) FX-bar propuse furnizează un (sub)sistem necesar şi folositor în cadrul oricărei teorii sintactice asupra LN, inclusiv (şi în special) pentru strategia lingvistică SCD. O condiţie esenţială pentru schemele FX-bar este ca ele să reflecte corespunzător proprietăţile funcţionale şi relaţionale ale tuturor categoriilor lexicale şi gramaticale. Exemplele 4.1.1.-4.1.5. arată cum sunt construite schemele FX-bar, cum se obţin (prin apel recursiv pe nivele) structurile sintagmatice complexe ale LN, şi cum acestea rămân închise la operatorul de compunere (adjuncţie) pe baza principiilor şi regulilor SCD.
Schimbând perspectiva, prin definirea teoriei FX-bar ca o componentă a strategiei lingvistice SCD, şi parafrazând formalismul bine-cunoscut al gramaticilor TAG [Eng: tree adjoining grammar], strategia SCD poate fi văzută şi ca o teorie a evaluării şi adjuncţiei de FX-bar scheme. Este doar o mostră a rolului important pe care teoria X-bar îl poate încă juca în cadrul teoriei şi tehnologiei LN.
(E) Un element original propus de schemele FX-bar în peisajul teoriilor X-bar cunoscute este rolul lor dublu ce îl pot juca în cadrul strategiei SCD (şi nu numai): Schemele FX-bar pentru X = N, V, A, CL (CL = clauză) trebuie concepute ca un set de invarianţi sintactici (dinamici) ce pot fi folosiţi (1) la reprezentarea informaţiei lingvistice la nivel de lexicon (în mod similar cu structurile de trăsături lingvistice [18], dar într-o manieră mai simplă şi mai regulată), şi (2) la procesarea (analizarea şi generarea) automată de text în LN (inclusiv, şi mai ales, pentru limba română), de la structurile sintagmatice simple până la cele de discurs.
Derivarea de automate şi gramatici formale bazate pe schema FX-bar, pentru analiza LN, ar fi o consecinţă normală şi o provocare a prezentei propuneri. Modul recursiv, ascendent şi incremental (prin apelul de funcţii şi relaţii cu rol lingvistic multiplu), dar şi descendent (bazat pe sateliţii nucleelor semantice), utilizarea la maximum a contextualităţii marcherilor de toate tipurile poate reprezenta o motivaţie naturală pentru cercetarea relaţiei dintre strategia SCD (cu componenta ei de teorie FX-bar), şi modelele generative oferite de către gramaticile contextuale Marcus [41], [42], un formalism context-dependent puternic, destinat parsării dar şi analizei semantice şi de discurs (articularea topic-focus [37]) a LN. Gramaticile contextuale Marcus aparţin unei serii de formalisme care includ gramatici TAG [43], dramatici orientate-nucleu [15], [16], gramatici indexate, gramatici X-bar, gramatici context-free marcate [44] etc, formalisme ce realizează o modelare mai realistă a comportamentului sintactic, semantic şi discursiv al LN.
Referinţe bibliografice
[1] N. Curteanu (1990). A Marker-Hierarchy-based Approach Supporting the SCD Parsing Strategy. Research Report no. 18, Institute of Technical Cybemetics, Bratislava.
[2] N. Curteanu (1994). From Morphology to Discourse Through Marker Structures in the SCD Parsing Strategy. A Marker-Hierarchy Based Approach. Language and Cybemetics, Akademia Libroservo, Prague, 61-73.
[3] Noam Chomsky (1995). The Minimalist Program. The MIT Press, Cambridge, Massachusetts.
[4] N. Chomsky (1970). Remarks on Nominalizations. In R. Jacobs and P. Rosenbaum (eds.), Readings in Transformational Grammar, Ginn and Co., Boston, 184-221.
[5] T. Stowell (1981). Origins of Phrase Structure. Ph.D. Dissertation, Dept. of Linguistics and Philosophy, MIT, Cambridge.
[6] N. Curteanu, G. Holban (1996). Strategia lingvistică SCD aplicată la analiza şi generarea limbii române. Limbaj şi Tehnologie (Dan Tufiş, Ed.), Academia Română, Bucureşti, p. 169-176.
[7] N. Curteanu, C. Linteş (2002). Segmentation Algorithms for Clause-Type Textual Units, Research Report, Institute of Theoretical Informatics, Romanian Academy.
[8] Noam Chomsky (1986). Barriers. The MIT Press, Cambridge.
[9] Noam Chomsky (1981). Lectures on Government and Binding. Foris, Dordrecht.
[10] Simon C. Dik (1989). The Theory of Funcţional Grammar. Foris Publishers, Dordrecht.
[11] Cari Pollard, Ivan Sag (1994). Head-Driven Phrase Structure Grammar. The University of Chicago Press, Chicago & London.
[12] Gerald Gazdar, E. Klein, G. Pullum, I. Sag (1985). Generalized Phrase Structure Grammar. Harvard University Press, Cambridge, Massachusetts.
[13] Peter Sells (1985). Lectures on Contemporary Syntactic Theories. CSLI, Stanford, California.
[14] Stuart Shieber (1986). An Introduction to Unification-Based Approaches to Grammar. CSLI, Stanford, California.
[15] Cari Pollard, Ivan Sag (1987). Information-based Syntax and Semantics. CSLI, Stanford, California.
[16] Cari Pollard, Ivan Sag (1994). Head-Driven Phrase Structure Grammar. The University of Chicago Press, Chicago & London.
[17] E.P. Stabler Jr. (1992). The Logical Approach to Syntax: Foundations,
Specifications and Implementations of Theories of Government and Binding.
The MIT Press, Cambridge, Massachusetts. [18] N. Curteanu, G. Holban (2000). A Set-Theoretic Approach to Linguistic
Feature Structures and Unification Algorithms (I, II). Computer Science
Journal of Moldova, 8(2): 116-149, 8(3): 223-246. [19]  Neculai  Curteanu  (1988).  Augmented X-bar Schemes. COLING'88
Proceedings, Budapest, 130-132. [20] Neculai Curteanu, A. Todiraşcu, G. Holban (1997). Teorii sintactice ale
limbajului natural. Raport de cercetare, Institutul de Informatică Teoretică,
Academia Română, laşi, 66 p. [21] Alain Lecomte (1998). Multimodal Logic for Syntax. Logica Trianguli, 2: 49-72. [22] Neculai Curteanu (1983). Algoritmi de analiză sintactică a frazei şi propoziţiei
româneşti. INFO-IAŞI'83, p. 533-549. [23] M. Moortgat (1997). Categorial Type Logics. Handbook of Logic and
Language, Elsevier.
[24] E.P. Stabler Jr. (1997). Derivational Minimalism. Logical Aspects of Computaţional Linguistics, LNCS no. 1328, Springer-Verlag, Berlin.
[25] Simon Dik (1989). The Theory of Funcţional Grammar. Foris Publishers, Dordrecht.
" [26] Robert Kasper (1993). Adjuncts in the Mittelfeld. în "German Grammar in
HPSG" (J. Nerbonne et al., Eds.), CSLI, Stanford, California. [27] Denis Bouchard (1995). The Semantics of Syntax. A Minimalist Approach to
Grammar. The Univ. of Chicago Press, Chicago & London. [28] Julia Hirschberg, D. Litman (1993). Empirical Studies on the Disambiguation of
Cue Phrases. Computaţional Linguistics 19(3): 501-530. [29] Jacques Jayez, C. Rossari (1999)..Pragmatic Connectives as Predicates. The
Case of Inferential Connectives. în "Predicative Forms in Natural Language
and in Lexical Knowledge Bases" (P. Saint-Dizier, Ed.), Kluwer Academic
Publishers, Dordrecht. [30] Patrick Saint-Dizier (Ed.) (1999). Predicative Forms in Natural Language and
in Lexical Knowledge Bases. Kluwer Academic Publishers, Dordrecht. [31] Daniel Marcu (2000). The Theory and Practice of Discourse Parsing and
Summarization. The MIT Press, Cambridge. [32] V. Raskin, S. Nirenburg (1999). Lexical Rules for Deverbal Adjectives. In
"Breadth and Depth of Semantic Lexicons", Kluwer Academic Publishers,
Dordrecht.
86
[33] O. Popârda, N. Curteanu (2002). L'evolution du discours juridique frangais analyse par la strategie linguistique SCD. In "Representation du Sens Linguistique" (D. Bouchard, Ed.), LINCOM Studies in Theoretical Linguistics, LINCOM EUROPA, Munchen.
[34] Noam Chomsky (2000). Minimalist inquiries: the framework. în R. Martin et al. (Eds) "Step by step. Esseys on Minimalist Syntax in Honor of Howard Lasnik", MIT Press, Cambridge, p. 89-155.
[35] Noam Chomsky (2001). Derivation by phase: în M. Kenstowicz (Ed.) "Ken
Hale: a life in language", MIT Press, Cambridge, p. 1-52. [36] Jane Morris; G. Hirst (1991). Lexical Cohesion Computed by Thesaural
Relations as an Indicator of the Structure of Text. Computaţional Linguistics
17(1): 21-48.
[37] Eva Hajicova, H. Skoumalova, P. Sgall (1995). An Automatic Procedure for
Topic-Focus Identification. Computaţional Linguistics, 21(1): 81-94. [38] P. Sgall, E. Hajicova, J. Panevova (1986). The Meaning of the Sentence in Its
Semantic and Pragmatic Aspects. Kluwer Academic Publishers, Dordrecht. [39] S. Shieber, F. Pereira, G. Van Noord, R. Moore (1990). Semantic Head-Driven
Generation. Computaţional Linguistics 16(1): 30-41. [40] Şteven Abney (1996). Part-Of-Speech Tagging and Parţial Parsing. în
"Corpus-Based Methods in Language and Speech", (K. Church et al., Eds.),
Kluwer Acad. Publishers, Dordrecht.
[41] Solomon Marcus (1997). Contextual Grammars and Natural Language. în Cap. 5 (Voi. 2) din "The Handbook of Formal Languages", G. Rozenberg, A. Salomaa, Eds., Springer-Verlag, Berlin, 215-235.
[42] Gheorghe Păun (1997). Marcus Contextual Grammars. Kluwer Academic Publishers, Dordrecht.
[43] Michele Abrusci, Christophe Fouquere, Jacqueline Vauzeille (1999). Tree Adjoining Grammars in a Fragment of the Lambeck Calculus. Computaţional Linguistics, 25(2): 209-236.
[44] Philip Miller (1999). Strong Generative Capacity. The Semantics of Linguistic Formalism. CSLI Publications, Stanford, California.
[45] D. Gâlea, N. Curteanu, C. Linteş (2002). Algoritmi de segmentare a textului în unităţi de tip cauzal. (în prezentul volum)
87
Teoria HPSG. Studiu de caz: acordul încrucişat
Ana-Maria BARBU
RACAI, Calea 13 Septembrie nr.13, Bucureşti abarbu@racai.ro
1. Introducere
Oricât ar fi de mare entuziasmul creat de performanţele realizate cu calculatorul, care cuprinde deopotrivă şi domeniul prelucrării limbajului natural, rezultate temeinice nu se pot obţine dacă acestea nu sunt fundamentate pe îndelungi şi profunde analize teoretice. Nu putem aspira la obiective majore în ingineria lingvistică, precum analizarea şi generarea de texte, construirea de verificatoare ortografice şi gramaticale sau chiar de traducătoare automate, dacă se ignoră particularităţile inerente ale obiectului în studiu, anume ale limbajului natural în general, şi a limbii de aplicaţie, în special. Or aceste particularităţi sunt oferite, sub un aspect sau altul, tocmai de teoriile gramaticale. Experienţa a dovedit că eşecurile din ingineria lingvistică au avut ca posibile surse eşecurile în descrierea corespunzătoare a fenomenelor de limbă, dar şi succesele, la rândul lor, s-au datorat în parte acurateţei, exactităţii, şi nu în ultimul rând caracteristicilor computaţionale ale unui model gramatical teoretic.
lată de ce alegerea unei teorii lingvistice adecvate, cu scopul de a scrie pe baza acesteia o gramatică computaţională a unei limbi particulare, în speţă a limbii române, este un act de primă însemnătate.
După anii primelor dezvoltări ale gramaticii generative, sintaxa formală este, de aproape două decenii, repusă în discuţie ca obiect de studiu autonom distinct în aceiaşi timp de cel al lexicului şi cei al sensului. Mai multe curente teoretice, cunoscute sub numele generic de "gramatici de unificare" sau "gramatici bazate pe constrângeri", s-au născut din această reconsiderare a sintaxei. Este vorba de modele recente (cele mai vechi datând de la începutul anilor '80), dezvoltate în cea mai mare parte în Statele Unite, şi în generai aproape necunoscute publicului român. Aceste modele se pretează scrierii de gramatici pentru calculator, dar ambiţia lor este mai întâi de a constitui teorii lingvistice de sine stătătoare. Autorii lor se înscriu pe linia programului gramaticii generative chomskyene din 1957, de la care preiau grija pentru o formalizare operatorie a sintaxei, dar se disting suficient de modelul actual al Şcolii de la Cambridge (numit Government and Binding) pentru a prezenta teorii alternative. Printre punctele
88
89
comune ale gramaticilor de unificare, se află pe de o parte atenţia acordată unei articulări mai explicite a lexicului, sintaxei şi semanticii, pe de altă parte accentul pus pe descrierile lingvistice şi recurgerea la un stil de analiză sintactică mai "concret", care limitează recurgerea la elemente "vide" (nerealizate concret) şi care restrânge numărul etapelor intermediare în producerea unui enunţ.
în acest articol vom prezenta pe scurt una dintre teoriile lingvistice amintite, anume "Gramatica sintagmatică ghidată de centru", denumită abreviat HPSG după numele său din engleză "Head-driven Phrase Structure Grammar". Apoi vom ilustra modul în care poate fi aplicată această teorie în reprezentarea unui fenomen mai special de limbă română prin aceea că presupune dependenţe încrucişate de acord. Este vorba de structuri relative de tipul băiatul a cărui soră cântă unde articolul genitival a se acordă cu substantivul soră, iar pronumele relativ cărui se acordă cu substantivul băiatul.
2. Teoria lingvistică HPSG
2.1. Scurt istoric
Modelul gramaticii sintagmatice ghidate de centru (engl. Head-driven Phrase Structure Grammar, sau HPSG) a fost conceput la începutul anilor '80 de Cari Pollard şi Ivan Sag cu scopul de a permite o integrare mai explicită a diferitelor nivele de analiză lingvistică: fonetic, sintactic şi semantic. El a luat naştere în principal din Gramatica Sintagmatică Generalizată (GPSG) şi din lucrările lui C. Pollard despre Head Grammar [1], dar autorii lor s-au inspirat deopotrivă din numeroase alte teorii. Ei au preluat de la modelul chomskyan al Guvernării şi Anaforicităţii (GB) noţiunea de modularitate şi recurgerea la principii foarte generale (Principiul anaforicităţii, al controlului^etc). De la Gramatica Funcţională de Unificare (FUG) [2] au împrumutat reprezentarea uniformă a elementelor lexicale, a sintagmelor şi regulilor gramaticale sub formă de structuri de trăsături. S-au inspirat de la Gramatica Lexical Funcţională (LFG) pentru îmbogăţirea cadrelor de subcategorizare şi a noţiunii de regulă lexicală. Au luat de la gramaticile categoriale ideea de saturare progresivă a predicatelor şi recurgerea la o ierarhie de funcţii gramaticale (cf. [3]). S-au inspirat, în sfârşit, dintr-un punct de vedere mai formal, din lucrări de logică şi informatică asupra tipurilor şi moştenirii.
Teoria este prezentată în cele două lucrări ale lui C. Pollard şi Ivan Sag: [4] şi [5]. Majoritatea exemplelor privesc limba engleză şi tratează fenomene variate: fenomene de acord, construcţii infinitivale, anafore, construcţii relative şi comparative. Fenomenele de control sunt totodată dezvoltate în [6], iar o analiză a anaforelor este propusă în [7]. Primele lucrări au conferit de la bun început o dimensiune multilinguală acestei teorii prin abordări privind germana ([8], [9]), catalana ([10]), japoneza ([11]), dar şi coreana ([12]), franceza ([13]) şi italiana ([14]).
C. Pollard şi I. Sag preiau din modelul GPSG noţiunea de gramatică sintagmatică, cu distincţia între o componentă ierarhică (scheme Dl -de dominanţă imediată) şi o componentă liniară (principii de precedenţă liniară), precum şi recurgerea la principii foarte generale de partaj şi de propagare a trăsăturilor. Totuşi ei se separă de modelul original în câteva puncte. Structurile sintagmatice sunt în întregime exprimate în termeni de structuri de trăsături, cu introducerea unui atribut Ramuri. Structurile de trăsături sunt la rândul lor organizate în ierarhii de tipuri, comportând fiecare trăsături predefinite. Modelul HPSG oferă astfel anumite simplificări în raport cu GPSG: întregul arsenal de reguli Dl este redus la şase scheme de bază; metareguliie sunt eliminate în favoarea regulilor lexicale. S-a urmărit deosebirea clară între ceea ce ţine de domeniul constrângerilor universale şi ceea ce ţine de descrierea unei limbi particulare. Principiile de coocurenţă a trăsăturilor din GPSG, care amestecă constrângerile universale şi cele specifice unei limbi date, au fost suprimate.
2.2 Organizarea generală a HPSG
2.2.1 Caracteristici specifice gramaticilor de unificare Se poate considera că gramaticile de unificare, sau gramaticile bazate pe constrângeri, reprezintă noile teorii sintactice ale anilor '80. Este vorba de modele care urmăresc o articulare explicită între lexic, sintaxă şi semantică. Proprietăţile lingvistice corespunzătoare sunt concepute ca "informaţii" asociate morfemelor, sintagmelor sau construcţiilor, combinate prin operaţii variate, dintre care unificarea ocupă un rol central. Această concepţie "integratoare" este unul dintre atuurile lor pentru tratarea automată a limbajelor naturale. Un alt avantaj este că ele se bazează pe modele logice sau matematice (gramatici de constituenţi, structuri de trăsături), pentru care au fost definite metode de programare. Ele sunt în general rezultatul unui compromis între expresivitatea lingvistică (grija de a facilita exprimarea diferitor principii lingvistice adăugându-se variante notaţionale sau operatori) şi eficacitate (notaţii concentrate, puţine operaţii).
Aici, ne vom rezuma să punctăm trăsăturile lor comune cele mai pregnante, dintre care:
• reabilitarea descrierilor de suprafaţă;
• reînnoirea descrierilor sintactice prin definirea de trăsături complexe;
• definirea de principii generale de bună formare a enunţurilor;
• integrarea lexicului, sintaxei şi semanticii.
Gramaticile de unificare îmbogăţesc aparatul formal al gramaticilor de constituenţi cu un număr de noţiuni importante. în acest capitol ne vom limita la prezentarea principalelor noţiuni utilizate pe parcursul lucrării, pentru detalii putând fi consultate S. Shieber [21] sau H. Uszkoreit [38].
90
91
2.2.1.1 Structuri de trăsături Structurile de trăsături (engl. feature structure) sunt primitive ale teoriilor sintactice bazate pe unificare şi reprezintă ansambluri de trăsături, numite şi complexe de trăsături (engl. feature complexes sau feature bundles), care pot fi reprezentate sub formă de matrice. O trăsătură este o pereche atribut-valoare, valorile putând fi simboluri atomice sau trăsături. Trăsăturile cu valoare non atomică conduc la structuri de trăsături care prezintă îmbricări.
Spre exemplu, cuvintelor acest şi câine li se asociază o trăsătură Cat cu valoare atomică (pentru categorie) şi o trăsătură complexă Acord care ia ca valoare conjuncţia a două trăsături Num (pentru număr) şi Gen:
(1)
acest
câine
Cat = Det
Acord =
Gen = mase Num = sing
Cat = N
Acord
Gen = mase Num = sing
O structură este rău formată când conţine de două ori acelaşi atribut (la acelaşi nivel de imbricare) cu o valoare diferită.
Şi alte reprezentări de structuri de trăsături (sau structuri atribut-valoare) sunt posibile, fiind echivalente formal. Cele mai utile, pentru implementarea informatică, sunt cele care utilizează grafuri orientate: arcuri care poartă nume de trăsături şi punctează spre noduri care sunt etichetate cu valoarea trăsăturii (dacă e vorba de trăsături cu valoare atomică) sau sunt puncte de plecare pentru alte arce (pentru trăsături cu valoare non atomică). De pildă, pentru exemplele de mai sus vom avea următoarele reprezentări:
(2)
Det
Num
N o
Num
In termeni de grafuri, echivalentul interdicţiei ca un acelaşi atribut să apară de doua ori la acelaşi nivel cu valori diferite este interdicţia ca'două arcuri care poarta aceeaşi etichetă să puncteze, plecând din acelaşi nod, către două noduri
diferite (ceea ce e o restricţie generală asupra grafurilor ce corespund automatelor deterministe).
Structurile de grafuri pot fi ciclice sau non ciclice. Acestea din urmă se numesc grafuri aciclice orientate (engl. Directed Acyclic Graph sau DAG), denumire adesea folosită pentru a desemna structurile de trăsături.
în lucrul cu structuri de trăsături complexe se impun unele distincţii, de pildă, între structurile identice şi structurile cu valori partajate (sau reentrante). Cele din urmă sunt identice şi vor rămâne astfel indiferent de modificările suferite ulterior, ceea ce nu se întâmplă cu primele. în exemplul ce urmează structura de trăsături A comportă două atribute cu valori identice Acord şi Num. în structura B, cele două atribute Acord sunt coindexate (prin indicele 1), ceea ce face ca ele să partajeze în mod egal trăsătura [Num = sing].
(3). A:
Det = [Acord=[Num = sing]] Nume = [Acord = [Num = sing]]
B:
Det = [Acord =| 11 [Num = sing]] Nume = [Acord =| 11 ]
Dacă se unifică fiecare din aceste structuri cu structura C de mai jos, rezultatul nu va fi acelaşi:
(4)
(5)
C: [Det = [Acord = [Gen = mase]] C^ A:
Det = [Acord = [Num = sing, Gen = mase]] Nume - [Acord = [Num = sing]]
C^B:
Det = [Acord = 111 [Num = sing, Gen = mase]] Nume = [Acord =| 11 ]
După unificare, trăsătura Acord îmbricată sub atributul Nume va avea şi el o trăsătură Gen specificată în cazul lui C u B, dar nu şi în cazul C u A.
în termeni de grafuri, reprezentarea unei structuri reentrante ca B este următoarea:
92
(6)
B:
Nume
Acord
I,
Det
Acord
Num o
sing
2.2.1.2 Extensiune şi unificare
Se defineşte o relaţie de extensiune între structuri de trăsături după cum urmează:
O structură de trăsături A este o extensiune a unei structuri de trăsături B (notându-se AdB) dacă şi numai dacă:
- toate trăsăturile cu valoare atomică prezente în B sunt prezente şi în A cu aceeaşi valoare,
- pentru orice trăsătură <f> cu valoare non atomică, valoarea lui <f> în A este o extensiune a valorii lui <f> în B.
De exemplu, structura de trăsături asociată cuvântului câine în (1), reluată în (7) stânga, este o extensiune a structurii din (7), dreapta, dar reciproca nu este adevărată pentru că structura din dreapta nu are trăsătura [Num = sing] prezentă în cea a cuvântului câine:
(7)
Cat = N
Acord =
Gen = mase Num =.sing
Cat = N
Acord .=■ [Gen = mase]
Dacă numărul de atribute nu este limitat se poate obţine o infinitate de structuri care sunt extensii ale unei structuri date. Relaţia inversă a extensiei se numeşte subsumare , A subsuma B dacă şi numai dacă B este o extensie a lui A.
Pe baza acestei relaţii de ordine parţială putem defini o structură de latice, cu o limită superioară şi o limită inferioară. Este de notat că aici nu există o relaţie de ordine strictă pentru că orice structură este o extensie a ei înseşi (AdA). Structura care le subsumează pe toate celelalte (pentru care toate celelalte sunt extensiuni) este. structura vidă (notată T), pe care o putem interpreta ca disjuncţia tuturor cuplurilor atribut-valoare ale gramaticii. Dacă dorim să plasăm o limită inferioară, structura care va fi o extensie a tuturor celorlalte (care este subsumată de toate celelalte) va fi cea care conţine conjuncţia tuturor cuplurilor atribut-valoare posibile (notată 1) adică o structură "falsă" sau rău formată.
Această relaţie de ordine parţială e folosită pentru a defini unificarea. Această operaţie a luat naştere din cercetările în logică şi informatică (limbajul
93
Prolog). Definită la început ca procedură de rezolvare pentru logica predicatelor de ordinul întâi, cf. [15], ea a fost introdusă în lingvistică de A. Colmerauer, [16], apoi de M. Kay, [17], pentru a testa, fuziona şi propaga trăsături sintactice. Ea este definită în felul următor:
Unificarea a două structuri de trăsături A şi B (notată AuB) este structura minimală care este în acelaşi timp o extensiune a lui A şi a lui B. Dacă o astfel de structură nu există, unificarea "eşuează" (ceea ce e notat cu 1).
Altfel spus, unificarea verifică compatibilitatea dintre două structuri de trăsături şi produce o structură rezultantă care este cea mai mică structură ce conţine toată informaţia din prima structură şi toată informaţia din a doua structură.
Unificarea este o operaţie idempotentă (AuA = A), comutativă (A u B = B u A) şi asociativă (Au(BuC) = (AuB)uC), spunem de asemenea că este declarativă (dacă A = A' şi B = B' atunci A u B = A' u B') şi monotonă (AuBdA şîAuBdB; dacă A z) B atunci VCAuCdBuC), ceea ce vrea să spună că relaţiile de extensiune sunt conservate prin unificare. Colocvial spus, unificarea adaugă informaţie, fără să o scadă.
în termeni de grafuri, echivalentul operaţiei de unificare este fuziunea definită pentru automatele cu număr finit de stări. Pentru exemplul din (8a) se obţine reprezentarea grafică din (8b):
(8)
Cat - N
Acord = [Num = sing
U [Acord = [Gen = masc]]=
Cat = N
Acord =
Gen = mase I Num = sing
N o
Anumiţi operatori pot fi adăugaţi structurilor de trăsături, cei mai utili fiind negaţia (notată ~ sau * pentru trăsături cu valoare atomică) şi disjuncţia (notată prin acolade sau semnul /). Folosirea negaţiei permite să se renunţe la anumite disjuncţii. Există de exemplu echivalenţă între următoarele două ecuaţii, dacă considerăm că atributul Mod are 8 valori posibile în română (indicativ, conjunctiv, imperativ, prezumtiv, infinitiv, gerunziu, supin, participiu):
94
[Mod * inf]    [Mod = ind/conj7prez/imp/ger/sup/part].
în secţiunea următoare vom trece la descrierea caracteristicilor specifice ale teoriei HPSG care o fac distinctă de toate celelalte teorii bazate pe unificare. Trebuie spus de la bun început că autorii modelului HPSG au preluat o mulţime de caracteristici ale teoriilor apărute anterior, inclusiv de la gramatica generativă, tocmai din dorinţa de a aduna într-un singur formalism tot ce e mai adecvat pentru reprezenatrea lingvistică în general. Pentru o paralelă detaliată între HPSG şi alte teorii bazate pe constrângeri a se vedea [18].
2.2 Caracteristici specifice HPSG
în HPSG, structurile de trăsături, utilizate în LFG pentru reprezentarea funcţiilor gramaticale, iar în GPSG pentru reprezentarea categoriilor, sunt sistematizate pentru a include atât structurile de constituenţi cât şi regulile gramaticale. Ele corespund la ceea ce se numeşte un semn lingvistic, adică un cuvânt, o sintagmă sau o regulă, conţinând informaţii fonetice, sintactice, semantice şi discursive. Structurile de trăsături sunt cât se poate de adecvate pentru organizarea într-o notaţie comună a informaţiilor lingvistice eterogene.
Spre deosebire de celelalte teorii lingvistice bazate pe unificare, HPSG utilizează ierarhizarea tipologică. Fiecare structură de trăsături este încadrată într-un anumit tip pentru care sunt predefinite anumite constrângeri şi care îşi are locul într-o ierarhie de tipuri. în cadrul ierarhiei funcţionează relaţia de moştenire a constrângerilor tipurilor superioare asupra descendenţilor lor. Un exemplu de ierarhie de tipuri este dată în (9).
(9)
semn PHON phon
SYNSEM synsem
cuvânt
adjectiv
nume
sintagmă
[SYNSEM|LOCAL|CAT|LEX +]     [DAUGHTERS list]
cuvânt-lexical cuvânt-funcţional [CATjSUBCAT list]     [CAT|HEAD|MARK synsem]
complementizor
verb determinant
prepoziţie CAT| HEAD|PREPFORM prepform]
95
Pentru fiecare tip sunt definite anumite trăsături specifice (sau anumite constrângeri) care se adaugă constrângerilor moştenite de la tipurile din care descind. Trebuie adăugat că într-o ierarhie de tipuri sunt permise moşteniri multiple, adică sunt permise tipuri care au mai mulţi părinţi.
Cel mai general tip în HPSG este "semnul" (în engleză sign). El conţine informaţie fonologică (prin trăsătura PHON) şi informaţie sintactico-semantică (prin trăsătura SYNSEM). Semnul, la rândul lui, poate fi un cuvânt sau o sintagmă, după cum se vede în (9), mai sus. Sintagma are spre deosebire de cuvânt o trăsătură în plus, numită DAUGHTERS (adică ramuri-surori) care , 3 r /aloare o listă cu semnele combinate în sintagmă. Un exemplu de semn lexical împreună cu descrierea trăsăturilor specifice acestuia este dată în (10) pentru verbul a vrea.
(10) PHON< vrea >
SYNSEM
LOCAL
CATEGORY
HEAD I VFORM base]
VAL
SUB<|1 SPR<> COMPS<|2
LOC
CAT | HEAD | CASE nom CONT|INDEX|3|
LOC
CAT | HEAD | CASE ace CONT|INDEX|4|
CONTENT
CONTEXT {...}
ARG-	- ST <| 1	U|2|>	
	~RELN	vrea'	
RESTR	ARG1	1 3 1	
	ARG2	l4l .	
NONLOCALo
Combinarea cuvintelor în sintagme se face pe baza unor reguli exprimate la rândul lor sub formă de structuri de trăsături tipizate, purtând numele de scheme de Dominanţă Imediată (scheme Dl). Asupra regulilor acţionează suplimentar principiile, care, la rândul lor, sunt exprimate prin constrângeri asupra anumitor trăsături. în cele ce urmează vom prezenta pe scurt principiile şi schemele Dl de bază. Dintre principii, ne rezumăm prezentarea la următoarele:
a. Principiul Trăsăturilor Centrale
b. Principiul de Subcategorizare
i i
97
(11)
c.  Principiul Semantic
a. Principiul Trăsăturilor Centrale
Pentru majoritatea sintagmelor se defineşte un atribut HEAD ("centru"), inclus în trăsătura CATEGORY (CAT), a cărui valoare trebuie să fie partajată cu cea a atributului HEAD din semnul ramurii-centru HEAD-DTR a sintagmei. Principiul Trăsăturilor Centrale poate fi exprimat prin descrierea următoare (notând valoarea partajată prin indicele [1]):
"SYNSEM | CAT | HEAD [1]
DAUGHTERS | HEAD - DTR | SYNSEM | CAT | HEAD [1] Semnul HEAD-DTR poate fi sintagmatic sau lexical, b. Principiul de Subcategorizare
Atributul SUBCAT are ca valoare o listă care este actualizată progresiv, pe măsură ce sintagma se "saturează", în sensul că atunci când complementele sunt realizate, ele sunt eliminate din lista SUBCAT a sintagmei respective. O sintagmă se numeşte saturată (sau completă) când valoarea listei SUBCAT este vidă. Principiul de Subcategorizare poate fi enunţat astfel:
Valoarea listei SUBCAT a ramurii HEAD-DTR a unei sintagme trebuie să corespundă concatenării listei L1ca valoare a atributului SUBCAT al sintagmei şi a listei L2 a semnelor ce aparţin ramurii de complemente COMPS-DTR (sau, mai precis, nu lista semnelor, ci a trăsăturilor SYNSEM a acestor semne).
Acesta poate fi reprezentat prin structura de trăsături următoare (notând prin simbolul © concatenarea listelor):
["SYNSEM | CATEGORY | SUBCAT Ll
(12)
DAUGHTERS
HEAD - DTR | SYNSEM | CAT | SUBCAT L10L2 COMPS - DTR L2
două schimenDI:eama Subcate9orizare pot fi descrise următoarele
cam^L8^^^ ° S,'nta9mă S3tUrată CU ramurâ Comp.emente: head-
(13)
SYNSEM | CATEGORY | SUBCAT < >
DAUGHTERsf HEA°' °TR 1 SYNSEM I CAT I SUBCAT < X > COMPS - DTR < X >
, 2. Schema Dl pentru o sintagmă non saturată cu ramură Complemente: head-compl
(14)
SYNSEMj CATEGORY| SUBCAT < X >
HEAD-DTR | SYNSEM| CAT| SUBCAT < X,Yl,Y2...Yn> COMPS-DTR < Yl,Y2...Yn>
DAUGHTERS
3. Schema Dl pentru o sintagmă cu ramură Adjunct: head-adjunct
Modificatorii (adjective atributive, adverbe, complemente circumstanţiale) sunt introduşi într-o ramură specială numită ramura Adjunct (sau ADJCT-DTR). Modificatorii selecţionează categoria pe care o modifică (N' pentru adjective, V sau GV pentru adverbe). Această selecţie se face printr-un atribut MODIF, care are ca valoare o structură de trăsături SYNSEM. Pentru o sintagmă centru-adjunct bine formată trebuie să aibă loc unificarea valorii trăsăturii MODIF a adjunctului cu valoarea trăsăturii SYNSEM a centrului. Astfel adjectivele pot selecţiona numele pentru care sunt atribute, iar adverbele pot selecţiona verbele respective, adică se poate preciza în intrarea lor lexicală trăsăturile Categorie, Conţinut, Index etc. ale numelui sau verbului aşteptat. Descrierea unei sintagme cu Adjunct este următoarea:
(15)
DAUGHTERS
HEAD-DTR | SYNSEM |1|
ADJCT - DTR | SYNSEM | CAT | HEAD | MODIF 111
c. Principiul Semantic
Principiul semantic reglementează propagarea trăsăturilor semantice, adică cele două trăsături CONTENT şi CONTEXT. Se urmăreşte pe de o parte ca sintagmele să partajeze valoarea trăsăturii CONTENT din ramura centrului cu trăsătura proprie CONTENT, iar pe de altă parte să determine "ridicarea" la nivelul sintagmelor superioiare a eventualilor cuantificatori şi a variabilelor care le pot corespunde.
HPSG face apel la noţiunea de centru semantic, acesta fiind identic cu centrul sintactic, în afara cazului sintagmelor cu adjunct. în acest caz, centrul Sintactic este categoria modificată, dar centrul semantic este modificatorul (care joacă rolul de predicat semantic). Principiul Semantic poate fi exprimat astfel:
Valoarea atributului CONTENT a categoriei dominante este identică cu valoarea atributului CONTENT a categoriei care este centru semantic (ramura Adjunct sau, implicit, ramura HEAD).
O altă schemă Dl, head-functor, propusă de Allegranza în [19], reprezintă 0 modificare a schemei head-adjunct cu scopul de a satisface exigenţele de
98
reprezentare a determinatorilor într-un grup nominal. Determinatorii sunt trataţi ca functori aplicaţi centrului. Ei selectează centrul prin atributul ARG-SLOT şi marchează sintagma rezultată cu anumite trăsături specifice determinatorului respectiv prin partajarea valorii atributului MARKER între ramura Functor şi nodul mamă. Descrierea acestei scheme este dată mai jos.
4. Schema Dl pentru o sintagmă cu ramură Functor: head-functor
(16)
SYNSEM | LOCAL | CAT j MARKER 111
DAUGHTERS
FUN - DTR | SYNSEM | LOCAL | CAT
HEAD
MARKER] 1| ARG-SLOT 12 i
HEAD - DTR | SYNSEM | 2 | JA Cu aparatul formal oferit de HPSG, în secţiunea care urmează, dăm spre exemplificare analizarea unei structuri concrete din limba română. Structura propusă conţine un centru nominal modificat de o propoziţie relativă al cărei element de relaţie este în cazul genitiv precedat de articolul genitival. Această structură este interesantă prin faptul că prezintă un fenomen, acela de acord încrucişat, care pare să scape reprezentărilor gramaticilor independente de context. Avantajul teoriei lingvistice discutate aici, însă, oferă o soluţie pe cât de unitară, pe atât de elegantă, după cum sperăm să reiasă din cele ce urmează.
3. Structuri relative cu acord încrucişat
în limba română structurile care prezintă acord încrucişat sunt propoziţiile relative în care pronumele relativ este precedat de articolul genitival, ca în exemplul de mai jos.
(17)     băiatul a cărui soră cântă
Acordul este încrucişat prin aceea că pronumele relativ propriu-zis se acordă cu substantivul determinat de propoziţia relativă, băiatul, iar articolul genitival al se acordă cu subiectul relativei, soră, după următoarea schemă:
(18)
băiatul
a   cărui  soră cântă
mai jos.
Structura internă a acestui grup nominal este reprezentată în arborele de
(19)
Gdet
GN GV
N V
Det N
băiatul
cărui soră cântă
După cum se vede în acest arbore, exemplul din (17) este format dintr-un substantiv centru, băiatul, modificat de o propoziţie relativă al cărei subiect, a cărui soră, cuprinde elementul de relaţie care face legătura dintre numele amintit şi propoziţia relativă.
Dacă ne-am limita descrierea la regulile independente de context sugerate în arbore, nu am putea da seamă de fenomenul de acord încrucişat pe care-l discutăm aici. Acest lucru este însă posibil dacă folosim o gramatică HPSG, beneficiind de avantajele oferite de mecanismul unificării şi de reprezentările prin structuri de trăsături.
Aplicând schemele de dominanţă imediată şi principiile specifice teoriei HPSG, arborele de mai sus poate fi adnotat cu regulile HPSG aplicate, în felul următor (unde am folosit ca notaţii funcţionale H=centrul sintagmei, C=complement, Fct=functor, F=filler).
I
(20)
GN head-fîller
P-rel head-subject
GN head-functor Fcţ/\H
Gdet head-compl H/\C
N
Det
N
băiatul
cărui soră
cântă
Fenomenul de acord încrucişat presupune pe de o parte acordul determinatorului a cu substantivul soră, iar pe de altă parte acordul pronumelui relativ cărui cu substantivul băiatul. Primul acord amintit se face relativ banal. Intrarea lexicală a determinatorului a, în calitatea sa de functor, specifică în valoarea atributului său central ARG-SLOT ce trăsături de acord trebuie să aibă substantivul pe care urmează să-l modifice. Când detrminatorul a se combină cu complementul său cărui, principiul trăsăturilor centrale face ca această informaţie să fie percolată la nodul mamă GDet. Mai departe, schema Dl head-functor verifică dacă trăsăturile de acord ale GDet unifică cu cele ale centrului său nominal. Acest mecanism este ilustrat în arborele de mai jos.
(21)
GN head-functor
GDet head-compl HEAD | ARG - SLOT 111 fem, sg
SUBCAT< >
Det |2| HEAD | ARG - SLOT 111 fem, sg "
SUBCAT<|2|>
N
caim
sora
Al doilea tip de acord, în schimb, ridică anumite dificultăţi prin faptul că nu se realizează într-un arbore local, adică nu se realizează între ramurile surori ale aceluiaşi nod. Prin urmare, trăsăturile de acord ale pronumelui relativ trebuiesc percolate până la nivelul nodului P-rel (din (19)) pentru a putea fi controlate prin unificare de regula head-filler cu trăsăturile de acord corespunzătoare substantivului determinat.
Mecanismul din teoria HPSG care dă seama de propagarea la distanţă a anumitor trăsături se numeşte mecanismul dependenţelor la distanţă şi se aplică fenomenelor de limbă precum interogaţiile, topicalizările şi, cum-este cazul nostru, construcţiile relative. Aici ne vom ocupa numai de tratarea relativelor, pentru celelalte fenomene a se vedea [5].
Ideea principală a acestui mecanism este că pronumele relative poartă în intrările lor lexicale informaţii despre numele la care se referă. Intrarea lexicală a Pronumelui relativ din exemplul nostru va conţine, prin urmare, informaţiile date în (22).
02193256
102
(22)
PHONOLOGY < cărui >
CATEGORY
LOCAL
SYNSEM
HEAD noun[ genitive] SUBCATo CONTENT npro[lNDEX 111 [ masculine, singular ]
1RELN human _INSTANCE|1|
NONLOCAL
INHERITED
TO - BIND
QUE{} REL{|1 SLASH{ QUE{} REL{} SLASHU
Valoarea trăsăturii NONLOCAL | INHERITED indică acele trăsături care vor fi supuse Principiului Trăsăturilor Nonlocale. Aceste trăsături pot fi specifice elemetelor interogative, definite prin atributul QUE, elementelor dislocate, date de atributul SLASH sau pot fi specifice elementelor relative indicate prin atributul REL. După cum se observă în (22), acest ultim atribut are în cazul de faţă valoare non-vidă, coindexată cu conţinutul semantic de masculin-singular al pronumelui.
Potrivit Principiului Trăsăturilor Nonlocale, formulat în (23), valoarea atributului nonlocal INHERITED ("moştenit") este trecută din nod în nod spre vârful arborelui până va întâlni o ramură soră ale cărei trăsături locale unifică cu cele moştenite.
(23)     Principiului Trăsăturilor Nonlocale
Pentru fiecare trăsătură nonlocală, valoarea atributului INHERITED a nodului mamă este egală cu reuniunea valorilor atributului INHERITED ale ramurilor fiice mai puţin valoarea atributului TO-BIND a ramurii centru.
Atributul TO-BIND, practic, opreşte propagarea trăsăturilor moştenite în momentul în care se realizează elementul căutat, adică elementul care a făcut necesară această propagare. De exemplu, trăsăturile de acord ale pronumelui relativ, în exemplul nostru cărui, se propagă la nivelul propoziţiei relative până când este realizat substantivul la care se referă acest pronume, adică băiatul.
Regula care asignează o valoare atributului TO-BIND în momentul în care are loc unificarea trăsăturilor locale ale unui element cu trăsăturile moştenite pe
103
PQ rpntnl pste o schemă de dominanţă imediată numită head-filler (filler ar pTaI*. î"d?ep» -ceTa ce vine sâ completeze o lipsâ") si es,e descnsa ,n
(24).
(24) Schema Dl head-filler
DAUGHTERS
FILLER- DTR| SYNSEM| LOCAL 111
LOCALI CATEG
î
HEAD-DTR
SYNSEM
NONLOCAL
HEAD | VFQRM finite SUBCATo INHERITED|REL{|1!,.-} T0-BIND|REL{|1|}
în *fâr*it dacă aplicăm Principiul Trăsăturilor Nonlocale şi schema Dl head-Z ^M?U care if-vem în vedere se realizează în man.era ilustrată în arborele de mai jos.
(25)
GN
[INHER|REL { }] H
N
[LOCAL
P-rel
INHER | REL {| 11} T0-BIND{|1|}
GN
[INHERjREL {111} ] Fct,
Gdet [INHER|REL{|1|}]
N
N|l|masc,sg
[INHERjREL {|1|J]
băiatul a
cărui
sora
cântă
în concluzie, acordul încrucişat avut în vedere presupune, pe de o parte, un acord local, cel dintre articolul genitival şi substantivul determinat, în cazul nostru subiectul propoziţiei relative, iar pe de altă parte un acord la distanţă, cel dintre pronumele relativ şi substantivul determinat, exterior propoziţiei relative. Primul tip de acord se face pe baza Principiului Trăsăturilor Centrale şi a acordului banal dintre functor şi centrul său, pe când cel de al doilea tip de acord face uz de Principiul Trăsăturilor Nonlocale şi de schema de Dominanţă Imediată head-filler.
4. Concluzii
Analiza oferită aici pune în lumină faptul că un fenomen dificil precum acordul încrucişat poate fi tratat într-o manieră relativ simplă şi elegantă cu ajutorul unei teorii lingvistice adecvate, cum este teoria Head-driven Phrase Structure Grammar.
Prin aparatul formal şi adecvarea lingvistică pe care le oferă această teorie, descrierea fenomenelor limbii române devine incontestabil mai unitară, mai explicită şi mult mai riguroasă. Acestor avantaje li se adaugă încă unul, extrem de important, acela al adecvării teoriei pentru implementarea informatică. Este deschis astfel drumul pentru construirea de gramatici computaţionale ale limbii române şi dezvoltarea componentei informatizate a acesteia.
Aplicaţiile informatice ale teoriei HPSG sunt, de altfel, în plină dezvoltare şi nu am dori să încheiem înainte de a aminti câteva aspecte în acest sens. ^
Modelul HPSG a făcut parte încă de la origine dintr-un sistem de tratare automată a englezei dezvoltat în laboratoarele de cercetare Hewlett Packard din Palo Alto ([20]). Apoi, au fost propuse diferite implementări, unele bazate pe sistemul PATR ([21]), altele realizate direct în Prolog ([22], [23]). Dintre implementările de sisteme de gestiune a structurilor de trăsături tipologizate şi cu moştenire, se poate cita sistemul Typed Feature Structure (TFS) al lui M.Emele şi R. Zajac [24] şi sistemul ALE al lui B. Carpenter [25].
Teoria HPSG a inspirat deopotrivă noul formalism european ALEP, a cărui implementare (în Prolog) presupune un mecanism de gestionare de gramatici şi lexicoane, un analizor, un generator şi un modul de transfer pentru traducerile automate. Este de altfel utilizat în mai multe centre de cercetare universitară (precum DFKI la Saarbrucken, Centerfor Cognitive Science în statul Ohio, CSLI la Stanford) sau industriale, în special la ATR în Japonia (pentru traducerea automată englezo-japoneză pentru stabilirea de întâlniri prin telefon).
O altă aplicaţie informatică a acestei teorii, pe cât de recentă, pe atât de importantă este cea cuprinsă în proiectul Verbmobil, [26], care s-a ocupat cu traducerea bidirecţională, în timp real, a textelor vorbite în trei limbi (germană, engleză şi japoneză).
Head-driven Phrase Structure Grammar este o teorie care s-a impus incontestabil în ligvistica modernă atât prin numeroasele sale aplicaţii informatice, cât şi prin "generalitatea" aparatului său care o face adecvată pentru numeroase limbi ale lumii, aşa cum se poate vedea din impresionanta bibliografie electronică HPSG oferită de pagina www.dfki.de/lt/HPSG. Nu trebuie trecute cu vederea lucrările de limba română dezvoltate în acest cadru, dintre care le amintim pe cele ale lui lonescu ([27]-[33]), Monachesi ([34]-[36]) şi Barbu ([37]) la care s-ar cuveni să se adauge multe altele spre afirmarea limbii române în lingvistica internaţională.
Referinţe bibliografice
[1] Polard, C. - Generalized Context-Free Grammars, Head Grammars and Natural
Language. Teză de doctorat. Universitatea din Stanford, 1984. [2] Kay, Martin - "Funcţional Grammars", Actes 5° annual meeting of the Berkeley
Linguistics Society, Berkeley, 1979, pp. 142-158. [3] Oehrle, Richard; Bach, Emmon; Wheeler, Deirdre (eds.) - "Categorial
Grammars and Natural Language Structures", Dordrecht: Reidel, 1988. [4] Pollard, C; Sag, I. - Information-based Syntax and Semantics, CSLI, University
of Chicago Press, 1987. [5] Pollard, C; Sag, I. - Head-driven Phrase Structure Grammar, CSLI, University
of Chicago Press, 1994. [6] Sag, I.; Pollard, C. - "An integrated theory of complement control"', Language,
67:1, 1991, pp. 63-113. [7] Pollard, C; Sag, I. - "Anaphors in English and the scope of binding theory",
Linguistic Inquiry, 23:2, 1992, pp. 261-303. [8] Pollard, C. - "On head non-movement", Actele Colocviului Discontinuous
constituency, Tilburg, 1990. [9] Nerbonne, J.; Netter, K.; Pollard, C. (eds.) - "German grammar in HPSG", CSLI,
University of Chicago Press, 1993. [10] Balari, S. - "Feature structures, linguistic information and grammatical theory",
Teză de doctorat, Universitatea Autonomă din Barcelona, 1993. [11] Gunji, T. - Japanese Phrase Structure Grammar, Reidel, 1987. [12] Chung, C. - "Korean auxiliary verb constructions without VP modes", Harvard Workshop on Korean Linguistics, V; în C. Pollard, I. Sag (eds.), Readings in HPSG, 1993.
106
[13] Miller, P.; Sag, I. - French clitic movement without clitics or movement, LSA Meeting, Los Arigeles, 1993.
[14] Monachesi, P. - "Oject clitics and clitic climbing in Italian HPSG grammar", Actes 6° European ACL, Utrecht, 1993, pp. 431-437.
[15] Robinson, J. - "A machine-oriented logic based on the resolution principie", Journal of the ACM, 12, 1965, pp.23-44.
[16] Colmerauer, A. - "Les grammaires de metamorphose", Universite d'Aix Marseille, 1975, reluat în L. Bolc (ed.) Natural Language Communication with computers, Springer, Verlag, 1978.
[17] Kay, M. - "Funcţional grammars", Actes 5° annual meeting of the Berkeley Linguistics Society, Berkeley, 1979, pp. 142-158.
[18] Abeille, A. - Les nouvelles syntaxes. Grammaires d'unification et analyse du frangais, Armând Colin, Paris, 1993.
[19] Allegranza, V. - "Determiners as Functors: NP Structure in Italian" în S. Balari & L. Dini (eds.) Românce in HPSG, CSLI, Stanford, 1998.
[20] Proudian, D.; Pollard, C. - "Parsing Head-driven Phrase Structure Grammar", Actes 23°ACL, Chicago, 1985, pp. 167-171.
[21] Shieber, S. - An Introduction to unification-based theories of grammar, CSLI, University of Chicago Press, 1986.
[22] Oliva, K. - "Simple parser for an HPSG-style grammar implemented in Prolog", Actes13°COLING, Helsinki, vol.3,1990, pp.434-436.
[23] Carpenter, B. - "The generative power of Categorial grammars and Head-driven Phrase Structure grammar with lexical rules", Computaţional Linguistics, 17:3, 1991, pp. 301-314.
[24] Emele, M.; Zajac, R. - "Typed-unification grammars", Actes 13° COLING, Helsinki, vol.3, 1990, pp. 293-298.
[25] Carpenter, B. - "The Logic of typed Feature Structures with Applications to Unification Grammars, Logic Programs and Constraint Resolution", Cambridge University Press [Implementarea sistemului ALE], 1992.
[26] Wahlster, W. (ed.) - Verbmobil: Foundations of Speech-to-Speech Translation, Springer, Berlin, 2000.
[27] lonescu, E. - "A Type of SOV Construction in Romanian", "Cahiers de Linguistique Theorique et Appliquee", tomes XXXII-XXXIII, 1995-1996, 19-39.
[28] lonescu, E. - "Accusative Weak Pronouns in Romanian", Cahiers de Linguistique Theorique et Appliquee, tomes XXXII-XXXIII, 1995-1996, 40-52.
107
[29] lonescu, E. - "Accusative Clitic Doubling in Romanian", Cahiers de
Linguistique Theorique et Appliquee tomes XXXII-XXXIII, 1995-1996, 53-73. [30] lonescu, E. - "Accusative Clitic Climbing in Romanian", Cahiers de Linguistique Theorique et Appliquee, tomes XXXII-XXXIII, 1995-1996, 74-87.
[31] lonescu, E. - "A Quantification-based Approach to Negative Concord in Romanian" in Geert-Jan M. Kruijff and Richard T. Oehrle (editori), Proceedings of Formal Grammar Conference Utrecht,1999, p. 25-36. [32] lonescu, E. - Pro-Drop: An HPSG Account without Lexical Rules, "Bucharest
Working Papers in Linguistics", voi. I, nr.1, 1999, 117-124. [33] lonescu, E. - On the Status of PE in the Direct Object Construction in Romanian, Romanian Journal of Information Science and Technology, volume 4, numbers 3-4, 2001, p. 293-310. [34] Monachesi, P. - "The morphosyntax of Romanian cliticization" în P.-A. Coppen, H. van Halteren, & L. Teunissen, eds., Proceeding of Computaţional Linguistics in The Netherlands 1997, pp. 99-118, Amsterdam-Atlanta:Rodopi. [35] Monachesi, P. - "Linearization properties of the Romanian verbal complex" în
Proceedings of WECOL 98, Tempe, 1999. [36] Monachesi, P. - "Clitic Placement in the Romanian verbal complex", în B. Gerlach and J. Grijzenhout (eds.) Clitics in Phonology, Morphology and Syntax, LA 36, Amsterdam: John Benjamins Publishing Company, 2000. [37] Barbu, A.M. - "Romanian determiners:order and classification" în Revue
Roumaine de Linguistique, XLIII, nr.5-6, pp.299-315, Bucureşti, 1998. [38] Uszkoreit, H. - "From Feature Bundles to Abstract Data Types: New Directions in the Representation of Linguistic Knowledge, in H. Blaser Natural Language at the Computer, Berlin: Springer, 1989.
i
109
După 10 ani de experienţă terminografică: noul model de date terminologice al TermRom
Dan MATEI, Institutul de Memorie Culturală
Piaţa Presei Libere, nr. 1, C.P. 33-90, 713411, Bucureşti
dan@cimec.ro
A. Preambul
Din 1991 — când a fost înfiinţată — Asociaţia Română de Terminologie (TermRom) a desfăşurat o activitate terminografică materializată într-o bază de date proprie (accesibilă, în parte, pe web la www.cimec.ro/tr/) şi într-o serie de publicaţii specifice. Formatul terminografic utilizat — descris în [1] —, derivat din formatul standard MicroMATER (ISO 6156), se bazează pe un model de date (relativ) complex, serializat pe două nivele: nivelul conceptului şi nivelul termenului. Practica terminografică (ce se traduce prin prelucrarea unei mari diversităţi de date terminologice) ne-a revelat o tensiune între complexitatea datelor reale şi insuficienta complexitate a modelului folosit. în plus, necesitatea transferului de date între aplicaţii diverse a scos la iveală utilitatea consemnării cu o granularitate sporită a elementelor înregistrării terminologice. Mai mult, "entuziasmul" cu care ISO revizuieşte standardele terminologice în ultimii ani1, cu alte cuvinte, relativa instabilitate a standardelor din acest domeniu, îndeamnă la o şi mai fină granularitate, pentru a spori şansele de compatibilitate cu normele de transfer viitoare. Pe de altă parte, pe măsura acumulării experienţei, era din ce în ce mai limpede că modelul de date folosit ar trebui să acomodeze o mai mare diversitate şi complexitate de metadate bibliografice, ca şi o fină şi flexibilă tratare a metadatelor "administrative", de gestionare a colecţiei terminologice (vezi şi [2]).
Aceste considerente au dus la elaborarea unui model de date obiectual, care, pe lângă cerinţele expuse mai sus, să fie şi suficient de abstract ca să permită o serializare convenabilă (pentru transfer de date), — probabil bazată pe XML, de exemplu în formatul MARTIF [3] — şi să nu ceară elaborarea de aplicaţii informatice de o complexitate excesivă.
1 Atât ISO 12200 cât şi ISO 12620 sunt în revizie (deşi ambele datează doar din 1999), iar ISO 16642, este încă nedefinitivat. Desigur, această stare a lucrurilor probează şi faptul că domeniul nu este încă bine "aşezat".
B. Modelul
Clasă
Generalizare
Dependenţă
Asociere
Convenţional, modelul este împărţit în secţiuni ("pachete" [packages], în terminologia UML). La nivelul cel mai de sus, se disting secţiunea (aşa zis) funcţională şi secţiunea administrativă.
B.l. Secţiunea funcţională
în fig. 1 se prezintă clasele funcţionale esenţiale şi asocierile lor. Practic, orice element al modelului este o 'înregistrare'. Cu alte cuvinte, 'înregistrare' este clasa generică. Existenţa unei clase generice oferă — pe lângă gruparea proprietăţilor comune tuturor elementelor — şi posibilitatea de a avea un identificator unic pentru fiecare înregistrare din baza de date ce implementează acest model.
Ţintă
Relaţie
Figura 1 - Secţiunea funcţională (generică)
Clasa 'înregistrare' are două subclase: 'entitate' (care grupează elementele ce au o existenţă autonomă) şi 'relaţie' (care grupează asocierile binare între înregistrări). Se observă că sunt acceptabile chiar şi relaţiile binare între relaţii, lucru folositor şi în practică.
Reificarea relaţiilor binare între înregistrări simplifică mult modelul şi constituie o manieră flexibilă de a consemna o mare varietate de asocieri între elementele modelului. O relaţie R poate avea două caracteristici fundamentale, utile în cadrul modelului:
a. simetria: dacă x este în relaţia R cu y, y este în relaţia R cu x;
b. tranzitivitatea: dacă x este în relaţia R cu y şi y este în relaţia R cu z, x este în relaţia R cu z.
Pentru fiecare instanţă a clasei 'relaţie', aceste caracteristici (sau lipsa lor) se consemnează ca un atribut al tipului respectiv de relaţii (nereprezentat grafic în model)2. Consemnarea acestor proprietăţi ale relaţiilor poate fi foarte folositoare pentru programele care ar exploata baza de date.
Pentru a se rezolva (relativ) simplu şi flexibil asocierile multiple între înregistrări, s-a introdus subclasa 'situaţie' a clasei 'entitate'. După cum se vede în figură, o instanţă (sau mai multe) a clasei 'situaţie' se asociază cu o instanţă a clasei 'înregistrare', iar obiectul 'situaţie' este conectat cu oricâte alte elemente prin instanţe banale ale clasei 'relaţie'. în practică, cele mai frecvente utilizări ale acestui tip de obiect sunt ca încarnări de contexte şi evenimente. în fine, cea de-a două subclasă a clasei 'entitate' este 'enunţ'. Acest tip de obiect este destinat a consemna atribute ale unei înregistrări care n-au fost aprioric prevăzute în model, cu alte cuvinte el găzduieşte menţiuni pentru care se doreşte un statut superior simplelor note, şi anume care se doresc a fi colocabile şi/sau indexabile.
în continuare se prezintă doar subsecţiunile secţiunii funcţionale care sunt de interes în contextul acestui volum.
B.1.1. Secţiunea terminologică
nologică.
Fig. 2 prezintă entităţile (i.e. subclasele clasei 'entitate') de natură termi-
O categorie de relaţii tranzitive şi asimetrice.
importantă în terminologie — este cea a relaţiilor ierarhice,
99999^
Entitate
{frqrnjtegjstru
Noţiune
Termen
r
Concept
Generează—>4
Intrarelndex
Figura 2 - Secţiunea terminologi-
ca
Principala clasă a acestei subsecţiuni este 'noţiune'. Instanţele ei consemnează noţiunile vehiculate în baza de date terminologică, independent de limbă. Din raţiuni practice, şi anume din necesitatea de a cuprinde în baze de date terminologice şi materialul organizat de obicei în tezaure terminologice, s-a decis să se cuprindă în modelul de date nu doar conceptele pure, ci şi unităţi semantice mai largi, precum cele desemnate de termenii compuşi într-un tezaur (sau ceea ce ISO 12620 numeşte 'unităţi frazeologice' [A.2.1.18]). Clasa acestor unităţi conceptuale care cuprinde conceptele şi unităţile semantice mai largi este clasa 'noţiune'. Distincţia fină între 'noţiune' şi 'concept' este formulată în logică astfel [5]:
Noţiune: formă logică fundamentală care reflectă însuşirile caracteristice necesare şi generale ale unei clase de obiecte.
Concept: noţiune care reflectă însuşirile esenţiale ale unei clase de obiecte3.
Aşadar, o noţiune care nu e concept cuprinde mai mulţi factori semantici, deci poate fi factorizată4.
1den*,Mrenusunlconcep,e;b|ona. imwtot_
A doua subclasă a acestei secţiuni este 'termen'. Instanţele ei consemnează doar "denumirile" conceptelor (A.1. în ISO 12620). Cu alte cuvinte, consemnează ceea ce au în comun o familie de expresii lingvistice ce designează un concept5. Expresiile lingvistice propriu-zise sunt consemnate în instanţele clasei 'sintagmă'6. Din pricina faptului că un termen poate fi exprimat printr-un set de expresii lingvistice (flexiuni, variante ortografice etc), s-a preferat separarea "termenului" de expresiile sale lingvistice, în felul acesta nu ne conformăm strict definiţiei pentru 'termen', din ISO 12620 (A.1): "a designation of a defined concept in a special language by a linguistic expression".
Se poate observa în figură faptul că sintagmele generează intrări de index, în fapt, o sintagmă poate genera — prin inversare/permutare — mai multe intrări de index, dacă terminograful decide că asta ar fi în folosul utilizatorilor, prin colocarea sintagmei la fiecare "factor" semnificativ. Exemple:
Sintagma	Intrări de index
efect Doppler	efect Doppler
	Doppler, efect
pseudofonetism	pseudofonetism
	fonetism, pseudo-
completivă indirectă anticipată	compietivă indirectă anticipată
	indirectă anticipată, completivă
	anticipată, completivă indirectă
Clasa 'relaţie' este vitală pentru consemnarea asocierilor între entităţile modelului. Pentru a ilustra modul în care se consemnează informaţia terminologică esenţială, în fig. 3 s-au reprezentat tipurile de relaţii esenţiale care asociază, pe de o parte, conceptele cu termenii care le designează, iar pe de alta, termenii cu sintagmele care-i exprimă. De asemenea, se vede cum o "situaţie" (care — în această ilustrare — implică (cel puţin) un loc, o perioadă şi un agent) caracterizează designarea.
O regulă simplă, pragmatică de a distinge o noţiune care este concept de una care nu este, ni se pare: noţiunea care e concept şi-ar găsi locul într-un dicţionar, pe când cea care hu e, nu.
Exemple de "familie de expresii lingvistice" sunt: a) clădire, clădiri; b) expresiv, expresivă, 6 expresivi, expresive.
în acest context, 'sintagmă' desemnează — printr-un abuz de limbaj - atât sintagme cât şi cuvinte.
91746157
114
Cbncept
; (from Terminologie)
\ LOC j i(fromSpatluTlmp)j
Relaţie/Localizată
!  Agent \
\ (ţrom Agenţi) \
Relaţie/Implicat
Relaţie/Designează
IhCareSeAfiă
; Situaţie
Termen
(from Temiino^gfe)
Relaţie/Datata
RelaŞe/...
l Relape/Bprimă
I   Perioadă |
L(from.Sj)a^Tlmjp)j
• -.......^
I   Sintagmă i
Figura 3 - Ilustrare a reprezentării informaţiei terminologice
într-o astfel de schemă, se pot reprezenta cu acurateţe cazuri precum: a) Concept: mic arbust cu flori roşietice din familia ericaceae ...
• Relaţie/designează:
Termen (ştiinţific) [latină]: Relaţie/exprimă:
Sintagmă: Kalmia latifolia
• Relaţie/designează:
Situaţie/context:
Relaţie/localizează:
Loc: nordul Statelor Unite Termen [engleză]:
115
Relaţie/exprimă:
Sintagmă: mountain laurel
• Relaţie/designează:
Situaţie/context:
Relaţie/localizează:
Loc: sudul Statelor Unite Termen [engleză]:
Relaţie/exprimă:
Sintagmă: calico bush
• Relaţie/designează:
Situaţie/context:
Relaţie/localizează:
Loc: sudul Statelor Unite Termen [engleză]:
Relaţie/exprimă:
Sintagmă: sheep's bane
• Relaţie/designează:
Termen [română]:
Relaţie/exprimă:
Sintagmă [s.m.sg.]: laur de munte Relaţie/exprimă:
Sintagmă [s.m.pl.]: lauri de munte
b) Concept: comandant de călărime
• Relaţie/designează: Situaţie/context:
Relaţie/localizează:
Loc: Moldova Relaţie/localizează:
Loc: Ţara Românească Relaţie/datează:
Perioadă: sec. XVII-XVIII Termen [română]:
Relaţie/exprimă:
Sintagmă [s.m.sg.]: serdar Relaţie/exprimă:
Sintagmă [s.m.pl.]: serdari
c) Concept: boier de rang mijlociu
116
• Relaţie/designează Situaţie/context:
Relaţie/datează:
Perioadă: sec. XVIII-XIX Termen [română]:
Relaţie/exprimă:
Sintagmă: serdar [s.m.sg.] Relaţie/exprimă:
Sintagmă: serdari [s.m.pl.]
Tot ca o ilustrare, în fig. 4 se prezintă modul cum se consemnează etimologia unui termen, cu ajutorul clasei 'situaţie': o situaţie de tip 'etimologie' se asociază cu termenul de bază, iar termenii din care acesta provine sunt asociaţi cu situaţia prin intermediul unor relaţii de tip 'provineDin'. :>
117
Termen (from Terminologie)	<--
	
Relaţie/R-ovineDIn		Relaţieypr	'ovineDin
			
Termen/Ti
1_
Relaţie/FrovineDin
Termen/T2
Situaţie/etimologie:
Relaţie/provine din:
Termen [greacă]:
Relaţie/exprimă:
Sintagmă: acro
Relaţie/provinedin:
Termen [latină]:
Relaţie/exprimă:
Sintagmă: fixus
6.7.2. Secţiunea bibliografică Fig. 5 prezintă entităţile (i.e. subclasele clasei 'entitate') de natură bibliografică, cu alte cuvinte este o secţiune de metadate. Secţiunea pare simplă, deoarece o bună parte din multitudinea de date bibliografice sunt consemnate cu ajutorul relaţiilor. Clasa esenţială este 'ediţie'; cea care consemnează fişa bibliografică a unei ediţii citate.
Entitatea 'lucrare' consemnează metadatele specifice unei creaţii (mai ales textuale, în cazul nostru), i.e. "abstractizează" ceea ce au în comun toate ediţiile unei lucrări. Utilitatea ei imediată este colocarea tuturor manifestărilor unei lucrări, indiferent de limbă sau ediţie. O subclasă importantă a clasei 'lucrare' este entitatea 'serial'. Aici se consemnează şi periodicele, adică entităţile ce grupează instanţele clasei 'NumărPeriodic', cu alte cuvinte publicaţiile-gazdă ale articolelor. Discuţia asupra acestor clase şi a relaţiilor între ele depăşeşte cadrul acestui articol.
Entitate | (from registru)
Termen/Tn
Figura 4 - Ilustrare a reprezentării etimologiei
De pildă:
Concept: fixat la vârf Relaţie/designează:
Termen [română]:
Relaţie/exprimă:
Sintagmă: acrofix
Serial
Număr periodic
Figura 5 - Secţiunea bibliografică
99991
B.2. Secţiunea administrativă
în fig. 6 se prezintă clasele de natură administrativă şi relaţiile esenţiale între ele. Rolul acestor clase este de a consemna modificările survenite în baza de date, în succesiunea lor. în acest fel se poate urmări geneza înregistrărilor şi se pot identifica responsabilităţile. în plus, deoarece se prevede şi stocarea datelor modificate, se creează premizele revenirii la stări anterioare ale bazei de date. în instanţele clasei 'intervenţie' se consemnează fiecare modificare operată asupra unei înregistrări. Fiecare asemenea instanţă este asociată — prin intermediul instanţelor clasei 'contribuţie' — cu agentul (i.e. operatorul) care a produs-o. în plus o intervenţie este asociată şi cu sursele ei documentare. Se observă cum clasa 'referinţă' poate avea ca instanţe atât referinţe bibliografice (citând o ediţie), cât şi referinţe personale (citând o comunicare personală).
Clasa 'înregistrareArhivă' este foarte importantă, instanţele ei fiind chiar versiunile "desuete" (i.e. cele dinainte de modificări) ale atributelor înregistrărilor.
înregistrare (from[Registru)
Modifică
Intervenţie
înregistrare arhivă
C. Remarci finale
Modelul prezentat pare suficient de flexibil pentru a satisface cerinţele funcţionale atât ale unei baze de date terminologice, cât şi a uneia lexicografice (mai ales datorită distincţiei între termeni şi expresiile lor lingvistice). El este şi suficient de abstract pentru ca schema unei baze de date ce l-ar folosi ca fundament să fie relativ comodă la implementare.
TermRom are în curs un proiect de elaborare a unei astfel de baze de date terminologice. După finalizarea acesteia, este de aşteptat un proces traumatic de convertire a bazei de date curente. Sporul de funcţionalitate obţinut va compensa însă efortul.
D. Referinţe
[1] Matei, Dan. Banca de date terminologice a TermRom şi problemele ei neologice, în Limbaj şi Tehnologie / Dan Tufiş - editor. - Bucureşti: Editura Academiei Române, 1996'
[2] ISO/CD 16642:1999, Computer applications in terminology - Metamodel for
representing terminologica! data collections [3] ISO 12200:1999, Computer applications in terminology - Machine-readable
terminology interchange format (MARTIF) - Negotiate interchange [4] ISO 12620:1999, Computer applications in terminology - Data categories [5] Cheţan, Octavian, Radu Sommer. Dicţionar de filozofie / Coordonare ştiinţifică
Octavian Cheţan, Radu Sommer. — Bucureşti: Editura Politică, 1978
Figura 6 - Secţiunea administrativă
121
Probleme de reprezentare a datelor terminografice într-o bază de date relaţională
Sorin GHEŢARII
TERMOROM, Str. Meşterul Manole nr. 3 gsorin@fx.ro
Oriunde şi oricând se creează, comunică, înregistrează, prelucrează, stochează, transformă sau refoloseşte informaţie sau cunoştinţe de specialitate este implicată într-un fel sau altul şi terminologia. Comunicarea într-un anumit domeniu a devenit un discurs specializat cu texte de specialitate diferenţiate în nenumărate forme. Atunci când se defineşte terminologia ca o mulţime structurată de concepte şi denumirile lor într-un anumit domeniu, ea poate fi socotită ca fiind infrastructura cunoaşterii de specialitate. Scrierea textelor tehnice şi documentarea tehnică devin astfel imposibile fără o utilizare corectă a unor resurse terminologice. Deoarece producerea textelor tehnice implică frecvent mai multe limbi, terminologiile multilingve de înaltă calitate au devenit bunuri mult dorite greu de găsit pe înfloritoarea piaţă a industriilor limbajelor şi cunoaşterii.
Există numeroase baze de date terminologice disponibile pentru interogare on-line sau pe CD-ROM (TERMIUM, EURODICAUTOM), pe dischete sub forma unor dicţionare electronice sau ca baze de date personale realizate şi întreţinute de ingineri, specialişti în calculatoare, chimişti care lucrează ca terminologi, traducătorii, autori de texte tehnice. Aceste baze de date sunt utilizate pentru:
• traducere asistată de calculator;
• scrierea de texte tehnice şi ştiinţifice asistată de calculator;
• sisteme informatice (administrarea componentelor etc);
• cercetări terminologice în lingvistică, filozofia ştiinţei, sociologia tehnologiei etc.
Pentru asemenea obiective au fost dezvoltate aplicaţii specializate (programe de management al bazelor de date terminologice), unele disponibile pe piaţa terminologică internaţională, altele ca prototipuri în cadrul unor proiecte de cercetare.academică.
MARTIF este formatul standardizat pentru managementul informaţiei terminologice. Posibilitatea organizării terminologiei în baze de date având formate diferite face nerealistă presupunerea ca s-ar putea cădea de acord asupra unui anumit format de bază de date relaţională, aşa cum este SQL, care să fie folosit pentru schimburile terminologice. De aceea s-a mers pe linia producerii unui
565025
ll
I !
Ii
122
format la dispoziţia publică fără obligaţiii materiale şi care să fie independent de platforma de lucru. Rezultatul este MARTIF (Machine-Readable Terminology Interchange Format cunoscut şi ca ISO 12200. In ISO 12620 sunt descrise 150 de categorii de date, un număr imens care nu urmăreşte decât să le arate pe cele posibile şi modul în care acestea pot fi structurate. Categoriile MARTIF sunt împărţite în 10 secţiuni grupate în 4 clase. Acestea sunt:
• termen: cuprinde categoria de date termen (1);
• informaţie în legătură cu termenii: conţine informaţia legată de termeni (2) şi informaţia privind gradul de echivalenţă;
• informaţie descriptivă: relaţie cu domeniul (4), descrierea conceptului (5), relaţii între concepte (6), categorii de date care leagă un concept de poziţia sa în sistemul de concepte (7), note (8);
• informaţie administrativă: categorii de date care leagă un concept de un element al unui tezaur sau de o altă formă de documentare (9), categorii de date care cuprind informaţii administrative.
Un avantaj major al faptului că MARTIF este scris folosind cod SGML este acela că, deşi se poate aprecia că lectura codului nu este facilă, ea este totuşi posibilă ca urmare a faptului că nu face apel decât la caracterele ASCII. Un alt avantaj al sistemului MARTIF este acela că el acceptă referinţe către alte documente chiar din interiorul documentului. Iniţial MARTIF presupune că înainte de implementarea produselor software pentru importul sau exportul datelor programatorii sunt obligaţi să examineze sursele implicate. Pentru a asigura un acces aşa numit "orb" care să permită oricui să transfere baze de date terminologice din orice sistem spre sau dinspre MARTIF este necesară o standardizare suplimentară a categoriilor de date, domeniilor specifice etc.
Tabela ce urmează enumera acea parte a "elementelor" MARTIF care sunt de cea mai mare importanţă pentru realizarea unei resurse terminologice Multilingve.
<termEntry>	îvnrimTf'6 UmC 06 Q.ate termino'ogice pentrU un COncept " S^nSSS^?^ ?' administrative codate lor sau, în cazul unei abordări bilingve sau multilingve, două sau mai mu te datele descriptive şi administrative asociate lor Atributele includ: type, care clasifică setul de date terminologice conform categoriile de date specificate de ISO 12620
<langSet>	Limba, in caarul unui element <termEntry> va fi folosit pentru a grupa mai multe <tig> şi <ntig> asociate unei singure limbi SSSST* ,an9 6546 °b,igat0rie'?n afara -u'S care
HI
1<tig>
kntig>
<term>
[<termGrp>
<termNote>
123
Grup de informaţii terminologice; în cadrul unui element <termEntry>, va conţine elemente de informaţii asociate cu un singur termen, fiecare dintre acestea funcţionând la acelaşi nivel; cu alte cuvinte nu este permisă imbricarea între elementele subordonate unui <tig>.
Prezenţa atributului lang este obligatorie, în afara cazului în care
el este moştenit. _
Grup încuibat de informaţii terminologice; va fi folosit în cadrul unui element <termEntry> dacă anumite elemente informaţionale sunt asociate mai curând cu elemente interne, decât cu întregul <tig>.
Următoarele elemente vor fi folosite în cadrul <ntig> pentru a găzdui alte date terminologice: <termGrp>, <termNoteGrp>, <descripGrp> şi <adminGrp>.
Prezenţa atributului lang este obligatorie, în afara cazului în care
el este moştenit.__
Va conţine un termen format dintr-un singur cuvânt sau din mai multe cuvinte, sau o desemnare simbolică privită ca un termen tehnic
"Va conţine un element <term> şi posibil, cel puţin mea un
element încuibat în plus faţă de termen.-_-
" Va conţine informaţii legate de termen. Atributele includ: x     ...    ,   . .
type care clasifică <termNote> conform categoriilor de date ;în ISO 12200.
[<termNoteGrp>
<descrip>
Va conţine un element <termNote> şi posibil cel puţin un încuibat în plus faţă de informaţia legată de termen. Va fi folosit pentru a găzdui un nivel suplimentar de imbricare în cadrul
elementului <termGrp>__
Va conţine informaţii descriptive precum definiţia, contextul sau explicaţii descriind concepte şi termeni. Atributele includ:
type, care clasifică <descrip> potrivit categoriilor de date în ISO 12200.
<descripGrp>
|<admin>        " Va conţine date administrative.
Atributele includ: . , , .Q
type care clasifică <admin> în funcţie de categoriile de date
ite în ISO 12200. _:-.--
i element
<adminGrp>
124
125
m
im
' 'll'l
<date>
<note> <descripNote>
<adminNote> <ptr>1
|<ref>~
|<xref>2
Va conţine o singură dată de formatul YYYY-MM-DD, cu opţiunea notării dată-timp YYYY-MM-DD hh:mm:ss. Atributele includ:
type, care clasifică <date> după categoriile specificate în ISO 12200._
Va conţine o notă sau o adnotare drept comentariu legat fie de un întreg <termEntry>, un întreg <tig> sau <ntig> ori de unul din
[elementele <...Grp>._J__
Va fi folosit în cazul informaţiilor de tipul <note> folosite în cadrul |<descripGrp> când conţinutul notei este legat de o listă de opţiuni._
Va fi folosit în cazul informaţiilor de tipul <note> folosite în cadrul <adminGrp> când conţinutul notei este legat de o listă de opţiuni Va consta dintr-un indicator către o altă locaţie din documentul curent.
(Atributele includ:
type, care clasifică <ptr> conform Anexei A, A. 12
target, care precizează destinaţia referirii, ca unul sau mai mulţi
identificatori SGML._
Va defini o referire către o altă locaţie din documentul curent, în termeni de unul sau mai multe elemente identificabile. <ref>GI este asociat cu text suplimentar drept conţinut al elementului, deci constă dintr-o etichetă-start cu o ţintă integrată, urmată de textul asociat şi închisă de o etichetă-sfârşit. Atributele includ:
type, care clasifică <ref> conform Anexei A.
target, care precizează destinaţia referirii ca unul sau mai mulţi
identificatori SGML._'__
Va defini o referinţă la un grafic, ilustraţie, figură, tabel sau alt document extern sau fişier folosind o notaţie indicativă extinsă ca valoare a atributului ţintă a <xref>, de ex. <xref target='docu-mentldentifier'>, unde valoarea 'documentldentifier' este un cod de identificare pentru documentul ţintă. Utilizatorul va documenta notaţia indicativă extinsă care este folosită incluzând un comentariu adecvat în elementul <encodingDesc> ale header DTD. Atributele includ:
type, care clasifică <xref> conform Anexei A. target, care precizează destinaţia referirii ca unul sau mai mulţi identificatori SGML
»3
1 Mmcăt ZTJdoar "To ItSiZ IT ar drept co"tinut * amantului,
<xref> sunt toate con^ Intefatâ- Elementele <ptr>, <ref> şi
*Z~ur^ t,ntlte de <™f> **>»*> să fi accesibile Sllui-ţintă pentru
SUI
<foreign>
Va fi folosit pentru a marca un cuvânt sau o frază ca evidenţiat grafic în contrast cu textul înconjurător. Atributele includ:
type, care clasifică <ref> conform Anexei A. target, care precizează destinaţia referirii ca unul sau mai mulţi identificatori SGML
SZ;.^ sau o fraza ca apărând alt.......b,
cea a textului înconjurător.
Atributele includ: r .
lanq care identifică limba cuvântului sau frazei marcate
vi-■—:—:-:-7.—   •______*:«7r7irn il oon mai mi
i_|iang, uait? mpninioa mm/M —____________
|<refObjectList> Va fi folosit în back-matter şi va conţine unul sau mai multe obiecte back-matter, mai ales resurse comune ca: date bibliografice, date de responsabilitate, identificatori de jnamespace (URL-uri şi FPI-uri), material textual la care se fac referiri dese, liste de locaţii geografice, fişiere externe şi altele .asemenea. (Atributele includ:
itype, care clasifică <refObjectList> după categoriile de date [specificate în ISO 12620 Anexa A, A. 11.4.1.
<ref0bject>4 Va conţine o dată constând în general dintr-o resursă comună ca: date bibliografice, date de responsabilitate, identificatori de inamespace (URL-uri şi FPI-uri), material textual la care se fac referiri dese, liste de locaţii geografice, fişiere externe şi altele asemenea. Datele bibliografice ar trebui să rezide în bâck matter sau într-un document extern (caz în care se va face referire la datele bibliografice din back matter folosind elementul <xref>). Atributele includ:
type, care clasifică <refObject> după categoriile de date specificate în ISO 12620 Anexa A, A.11.4.2. Dacă se specifică altfel, tipul <refObject> este moştenit de la <refObjectList> [respectiv._
Notă - în managementul terminologiei o utilizare frecventă a <hi> se face pentru a sublinia termeni necesari, adică termeni folosiţi într-o definiţie, notă sau alt material textual care 4 sunt definiţi altundeva în resursa terminologică. Vezi de asemenea Anexa A, A.2.2.2. Notă - Unele documente terminologice cuprind date bibliografice complete în format nediferenţiat drept conţinut al categoriei de date sursă (vezi ISO 12620:1999, A.10.19). Această practică încurajează redundanţa şi efortul mărit pentru îngrijirea datelor. Aceste Informaţii ar trebui convertite în obiecte back matter (informaţii bibliografice) dacă este posibil.
126
127
<itemSet>	Va fi folosit în back matter şi va conţine unul sau mai multe obiecte individuale care în mod tradiţional sunt grupate împreună, de ex. obiectele numele autorului si prenumele autorului vor fi grupate împreună într-un <itemSet> de tip=autor Atributele includ: type care clasifică <itemSet> în principal conform categoriilor de date listate în ISO 12620 Anexa B. Totuşi acest Standard Internaţional nu specifică întregul spectru al categoriilor de date care pot fi folosite cu <itemSet>
<item>	Va conţine un exemplu individual de informaţie back matter Atributele includ: type, care clasifică <itemSet> în principal conform categoriilor de date listate în ISO 12620 Anexa B pentru informaţii bibliografice Totuşi acest Standard Internaţional nu specifică întregul spectru al categoriilor de date care pot fi folosite cu <item>
<itemGrp>	Va conţine unul sau mai multe <item> împreună cu <otr> <ref> sau <note>.                                         . . Atributele includ: type, care clasifică <item> în principal conform categoriilor de date listate în ISO 12620 Anexa B pentru informaţii bibliografice Totuşi acest Standard Internaţional nu specifică întregul spectru al categoriilor de date care pot fi folosite cu <itemSet>
Din acest tabel au mai fost eliminate elementele (aproape la fel de numeroase) specifice informaţiilor bibliografice. Instanţierea elementelor enumerat mai sus se face prin intermediul "categoriilor de date" standardizate de ISO 12620. Numărul acestora este de aproximativ 200. în cea mai amplă resursă terminologică (EURODICAUTOM) sunt în prezent prezente mai puţin de 20 astfel de categorii de date.
Uniunea Eropeană în activitatea sa este unul dintre utilizatorii majori ai procedurilor de translatare a textelor şi terminologiei. Aceasta se datoreşte parţial faptului că legislaţia sa este direct aplicabilă în statele membre şi de aceea ea . trebuie să fie disponibilă în toate limbile de lucru oficiale. Ca rezultat, traducătorii Comisiei Europene produc mai mult de 1 milion de pagini pe an şi au de-a face cu cel puţin 6-7 milioane de termeni (în medie sunt 8 sau 9 termeni care ridică probleme pe fiecare pagină).
Unitatea pentru Terminologie a Comisiei Europene este destinată asigurării suportului lingvistic pentru toate limbile oficiale ale Uniunii Europene. Au fost elaborate glosare de specialitate, multe dintre ele în nouă limbi. Domeniile acoperite sunt tratatele importante cum ar fi cele de la Maastricht şi Roma, cele economice şi administrative (Taxa pe Valoarea Adăugată, buget) dar şi unele legate de subiectele centrale sau puternic inovatoare ale ştiinţei şi tehnologiei (fizica plasmei, biotehnologie, minerit). Deosebit de rolul lor de resurse
terminologice şi de surse terminologice pentru domeniile de inovare, aceste glosare documentează ceea ce se numeşte "Eurolect", adică frazele şi cuvintele care îşi au origina în cadrul Uniunii Europene şi pentru care nu există echivalente naţionale.
Monitorizând toate modificările apărute ca urmare a unei evoluţii permanente a bazei de date EURODICAUTOM am constatat că, recent, a avut loc schimbarea suportului hardware şi odată cu aceasta pot fi observate următoarele:
• Indicarea mult mai frecventă a referinţei la documentul sursă a termenului;
• Indicarea frecventă a referinţei la documentul sursă al definiţiei acestuia;
• Indicarea documentului sursă şi pentru sinonime şi abrevieri;
• Utilizarea mai frecventă a notelor pentru adăugarea unor informaţii suplimentare asupra termenilor, acestea putând fi grupate astfel:
o {NTE} explicaţii şi informaţii generale asupra termenilor;
o {TXT} contextul (de cele mai multe ori un exemplu de utilizare a
termenului respectiv); o {GRM} informaţii gramaticale (gen, număr); o {USG} indicarea mediului în care este utilizat termenul: "technical
jargon";
o {REG} notă asupra unor utilizări locale speciale sau asupra regionalismelor;
o {DOM} indicarea unui domeniu sau subdomeniu care comple-mentează clasificarea obişnuită folosită anterior şi care a rămas încă prezentă.
De asemenea se prevede ca în cel mai scurt timp să fie implementate următoarele:
• afişarea tuturor caracterelor şi diacriticelor (ca şi a informaţiei nelingvistice, dacă se cere);
• îmbunătăţirea sistemului de clasificare a domeniilor;
• introducerea link-urilor interne şi externe.
Modelele de date terminologice orientate în exclusivitate către terminologie au avantajul de a fi relativ intuitive pentru terminolog. Transcrierea directă a elementelor şi relaţiilor dintre acestea într-o bază de date este din ce în ce mai dificilă şi mai riscantă.
128
129
Există încercări meritorii de realizare a unor interfeţe "cuprinzătoare" pentru consultarea resurselor terminologice. Exemplele ' următoare sunt edificatoare în acest sens.
Primul exemplu ar putea provoca comentarii legate de complexitatea reală a înregistrării referinţelor bibliografice cele mai obişnuite.
jjCopy righi Cycorn Limited 2002 flrtlp:// www.cy contcaukj/T
These detaiis idemify the source of sorne Text appearing wiîhin one of the ierm entries.
■ □ x
ldentifietjisol087-i.2 Atiihor given nunei
Generate imiqtie îdentifer
Authoi family namejTC B7/SC i Anide tiilej _ Page mimuersj ™
Book UllejOS/^-I^^ Parii fhewarîdlpplKîoS
ISBN! " ;-
Book edition Drafr
jPublicaiion dale <mY-MM-DD)|i999-04-22 Publisher!
„^^^^L,! LConin,il ch?inţ3es and dose  |    RoUback dianges and close
Al doilea, ne determină să luăm în considerare următoarele: La nivelul Uniunii Europene numărul limbilor pentru care este necesar suport terminologic este atât de mare (şi sperăm încă în creştere) încât nu mai este posibilă multiplicarea tabelelor bazelor de date potrivit numărului de limbi de lucru. Din fericire, "balizarea" documentelor permite identificarea şi prelucrarea corect dependentă de limba în care au fost concepute acestea. Se vine astfel în sprijinul "globalizării" aplicaţiilor informatice care sunt suport al resurselor terminologice multilingve dând posibilitatea acceptării, prelucrării şi prezentării
numeroaselor scrisuri, formate de date şi limbi existente. în acelaşi timp trebuie adaptată şi interfaţa utilizator potrivit locului şi culturii căreia îi aparţine acesta printr-un proces nu mai puţin important de "localizare"
Multă vreme, prelucrarea automată a datelor a fost considerată satisfăcător realizabilă prin utilizarea setului ASCII de caractere. în prezent este însă absolut necesar ca:
• Utilizatorul calculatorului să poată tasta caractere şi simboluri (vest-europene, est-europene, greceşti şi cirilice, cel puţin) folosind o claviatură standard.
• Aplicaţia să prelucreze şi să afişeze sau să imprime şiruri de caractere formatate corect folosind seturi de caractere specifice fiecărei limbi.
Aceste cerinţe pot fi realizate prin valorificarea calităţilor standardului Unicode de codificare prin utilizarea unor coduri de 16 biţi pentru reprezentarea tuturor caracterelor pentu calculatoarele moderne care includ simbolurile tehnice şi semnele speciale necesare imprimării textelor.
|co^ 2002 cutp:/ /\\wv.cycom.co.uk/>
^Explore the tabs belowto set ine numerous propenles of rhe ierm lt is OK io lea*e manypropenles biank (undefined)
; Main    Giaiiiinai   îjsage | Sound anei stiucuiVe   Siatus i Deseriptions
Teriniobject , Temi lypej entiy ierm Terro \0[
j Antonym term j False frieiid 1 Shott fotm of anoiliei ierm Abbieviated fotm of another ierm
s   Generate unique ierm ID Tai gel terntf Target terni; Target term Target terrnj
More terni type
Cominit changes
Commil changes anri dose
Rollback changes and dose
130
Cu alte cuvinte la nivelul seturilor de semne necesare unei resurse terminologice multilingve se poate conta pe serviciile standardului Unicode şi pe cele ale oricărei baze de date relaţionale care acceptă Unicode.
Pentru indicarea formatelor de prezentare (fonte, punere în pagină, seturi de caractere) şi a limbii utilizate se face apel la balizare astfel încât la nivelul câmpului vom găsi şiruri de caractere Unicode balizate.
înscrierea datelor terminologice este facilitată de înscrierea lor în "categorii de date" bine definite (vezi ISO 12620). Dar numărul mare al acestor categorii şi mai ales incidenţa ridicată a apariţiilor neprevăzute dinainte a unora noi face imposibilă alocarea unui câmp de date fiecărei categorii de date. Aceeaşi observaţie poate fi făcută şi asupra relaţiilor dintre diferitele categorii de date care reflectă direct relaţiile dintre elementele MARTIF. O soluţie este o abstractizare suplimentară a datelor terminologice după încadrarea lor succesivă în şiruri de caractere balizate, categorii de date, elemente MARTIF.
în centrul modelului de date se află un set de 13 entităţi (atomi):
[Entitate_
data category
jdata category name
data category index type
picklist
_ Descriere _
o anumită clasă de informaţii terminologice (de exemplu:
term, part of speech)__
un nume agreat de utilizator (user-friendly), dependent de limbă, al unei anumite categorii de date (de exemplu, în
română, "termen" pentru term)____
o strategie de indexare corespunzătoare unei anumite categorii de date (ISO 12620) (de exemplu: nu se indexează, se indexează ca valoare unică, se indexează
cuvânt cu cuvânt)_
o anumită limbă, care dispune de o schema de codare uniformă care utilizează un singur set de caractere (de
jexemplu: French, German, Italian)_,
o combinaţie unică de caractere care poate fi utilizată pentru reprezentarea unei singure sau mai multor limbi (de
exemplu: ISO 8879-1. ISO 8859-2)_
o mulţime de valori posibile ale unor date terminologice aparţinând unei anumite categorii de date (ISO 12620) (de exemplu, pentru categoria "parte de vorbire": noun, verb, adjective)_
o dată terminologică unică__
o dată (time stamp) care constituie valoarea unui element un număr care constituie valoarea unui element un membru al unei liste care reprezintă valoarea unui element_
;ir de caractere care constituie valoarea unui element in şir de caractere r.pr^ ron^-:-^ x—
131
Primele 6 "articole" sunt "meta-entităţi"; ele sunt create şi tabelele corespunzătoare sunt completate cu informaţii înainte de încărcarea oricărei date terminologice în baza de date. Prin completarea acestor table se conturează şi se activează chiar modelul de date al bazei de date terminologice. Cu alte cuvinte, ansamblul "meta-tabelelor" defineşte structura care impune condiţii şi unifică datele terminologice de nivel molecular. Ele pot fi considerate atomi catalizatori ai reacţiilor necesare combinării altor atomi în interacţiuni moleculare.
Celelalte 7 entităţi se încarcă direct prin proceduri de introducere a datelor sau prin import şi cuprind datele terminologice vizibile pentru utilizatorul bazei de date. Informaţiile conţinute de aceste entităţi pot fi validate la nivel molecular folosind interogări SQL standard. Majoritatea interogărilor formulate de utilizatorii bazei de date se concentrează aproape în întregime asupra informaţiilor încărcate în aceste entităţi.
Elementul central al aplicaţiei pentru întreţinerea unei astfel de baze de date este componenta de tip parser pentru crearea, validarea şi prelucrarea documentelor MARTIF în particular (fără a ignora documentele SGML, HTML, XML). în mod obişnuit un parser este un modul software care examinează un document SGML prin confruntarea acestuia cu DTD-ul corespunzător. Rezultatul acestei examinări este de cele mai multe ori simplu: 'da' în situaţia în care documentul reprezintă o instanţiere validă a DTD-ului şi 'nu' în cazul contrar. De cele mai multe ori parser-u\ este capabil să 'normalizeze' documentul validat (aducându-l la o 'formă canonică') astfel încât facilitează formatarea, editarea şi încărcarea documentului în baza de date.
Alături de parser şi legat de acesta se află un editor structurat. Pornind de la DTD acesta propune utilizatorului pas cu pas opţiunile de compunere, sau modificare a unui document în conformitate cu definiţia tipului corespunzător documentului. în cazul în care obiectivul este compunerea unui document SGML el poate asigura completarea teg-urilor necesare.
De cele mai multe ori sistemele de management al bazelor de date orientate spre text folosesc fişiere inversate de indexare a conţinutului acestora pentru regăsirea informaţiilor. Căutarea poate urmări apariţia unui anume cuvânt, sau a unui model oarecare într-un document sau în o parte a acestuia. Identificarea subdiviziunilor documentului se poate face folosind tocmai tag-urile cu acesta este marcat, respectiv modul în care acestea au fost transcrise în relaţiile dintre tabelele bazei de date.
în fine, o componentă deosebit de importantă este aceea care realizează funcţiile de import-export a\e datelor terminologice spre şi dinspre baza de date.
Terminologia calităţii
Realizarea unor resurse terminologice multilingve este de mai multă vreme în centrul preocupărilor Asociaţiei Române pentru Terminologie (TERMROM). începând de anul trecut pe lista temelor având aceeaşi orientare se înscrie proiectul "Terminologie armonizată cu prevederile EURODICAUTOM în domeniul calitate şi standardizare". Proiectul a fost iniţiat de Ministerul Educaţiei şi Cercetării şi este finanţat în cadrul Programulului CALIST.
Obiectivele principale ale acestui subprogram sunt:
• Asigurarea flexibilităţii necesare pentru a răspunde operativ la cerinţele concrete de rezolvare a unor teme de cercetare care decurg din priorităţile stabilite prin strategiile guvernamentale adoptate pe domenii specifice, în procesul integrării României în U.E.
• Asigurarea condiţiilor de dezvoltare şi armonizare a sistemului de standarde naţionale în conformitate cu cerinţele organismelor de standardizare europene şi internaţionale;
• Asigurarea unei baze terminologice ştiinţifice pentru elaborarea standardelor de calitate româneşti, precum şi în ceea ce priveşte condiţiile de aplicabilitate a prevederilor standardelor internaţionale şi europene adaptate ca standarde româneşti;
• Clarificarea condiţiilor pe care trebuie să le îndeplinească produsele româneşti în vederea pătrunderii lor pe piaţa unică a Uniunii Europene şi produsele introduse în România.
Pentru realizarea obiectivelor proiectului au fost prevăzute următoarele
activităţi:
• întocmirea unui Proiect Terminologic pentru definirea şi înregistrarea terminologiei domeniilor calitate şi standardizare utilizate în documentele oficiale ale Uniunii Europene, conform prevederilor EURODICAUTOM şi standardelor internaţionale;
• Extragerea, traducerea şi structurarea terminologiei domeniilor calitate şi standardizare;
• Proiectarea, programarea şi implementarea unei Baze de date conform Proiectului Terminologic capabilă să gestioneze toate domeniile EURODICAUTOM;
• înregistrarea în baza de date a terminologiei domeniilor calitate şi standardizare;
• Elaborarea unei aplicaţii informatice de administrare a bazei de date terminologice şi de transfer de date terminologice conform formatului standard ISO pentru lucrul în reţea;
Realizarea unui site web pentru promovarea Bazei de date terminologice şi punerea acesteia la dispoziţia publicului. A fost avizat Proiectul Terminologic, au fost stabilite cerinţele pe care să le satisfacă suportul informatic, s-a constituit un fond de termeni specifici extraşi din EURODICAUTOM şi din Tezaurul raţional al CEI şi au fost demarate activităţile pentru realizarea unei baze de date relaţionale EUROCAST pentru înregistrarea acestora.
Bibliografie
[1]  ISO 639:1988
Code for the representation of names of languages
[2]  ISO 639-2:1998
Code for the representation of names of languages - Part 2: Alpha-3 code
[3]  ISO 704:2000
Terminology work - Principles and methods
[4]  ISO 860:1996
Terminology work - Harmonization of concepts and terms
[5]  ISO 1087-1:2000
Terminology work - Vocabulary - Part 1: Theory and application
[6]  ISO 1087-2:2000
Terminology work - Vocabulary - Part 2: Computer applications
[7]  ISO 1951:1997
Lexicographical symbols particularly for use in classified defining
vocabularies
[8]  ISO 6156:1987
Magnetic tape exchange format for terminological/lexicographical records
(MATER) [9]  ISO 10241:1992
Preparation and layout of internaţional terminology standards
[10]   ISO 12199:2000(E)
Alphabetical ordering of multilingual terminological and lexicographical data
represented in the Latin alphabet
[11]   IS012200:1999
Computer applications in terminology - Machine-readable terminology interchange format (MARTIF) - Negotiated interchange
[12]   ISO/TR 12618:1994
Computer aids in terminology - Creation and use of terminological
databases and text corpora
[13]   IS012620:1999
Computer applications in terminology - Data categories
[14]   IS015188:2001
Project management guidelines for terminology standardization
Secţiunea il
TEHNOLOGII ALE LIMBAJULUI SCRIS
137
Ro-Balkanet - ontologie lexicalizată, în context multilingv, pentru limba română
Dan TUFIŞ, Institutul de Cercetări pentru Inteligenţa Artificială,
Academia Română, Bucureşti
Calea 13 Septembrie nr. 13, 74311, sector 5
tufis@racai.ro
Dan CRISTEA, Facultatea de Informatică, Universitatea A.I.Cuza, laşi Str. General Berthelot, nr. 16
dcristea@infoiasi.ro
Rezumat
Cerinţele creării unei ontologii multilingve de tipul EuroWordNet sunt frecvent contradictorii şi dacă problemele de compatibilitate nu sunt considerate în etapele timpurii ale construcţiei, o armonizare tardivă se poate dovedi dificilă sau imposibilă. Mai exact, există două probleme majore de compatibilitate care trebuie avute în vedere şi anume: acoperirea conceptuală - în sensul că fiecare lexicon monolingv ar trebui să conţină lexicalizări ale aceluiaşi fond conceptual şi coeziunea interpretativă - în sensul că interpretarea relaţiilor folosite în fiecare din ontologiile cuprinse în ontologia multilingvă trebuie să fie identică. în lucrare sunt discutate ambele aspecte şi prezentate soluţiile adoptate în vederea satisfacerii criteriilor de consistenţă şi coerenţă multilinguală a wordnet-ului pentru limba română.
1. Limbă, resurse lingvistice şi comunicare electronică
Cercetarea în domeniul tehnologiilor limbajului este un domeniu ce are deja istorie în ştiinţa calculatoarelor, dar, actualmente, motivaţiile sale depăşesc sfera interesului pur ştiinţific sau comercial. Păstrarea identităţii limbilor şi culturilor naţionale în cadrul globalizant al societăţii informaţionale şi a cunoaşterii readuce în actualitate avertismentul lui Alain Danzin [1]: "în era electronică, este esenţial pentru supravieţuirea unei limbi ca ea să fie folosită în sistemele de informare electronică." Avansul ştiinţific şi tehnologic obţinut în cei 10 ani scurşi de la raportul prezentat de Danzin Comisiei Europene a condus la maturizarea unor teorii, tehnologii, metode şi la dezvoltarea altora noi, dar mai ales a permis
138
definirea unor standarde pentru realizarea unitară a ceea ce generic se numeşte resurse lingvistice fundamentale ale unei limbi. Caracterul multilingual al societăţii cunoaşterii, în care conceptul de "unitate prin diversitate" se referă în primul rând la prezervarea limbilor şi culturilor actuale, a generat o deosebită efervescenţă, puternic stimulată de organismele internaţionale - în primul rând de Comisia Europeană - asupra cercetării în domeniul resurselor multilingve. Metodologic, tehnologia limbajului natural creează o distincţie netă între prelucrări şi date, între "maşinăria software de prelucrare a limbajului" numită şi lingware şi cunoştinţele lingvistice, numite cum arătam resurse lingvistice, necesare funcţionării acestei maşinării. Dihotomia lingware - resurse lingvistice, susţinută de standardele de reprezentare şi  codificare a cunoştinţelor lingvistice  permite dezvoltarea independentă a celor două componente ale unui sistem de prelucrare a limbajului. Lingware-ul este independent de limbă şi intră tot mai pregnant în zona ingineriei software. El poate fi dezvoltat de specialişti de oriunde fără ca aceştia să fie preocupaţi de limba pentru care va fi folosit. Resursele lingvistice însă sunt de competenţa specialiştilor vorbitori nativi ai limbii respective. în condiţiile în care aceste resurse lingvistice sunt realizate în conformitate cu standardele sau practicile internaţionale, ele pot fi integrate în sistemele de comunicare electronică, nu doar pentru prelucrare monolingvă ci mai ales pentru prelucrări multilingve. Beneficiile alinierii la standardele internaţionale în realizarea resurselor lingvistice sunt enorme, şi putem considera un exemplu foarte simplu. Să presupunem că suntem interesaţi de un anumit subiect şi, folosind imensul ocean informaţional ce este Internet-ul, apelăm la un aşa numit "motor de căutare", un program a cărui funcţionalitate asigură identificarea documentelor electronice ce conţin informaţii potenţial relevante pentru subiectul nostru de interes. Acest gen de serviciu informaţional este asigurat de "motoare de căutare" precum Google, Altavista, Excite şi multe altele. Documentele interesante din punctul nostru de vedere ar putea să fie scrise în limba engleză, franceză, germană, română sau orice altă limbă. Dar pentru a le regăsi pe toate, indiferent în ce limbă am formulat cererea noastră de regăsire, motorului general de căutare îi sunt necesare resursele lingvistice specifice limbilor în care documentele ar putea exista. Dacă aceste resurse lingvistice există pentru engleză, franceză, germană, italiană etc. şi ele sunt reprezentate în acelaşi format standardizat, rezultatul cercetării noastre documentare va fi o colecţie de documente tratând subiectul de interes în oricare dintre aceste limbi. Un astfel de serviciu, numit regăsire documentară multilingvă este o realitate pentru toate limbile "mari", o calificare ce nu are acoperire în substratul cultural ci doar în ceea ce se numeşte "nivelul de informatizare al limbii". Procesul de informatizare a unei limbi naturale permite potenţarea şi diseminarea ei prin mijloacele tehnologice ale societăţii informaţionale.
139
2. Lexicalizarea abordărilor în tehnologia limbajului şi conceptul "wordnet"
Lexicul este fără îndoială cea mai importantă resursă lingvistică a unei limbi. Marea majoritate a cercetării actuale, atât în lingvistica formală cât mai ales în tehnologia limbajului, plasează componenta lexicală în centrul modelelor de limbă, sub influenţa a ceea ce a fost numită abordarea lexicalizaiă sau lexicalistă a studiului limbii. Nu este de mirare, deci, enormul interes pentru dezvoltarea de resurse lexicale multilingve. Studiul computaţional al dicţionarelor electronice, natura informaţiei ce trebuie inclusă în ele şi tipul de prelucrări pe care le poate facilita o anumită structurare a unui mare voium lexical a fost, fără îndoială, fundamental influenţat de proiectul WordNet, lansat în urmă cu mai mult de 25 de ani la Universitatea din Princeton sub conducerea reputatului psiholingvist George Miller. WordNet, resursă publică, este o uriaşă reţea semantică lexicală în care peste 100.000 de înţelesuri lexicalizate în limba engleză prin mai mult de 130.000 de cuvinte sunt asociate între ele prin relaţii semantice şi/sau lexicale [2]. Fondul lexical este distribuit în 4 reţele semantice corespunzând categoriilor gramaticale deschise: substantive, verbe, adjective şi adverbe. Noţiunea de înţeles (meaning) este în WordNet echivalată cu cea de concept şi este reprezentată printr-o serie sinonimică în care fiecare cuvânt al seriei are asociat un număr ce identifică sensul în care cuvântul respectiv are înţelesul asociat conceptului. Seria sinonimică ce identifică un înţeles se numeşte sinset. Relaţiile existente între sinseturi sunt de diferite tipuri, depinzând de categoria gramaticală a cuvintelor ce alcătuiesc un anumit sinset (antonimie/sinonimie, hiponimie/hiperonimie, holonimie/meronimie, troponimie etc). Influenţa proiectului WordNet a fost enormă în domeniul tehnologiei limbajului (exprimată poate şi prin faptul că acum, în limbajul tehnic cel puţin, cuvintele "wordnet" şi "synset" au devenit substantive comune, importate prin calchiere în mai toate limbile), iar beneficiile acestui concept sunt atât de evidente încât Comisia Europeană, între 1996 şi 1998, a finanţat un proiect similar de mare anvergură numit EuroWordNet [3]. Acest proiect, extrem de ambiţios şi-a propus nu numai realizarea concertată de wordneturi monolingve pentru limbile europene de circulaţie internaţională (engleză, franceză, germană, italiană, olandeză, spaniolă) dar a introdus o cerinţă fundamental nouă, anume corelarea multilinguală a celor 6 reţele semantice lexicale, astfel încât dintr-un sinset al unei limbi să se poată ajunge în echivalentul de traducere al oricăreia dintre celelalte 5 limbi. Faţă de relaţiile originale din WordNet, EuroWordNet propune un inventar mult mai bogat (90) de relaţii cum ar fi cele tematice de tip cazual (Agent, Patient, Instrument, Location, Direction) sau cele corelând sensurile derivaţilor lexicali (XPOS-SYNONYMY: a adora - adoraţie).
Soluţia tehnică pentru corelarea multilinguală a reţelelor semantice monolingve a fost definirea unui index interlingual (ILI), independent de limbă, conţinând reprezentări conceptuale ale înţelesurilor lexicalizabile în limbile
140
141
proiectului. Fiecare înţeles din oricare din limbile reprezentate în reţeaua semantică multilingvă este pus în corespondenţă, în general, cu un singur concept al indexului interlingual. Aceste corespondenţe se realizează prin intermediul a 20 de tipuri distincte de relaţii binare. Sinseturile (seriile sinonimice) din două sau mai multe limbi care sunt puse în corespondenţă cu acelaşi concept din ILI sunt considerate echivalenţi de traducere, natura echivalenţei de traducere fiind definită de tipul relaţiilor ce definesc corespondenţa dintre sinseturile respective şi • conceptul comun.
Iniţial, indexul multilingual a fost constituit ca o mulţime nestructurată a tuturor înţelesurilor lexicalizate în WordNet (cu alte cuvinte în engleză). Ulterior, prin dezvoltarea wordneturilor monolingve, ILI a fost îmbogăţit şi cu reprezentări conceptuale cu lexicalizări ce nu se regăsesc în engleză.
O altă inovaţie a proiectului EuroWordNet a fost adoptarea unei mulţimi de primitive semantice, independente de limbaj, în termenii cărora aşa-numitele concepte de bază din ILI au fost asociate cu descrieri ontologice. Prin importul acestor descrieri la nivelul lexicalizărilor prin echivalenţi de traducere (şi, prin moştenire, la hiponimii acestora) în fiecare dintre wordneturile monolingve, în EuroWordNet se poate vorbi de o ontologie lexicală multilingvă. O prezentare în detaliu a proiectului EuroWordNet se poate găsi în [4].
După 3 ani, proiectul EuroWordNet iniţial a fost extins pentru o perioadă de încă doi ani (EuroWordNet II) şi a încorporat încă 4 limbi: bască, catalană, cehă şi estoniană. Proiectul EuroWordNet II s-a încheiat în anul 2000 cu realizarea unor nuclee a căror extensie a rămas în exerciţiul financiar al autorităţilor naţionale.
3. Limba română în contextul proiectului BALKANET, extensie a EuroWordNet
In septembrie 2001 a fost lansat proiectul european BALKANET (IST -2000 - 29388), o continuare firească a proiectului EuroWordNet II care aduce alături de cele 10 limbi europene alte 5 limbi din zona balcanică: bulgară, greacă, română, sârbo-croată, turcă [5]. Ca şi în EuroWordNet, ontologiile lexicale monolingve sunt corelate printr-o mulţime de concepte interlinguale, corespondenţele fiind stabilite cu ajutorul unor relaţii de echivalenţă complexe (eq-synonymy, eq-near-synonymy, eq-has-hyperonym, eq-has-hypernym etc).
Reprezentanţii din România în acest proiect, care va dura trei ani, sunt Institutul Academiei Române de Cercetări pentru Inteligenţă Artificială din Bucureşti (coordonator Dan Tufiş) şi Facultatea de Informatică a Universităţii A.I.Cuza din laşi (coordonator Dan Cristea) şi în realizarea obiectivelor proiectului sunt implicaţi numeroşi specialişti, atât informaticieni cât şi lingvişti. Desigur, participarea românească în acest proiect şi angajarea faţă de obiectivele
proiectului nu s-au bazat numai pe entuziasm ci pe activităţi şi rezultate anterioare importante, pe surse lingvistice primare [6] de referinţă ale limbii române, implementate ca resurse lingvistice [6] în format standardizat şi pe o multitudine de programe de prelucrare dezvoltate de-a lungul a mulţi ani de cercetare, în cea mai mare parte prin finanţare internaţională.
3.1. Corpusuri
în cadrul proiectelor europene Multext-East şi TELRI [7], [8], [9], [10], [11] a fost creat un corpus paralel în 7 limbi, foarte detaliat adnotat, bazat pe romanul "1984" al lui Orwell şi un alt corpus paralel în 25 de limbi, bazat pe "Republica" lui Platon. Adnotarea folosită iniţial a fost conformă cu standardul TEI (http://www.tei-c.org/),dar ulterior, odată cu cristalizarea standardului CES [12], corpusurile au fost re-adnotate (automat) în conformitate cu CES. Acestea sunt două corpusuri relativ mici (câte aproximativ 110.000 cuvinte în fiecare limbă) dar, datorită acurateţei proceselor de etichetare şi de aliniere (validate manual), au fost extrem de folositoare pentru diverse aplicaţii, de la construirea modelelor lingvistice pentru . etichetare morfo-sintactică [13], clasificare a documentelor [14], extragere de echivalenţi de traducere [15], până la discriminarea automată a sensurilor [16]. Pe lângă corpusurile multilingve s-au construit alte două corpusuri monolingve mult mai mari: un corpus literar bazat pe diverse romane (conţinând aproximativ 1.500.000 cuvinte) şi un corpus jurnalistic (conţinând peste 100.000.000 cuvinte). Ambele corpusuri au fost segmentate, etichetate şi lematizate automat1.
3.2. Dicţionare explicative: WEB-LEX şi XML-LEX
Principalul dicţionar pe care l-am folosit în analiza noastră este Dicţionarul Explicativ al Limbii Române [17], referinţa lexicografică pentru limba română contemporană, dicţionar realizat de Institutul de Lingvistică "lorgu Iordan"2 al Academiei Române. în urma analizelor statistice de frecvenţă în corpusurile menţionate, au fost selectate şi introduse în format electronic cele mai frecvente 23.000 de cuvinte titlu din DEX. Acest nucleu DEX a fost convertit într-o bază de date lexicală în cadrul proiectului european CONCEDE (CONortium for Central European Dictionary Encoding) [11] şi al proiectului prioritar al Academiei WEB-LEX [18]. Ulterior, îmbogăţit continuu prin culegere manuală din alte câteva dicţionare explicative (DEX'84, DOOM, DLRM), la iniţiativa unor tineri entuziaşti atât din ţară cât şi din diasporă (vezi de pildă: http://dex.francu.com), WEB-LEX a fost corectat sub aspect sintactic-structural şi codificat într-un format standardizat, respectând convenţiile lexicografice utilizate de DEX şi, în măsura posibilului, conţinutul său textual. Uneori, din considerente legate de consistenţa structurală,
1 Multe dintre aceste resurse pot fi găsite pe situl Consorţiului de Informatizare pentru Limba Română (ConsILR) la adresa http://consilr.info.uaic.ro
2 Noua sa denumire este Institutul de Lingvistică "lorgu lordan-AI. Rosetti
142
143
s-au operat o serie de modificări asupra conţinutului. De asemenea, o serie de erori evidente în sursa primară au fost corectate de specialişti avizaţi. Deşi mai bogat (în prezent WEB-LEX conţine aproape 70.000 de intrări, faţă de cele circa 56.000 de intrări din DEX'96), influenţa DEX a fost fundamentală în dezvoltarea WEB-LEX. Pe de altă parte, eventualele critici asupra conţinutului, acolo unde neam despărţit de DEX, în nici un caz nu trebuie puse în seama Institutul de Lingvistică "lorgu lordan-AI. Rosetti" ci a noastră. Din acest motiv, preferăm să ne referim la WEB-LEX ca la un dicţionar de tip DEX şi nu ca variantă computaţională a DEX-ului.
Codificarea conţinutului WEB-LEX s-a realizat folosind limbajul de adnotare XML. Implementarea, ce explicitează toate convenţiile tipografice precum şi informaţiile implicite, a condus la un volum textual de date de circa 8-10 ori mai mare faţă de conţinutul textual echivalent al DEX-ului. Adnotarea XML a fost realizată automat, cu ajutorul compilatorului dic [18]. Compilatorul a fost generat automat folosind JavaCC®, pe baza unei gramatici LL(7) ce descrie structura formală a intrărilor în DEX. dic poate fi folosit pentru a genera documente XML (conform cu DTD-ul CONCEDE) pentru orice dicţionar ce foloseşte convenţiile tipografice adoptate în DEX. în [19] sunt prezentate o multitudine de dicţionare realizate sau aflate în curs de realizare la Institutul de Lingvistică "lorgu lordan-AI. Rosetti" şi presupunând că ele urmăresc convenţiile tipografice şi lexicografice adoptate în DEX, toate aceste surse lingvistice de referinţă pentru limba română ar putea fi transformate, cu efort minim, în resurse computaţionale fundamentale pentru prelucrarea automată.
Varianta codificată a dicţionarului nostru este numită XML-LEX iar structura sa este descrisă de DTD-ul (Document Type Definition) pe care îl reproducem în figura 1, dezvoltat în cadrul proiectului CONCEDE. <!-- CONCEDE project - Deliverable DR2.1: concede.dtd -> <'-- copyright CONCEDE project.consortium, 1999 --> <!-- ENTITY DECLARATIONS -> <!ENTITY % a.global'
id       ID #IMPLIED
n CDATA lang IDREF
<!ENTITY % a.text' %a.global; rend CDATA wsd CDATA
<!ENTITY % basetags'
#IMPLIED #IMPLIED'
#IMPLIED #IMPLIED'
(orth|pron|hyph|syll|stress|pos|gen|case|number|gram|tns| mood|q|source|gloss|usg|def|per|aspect|degree|voice|eg| etym|xr|trans|itype|subc)' > <!ENTITY % dictbase.seq '#PCDATA | na' > <!-- STRUCTURAL ELEMENTS -> <!ELEMENT dictionary   (body) > <!ATTLIST dictionary %a.global; type      CDATA #IMPLIED version    CDATA #REQUIRED xmkspace (default | preserve) 'preserve' > <!ELEMENT body     (entry+) > <!ATTLIST body %a.global; type CDATA    #IMPLIED > <!ELEMENT entry
(hw, (%basetags;|struc|alt|brack)*) > <!ATTLIST entry %a.global; type CDATA   #IMPLIED > <!ELEMENT struc     (%başetags; j struc | alt | brack)* > <!ATTLIST struc %a.global; type CDATA   #IMPLIED > <!ELEMENT trans     (%basetags; | struc | alt | brack)* > <!ATTLIST trans %a.global; type CDATA   #IMPLIED > <!ELEMENT alt     (%basetags; | brack )* > <!ATTLIST alt %a.global; type CDATA   #IMPLIED > <!ELEMENT brack     (%basetags;)* > <!ATTLIST brack %a.global; type CDATA   #IMPLIED s <!-- CONTENT ELEMENTS -> <!ELEMENT voice (%dictbase.seq;)* > <!ATTLIST voice %a.text; > <!ELEMENT tns   (%dictbase.seq;)* > <!ATTLIST tns  %a.text; > ' <!ELEMENT syll   (%dictbase.seq;)* > <!ATTLIST syll   %a.text; > <!ELEMENT subc   (%dictbase.seq;)* > <!ATTLIST subc   %a.text; >
144
<!ELEMENT stress (%dictbase.seq;)* > <!ATTLIST stress %a.text; > <!ELEMENT source (%dictbase.seq;)* > <!ATTLIST source %a.text; > <!ELEMENT pos   (%dictbase.seq;)* > <!ATTLIST pos  %a.text; > <!ELEMENT per  (%dictbase.seq;)* > <!ATTLIST per  %a.text; > <!ELEMENT number (%dictbase.seq;)* > <!ATTLIST number %a.text; > <!ELEMENT na   (#PCDATA) > <!ATTLIST na   %a.text; > <!ELEMENT mood   (%dictbase.seq;)* > <!ATTLIST mood   %a.text; > <!ELEMENT m   (%dictbase.seq;)* > <!ATTLIST m   %a.text; > <!ELEMENT lang   (%dictbase.seq;)* > <!ATTLIST lang  %a.text; > <!ELEMENT itype (%dictbase.seq;)* > <!ATTLIST itype %a.text; > <!ELEMENT hw   (%dictbase.seq;)* > <!ATTLIST hw   %a.text; > <!ELEMENT gram   (%dictbase.seq;)* > <!ATTLIST gram   %a.text; > <!ELEMENT gen   (%dictbase.seq;)* > <!ATTLIST gen   %a.text; > <!ELEMENT degree (%dictbase.seq;)* > <!ATTLIST degree %a.text; > <!ELEMENT case   (%dictbase.seq;)* > <!ATTLIST case   %a.text; > <!ELEMENT aspect (%dictbase.seq;)* > <!ATTLIST aspect %a.text; >
i
145
<!ELEMENT hyph   (%dictbase.seq;)* > <!ATTLIST hyph   %a.text; > <!ELEMENT eg       (source | q | gloss)* > <!ATTLIST eg       %a.global; > <!ELEMENT pron      (%dictbase.seq;)* > <!ATTLIST pron %a.text; type CDATA     #IMPLIED > <!ELEMENT q
(%dictbase.seq; | gloss |ptr [xptr | oref)* > <!ATTLIST q %a.text; type CDATA     #IMPLIED > • <!ELEMENT etym
(%dictbase.seq; | gloss | lang | m |ptr |xptr | oref)* > <!ATTLIST etym %a.text; type CDATA     #IMPLIED > <!ELEMENT xr       (%dictbase.seq; | ptr |xptr )* > <!ATTLISTxr %a.text; type CDATA     #IMPLIED > <!ELEMENT def     (%dictbase.seq; | ptr |xptr |oref |usg)* > <!ATTLIST def %a.text; type CDATA     #IMPLIED > I        <!ELEMENT gloss     (%dictbase.seq; | ptr [xptr |oref )* > <!ATTLIST gloss %a.text; type CDATA     #IMPLIED > <!ELEMENT orth     (%dictbase.seq; | ptr |xptr |oref |usg)* > <!ATTLIST orth %a.text;
expansion NMTOKEN #IMPLIED extent (full | pref | suff | part) "full" type   CDATA        #IMPLIED > <!ELEMENT usg      (%dictbase.seq;)* > <!ATTLISTusg %a.text;
type (syn|hyper|colloc|comp|plev|accjlang|gram|obj| subj|verb|hint|geo|domjregister|time|style| | hyponym | antonym | other) "other" >
|        <!ELEMENT oref   EMPTY > j        <!ATTLIST oref %a.text; | target IDREF #IMPLIED
| fullform NMTOKEN        #IMPLIED >
|
146
<!ELEMENT ptr EMPTY <!ATTLIST ptr %a.text;
corresp IDREFS next IDREF prev IDREF type CDATA resp CDATA crdate CDATA targType NMTOKEN targOrder (y | n | u)
#IMPLIED #IMPLIED #IMPLIED #IMPLIED #IMPLIED #IMPLIED
#IMPLIED
V
evaluate (all | one | none) #IMPLIED target IDREFS        #REQUIRED >
<!ELEMENT xptr   EMPTY >
<!ATTLIST xptr %a.text;
corresp IDREFS #IMPLIED next   IDREF #IMPLIED
prev IDREF type CDATA resp CDATA crdate CDATA targType NMTOKEN targOrder (y | n | u)
#IMPLIED #IMPLIED #IMPLIED #IMPLIED
#IMPLIED
"u"
evaluate (all | one | none) #IMPLIED target NMTOKEN #REQUIRED
Figura 1: DTD-ul Concede, utilizat la implementarea XML-LEX
Această structură de codificare a fost adoptată în implementarea unui număr mare de dicţionare, reprezentând un standard "de facto" în lexicografia computaţională actuală [20]. Detalii suplimentare privind semantica entităţilor folosite în codificare şi a atributelor acestora pot fi găsite în documentaţia tehnică a proiectului la adresa www.itri.bton.ac.uk/projects/ concede/. în tabelul de mai jos, sunt exemplificate reprezentarea tipografică (de tip DEX) şi reprezentarea codificată în XML.
147
DEX
XML-LEX
ZA^, zale, s.f. 1. Fiecare dintre ochiurile unui lanţ; p. gener. (la pl.) lanţ. ♦ Lănţişor de metal întrebuinţat uneori ca podoabă. ♦ Cusătură în formă de lănţişor, executată de obicei la broderii. 2. (La pl.) împletitură executată din inele mici de fier legate unul de altul; p. ext. armură făcută din această împletitură, cu care se îmbrăca u oştenii în antichitate şi în evul mediu, spre a se apăra de loviturile duşmanilor. [Var.: (reg.) zâlă.zea s.f.] - Cf. ngr. zâva.
<entry type="homonym" id="ZÂ.2"> <hw>ZA</hw> <alt> <brack>
<gram>nominativ_feminin__singularjndefinit</gram> <orth>ZA</orth> </brack> <brack>
<gram>nominativ_feminin_pluraljndefinit</gram>
<orth>zale</orth> </brack> </alt>
<pos>substantiv</pos> <gen>feminin</gen> <struc n="1"> <alt>
<def>Fiecare dintre ochiurile unui lanţ</def> <brack>
<usg type="hyper">prin generalizare </usg> <usg>la pl.</usg> <def>lanţ.</def> </brack> ' </alt>
<struc type="Sec"> <def>Lănţişor de metal întrebuinţat uneori ca podoabă. </def> </struc>
<struc type="Sec"> <def>Cusătură în formă de lănţişor, executată de obicei la
broderii.</def> </struc> </struc> <struc n="2"> <usg>La pl.</usg> <alt>
<def>împletitură executată din inele mici de fier legate unul de altul</def> <brack>
<usg type="hyper">prin extensiune</usg> <def>armură făcută din această împletitură, cu care se îmbrăcau oştenii în antichitate şi în evul mediu, spre a se apăra de loviturile duşmanilor.</def> </brack>
148
149
	</alt>
	</struc>
	<struc type="Varianta">
	<alt>
	<brack>
	<orth> zală</orth>
	<stress> zâlă</stress>
	<usg>reg.</usg>
	</brack>
	<orth> zea</orth>
	</alt>
	<pos>substantiv</pos> <gen>feminin</gen>
	
	</struc>
	<etym>
	Cf.
	<lang>ngr.</lang>
	zâva.
	</etym>
	</entry>
Figura 2: Conţinut primar şi codificarea echivalentă în XML (cf. CONCEDE.dtd)
în tabelul din Figura 2, sunt exemplificate reprezentarea tipografică (de tip DEX) şi reprezentarea codificată în XML. Menţionăm că reprezentarea tipografică din coloană stângă a Figurii 2 s-a obţinut automat, folosind un convertor XML de format, proiectat astfel încât rezultatul generării (interpretarea marcajului XML) să fie cât mai apropiat de aspectul dicţionarului tipărit. Structura de dicţionar, definită mai jos, este suficient de generală pentru a permite implementarea diferitelor tipuri de dicţionare. în fapt, DTD-ul CONCEDE a fost utilizat pentru codificarea a două dicţionare bilingve: un dicţionar Sloven-Englez şi un dicţionar Român-Francez.
Adnotarea XML fiind independentă atât de convenţiile tipografice cât şi de limba dicţionarului, este posibilă căutarea multi-criterială a informaţiei în unul, două sau mai multe dicţionare explicative ale unor limbi diferite. De pildă, o căutare multi-criterială ar putea fi parafrazată astfel:
Găseşte şi afişează toate intrările ce corespund substantivelor feminine, de origine neo-greacă şi al căror cuvinte titlu încep cu secvenţa de litere ZA.O astfel de căutare va avea ca rezultat tipărirea cel puţin a intrării corespunzătoare cuvântului titlu ZA2:
ZA2, zale, s.f. 1. Fiecare dintre ochiurile unui lanţ; p. gener. (la pl. ) lanţ. ♦ Lănţişor de metal întrebuinţat uneori ca podoabă. ♦ Cusătură în formă de
lănţişor, executată de obicei la broderii. 2. (La pl.) împletitură executată din inele mici de fier legate unul de altul; p. ext. armură făcută din această împletitură, cu care se îmbrăcau oştenii în antichitate şi în evul mediu, spre a se apăra de loviturile duşmanilor. [Var.: (reg.) zâlă,zea s.f.] - Cf. ngr. zâva.
33. Alte dicţionare, lexicoane; indexul interlingual
Unul dintre rezultatele proiectului Multext-East îl constituie un lexicon de forme ocurenţă (LFO), cu peste 450.000 de intrări, care conţine triplete de tipul <cuvânt, Iernă, cod__morfo-sintactic>. Acest lexicon va fi completat cu formele flexionare (generate automat) ale lemelor din XML-LEX nereprezentate în LFO. Codificarea folosită este compatibilă cu recomandările Eagles (http://www.ilc.pi. cnr.it/EAGLES/home.html) pentru adnotarea morfo-sintactică şi este documentată pe larg în [10].
O altă resursă lexicală esenţială a fost Dicţionarul de Sinonime al Limbii Române - DSLR [21], care a fost transpus în formă electronică la Facultatea de Informatică a Universităţii "A.I.Cuza" din laşi. Forma electronică a DSLR a fost convertită în format XML astfel încât aceeaşi interfaţă ce a fost dezvoltată pentru XML-LEX funcţionează şi cu XML-DSLR.
Din corpusurile paralele menţionate mai sus şi folosind programul ce implementează metodologia noastră de extragere a echivalenţilor de traducere [22], [23], [24] s-a construit un dicţionar bilingv Român - Englez (de asemenea transpus în format XML). Acest lexicon bilingv a fost validat manual şi îmbogăţit cu noi intrări din diverse surse publice.
în sfârşit, o resursă extrem de valoroasă a fost şi Indexul Interlingual (ILI) al EuroWordNet, exportat în format XML cu editorul VisDic produs la Universitatea Masaryk din Brno [25].
3.4. Alegerea nucleului lexical
Vom da câteva definiţii ale unor noţiuni pe care le vom folosi în cele ce urmează.
Când ne plasăm într-un context monolingv, vorbim despre sensuri, înţelesuri şi sinseturi. Un cuvânt are unul sau mai multe sensuri. Un sens referă un înţeles. în EuroWordNet sensurile unui cuvânt sunt numerotate în funcţie de frecvenţa lor, iar sensul unei leme este denotat adăugând numărul sensului la forma ortografică a acesteia. O mulţime de sensuri astfel specificate (ex. action2, activityl, activitenessl) care referă acelaşi înţeles este numit sinset şi constituie el însuşi denotaţia înţelesului sensurilor din sinset. Cu alte cuvinte, un sinset reprezintă lexicalizarea unui înţeles în contextul monolingv curent.
Dacă abstractizăm noţiunea de înţeles, definită ca mai sus, astfel încât să nu mai facem referirea la un anumit context monolingv, vom vorbi despre concepte
150
care sunt referite de înţelesurile lexicalizate în diferitele limbi. Aşadar, putem vorbi despre concepte care au sau nu realizare lingvistică într-o limbă sau alta. Un concept este un construct cognitiv, independent de limbă, care în EuroWordNet este totdeauna lexicalizat cel puţin într-una dintre limbi. Un concept este mai departe rafinat în termeni de distincţii semantice elementare (trăsături semantice), deci putem vorbi despre gruparea conceptelor în funcţie de trăsăturile lor semantice.
în EuroWordNet şi deci şi în BALKANET, ILI este definit ca o colecţie nestructurată de intrări de forma: <ILI-index><descriere ontologică><glosă> {domeniu}. Indexul interlingual iniţial a fost construit plecând de la versiunea 1.5 a Wordnet-ului şi deci glosele pentru fiecare concept au fost importate direct din sinsetul englezesc care se referata înţelesul conceptualizat în ILI.
Pentru a facilita o cât mai bună intercorelare a wordneturilor monolingve din cadrul proiectului şi pentru a înlesni extensia lor ulterioară, consorţiul proiectului a decis ca procesul implementărilor paralele sa fie centrat pe concepte (independente de limbă) selectate de comun acord, la momente succesive de timp.
O primă selecţie a constituit-o mulţimea aşa-numitelor "concepte de bază" definite în EuroWordNet ca fiind acele concepte din ILI lexicalizate în limba engleză (în WORDNET) prin sinseturi plasate pe un nivel ierarhic cât mai sus şi, în plus, care au un număr mare de hiponimi direcţi (tot în WORDNET). Raţiunea acestei decizii a constat în faptul că, aceste concepte fiind foarte generale şi totodată productive în definirea unor concepte mai particulare, este foarte probabil ca ele să fie lexicalizate în majoritatea limbilor de interes. Acest lucru a fost probat atât în EuroWordNet cât şi în BALKANET. Mulţimea conceptelor de bază (o motivaţie mai detaliată a selecţiei lor este prezentată în [4] în raport cu obiectivele EuroWodNet) conţine 1.310 concepte, fiecăruia dintre ele fiindu-i ataşată o glosă explicativă şi o descriere ontologică (vezi [26]).
După implementarea, în toate cele 5 limbi ale proiectului, a nucleelor de ontologii lexicale corespunzând conceptelor de bază, s-a făcut o nouă selecţie, de data aceasta, conţinând 4.000 de noi concepte interlinguale.
Selecţia a avut în vedere, pe de o parte maximizarea compatibilităţii cu EuroWordNet, iar pe de altă parte relevanţa stocului lexical pentru fiecare limbă din perspectivă monolingvă. Primul criteriu a fost operaţionalizat alegându-se acele concepte lexicalizate în cele mai multe limbi din EuroWordNet. Limita inferioară a numărului de limbi a fost fixată la 5, astfel încât după implementarea acestor concepte în BALKANET ele să fie lexicalizate în cel puţin 10 limbi.
Criteriul relevanţei monolingve a condus la propunerea mai multor mulţimi candidate de concepte. Pentru fiecare limbă a proiectului au fost efectuate analize cantitative în context strict monolingv. Metodele de analiză au diferit de la partener
151
la partener, în raport cu datele şi instrumentele disponibile pentru limbile în cauză. După analiza acestor mulţimi, au fost incluse în mulţimea finală acele concepte ce au apărut în cel puţin două propuneri. Mulţimea finală a conceptelor a fost ordonată după numărul de limbi din EuroWordNet ce le lexicalizează şi după numărul de limbi din^ALKANET care le-au propus. Primele 4000 de noi concepte în această listă au fost de comun acord alese ca ţintă comună pentru cea de a doua etapă a proiectului.
în continuare prezentăm metodologia folosită pentru limba română privind selecţia fondului lexical în cadrul BALKANET. Analiza cantitativă s-a efectuat asupra unui corpus foarte mare, format din mai multe romane şi dintr-o colecţie de texte jurnalistice culese de pe web. Corpusul (conţinând mai mult de 100 de milioane de cuvinte) a fost supus unor prelucrări statistice, fiind etichetat şi lematizat automat, iar cuvintele care prezentau interes (substantive comune, verbe, adjective şi adverbe) au fost sortate în funcţie de frecvenţa lor în texte. Am extras în acest fel o listă de mai mult de 30.000 de leme. în funcţie de frecvenţa acestora în textele din corpus, această listă a fost împărţită în trei părţi, corespunzând celor mai frecvente 10.000 de leme (I), următoarele cele mai frecvente 10.000 (II) şi restul (III). Frecvenţa dintr-un corpus este considerată de mulţi lexicografi un criteriu subiectiv. Printre cele mai puternice argumente se numără volumul şi reprezentativitatea textelor incluse în corpusul folosit la analiza cantitativă. Luând în calcul faptul că din ce în ce mai multe texte sunt disponibile pe web, mărimea corpusului nu mai reprezintă o problemă semnificativă, însă reprezentativitatea rămâne în continuare un punct slab. Definirea exactă a naturii textelor care trebuie incluse într-o analiză cantitativă face obiectul unei îndelungi polemici şi nu vom insista asupra ei. Având în vedere că datele noastre constau aproape în întregime din texte jurnalistice, problema reprezentativităţii poate fi cu îndreptăţire ridicată. Dicţionarul de Frecvenţe al Cuvintelor Româneşti FDRW [27], publicat cu mult timp în urmă, bazat pe un corpus balansat de 500.000 de cuvinte (teatru, nuvele şi scurte povestiri, eseuri memorii şi corespondenţe, texte jurnalistice, literatură tehnică) conţine cele mai frecvente 5.000 de leme. Chiar dacă este foarte controversat, FDLW este încă folosit de mulţi lingvişti români ca o referinţă. Comparaţia pe care am făcut-o a arătat că mai toate cele 5.000 inventariate de FDRW se găsesc şi în lista obţinută de noi, chiar dacă nu cu aceleaşi scoruri de frecvenţă. Pe lângă frecvenţa în corpus am apelat şi la alte două criterii mai puţin controversate şi care au putut fi operaţionalizate în raport cu resursele lingvistice disponibile şi instrumentele noastre de analiză a corpusurilor. Primul este numărul de sensuri pe care un cuvânt (împreună cu sintagmele şi expresiile în care participă) îl are într-un dicţionar. Al doilea este numărul de definiţii de dicţionar în care apare un anumit cuvânt. Al treilea criteriu, ne-inclus încă în analiză, ar putea fi numărul de derivate lexicale ale unui cuvânt. Pentru o pertinentă analiză din acest punct de vedere, o excelentă lucrare este [28]
389246
152
153
în această fază a proiectului BALKANET, ne-am concentrat atenţia asupra substantivelor din limba română, iar datele experimentale raportate mai jos se referă doar la acestea. Având însă în vedere că procedurile tehnice nu depind de categoria gramaticală, metodologia şi procedura vor fi aceleaşi şi pentru verbe, adjective şi adverbe. Luând în calcul numai primele două clase de frecvenţă descrise mai sus (primele 20.000 cele mai frecvente din corpusul jurnalistic) am extras din XML-LEX mai mult de 8.000 de intrări de substantive şi substantive compuse (care însumează aproximativ 35.000 de sensuri) astfel încât productivitatea definiţională PD (numărul de definiţii în care participă un substantiv) să fie cel puţin 3. Lista a fost sortată în funcţie de productivitatea definiţională şi numărul de sensuri ale fiecărui cuvânt titlu.
Substantiv	Productivitate definiţională	Număr de sensuri	FRECVrange
acţiune	2279	13	I
persoană	1979	9	I
parte	1882	94	I
formă	1286	21	I
obiect	1204	16	I
fapt	1044	11	I
			
rasism   | 3		1	II
Figura 3: Ordonarea candidaţilor
Pentru toate aceste substantive am extras traduceri englezeşti din dicţionarul de echivalenţi de traducere. Procedurile pentru extragerea automată a echivalenţilor de traducere din corpusuri paralele ca şi procedura de discriminare a sensurilor sunt descrise pe larg în [22], [23], [29], [15], [16]. Fiecare substantiv din limba română a fost pus în corespondenţă cu lista tuturor conceptelor din ILI corespunzătoare traducerilor sale în engleză. Conceptele astfel identificate au fost sortate după rangul corelat al substantivelor româneşti de la care s-a pornit.
Interesant de remarcat este că dintre cele 4000 de concepte selectate în final prin armonizarea propunerilor tuturor partenerilor, circa 2600 s-au regăsit şi în primele 4000 de concepte ale ierarhiei noastre. Toate cele 4000 de concepte selectate de consorţiu se regăsesc printre primele 6000 de concepte ale ierarhiei noastre.
Toate substantivele reprezentând potenţiale lexicalizări ale celor 4000 de concepte din cea de a doua selecţie au fost automat puse în corespondenţă cu toate definiţiile lor din XML-LEX. De asemenea, ele au fost corelate cu lexicalizările din limba engleză ale celor 4.000 de concepte. Prin intermediul dicţionarului de echivalenţi de traducere englez-român, fiecare concept a fost asociat cu
lexicalizarea din limba engleză (extrasă din WORDNET) şi cu potenţialele lexicalizări în limba română.
Dicţionarul de Sinonime al Limbii Române (DSLR), digitizat şi codificat în XML, a fost folosit pentru a extrage seriile sinonimice pentru cuvintele româneşti selectate. în XML-DSLR unii membri ai seriilor sinonimice sunt arhaisme sau regionalisme. Discuţiile preliminare au condus către ideea de a elimina toate cuvintele care fac parte din aceste clase (ne-am bazat pe cerinţa de a construi un nucleu lexical de uz general în limba română contemporană). Totuşi, pentru eventualitatea în care aceste cuvinte filtrate (împreună cu informaţiile despre uz) vor fi necesare mai târziu, s-a asigurat recuperabilitatea lor. Seriile sinonimice româneşti au fost considerate ca posibile sinseturi şi adăugate la asociaţiile descrise mai sus.
4. Instrumente software dezvoltate pentru proiectul BALKANET
Materialul lingvistic de bază descris în secţiunea anterioară, a fost asamblat prin intermediul unor programe unitare, astfel încât toată această informaţie este disponibilă într-o interfaţă "prietenoasă", prin care lexicograful alege echivalenţele corecte de sens dintre cele potenţiale. Această interfaţă este generată şi "personalizată" automat în funcţie de mulţimea conceptelor interlinguale furnizată ca parametru de intrare unui generator de interfeţe. Printr-un astfel de model arhitectural, a fost posibil ca sarcina construirii wordnet-ului pentru . limba română să fie distribuită între membrii celor două colective româneşti participante la proiect şi judicios controlată. Pentru fiecare dintre aceştia s-a generat o interfaţă personalizată pentru o submulţime distinctă de concepte dintre cele agreate de consorţiul proiectului. Utilizatorul acestei interfeţe, pe care generic îl numim în continuare lexicograf, va lucra în mod independent de ceilalţi, construind, ca urmare a interacţiunii, fragmente ale wardnetului pentru limba română. La un moment dat, lexicograful alege un concept din mulţimea ce i-a fost repartizată căruia doreşte să-i ataşeze un sinset românesc. El are la dispoziţie simultan sinsetul ce lexicalizează în limba engleză conceptul respectiv şi, pentru fiecare cuvânt englezesc din acest sinset, toate potenţialele lui traduceri în limba română, aceste traduceri având ataşate toate definiţiile conţinute în XML-LEX. în plus, fiecare cuvânt românesc are ataşate toate seriile sinonimice din XML-DSLR în care el este prezent. Ceea ce trebuie să decidă lexicograful este (vezi figura 4):
a. care este cuvântul românesc a cărui definiţie este cea mai apropiată de definiţia conceptului lexicalizat în limba engleză;
b. care este cea mai bună serie sinonimică a acestui cuvânt;
154
155
c.
care dintre definiţiile ataşate cuvintelor dintr-o serie sinonimică este cea mai adecvată pentru a fi aplicabilă tuturor cuvintelor din seria respectiva.
file   £dit Favorite*   loofe ]jelp
messa
medmm 3 0414rrM4.«
Search Favorite?  Hstwy      Mail      Prinţ       Edit    ' Diicuss —-—-_____ f>Go   Links CJCustomfeeLinki  gJFteeHotmaH   gJWindom Media £)Windom
language 3n4iV5Vii.n
afrolţc representation 1 ri41Q?74if,.n
text 10421 tm^
book 5 042-rainn.
authoritv 404777*M.»
fot 1
biogtâphy 1 04265429-n
deciree 1 rupa^i^ declaratioti 2 043908^.^ sign 3 044357*1.»
index: 03941565-n synset: lift 3, living 1
translaţiei»: uwwmnmy uynaiwc Expenenee Mental Property SituationType Static UnboundedEvent
sense (in DEX) [7     3     Relation Type |EQ_SYNONYM ŢJ f~ ffijuâr^viata)    Romanian smii>i«
sense (in DEX) |none jrj    RelatioM Xype JEQ_SYNONYM Ţ] r~ bătrâneţe    Romanian synweţy
sense (in DEX) InonejJ    ReUtion Type |EQ_SYNONYM Ţ]
VIAŢĂ, substantiv feminin
!;L°tSUPe,i0ară ^ f??CSfe * m8teriei- ca" aPwe P* o onumită treaptă a dezvoltării acesteia s, care reprezintă o sinteză a proceselor biologice, fizice, chimice mecSce i£e au loc in organism; faptul de a fi viu; stare a ceea ce este viu-
2 locuţiune adjectivală Expresie: Plin d* viaţă sau cu viată - enerac vieuros vioi; vesel. Expresie: Fără (pic A.) viaţă - fără vlagă, fără vigoare.. l£3b,ÎKl - vesel, sociabil; căruiaîi place să petreacă.- ^ „la?a
d^^T^* *dvwbial* ^jectiv Expresie: A watf*»,* -în chip
deznădăjduit, cu înverşunare, din toate puterile, cu riscul vietit
4.1ocuţiune adverbială Expresie: Qt «feţâ - în mod viol avântat, viu- viu. teafăr.; Expresie: Cuţrtţul vieţii - cu orice risc ; ' ^
rectLt * mm-i?9n^\A <*° *"        " •      (Pe cmeva) sT?i
recapete cunoştinţa, sănătatea; aînsănătosi. Expresie: Xy? wa«««i,oflL » a fi a peacol sa moară. Expresie: A mantii (cuiva) viaţa - a scăpa (pe cmfvTSu o II
Set;^^^^
bj Done -■■......... .....-
Zi
ADD DEX LINKS
ADD A NEW SYNSET
SAVE MODIFICATIONS |
ADD LOST VALUES
â vieţuire eaşţent|
|trai(1),viaţă(7).vieţuire(1), existenţâ(2),
|3~~ |eq_synonym
^3
biografie viaţă
jbiografie, viaţa.
~|eq_synonym
jgŞţgrtJ f>SystemSoftCaroVgafdfof-| BlTuf&CfiLREC2002paper.d..
Zi
-JfrSBaseConcepts
K Mj> Computer
Figura 4: Editorul pentru construirea sinseturilor
In majoritatea cazurilor, definiţiile extrase din XML-LEX corespunzând sinonimelor dintr-un sinset nu sunt identice, lexicografii alegând pSa mai apropiata de definiţia conceptului corespunzător (vezi figura 5)
wm
Ele   £dl   View   Favoiites   Ioob H«*
* \ jJ   4 -d^ " Jr H . J
Back Stop    Refresh   Home Seaich Favorite»  Histoty      Mail      PfW      Edit Discuss
Addre» |0] D:\BaseConcepts\gloss.html 3  ^Go   Lh*s     Customize Links  ŞŞ]Fiee Hotmail   gjWinclow» Media Windows
03543710-n TT 0528.S371-n 04916628-n Q3974972-Q rj371ţ637-n <?9QlS436-n l?44?3761-n
0666232S.n OŞ2?2464-n
08232464-n registerî
a book mwhich names andtransactions are listed
08232464-n
catastif(l), condicâ(l), registru(l), SYNONYM
Ii". Condică, caiet, sistem de fişe etc. în care se Înregistrează diferite dace ~] şi acte cu caracter administrativ, comercial.;
ll.(înv. şi Ham.)  Registru, condică.;
_J r
ll.    Registru, catastif.;
condicâ(l)-.
J r
I~    Condică, caiet, sistem de fişe etc.  în care se înregistrează diferite date ~2 şi acte cu caracter administrativ, comercial.; _J 17
IAuthor: dan
|jAD6 NEW GLOSS    i| SAVE MODIFICATIONS
J
ijBStart [ ^SystemSoft CatoWiz... | ,   Inbox • Outlook Expr... | ^D.ABaieCortcept*    j !f.^Mica<wo>tPowefPoin...||g3D:\BaeeCowcept...
Unknown Zone (Mtxed) ^ 12.00
Figura 5: Editorul pentru asignarea gloselor
Merită menţionat că în faza asocierii gloselor a devenit evidentă incorectitudinea alcătuirii unor sinseturi, ele fiind modificate. în alte cazuri Dicţionarul Explicativ al Limbii Române include în aceeaşi definiţie două sensuri care sunt demarcate în ILI ca două concepte diferite. în astfel de situaţii strategia generală a fost să se despartă definiţia românească şi să se ataşeze ca glosă partea relevantă.
Fragmente create de fiecare lexicograf sunt agregate în mod incremental în structuri din ce în ce mai complexe şi mai acoperitoare din punct de vedere lexical. Acest proces de agregare se realizează în mod centralizat, astfel încât corectitudinea structurilor rezultate să poată fi controlată şi, în cazul conflictelor, să se poată identifica şi corecta sursele de conflict (de exemplu: acelaşi sens pus în corespondenţă cu concepte diferite, sensuri diferite ale aceluiaşi cuvânt puse în corespondenţă cu acelaşi concept, literali fără identificatori de sens etc). Corectarea unor conflicte între două porţiuni ale structurii agregate poate să genereze conflicte între alte părţi ale sale. Pentru evitarea acestui pericol au fost proiectate mecanisme de control centralizat al unificării subseturilor de wordnet ce gestionează efectul global al oricăror modificări locale.
157
156
4.1. Importul relaţiilor taxonomice; vizualizare sincronizată a mai
multor wordneturi
Construcţia sinseturilor şi punerea lor în corespondenţă cu conceptele interlinguale reprezintă doar una din cele două dimensiuni fundamentale ale procesului de construire a unei reţele semantice lexicale pusă în corespondenţă cu indexul interlingual, respectiv cea de implementare a nodurilor şi echivalarea acestora cu conceptele interlinguale. Cea de a doua dimensiune a procesului construcţiei reţelei o constituie definirea relaţiilor (intraiinguale) între nodurile create şi echivalate în prima fază. Deosebit de importante sunt relaţiile taxonomice care stabilesc o ierarhie de tip generic-specific între sinseturile unui wordnet.
Stabilirea relaţiilor taxonomice între sinseturile wordnetului pentru limba română s-a făcut automat (urmată de validarea umană) în baza principiului "echivalenţei ierarhice interlinguale" [30]. în esenţă, acest principiu afirmă că:
1. dacă sinsetul S1LA din limba LA şi sinsetul S1lb din limba LB sunt echivalate cu acelaşi concept    din ILI şi
2. dacă sinsetul S2la din limba LA şi sinsetul S2lb din limba LB sunt echivalate cu acelaşi concept C2 din ILI şi
3. dacă în limba A sinseturile Sila şi S2la sunt într-o relaţie ierarhică H+ (H+ denotă compunerea de un număr de ori cel puţin egal cu 1 a relaţiei H, în cazul nostru: has-as-hypernym),atunci:
în limba B sinseturile S1lb şi S2lb sunt într-o relaţie ierarhică similară H+ (deşi lanţurile de relaţii H pot fi de lungimi diferite în cele două limbi).
Principiul explicitează necesitatea ca interpretarea relaţiilor folosite în ontologia multilingvă să fie similară, aşadar defineşte coeziunea interpretativă a relaţiilor ontologice în toate limbile participante la proiect. Acest principiu este reprezentat schematic în figura 6:
LA LB
^--X c2
S2LA
în secţiunea următoare vom arăta pe un caz concret cum poate fi exploatat acest principiu pentru a importa (şi eventual valida/corecta manual) relaţiile dintr-un wordnet în care structurile ierarhice au fost stabilite, într-un wordnet pentru care au fost stabilite doar relaţiile de echivalentă translatională cu indexul interlingual (ILI).
Ultima etapă a construirii unui grup de sinseturi este transformarea rezultatelor interacţiunii lexicografului cu interfaţa descrisă anterior într-un format independent de limbă (codificare XML) şi specific editorului multilingual de ontologii lexicale numit VisDic [25]. Odată generat acest format, el poate fi încărcat în VisDic, iar wordnetul pentru limba română poate fi vizualizat în mod sincron cu toate celelalte wordneturi încărcate. In figura de mai jos este ilustrată afişarea în mod sincron a sinsetului românesc (fiintă__1, formă de viaţăjt, vieţuitoare_1, vietateji) şi a celui englezesc (being__1 life formjl, living thingjl, organism_1) şi a arborilor lor de hiponimi. Cele două sinseturi sunt aliniate via ILI, ambele fiind echivalate independent cu conceptul interlingual cu identificatorul 00002728-n.
Figura 6: (S1LAEQ-SYN S1LB)& (S2lAEQ-SYN S2LB)&(S1LA H+ S2[A)    (S1LB H+ S2LB)
View HH Tree | Edit j Words | Base Concepts | AII Dictionary Entries | XML l&+(n] entity:T
*[n) animali, animate being:1. beast:1, brute:1, creature:1, fauna:1 V[n] chordate:1
&*[n] craniate:1, vertebratei Ş-[nj cephalochordate:1 B [n] tunicatei. urochord:2, urochordate:1 *[n] femaiei "[n] invertebrate:1 *[n] larva: 1 t+F*tnJ male:1 Ş-*[n] offspring:1, young:1 tJ+InJ domestic animal: 1
- +[n] herbivore:1
E}+[n] predator:1. predatory animali Şr+(n] prey:1. quarry:1 £> +(nj work animal: 1 -(n) acrodonti -[n] adult: 1 -|n] biped: 1
- [n] captive:2 -[n] dead animal: 1
Epţnj embryo:1 E>[nJ fictional animal: 1 -jnj gianf.1 -[n] insectivore:1
-[n] marine animal: 1, sea animal: 1
- [n] mate:6
*[n] animali, creatură: 1 Jivină: 1, lighioanâ:1, necuvântători l~r*[n] animal cu notocord:1 Er*|n]vertebrat:2 tj**[n] mamifer: 1 E>*[n] placentar.2
*{n] animal_carnivor:1, carnivor:2 Er*[n] canid: 1
L*[n] câine: 1 '[n] copitati, ungulati Er*[n] imparicopitat:1. perisodactili
&*(n] ecvideui *[n] rozători h*(n] pasăre: 1 (-•(n) reptilă: 1 Et *{nj vertebrat acvatici . L»[n) peftei
|-*(n] femelă: 1, parte femeiascăi *[n] larvăi
■*(nj masculi. parte bărbătească: 1 l^*(n] nevertebraţi '[nj artropodi
*-*[n] gânganiei, gâzâi, hexapodi. insectăi ■*[nj moluscăi I    -*{n] prăsilă:2, progeniturăi, puii .4 ^*(nj cap:12. individ: 1. insi, omi. persoanăi
\-*[n) aborigeni, autohtoni. băştinaşi, indigen:2, pământean:3 ijnnj adulţi
Figura 7: Vizualizarea sincronizată a două ontologii lexicale cu ajutorul VisDic
Editorul de ontologii multilingve, VisDic, a fost dezvoltat în cadrul proiectului BALKANET pentru a substitui funcţionalitatea asigurată în cadrul EuroWordNet de editorul Poiaris, dezvoltat de firma Lernout & Hauspie. Implementat iniţial pentru ca rezultatele proiectului BALKANET să poată fi utilizate în regim liber de restricţii comerciale (Poiaris poate fi utilizat doar contra cost), VisDic este constant îmbunătăţit cu facilităţi noi a căror necesitare apare pe măsura evoluţiei proiectului BALKANET, fiind deja unul dintre cele mai puternice instrumente existente pentru gestiunea ontologiilor multilinguale.
5. Principiul conservării trans-linguale a ierarhiei lexicale. Studiu de caz: Condimente, mirodenii, sosuri şi alte ingrediente
Vom considera fragmentele din RO-WordNet şi WordNet 1.5 arătate în figura 8. Săgeţile reprezintă relaţiile taxonomice (de la hiponime spre hipernime) în cele două wordneturi. Liniile groase reprezintă relaţiile de echivalenţă de traducere (EQ-SYN) dintre sinseturile celor două limbi, aceasta însemnând că sinseturile respective sunt puse în corespondenţă cu acelaşi concept din ILI. Linia groasă întreruptă reprezintă o relaţie EQ-SYN identificată ca nerespectând principiul conservării trans-linguale a ierarhiilor lexicale din cele două wordneturi. Inconsistenţa este semnalată deoarece în română relaţiile ierarhice (de hiponimie) dintre mirodenie(RO) şi condiment(RO) ca şi dintre ketchup{RO) şi sos(RO) nu sunt verificate de echivalenţii lor în limba engleză: sp/ce(EN) este frate cu condiment{EN) şi respectiv ketchup(EN) este frate cu sauce(EN). Dacă structura variantei 1.5 a WordNet este considerată cea corectă, acest exemplu arată că principiul păstrării ierarhiei nu este irefutabil. Pe de altă parte, dacă ar fi rezonabil să considerăm că WN 1.5 este amendabil (de exemplu făcând mustard(EH) şi ketchup{EH) hiponimii direcţi ai lui sauce(en)) ca în figura 9, atunci principiul păstrării ierarhiei ar putea fi o puternică probă a consistenţei1.
în urma restructurărilor ierarhice şi de echivalare translaţională, necesare pentru respectarea principiului conservării trans-linguale a ierarhiei lexicale (arătate în figura 9), interesant este faptul că a dispărut relaţia de echivalenţă între cuvântul românesc condiment şi cuvântul englezesc condiment.
Consultată recent asupra acestei probleme, Christiane Felbaum a confirmat existenţa unei erori în ierarhia WN1.5, probată, de altfel, şi de glosa /u/ketchup (thick spicy sauce made from tomatoesj.
Figura 9: Reprezentare conformă cu principiul conservării trans-linguale a ierarhiei lexicale
160
Pentru ca această echivalenţă să fie posibilă, în condiţiile principiului conservării trans-linguale a ierarhiei lexicale, ar trebui ori ca în limba engleză spice să fie un hiponim al lui condiment iar sauce să nu fie un hiponim al lui condiment ci frate, ori în limba română sos să fie un hiponim al lui condiment iar mirodenie să nu fie un hiponim al lui condiment ci frate. Ambele variante au fost respinse de experţii consultaţi, lexicografi şi vorbitori nativi ai limbii engleze şi respectiv române. Singura concluzie posibilă este că în română şi engleză cuvântul condiment nu reprezintă exact acelaşi lucru.
6. Concluzii
Realizarea ontologiei lexicale pentru limba română, în contextul multilingual definit de proiecte de tipul EuroWordNet, Balkanet şi GlobalWordnet (www.globalwordnet.org), este esenţială pentru procesul de informatizare a limbii române. Experienţa internaţională arată că un astfel de proiect nu este niciodată închis, reclamând actualizare şi întreţinere continuă, apărând mereu noi idei de îmbunătăţire a performanţelor şi noi cerinţe de exploatare. Specialiştii de la Princeton au anunţat deja versiunea 1.7.1 a Wordnet, mult îmbunătăţită. în variantele ce vor urma, pe lângă extensia în continuare a fondului lexical, toate cuvintele non-funcţionale apărând în-definiţii vor conţine referinţe spre sinsetul corespunzător contextului de utilizare. Cu alte cuvinte, Wordnet va deveni simultan şi un dicţionar şi un corpus adnotat la nivelul sensului. O altă dezvoltare semnificativă o va reprezenta traducerea definiţiilor din Wordnet în formule logice, adecvate prelucrărilor inferenţiale. Acest proiect, coordonat de Dan Moldovan şi Sanda Harabagiu se află în derulare la Universitatea Texas din Dallas [31], [32].
Astfel de extensii vor trebui considerate în viitor şi în wordnetul pentru limba română aflat deocamdată în fază incipientă. Obiectivul final prevăzut pentru cei trei ani de derulare ai proiectului BALKANET (septembrie 2004) este realizarea unui nucleu de câte 8.000 de sinseturi în fiecare din limbile proiectului.
în acest moment, la mai puţin de un an de la începerea proiectului, wordnetul românesc se află cu mult înaintea graficului prevăzut, având deja create peste 6.000 de sinseturi. Se poate estima că, în condiţii normale, în cei peste doi ani care au mai rămas wordnetul românesc va ajunge la peste 20.000 de sinseturi, acoperind pesta 40.000 de literali. Atingerea unui volum lexical similar cu al altor wordneturi necesită însă continuarea proiectului şi după anul 2004, atragerea unor noi colective de specialişti în această întreprindere şi desigur găsirea surselor de finanţare, în principal interne, care să permită dezvoltarea şi întreţinerea wordnetului românesc. Operaţionalizarea acestui obiectiv poate fi facilitată de contextul organizatoric creat de curând prin înfiinţarea la Academia Română a Comisiei de Informatizare pentru Limba Română (CILR) precum şi a Consorţiului
161
de Informatizare pentru Limba Română (ConsILR: http://www.consilr.info.uaic.ro/), for executiv al CILR.
A fost construită o platformă software de dezvoltare incrementală a reţelei semantice ce permite implementarea independentă de regiuni ale reţelei şi integrarea ulterioară a acestora. Viabilitatea acestui concept arhitectural şi a demersului de dezvoltare distribuită a wordnetului au fost validate prin implicarea în procesul de construire a 10 specialişti, cărora li s-au adăugat încă 12 studenţi masteranzi de la Facultatea de Litere a Universităţii Bucureşti şi Facultatea de Informatică a Universităţii "A.l. Cuza" (cele două facultăţi ce au programe de Maşter în domeniul prelucrării limbajului natural şi al lingvisticii computaţionale). Rezultatele produse în mod independent au fost agregate fără nici o dificultate. Mediul lingware de dezvoltare conţine un modul special de verificare a corectitudinii deciziilor lingvistice la crearea sinseturilor româneşti sau la punerea lor în corespondenţă cu conceptele indexului interlingual. După cum era de aşteptat, procesul de integrare a rezultatelor parţiale furnizate de fiecare membru al' celor două echipe de realizare a evidenţiat o serie de inconsistenţe cu explicaţii diverse:
- neatenţie în asignarea sensurilor, generată de oboseala expertului decident uman;
- granularitate semantică diferită între sensurile explicitate în XML-LEX şi sensurile conceptelor din ILI;
- absenţa lexicalizării în limba română a unor concepte existente în ILI şi introducerea unor forme perifrastice cu definiţii ad-hoc;
- erori sau incompletitudini existente în sursele lingvistice primare folosite în implementare.
Inconsistentele depistate, atât de natură structurală, dar mai ales cele de natură semantică au fost înregistrate, analizate şi unele dintre ele corectate. Altele, necesită o analiză mai profundă şi rezolvarea lor a fost amânată pentru o etapă ulterioară a proiectului. Aceasta cu atât mai mult cu cât, prin analiza similară pe care am efectuat-o asupra wordneturilor pentru celelalte limbi din proiect, am constatat că există multe similarităţi ale acestor genuri de inconsistenţe. Sunt puse astfel în evidenţă o serie de concepte din ILI pentru care diferenţa semantică dintre lexicalizările lor este prea mică pentru a fi sesizată uşor chiar şi de către un vorbitor nativ al limbii respective. Distincţii atât de rafinate au, din perspectiva prelucrării automate şi mai ales a traducerii automate, o utilitate limitată iar în context multilingv pot fi chiar surse de eroare. Pericolul micşorării distanţei semantice (am putea numi acest fenomen pulverizarea conceptuală) între conceptele din ILI este amplificat de adăugarea unor concepte ce au lexicalizări într-o singura limbă sau într-un număr mic de limbi. O soluţie pentru evitarea idiosincrasiilor lexicale într-un context multilingv şi a disparităţilor de traducere este
162
163
gruparea conceptelor foarte apropiate semantic în ceea ce s-ar putea numi concepte agregat Lexicalizările înţelesurilor din două sau mai multe limbi, puse în corespondenţă cu aceleaşi concepte din ILI sau cu concepte membre ale unui agregat, vor putea fi folosite ca echivalenţi de traducere în pofida unor diferenţieri semantice specifice unei limbi sau alteia {ciorbă, sarmale, pepper pot, porcupine ball etc; vezi şi exemplele din secţiunea precedentă). Analiza inconsistentelor interumane în echivalarea înţelesurilor dintr-o limbă cu conceptele interlinguale din ILI, precum şi identificarea conceptelor distincte puse în corespondenţă cu echivalenţi de traducere (extraşi automat din corpusuri paralele sau găsiţi într-un dicţionar bilingv clasic) pot furniza informaţii calitative mult mai interesante (cel puţin din perspectiva psiho-lingvisticii) şi mai demne de încredere decât o analiză statistică. Aceasta este o promiţătoare direcţie de cercetare ce se dezvoltă în paralel cu activitatea principală de construcţie a wordnetului pentru limba română.
Referinţe bibliografice
[1] Danzin, A. - Towards a European Language Infrastructure" raport al Comisiei Europene, 1992.
[2] Fellbaum, Ch. (ed.) - WordNet: An Electronic Lexical Database, MIT Press, 1998, 423 p.
[3] Bloksma, L., Diez-Orzas and Vossen, P. - The User Requirements and Funcţional Specification of the EuroWordNet-project EWN-deliverable D.001, LE-4003, 1996.
[4] Vossen, P. (ed.) - "A Multilingual Database with Lexical Semantic Networks", Kluwer Academic Publishers, Dordrecht, 1998.
[5] Stamou, S., Oflazer, K., Pala, K., Christoudoulakis, D., Cristea, D., Tufiş, D., Koeva S., Totkov, G., Dutoit, D., Grigoriadou, M. - BALKANET A Multilingual Semantic Network for the Balkan Languages, in Proceedings of the International Wordnet Conference, Mysore, India, 1997.
[6] Tufiş, D. - "Promovarea Limbii Române în SI-SC", în "Societatea Informaţională -Societatea cunoaşterii: concepte, soluţii şi strategii pentru România", Florin Gh. Filip (coord.), Ed. Expert, Bucureşti, ISBN973-8177-42-1, 2001, pp. 131-142.
[7] Erjavec, T., Ide, N., Tufiş, D. - Encoding and Parallel Alignment of Linguistic Corpora in Six Central and Eastern European Languages" in Michael Levison (ed) Proceedings of the Joint ACH/ALL Conference Queen's University, Kingston, Ontario (also on http://www.qucis.queensu.ca/ achallc97), 1997.
[8] Dimitrova, L., Erjavec, T., Ide, N., Kaalep, H.J., Petkevic, V., Tufiş, D. - Multext-East: Parallel and Comparable Corpora and Lexicons for Six Central and Eastern European Languages. Proceedings of COLING, Montreal, Canada,
[9] Tufiş, D., Bruda, Şt. - Structure Markup in CES and Preliminary Statistics on Romanian Translation of Plato's "Republica", Proceedings of International Seminar on Encoding, Ljubliana, February, 1997, also in TELRI News, nr. 5.
[10]Tufiş, D., Barbu, A.M., Pătraşcu, V., Rotariu, G., Popescu, C. - Corpora and Corpus-Based Morpho-Lexical Processing, in Tufiş D., P. Andersen (eds.) Recent Advances in Romanian Language Technology, Editura Academiei, 1997, pp. 115-128.
[11] Tufiş, D., Rotariu, G., Barbu, A.M. - TEI-Encoding of a Core Explanatory Dictionary of Romanian. In Kiefer, F. and Pajzs J. (eds.) Papers in Computaţional Lexicography, Hungarian Academy of Sciences, 1999, pp. 219-228.
[12] Ide, N. - Corpus Encoding Standard: SGML Guidelines for Encoding Linguistic Corpora First International Language Resources and Evaluation Conference, Granada, Spain, 1998, See also http://www.cs.vassar.edu/CES/.
[13]Tufiş, D. - Tiered Tagging and Combined Classifiers in F. Jelinek, E. Noth (eds) Text, Speech and Dialogue, Lecture Notes in Artificial Intelligence 1692, Springer, 1999.
[14]Tufiş, D., Popescu, C, Roşu, R - Automatic classification of documents by random sampling in Proceeding of the Romanian Academy, Series A, voi. 1, no. 2, 2000, pp. 18-28.
[15]Tufiş, D. - "A cheap and fast way to build useful translation lexicons" in Proceedings of the 19th International Conference on Computaţional Linguistics, COLING2002, Taipei, 25-30 August, 2002, pp. 1030-1036.
[16] Ide, N., Erjavec, T., Tufiş, D. - "Sense Discrimination with Parallel Corpora" in Proceedings of the SIGLEX Workshop on Word Sense Disambiguation: Recent Successes and Future Directions. ACL2002, Philadelphia, 2002, pp. 54-60.
[17]DEX - Coteanu, I., Seche, L., Seche, M. (coord.). Dicţionarul Explicativ al
Limbii Române, ediţia a ll-a, Univers Enciclopedic, 1996, Bucureşti. [18]Tufiş, D. - Blurring the distinction between machine readable dictionaries and
lexical databases. Research Report, RACAI-RR56, 2000, p. 56. [19]Vintilă-Rădulescu, I. - "Resurse lingvistice pentru limba română elaborate la
Institutul de Lingvistică «lorgu Iordan»", în acest volum, 2002. [20] Erjavec, T., Evans, R., Ide, N., Kilgarriff, A. - The CONCEDE Model for Lexical
Databases. Proceedings of the Second Language Resources and Evaluation
Conference (LREC), Athens, Greece, 2000, pp. 355-362. [21]Seche, L., Seche, M. - Dicţionarul de sinonime al limbii române. Univers
Enciclopedic, Bucureşti, 1997. [22]Tufiş, D., Barbu, A.M. - Computaţional Bilingual Lexicography: Automatic
Extraction of Translation Dictionaries, in International Journal on Science and
164
165
Technology of Information, Romanian Academy, ISSN 1453-8245, Voi. 4, No. .3-4, 2001, pp. 325-352.
[23]Tufiş, D., Barbu, A.M. - Extracting multilingual lexicons from parallel corpora, in Proceedings of the ACH-ALLC conference, New York, 12-17 June, 2001,4 p.
[24]Tufiş, D., Barbu, A.M. - "Lexical token alignment: experiments, results and applications" In Proceedings of LREC2002, Las Palmas, Spain, 2002, pp. 458-465.
[25]Pavelek, T., Pala, K. - VisDic: A new Tool for WordNet Editing in Proceedings of the 1st International Wordnet Conference, Mysore, 2002.
[26]Rodriguez, H., Climent, S., Vossen, P., Bloksma, L., Peters, W., Alonge, A., Bertagna, F., Roventini, A. - The Top-Down Strategy for Building EuroWordNet: Vocabulary Coverage, Base Concepts and Top Ontology. In Piek Vossen (ed.) EuroWordNet: A Multilingual database with lexical semantic networks, Computers and Humanities, Voi. 32, Nos. 2-3, 1998.
[27]Juilland, A., Edwards, P.M.G, Juilland, I. - The Frequency Dictionary of Rumanian Words. Mouton & CC, London-The Hague-Paris, 1965.
[28] Dinu, M. - Personalitatea limbii române, Editura ALL, 1996, 368 p.
[29] Erjavec, T., Ide, N., Tufiş, D. - Automatic Sense Tagging Using Parallel Corpora, in Proceedings of the 6th Natural Language Processing Pacific Rim Symposium, Tokyo, Japan, 27-29 November, 2001, pp. 212-219.
[30] Tufiş, D., Cristea, D. - "Methodological issues in building the Romanian Wordnet and consistency checks in Balkanet", In Proceedings of LREC2002, Las Palmas, Spain, May, 2002, pp. 35-41.
[31]Moldovan, D. - "Question Answering Systems in Knowledge Management", IEEE Intelligent Systems, voi. 16, nr. 6, 2001, pp. 90-92.
[32]Harabagiu, S., Miller, G., Moldovan, D. - "WordNet 2 - A Morphologically and Semantically Enhanced Resource", in Proceedings of SIGLEX-99, Univ. of Maryland, 1999, pp. 1-8.
Algoritmi de segmentare a textului în unităţi de tip clauzal
D. GÂLEA,
Institutul de informatică Teoretică, Academia Română, Filiala laşi, dgatea@iit.tuiasi.ro
N. CURTEANU,
Institutul de Informatică Teoretică, Academia Română, Filiala laşi, curteanu@iit.tuiasi.ro
C. LINTEŞ,
Institutul de Informatică Teoretică, Academia Română, Filiala laşi
1, Introducere
Scopul lucrării este dublu: (a) Să prezinte şi să compare doi algoritmi de segmentare a frazei (româneşti) în unităţi de tip clauzal. (b) Să întregească şi să susţină două componente de bază ale strategiei lingvistice SCD (Segmentare-Coeziune-Dependenţă) [1], [2] de analiză a limbajului natural (LN): procesul de segmentare a textului de LN, şi teoria FX-bar [3], [23]. Segmentarea textului poate continua sau interfera cu stabilirea arborilor de dependenţă între unităţile clauzale şi subclauzale (unităţi sintagmatice) ale textului. Unităţile de tip-clauzal corespund, în general, relaţiilor retorice dintre unităţile minimale ale discursului, astfel încât algoritmii de segmentare pot fi (şi chiar sunt) utilizaţi în aplicaţii ce ţin de teoria şi procesarea discursului. Primul algoritm este o aplicare la limba română a segmentării frazei în unităţi de tip-clauzal, algoritm dezvoltat de Daniel Marcu în [4], [5] (şi prescurtat în cele se urmează "algoritm-Marcu", sau "algoritm-M'). Al doilea algoritm reprezintă o rafinare a segmentării în clauze şi grupuri sintagmatice din cadrul strategiei lingvistice SCD [1], [2], [3], [6] (prescurtat în cefe se urmează prin "algoritm SCD"). Aceşti algoritmi sunt implementaţi într-un mediu specializat de procesare (dezvoltat sub C++), şi este realizată o comparaţie computaţională a execuţiei segmentării de tip-clauzal pe un set consistent de fraze româneşti [7].
Segmentarea textului LN a devenit în ultimii ani un subiect intens cercetat şi cu multiple aplicaţii. O atenţie specială a primit segmentarea textului de LN în unităţi dediscurs, în particular, segmentarea frazei în unităţi minimale de discurs, de multe ori şi pe bună dreptate asociate cu unităţi de tip clauzal în numeroase
166
167
teorii sintactice, semantice, şi de discurs. Unităţile textuale de tip-clauzal obţinute (sau proiectate) prin mijloace orientate sintactic, către analiza de suprafaţă [Eng: shallow], s-au dovedit a fi esenţiale în numeroase tipuri de procesare a LN: parsare, traducere automată, generare de LN, interpretare de discurs, extragere de date lingvistice, regăsirea informaţiei, rezumare automată, rezoluţia anaforei etc. Un caz special de segmentare a textului este ceea ce numim 'chunking', un proces dedicat obţinerii unor tipuri de "segmente" [Eng: chunks] dominate de anumite categorii (verb, substantiv, adjectiv-adverb, clauză). în continuare, vom folosi doar termenul de segmentare a textului de LN, considerând chunking-u\ drept un caz particular al procesului de segmentare a LN.
în analiza şi implementarea celor doi algoritmi de segmentare, algoritmul-M şi algoritmul-SCD, cel puţin două aspecte le considerăm a fi importante: (a) Se demonstrează că algoritmul-M de segmentare este scufundat în algoritmul-SCD, ceea ce înseamnă că primul dintre cei doi algoritmi poate fi obţinut ca un caz particular al claselor de marcheri, ierarhiei acestor clase, şi a segmentării (dependenţelor) obţinute de cel de-al doilea algoritm, (b) Algoritmul-SCD de segmentare poate fi conceput ca un bun punct de start în proiectarea unui cadru general pentru algoritmii de segmentare a textului de LN. Un asemenea cadru ar fi compus din: (b1) mai multe sisteme de transformare aplicate în cascadă, fiecare sistem component fiind format din seturi şi subseturi specifice de etichete, (b2) o ierarhie stabilită între câteva dintre cele mai importante clase ale acestor etichete, şi (b3) o gramatică formală (sau un automat finit) pentru recunoaşterea (sub)secvenţelor şi arborilor de etichete (în concordanţă cu ierarhia claselor de etichete). în abordarea prezentă, aceste aspecte sunt exemplificate de către o implementare C++ a celor doi algoritmi într-un mediu specializat, o bază de date a marcherilor (de discurs) româneşti, şi o ierarhie specifică a claselor de marcheri lingvistici. Cei doi algoritmi de segmentare consideraţi sunt executaţi şi comparaţi pentru un set consistent de fraze româneşti. Posibile dezvoltări şi aplicaţii sunt menţionate în [21], [22].
Importanţa segmentării de tip clauzal a frazei în procesul de parsare a textului a fost scoasă în evidenţă încă de la începutul anilor '80, iar studii teoretice datează mult mai devreme. în România, primele lucrări ştiinţifice şi contracte de lingvistică computaţională au conţinut, printre alte realizări meritorii, şi primele încercări de realizare a segmentării automate a frazei în clauze finite (şi non-finite) [8], [9], [10], [11]. în pofida unor mijloace formale neadecvate (gramatici formale) şi de programare (reţele ATN) disponibile la acel timp, ideile principale pe care se bazau abordările menţionate nu numai că au reprezentat premiere pentru acele timpuri, dar multe din ideile de atunci îşi păstrează încă o surprinzătoare actualitate, aceste fenomene de come-back ciclic fiind frecvente (şi perfect explicabile de evoluţia tehnologică) în momentul de faţă. Trebuie menţionate aici folosirea intensivă a marcherilor de discurs (cue phrases, connectives), întâlnită şi
în [4], [5], [12], [13], a predicativităţii (apariţia categoriilor ldeverbale) [14], [15], a utilizării automatelor finite în analiza LN etc.
De fapt, o versiune a gramaticii formale preluată din [8] este folosită în Pasul 6 al algoritmului SCD-2002 de segmentare, în concatenarea marcherilor de nivel M3 şi M2 (vezi Secţiunea 4), în timp ce rudimente ale unor reguli similare din aceeaşi gramatică se regăsesc în algoritmul-M de segmentare, la compunerea acţiunilor care lucrează cu apariţia multiplă a marcherilor (de discurs) [4], [5] (vezi Secţiunea 3).
2. Segmentarea de tip clauzal cu algoritmul M-1997
Prescurtat în continuare ca "algoritmul de segmentare M-1997", sau simplu "algoritmul M-1997", algoritmul de segmentare-Marcu a frazei în unităţi de tip-clauzal [4], [5] funcţionează ca un automat finit, sau ca o reţea de tranziţie, bazat pe un set de stări şi acţiuni. în [4] se face o analiză de corpus a potenţialilor marcheri de discurs, numiţi şi "sintagme indicatoare" [Eng: cive phrases] şi "conective", cu scopul de a evalua contribuţia potenţială a diferiţilor marcheri la determinarea (delimitarea) unităţilor textuale elementare pe care sunt definite relaţiile retorice, în cadrul unităţii textuale standard care este fraza. în încercarea de a stabili principalele tipuri de funcţii ale marcherilor, şi anume de tip clauzal, frazai, de discurs, sau pragmatic, algoritmul de segmentare M-1997 consideră mai întâi următoarele trei clase de marcheri:
(Mari) în prima clasă sunt cuprinşi marcherii (sintagmele indicatoare) care joacă un rol în cadrul discursului pentru majoritatea fragmentelor de text ale corpusului analizat. Elementele din (Mari) vor fi numite în cele ce urmează "marcheri de discurs", iar specifici acestei prime clase sunt marcheri ca "deşi' [Eng: although], "pe lângă" [Eng: besides], "dacă" [Eng: if\, "atunci' [Eng: then] etc.
(Mar2) Marcherii din a doua clasă, numiţi "marcherii de frază/clauză", joacă în discurs, pentru majoritatea fragmentelor de text în care apar, rolul de adiacenţi la alţi marcheri de discurs sau clauzali. Un membru specific al clasei (Mar2) este considerat a fi "şi' [Eng: and], deoarece are rol clauzal de fiecare dată când apare înaintea altui marcher de discurs sau clauzal, cu toate că poate avea atât rol de discurs cât şi clauzal atunci când apare izolat.
(Mar3) A treia clasă conţine marcheri care s-au dovedit că joacă un rol de delimitare a clauzelor în majoritatea fragmentelor de text investigate în [4]; ei vor fi referiţi, simplu, ca "marcheri clauzali1 (sau "de clauză"). (Mar3) include, de asemenea, acei marcheri pentru care analiza de corpus nu a putut distinge între funcţia lor de discurs şi cea clauzală. "După" [Eng: after] este un astfel de element reprezentativ al (Mar3).
Marcu [4] a selectat mai mult de 450 de marcheri (pentru engleză) în cadrul analizei sale de corpus pentru marcherii de discurs şi de frază/clauză. Marcherii sunt stocaţi şi procesaţi într-o bază de date ale cărei înregistrări conţin următoarele câmpuri:
a. Câmpul denumit Example conţine un fragment de text din care a fost extras marcherul.
b. Câmpul Marker codifică marcherul însuşi, împreună cu marcherii de punctuaţie contextuali şi, atunci când este necesar, ceilalţi marcheri adiacenţi.
c. Câmpul Usage furnizează unul sau mai multe dintre rolurile funcţionale ale marcherului:
(d) Frazallclauzal (S), atunci când marcherul nu îndeplineşte nici o funcţie în structurarea discursului;
(c2) De discurs (D), când marcherul evidenţiază o relaţie de discurs între două unităţi textuale;
(c3) Pragmatic (P), dacă există o relaţie între o construcţie lingvistică (sau non-lingvistică) care conţine marcherul, şi convingerile, planurile, intenţiile şi/sau scopurile de comunicare ale vorbitorului.
d. Câmpul Break_action (acţiune de oprire) conţine un nume de acţiune din mulţimea acţiunilor ce vor fi executate în cadrul procesului de segmentare. Acest proces este controlat de către un set de semnalizatori (flaguri). Execuţia unei acţiuni din mulţimea {NOTHING, NORMAL, COMMA, NORMALJ"HEN_c6mMA, END,'mATCH_PAREN, COMMA_PAREN, MATCH_DASH, SETÂND, SET_OR, DUAL} are unul dintre următoarele efecte:
(d1) creează o margine pentru unitatea textuală elementară în string-u\
de intrare; (d2) setează un semnalizator (flag).
e. Câmpul Position specifică poziţia marcherului de discurs în cadrul unităţii textuale căreia îi aparţine. Valorile acestui câmp sunt B, M şi E, după cum marcherul este situat la început (B), în mijlocul (M) sau, respectiv, la sfârşitul (£) unităţii textuale.
3. Algoritmul de segmentare M-1997
Algoritmul M-1997 primeşte în intrare o frază S şi masivul markers[n] al marcherilor potenţiali de discurs şi clauzali din fraza S. Masivul markers[n] conţine marcherii recunoscuţi în S. Fiecare element al acestui masiv este caracterizat de către următoarea structură de trăsături:
•   Acţiunea asociată acelui marcher;
• Poziţia marcherului în cadrul unităţii textuale elementare (B, M sau £);
• Semnalizatorul hasjdiscoursejunction care iniţial este setat la valoarea "no".
Câteva dintre variabilele importante cu care lucrează algoritmul M-1997 sunt: "status", "parentheticaC şi "clauses".
Algoritmul M-1997 pentru identificarea unităţilor de tip-clauzal din cadrul unei fraze are două părţi principale:
(1) Când variabila "status" este NIL, algoritmul M-1997 execută acţiuni care pot introduce margini ale unităţii textuale sau pot modifica variabila, influenţând procesarea marcherilor ulteriori. Pentru partea (1) a algoritmului M-1997, atunci când variabila "status" \a valoarea NIL, sunt considerate următoarele situaţii:
(1a) Dacă tipul de marcher este DUAL, determinarea marginilor unităţii textuale depinde de marcherul adiacent care precede marcherul curent analizat. în această situaţie, algoritmul M-1997 setează variabila "status" la aceeaşi valoare ca şi în cazul unui marcher de tip COMMA. (1b) Dacă marcherul analizat curent nu este adiacent cu marcherul imediat
precedent, atunci este identificată o margine a unităţii textuale. (1c) Cel mai frecvent tip de marcher (şi de acţiune) este NORMAL, marcher care identifică o nouă unitate de tip clauzal a cărei margine-dreapta este dată de marcherul curent analizat. (1d)Când marcherul de tip COMMA este precedat de un marcher de discurs, sau
(1e) Tipul marcherului este NORMAL__THEN_COMMA, atunci algoritmul M-1997 identifică o nouă unitate de tip-clauzal ca şi în cazul marcherului de tip NORMAL.
în oricare dintre cazurile (1c), (1d), (1e), variabila "status" este
actualizată astfel încât o margine a unităţii textuale să fie identificată
la prima apariţie a unei virgule (COMMA). (1f) Pentru marcherul de tip NOTHING, singura acţiune constă în a atribui
marcherului o utilizare specifică discursului. (1g) Marcherii care introduc posibile apariţii de unităţi textuale parantetice
(texte între paranteze) au doar efectul de a actualiza variabila "status",
ca şi în cazul apariţiei marcherilor "sf şi "sau". (2) Atunci când variabila "status" nu este NIL, algoritmul M-1997 execută acţiuni specifice pentru a realiza:
(2a) Tratarea informaţiei din paranteze. O dată identificată o paranteză
deschisă, o linie-de-despărţire [Eng: dash] (între două asemenea
liniuţe se introduce de obicei o apoziţie sau un text explicativ), sau un
170
marcher de discurs a cărui acţiune asociată este COMMA_PAREN, algoritmul M-1997 caută prima paranteză închisă, linie-de-despărţire, sau virgulă, ignorând toţi ceilalţi marcheri întâlniţi pe parcurs. Acest tratament atrage după sine faptul că informaţiei parantetizate nu îi este atribuită nici o stare pentru unităţile textuale elementare. Totuşi, algoritmul M-1997 evită stabilirea de margini parantetizate în cazurile în care prima virgulă care urmează după un marcher COMMA_PAREN este imediat urmată de un marcher "şi" ori "sau". De menţionat este, de asemenea, că tratamentul aplicat informaţiei dintre paranteze în algoritmul M-1997 poate conduce la rezultate eronate, ca în exemplul "l-am dat lui Ion o rachetă de tenis, care i-a plăcut şi o minge de plastic, care nu i-a plăcut". Acest tip de erori poate fi evitat printr-o tratare mult mai adecvată în cadrul algoritmului de segmentare SCD.
(2b) Dacă variabila "status" conţine acţiunea COMMA, apariţia primei virgule care nu este adiacentă unui marcher "şi' ori "sau" determină identificarea unei noi unităţi elementare de discurs. Algoritmul M-1997 nu este, capabil, în general, să distingă suficient de precis între rolurile de discurs şi frazale/clauzale ale marcherilor "şi" şi "sau". Anumite situaţii sunt totuşi recunoscute ca introducând funcţii de discurs, ca de exemplu apariţia unui marcher de discurs imediat după un "şi" ori "of\ caz în care valoarea semnalizatorului has_discourse_ function este stabilită la "yes".
Forma originală a algoritmului M-1997 [4], [5] este extinsă şi îmbunătăţită în implementarea noastră pentru limba română (subsecţiunea 5.3) cu o analiză mai detaliată la nivelul ei superior, pentru apariţii multiple şi corelate ale marcherilor de discurs/clauză [7].
4. Algoritmul de segmentare SCD-2002
Această secţiune prezintă partea de segmentare şi dependenţă, în principal la nivel de clauză, desprinsă din strategia lingvistică SCD (Segmentare-Coeziune-Dependenţă) [1], [2], [3], [6], [23]. Forma actuală a algoritmului, referită în restul articolului prin prescurtarea SCD-1994, este foarte apropiată de versiunea publicată în [1], [2]. Noutatea principală a algoritmului SCD-2002 faţă de SCD-1994 constă într-o rafinare a claselor de marcheri, o nouă ierarhie a acestora, şi în noul algoritm de stabilire a segmentării şi dependenţei (structurării) clauzelor şi grupurilor sintagmatice. Vom pune în evidenţă relaţia dintre algoritmul M-1997 şi algoritmii SCD-1994 şi SCD-2002, arătând că primul este scufundat în ceilalţi doi [7].
Rezultatele obţinute prin execuţia algoritmilor de segmentare M-1997 şi SCD-2002 pe aceleaşi fraze conduc la aceeaşi concluzie: SCD-2002 are o granularitate (mult) mai fină a claselor de marcheri în comparaţie cu cea a claselor algoritmului M-1997, iar rafinarea acţiunilor implicate în SCD-2002 conduce la
delimitarea de unităţi textuale de tip-clauzal mai precise (de fapt mai corecte şi mai adecvate) decât cele obţinute de către algoritmul M-1997, preţul computaţional ce trebuie plătit pentru acest fapt rămânând să fie analizat.
Este de menţionat că segmentarea clauzală practicată de SCD-2002 este doar un aspect particular al segmentării textului, deoarece se obţin şi alte "bucăţi' mal mici de text dominate de nuclee semantice de tip N (Substantiv), V (Verb), A (Adjectiv-Adverb). Segmentarea rezultată din clasele de marcheri SCD-2002 se • află într-o strânsă relaţie cu noua teorie X-bar funcţională (FX-bar) [3], [23], o altă componentă importantă a strategiei lingvistice generale SCD.
Din schema generală FX-bar propusă în [3] se detaşează următoarele nivele de proiecţie la nivel lexical şi gramatical:
Tabelul 4.1.
Nivele de proiecţie ale schemei FX-bar (vezi [31, [231)
Marcheri
trăsătura PRED sau EXIST (OBJECT)
MO-marcher reprezintă aplicarea inflexiunii
Nivelul de Proiecţie
nivel de lexicon; prin convenţie, (BAR = -1)
XO
(BAR = 0)
M1-marcher se aplică nucleului XO M1(X0)=X1
Structura gramaticală
[forma de dicţionar
a cuvântului;
X = N,V, A, Pron,
forma lexicală (de text) a cuvântului; X=N,V, A, ...
X1 =CL0;(BAR=1) poate fi identificat şi cu nivelul 0 de proiecţie a clauzei, BAR-CL = 0
Exemple
\a ploua
^conducere (trăsătura ; PRED) {clădire (trăsătura EXIST, înţelesul obiectual) clădire (PRED, pentru
înţelesul acţionai) creion (EXIST) filouă
M2-marcher se aplică .proiecţiei X1 M2(X1)=X2=CL1 M2 se aplică unei singure clauze tM3(CL1,CL1)=CL2 marcheri de discurs; M3 se aplică la două sau mai multe clauze
sintagme XG (X=N, V, A), i.e. grupuri nominale, verbale, adjectivale ladverbiale_
orice steag alb ploua
aleargă repede \nu aleargă deloc foarte bine studiat
proiecţia X2 = C
BAR = 2
şi BAR-CL = 1
nivelul de proiecţie X3 = CL2; BAR = 3 si BAR-CL = 2
relaţii de discurs între clauze finite
Măria i-a dat un măr
fiicei sale. O femeie dăruind un măr unui bărbat conţine o [clauză infinită. Dacă plouă atunci plec mai devreme şi îmi iau şi \umbrela.
172
4.1. Clasele de marcheri pentru algoritmul SCD-2002
Pentru algoritmul de segmentare SCD-2002 propunem o anumită rafinare a claselor de marcheri şi a ierarhiilor acestor clase din [1], [2], [7], schimbări ce constau în următorul set de marcheri, în concordanţă cu Tabelul 4.1. de mai sus: M3 = { marcheri (de discurs) inter-clauzali}.
Clasa de marcheri M3 este formată din funcţii sau relaţii (atunci când marcherii sunt corelaţi), având ca argumente două sau mai multe clauze finite (unele dintre ele pot fi infinite). Aceşti marcheri sunt ceea ce [4], [5], precum şi alte abordări numesc "marcheri de discurs", şi se aplică proiecţiilor sintactice de nucleu X2 = CL1 (şi de nivel X3), de tip clauzal în teoria FX-bar (vezi Tabelul 4.1.).
M3 poate fi partiţionată în următoarele subclase (în ordinea descrescătoare a priorităţii de definire a relaţiilor de dependenţă - vezi Fig. 4.1.1.):
M33 = {marcheri (de discurs) inter-clauzali care introduc o dependenţă (neambiguă) de supra-ordonare strictă}. Supra-ordonarea strictă înseamnă ridicarea efectivă a (cel puţin) unui nivel de dependenţă clauzală, şi este . reprezentată de marcheri precum "atuncf, "altfef etc.
M32 = {marcheri (de discurs) inter-clauzali care introduc dependenţă de supra-ordonare, incluzând semnele de punctuaţie precum două puncte, punct-şi-virgulă, paranteză închisă, linie-de-despărţire etc.}. Supra-ordonarea presupune ridicarea unuia sau mai multor nivele de dependenţă clauzală, sau rămânerea pe acelaşi nivel de dependenţă în cadrul unei dependenţe de tip-coordonare. Exemple tipice de marcheri din clasa M32 sunt "daf\ "aşadaf, "chiar", "lajeljde)", "în__comparaţieJcu)" etc.
M31 = {marcheri (de discurs) inter-clauzali care introduc unul sau mai multe nivele de dependenţă de sub-ordonare, incluzând semne de punctuaţie ca paranteza deschisă, linia-de-despărţire etc.} Aceasta este o clasă largă de marcheri de discurs formată din numeroase tipuri de relaţii între clauze: logice, sintactice, semantice, pragmatice etc.
Aşa cum a fost menţionat mai sus, fiecare dintre clasele M33, M32 şi M31 poate, la rândul ei, să fie partiţionată în subclase care conţin marcheri de tip relaţional (exprimaţi prin corelaţie), ce stabilesc relaţii între clauze, sau ca funcţii de clauze (cu cel puţin două argumente).
M2 = { marcheri care introduc o clauză (finită sau infinită), sau un grup sintagmatic al cărui nucleu semantic este una din categoriile sintactice predicaţionale N, V, A }. Compusul sintactic (sau grupul sintagmatic în termenii [3]) XG, X = N, V, A, poate fi asimilat unei clauze degenerate, infinite (vezi Tabelul 4.1) în cazul X = N, A.
M2 este divizată în următoarele subclase (în ordinea descrescătoare a priorităţii de introducere a relaţiilor de dependenţă):
173
M25 = {marcheri care introduc clauza relativă}.
Explicaţia constă în faptul că o clauză relativa reprezintă cea mai complexă unitate sintagmatică ce joacă rol de modificator, şi care se aplică nucleului NG al clauzei relative:
M24 = {apariţia unui grup verbal finit (FVG) sau, echivalent, apariţia valorii FINITE pentru trăsătura TENS atribuită unui verb, introducând deci o clauză finită}.
întregul grup verbal poate moşteni valoarea trăsăturii FINITE dacă nucleul său V sau altă componentă importantă din VG poartă această valoare a trăsăturii TENS (de exemplu, auxiliarul din VG).
M23 = {apariţia unei sintagme predicaţionale XG (sau X1), X=V, N, A, al cărei nucleu semantic este o categorie predicaţională, purtând valoarea PRED = ACT (posibil încă la nivel de lexicon), şi introducând astfel o clauză infinită}.
Clasele de marcheri M24 şi M23 introduc structuri de nivel-X2, şi anume clauze finite sau infinite, formate dintr-o sintagmă X1 (sau grup XG, X = N, V, A) care reprezintă nucleul semantic, finit (TENS = FINITE) sau predicaţional (PRED = ACTional), al structurii de nivel-X2, urmată de sateliţi (argumente şi/sau adjuncţi) corespunzători de tip NG (inclusiv NG-uri prefixate de o prepoziţie, deci clasica sintagmă PP). Unele dintre argumente, cum este cazul subiectului gramatical, pot preceda nucleul semantic de tip X1 al clauzei căreia îi aparţin [3]. Să mai precizăm că există o ordine sistemică (canonică) [18], [19], a sateliţilor, sau "actanţilor" (argumente şi adjuncţi) dintr-o clauză (finită sau infinită): ACT(or), PAT(ient), ADDR(essee), ORIG(ine), LOC(ation) etc. Ordinea canonică este specifică fiecărui LN, si se poate obţine în urma unei cercetări statistice si lingvistice foarte atente [18].'
Putem găsi recent un principiu de predicativitate similar cu cel folosit în strategia lingvistică SCD, şi aplicat la sintagmele nominale din limba italiană [14], sau la adjectivele "deverbale" [14], [16]. în timp ce predicativitatea verbelor este frecventă şi naturală, trăsătura de nepredicativitate [17, p. 22] (de fapt, nepredicaţionalitate) a verbelor de tip existenţial este şi ea la fel de frecventă (formele lui "a fi'), valoarea lor FINITE, dublată sau nu de valoarea trăsăturii PRED = ACT, anunţând totuşi apariţia unei clauze finite.
M22 = {marcheri care introduc relaţii de tip-JOIN, adică conjuncţii de tipul V. "sau", ulajel_ca_(şi)", "împreunăjcu)"}.
M21 ={ COMMA (sau VIRGULA) }.
Clasele M22 şi M21 cuprind marcheri cu un grad important de ambiguitate deoarece pot introduce orice structură de tip X1 (grupuri XG, X = N, V, A) sau X2 (clauze finite sau infinite).
M1 = { marcheri care delimitează (introduc) structuri XG }.
174
Conform strategiei SCD şi teoriei FX-bar [3], [23], clasa de marcheri M1 constă în marcheri de r?/Ve/-X1, X = N, V, A, adică marcheri care se aplică construcţiilor sintactice de nivel-X'\ (denotat şi XG, şi numit X-grup). Aceste sintagme constau, de fapt, dintr-un nucleu semantic înconjurat de modificatori (adjective sau adverbe) şi/sau specificatori (sau cuantificatori, unii generalizaţi, printre cuantificatori incluzându-se determinatorii, negaţia etc).
Aşa cum există o ordine sistemică a sateliţilor unui nucleu semantic într-o clauză (sintagmă de nivel-X2), în mod similar există o "ordine structurală", dată de "distanţa" modificatorilor, cuantificatorilor, prepoziţiilor etc. faţă de nucleul XO, pentru constituenţii unei sintagme de nivel-X1. Astfel, în limba română (franceză, engleză), cel mai "apropiat" faţă de nucleul XO trebuie să fie modificatorul (adjectivul sau adverbul), urmează apoi cuantificatorul (care ocupă locul modificatorului dacă acesta lipseşte), apoi prepoziţia (ad-poziţia, în general) etc. De exemplu, nu este sintactic corectă sintagma frumos orice copif\ sau "orice frumos pe copif. Nucleul XO înconjurat de modificatori şi/sau specificatori (cuantificatori) poate fi marcat funcţional prin pre-poziţii (în cazul grupului nominal NG din română, engleză, franceză), dar şi prin post-poziţii (în cazul NG sau VG din engleză sau germană). Marcarea clitic-funcţională (prin particule pre- sau post-poziţionale) poate exprima cazul (pentru NG), sau timpul, semantica (pentru VG) etc. Principalele elemente componente ale unei structuri XG corespund şi subclaselor de marcheri ai clasei M1.
M1 poate fi divizată în subclase de marcheri, subclase utile în delimitarea substructurilor XG (X1), X = N, V, A, în conformitate cu un criteriu cum este distanţa dintre nucleul semantic XO şi elementele funcţionale care îl "înconjoară"', un asemenea nucleu este, în ultimă instanţă, un substantiv comun obiectual (numit şi autosemanticîn [19]), un nume propriu, sau un substantiv personalizat (dar fără nume propriu, denominalizat).
M14 = {apariţia unui substantiv comun obiectual (nepredicaţional, autosemantic), a unui nume propriu, sau a unui substantiv personalizat denominalizat}
M13 = {apariţia unui modificator (adjectiv, adverb, adjectiv pronominal)} M12 = {apariţia unui cuantificator (generalizat)}
M11 = { pre-poziţii sau post-poziţii exprimând cazul (pentru N), timpul sau semantismul (pentru V) etc }
Ultima clasă de marcheri, notată MO (sau M00 pentru uniformitate), şi ai cărei marcheri se aplică formei de dicţionar a cuvântului, este reprezentată de rolul funcţional al flexionării.
Recapitulând, clasele de marcheri considerate de strategia lingvistică SCD, în particular de algoritmul de segmentare SCD-2002, pot fi reprezentate grafic de următoarea ierarhie [7]:
175
nivel (de discurs) Inter-clauzal
nivel-Clauzal
nivel-XGrup
nivel-Cuvânt (lexical)
M33 -> M32 -> M31
M25 -> M24 -> M23 -> M22 -> M21
nivel - X2 = CLI
î î
M14 -> M13 ~> M12 -> MII
M00
nivel - XI = CLO
nivel - XO
Figura 4.1.1. Clasele de marcheri SCD-2002 şi ierarhia lor
Orientarea arcelor din Fig. 4.1.1., stabilite între clasele şi subclasele de marcheri, provine dintr-o ordine de prioritate descrescătoare între marcherii consideraţi, şi este reprezentată mai jos prin relaţia ">" dintre clasele şi subclasele de marcheri. Această ierarhie este o ipoteză de bază impusă în strategia lingvistică SCD şi, prin consecinţă, şi în algoritmul de segmentare SCD [7].
(4.1.2)
(4.1.3)
VQ = 1+4)       M(k+1)(i+1)   * M(k+1)j (k = 0+2);
V(k = 0+2)      M(k+1)i > Mkj 0 = 1+5), Q = 0+5).
Aceste inegalităţi ne spun că marcherii din subclasa M(k+1)(j+1) sunt de prioritate mai mare în comparaţie cu marcherii din subclasa M(k+1)j, (k = 0+2), (j = 1+4), în cadrul aceleiaşi clase M(k+1) de marcheri aflată pe acelaşi nivel de proiecţie lingvistică, iar marcherii din aceeaşi clasă M(k+1) au o prioritate mai mare faţă de marcherii din clasa Mk de pe nivelul inferior de proiecţie lingvistică.
Această ierarhie a marcherilor şi claselor de marcheri este considerată de noi ca fiind validă pentru limba română. Probabil că anumite modificări vor fi necesare când se trece de la un LN la altul. Dacă ne situăm în domeniul mai restrâns al limbajelor indo-europene (cum sunt franceza, engleza, germana, italiana, spaniola, posibil rusa), se poate aprecia că structurile şi clasele de marcheri propuse în Tabelul 4.1. şi Fig. 4.1.1. rămân aceleaşi sau foarte asemănătoare, cu anumite modificări parametrizate în funcţie de limbaj.
4.2. Algoritmul SCD-2002 de segmentare şi stabilire a dependenţelor
Urmând algoritmii de segmentare şi dependenţă (numiţi şi meta-algoritmi SCD) propuşi în [1] şi [2] (denotaţi în continuare SCD-1994), rafinaţi cu clasele de marcheri considerate în subsecţia precedentă, se obţine forma prezentă a algoritmului de segmentare SCD (denotată SCD-2002), conform [7]. Dezvoltăm aici forma secvenţial-liniară a acestui algoritm, însă în [1] sunt expuse şi o formă secvenţial-recursivă, ca şi o versiune paralelă a algoritmului. O formă "inversată" (pentru care în intrare avem un arbore de derivare sau o formulă logică, iar în ieşire - ca şi în intrarea în algoritmul standard - avem o frază) poate fi folosită pentru a ghida procesul de generare a unei fraze de LN [2], schimbând operaţia de recunoaştere a marcherilor cu cea de generare a lor, şi analiza (parsarea) compuşilor sintactici cu generarea lor.
în descrierea algoritmului de segmentare SCD-2002 sunt folosite câteva operaţii al căror înţeles este bine să fie precizat de la început.
(4.2.a) Recunoaşterea marcherilor înseamnă inserarea în text a unor etichete adecvate, ce corespund marcherilor care realizează delimitarea unităţilor textuale sintactice, semantice, şi de discurs.
(4.2.b) Verificarea marcherului înseamnă preluarea, din baza de date a marcherilor, a celor mai importante valori din structura de trăsături a acelui marcher.
(4.2.c) Segmentarea implică o analiză liniară (parsare) a secvenţei de etichete de marcheri, şi recunoaşterea unei subsecvente (eventual discontinuă) care face parte din secvenţa originală de etichete de marcheri.
(4.2.d) Recunoaşterea structurii sintactice înseamnă segmentarea şi recunoaşterea structurilor sintactice elementare cum sunt NG, VG, AG, clauza infinită, şi clauza finită.
(4.2.e) Compunerea structurilor (de dependenţă) constă în stabilirea dependenţelor (sub-ordonare, co-ordonare, supra-ordonare). succesive dintre structurile sintactice recunoscute, pe baza rolului funcţional specific al marcherilor care delimitează aceste structuri, şi utilizând ierarhia corespunzătoare dintre clasele cărora le aparţin aceşti marcheri (vezi Fig. 4.1.1. şi relaţiile 4.1.2.-4.1.3.).
Algoritmul de segmentare SCD-2002 StepOI. Recunoaşterea pe text a marcherilor din clasa M3; StepOI. Recunoaşterea pe text a marcherilor din clasa M2;
Step03. Verificarea contextuală şi recunoaşterea apariţiei corelate a marcherilor
de tip M3 şi M2(1); Step04. Segmentarea frazei în clauze finite;
Step05. Segmentarea (chunking), dacă este necesar, a clauzelor finite în clauze infinite;
[Stop: Dacă scopul procesării este de a obţine o structură liniară a clauzelor finite
şi/sau infinite din frază]. Step06. Verificarea marcherilor M3 şi stabilirea relaţiilor de dependenţă inter-
clauzală(2);
[Stop: Dacă scopul procesării este doar de a obţine arborele de dependenţă a
clauzelor finite (şi infinite) din frază]. Step07. Recunoaşterea pe text a marcherilor din clasa M1; Step08. Verificarea contextuală şi recunoaşterea (eventualei apariţii corelate) a
marcherilor M1(3); Step09. Recunoaşterea structurilor XG (X = N, V, A)(4);
Step 10. Verificarea marcherilor M24 şi M23, şi stabilirea relaţiilor de dependenţă dintre structurile infinite, intra-clauzale de tip XG(5);
[Stop].
Indicii superiori (n) care apar în algoritmul de mai sus corespund următoarelor remarci:
(1) Marcherii corelaţi pot fi reprezentaţi ca upluri ordonate (liste) de marcheri.
(2) Relaţiile de dependenţă clauzală pot fi stabilite (ca în [8, Anexa 9, p. 108], de exemplu) prin utilizarea unei gramatici formale (ambigue) definită pe secvenţe de marcheri din (sub)clasele M3, M25, M22, şi M21.
(3) Marcherii complecşi pot fi sintagme sau expresii de tipul gradelor de comparaţie a adjectivelor, diferiţi cuantificatori generalizaţi etc.
(4) în execuţia acestui pas se realizează parsarea sintagmelor XG dintr-o clauză finită şi infinită.
(5) Dependenţele dintre structurile de tip XG sunt stabilite în principal prin utilizarea trăsăturilor şi valorilor de trăsături TENS = FINITE sau INFINITE, şi PRED = ACT sau EXIST, pe care le posedă nucleele semantice ale sintagmelor XG, X = N, V, A (a se vedea [3], [23]). Aceste valori pot fi moştenite din reprezentarea de lexicon a cuvintelelor care poartă aceste trăsături şi care formează XG, sau pot fi dobândite de către nucleul semantic al XG în procesul de recunoaştere (parsare) a structurii.
178
179
5. Compararea algoritmilor de segmentare
5.1. Algoritmii de segmentare SCD-1994 şi SCD-2002
Algoritmii SCD-1994 expuşi în [1], [2] se bazează pe patru (sub)clase principale de marcheri, denotate acolo prin (clasele de) "1-marcheri" până la "4-marcheri". Aceste subclase de marcheri din SCD-1994 corespund următoarelor (sub)clase de marcheri din prezentul algoritm SCD-2002 [7]:
(5.1.1) 1-marcheri = M3uM25uM22;
2- marcheri = M24;
3- marcheri = M23;
4- marcheri = M21 u M1
Prezentăm în continuare algoritmul de segmentare SCD-1994 (în forma secvenţial-recursivă), aşa cum a fost expusă în [1, p.68-69], având ca scop parsarea LN. Algoritmul SCD-1994 (în forma secvenţial-liniară) şi destinat sarcinii de generare a LN este prezentat în [2, p. 172-173].
Algoritmul de segmentare SCD-1994 în formă secvenţial-recursivă (SR)
StepOI. Recunoaşterea marcherilor de clauză.
Step02. Recunoaşterea sintagmelor VG (grupuri verbale) finite şi infinite. Step03. Verificarea contextuală a marcherilor. Step04. Segmentarea clauzală. Step05. Segmentarea sub-clauzală. Step06. Recunoaşterea 1-marcherului;
Recunoaşterea 1-structurii:
Wait-until 1-structura este completă. Step07. Recunoaşterea 2-marcherului;
Recunoaşterea 2-structurii:
Wait-until structura de nivel-X2 este completă*. Step08. Recunoaşterea 3-marcherului;
Recunoaşterea 3-structurii. Step09. Recunoaşterea 4-marcherului;
Procesarea 4-structurii. SteplO. 3-structură completă?
Nu: Go-to Step08.
Da: Compune 3-structuri; Go-fo Stepl 1. Step11. 2-structură completă ? Nu: Go-to Step07.
Da: Compune 2-structuri; Go-to Stepl 2. Stepl 2.1-structură completă ? Nu: Go-to Step06.
Da: Compune 1-structuri; Go-to Stop.
Stop.
* Structuri AX-bar (în original, în [1]), înţelegând structuri sintactice derivate din schemele X-bar augmentate, definite în [20] şi extinse în [3]. Scopul acestui pas al algoritmului este de a completa clauza finită introdusă printr-un grup verbal finit.
Principala problemă cu algoritmul de segmentare şi dependenţă SCD-1994 (forma SR) este că sunt necesare "multiple nivele de recursie pentru a completa şi compune structurile" [1, p.69].
5.2. Algoritmii de segmentare M-1997 şi SCD-2002
în această subsecţiune vom arăta că algoritmul de segmentare M-1997 este scufundat în algoritmul SCD-2002 (de fapt, şi în SCD-1994) [7].
M-1997 este un algoritm de "suprafaţă" destinat segmentării discursului în unităţi textuale de tip-clauzal. în timp ce, pentru acest scop, M-1997 foloseşte numai marcheri de discurs {"cue phrases" sau conective), algoritmul SCD-2002 utilizează un set de clase de marcheri mai larg şi în acelaşi timp mai rafinat, set care include clasele de marcheri din M-1997 ca un caz particular. Mai precis, relaţiile dintre clasele de marcheri Mari, Mar2, şi Mar3 (vezi Secţiunea 2) utilizate pentru M-1997, şi clasele de marcheri Mkj ale algoritmului SCD-2002 sunt următoarele:
(5.2.1) Mari u Mar2 u Mar3 c M3 u M25 u M22 u M21 sau, posibil, mai precis:
(5.2.2) Mari u Mar3 cM3u M25şiMar2 c M22 u M21
Diferenţa dintre algoritmii M-1997 şi SCD-2002 nu constă doar în faptul că al doilea algoritm are un număr mai mare de clase, care sunt mai fine (mai precise), ci, mai important este faptul că aceste clase formează un sistem ierarhic (expus în Fig. 4.1.1.) ce este utilizat în procesele de segmentare şi de stabilire a dependenţelor. SCD-2002 furnizează noi clase de marcheri, cum sunt M23 şi M24 (apariţia categoriilor predicaţionale şi/sau având un timp finit), precum şi clasa M1,
180
181
cu subclasele sale (apariţia unor componente ale sintagmei XG, X = N, V, A). Acesta este un prim argument din care rezultă că M-1997 este scufundat în SCD-2002. "Scufundarea" este un termen care reflectă, de fapt, un proces de rafinare şi de creştere a preciziei în calculul marginilor (limitelor) unităţilor textuale şi a dependenţelor dintre ele, pentru SCD-2002 în comparaţie cu M-1997.
Al doilea argument important care susţine validitatea relaţiei afirmate între cei doi algoritmi este următorul: fiecare acţiune din M-1997 are un corespondent într-o operaţie (sau o mulţime de operaţii) din algoritmul SCD-2002 (subsectiunea 4.2).
Pentru segmentare, algoritmul M-1997 asociază fiecărui marcher, în baza de date a marcherilor, o anumită acţiune ce este statistic determinată de către analiza de corpus efectuată în [4], Corespondenţa dintre operaţiile algoritmul-SCD, şi o acţiune din algoritmul-M, se face în felul următor:
(5.2.a) Acţiunea (şi marcherii) NORMAL din algoritmul-M are acelaşi efect cu operaţiile de procesare a marcherilor de discurs din clasa M3 a algoritmului-SCD. Când este întâlnit un asemenea marcher, aceasta înseamnă că o clauză (în SCD-2002) sau o unitate de tip-clauzal (în M-1997) este pe cale de a se încheia şi o altă clauză, respectiv unitate de tip-clauzal, este probabil că va începe.
(5.2.b) Acţiunile COMMA, SET_AND, şi SET_OR din algoritmul-M sunt folosite pentru a dezambiguiza rolul unor marcheri din M3 pentru care nu se poate aplica întotdeauna regula generală (acţiunea NORMAL). Aceşti marcheri sunt următorii pentru limba română:"," [Eng: comma], "şi\ şi "sau". Rolul acestor marcheri este ambiguu deoarece comportamentul lor nu este uniform în cadrul delimitării unităţilor textuale. SCD-2002 rezolvă aceste cazuri cu ajutorul utilizării unei gramatici formale de marcheri care descrie principalele reguli de delimitare şi dependenţă a clauzelor (în limba română). Această gramatică (vezi indicele superior (2) din SCD-2002 şi remarca corespunzătoare) are ca scop să recunoască secvenţele cele mai frecvente de marcheri din clasele M3 şi M2. Numai câteva dintre aceste reguli sunt incorporate în mod explicit în algoritmul M-1997 original.
(5.2.c) O unitate de tip-clauzal din M-1997 nu este în mod necesar o clauză finită în sensul gramatical al noţiunii, aşa cum este folosit în algoritmul-SCD. O asemenea unitate de tip-clauzal, în sens M-1997, poate fi o întreagă frază, formată din mai multe clauze finite. M-1997 foloseşte, de fapt, pentru segmentarea liniară a frazei în unităţi de tip-clauzal numai trei reguli din cele folosite de SCD-2002, iar aceste reguli sunt sintetizate de către acţiunile COMMA, SET_AND, SET_OR.
(5.2.d) Acţiunile MATCH_PAREN, MATCH_DASH, COMMA_PAREN sunt utilizate de către M-1997 pentru a delimita acele întinderi de text cate pot fi omise atunci când fraza este segmentată în unităţi de tip-clauzal. Aceste părţi "explicative" din text, considerate a nu fi importante, sunt, în text, puse între paranteze, (perechi de) liniuţe-de-despărţire, sau (perechi de) virgule. Algoritmul M-1997 nu tratează aceste întinderi "parantetizate" de text ca fiind unităţi de tip-clauzal propriu-zise, ci le consideră doar ca fiind scufundate în unitatea de tip-clauzal de care aparţin. Pentru SCD-2002, aceste acţiuni M-1997 nu au un corespondent specific deoarece paranteza (închisă şi deschisă), virgula, şi liniuţa-de-despărţire sunt tratate ca marcheri de discurs (M3), şi fac parte din gramatica de marcheri compuşi (concatenaţi) care este asociată cu algoritmul SCD-2002 de segmentare şi dependenţă a clauzelor dintr-o frază.
(5.2.e) Din acelaşi motiv ca cel menţionat mai sus, în (5.2.d), acţiunile DUAL, NORMAL_THEN_COMMÂ din M-1997 nu au, nici ele, un corespondent explicit în SCD-2002; aceste două acţiuni sunt de asemenea înglobate în gramatica formală de secvenţe de marcheri de discurs, care se dovedeşte a fi, în mod clar, mai generală, uşor de extins (sau de restrâns), este dependentă de LN specific analizat, şi modelează comportamentul marcherilor simpli şi compuşi (concatenaţi) de tip M3 şi M2. Relaţiile (5.2.1-2) şi observaţiile (5.2.a-e) demonstrează că algoritmul de segmentare M-1997 este (chiar strict) scufundat în algoritmii-SCD (atât SCD-2002 cât şi SCD-1994) [7]. Acest fapt, stabilit teoretic aici, este confirmat de către rezultatele empirice ale implementărilor, prezentate în subsectiunea care urmează.
5.3. Execuţia segmentării pentru algoritmii M-1997 şi SCD-2002
Actuala etapă de implementare a algoritmilor de segmentare [7] este prezentată în exemplele care urmează. Step06 din SCD-2002, şi Step12 din SCD-1994 stabilesc relaţiile de dependenţă inter-clauzală, folosind o gramatică formală pentru marcherii de discurs, simpli şi compuşi (concatenaţi), din clasele M3 şi M2. Această fază a algoritmului nu este încă implementată, în prezent. Să menţionăm că stabilirea dependenţelor intra-clauzale este (parţial) implementată prin utilizarea, pentru moment, (numai) a subclaselor M2 şi M1 de marcheri. Marginile inter-clauzale din text sunt reprezentate prin paranteze pătrate, în timp ce pentru marginile şi dependenţele intra-clauzale sunt folosite parantezele rotunde (obişnuite). Indicii inferiori ai parantezelor pătrate arată numărul curent al unităţilor textuale de tip-clauzal din algoritmul M-1997, respectiv numărul curent al clauzei obţinute din algoritmul SCD-2002.
1<
m
182
Exemplul 5.3.1.
Ex.5.3.1.Tag. (Etichetarea morfologică realizată cu mediul TexTag - vezi Fig. 5.4.1. şi Fig. 5.4.2.)
<NSRYI23,0>Câmpul</NSRY123,0> <V3,24,0>era verde</V3,24,0>
<CR,25,0>şi</CR,25,0> <NSRY,26,0>viţa</NSRY,26,0> <S,27,0>de</S,27,0> <NSRN,28,0>vie</NSRN,28,0> <PXA,29,0>se</PXA,29,0> <V3,30,0>acoperise<A/3,30,0> <S,31,0>cu</S,31,0> <NPN,32,0>lăstari</NPN,32,0> <APN,33,0>verzi</APN,33,0><COMMA,34,0>,</COMMA,34,0> <NPRY,35,0>copacii</NPRY,35,0> <S,36,0>de pe</S,36,0> <NSRY,37,0>marginea</NSRY,37,0> <NSOY,38,0>şoselei</NSOY,38,0>
<V3,39,0>înfrunziseră</V3,39,0> <CR,40,0>şi</CR,40,0> <NSRY,41,0>briza</NSRY,41,0> <V3,42,0>sufla</V3,42,0> <S,43,0>dinspre</S,43,0>
<NSRN,44,0>mare</NSRN>44,0><POINT,45,0>.</POINT,45,0> Ex.5.3.1.Mar. (Rezultatul segmentării (fără dependenţe), obţinut prin aplicarea
algoritmului M-1997 în cadrul mediului ClauSEGM - vezi Fig. 5.4.3.) [Câmpul era verde şi viţa de vie se acoperise cu lăstari verzi, copacii de pe
marginea şoselei înfrunziseră şi briza sufla dinspre mare.]i Ex.5.3.1.SCD. (Rezultatul segmentării (fără dependenţe), obţinut prin aplicarea
algoritmului SCD-2002 în cadrul mediului ClauSEGM - vezi Fig.
5.4.4.)
[(Câmpul) era verde ^ şi[ (viţa) (de (vie)) se acoperise (cu (lăstari) (verzi)) h ,[ (copacii) (de pe (marginea (şoselei))) înfrunziseră ]3 şi[ (briza) sufla (dinspre (mare)). ]4
Exemplul 5.3.2.
Ex.5.3.2.Tag.
<S,1,0>în</S,1,0> <NSN,2,0>întuneric</NSN,2,0> <V2,3,0> ai fi zis</V2,3,0> <C,4,0>că</C,4,0> <V3,5,0>fulgeră <A/3,5,0> <R,6,0>ca</R,6,0> <NSRY,7,0>vara</NSRY,7,0> <COMMA,8,0>,</COMMA,8,0> <C,9,0>dar</C,9,0> <NPRY, 10,0>nopţile</NPRY,10,0> <V3,11,0>erau reci<A/3,11,0> <CR,12,0>şi</CR,12',0> <QZ,13,0>nu</QZ,13,0> <PPSD, 14,0>ţi</PPSD,14,0> <PXA,15,0>se</PXA,15,0> <V3,16,0> părea</V3,16,0> <R,17,0>deloc</R,17,0> <C,18,0>că</C, 18,0> <PXA,19,0>se</PXA,19,0> <V3,20,0>apropie</ V3,20,0><NSRY,21,0>furtuna</NSRY,21,0><POINT,22,0>.</POINT,22,0>
183
Ex.5.3.2.Mar.
[în întuneric ai fi zis ]i [că fulgeră ca vara, ]2 [dar nopţile erau reci şi nu ţi se părea deloc ]3 [că se apropie furtuna. ]4 EX.5.3.2.SCD.
[(în (întuneric)) ai fi zis ]i [că fulgeră (ca (vara)) ]2, [ dar (nopţile) erau reci ]3 şi [ nu (ţi) se părea (deloc )]4 [că se apropie (furtuna ).]5
Exemplul 5.3.3.
Ex.5.3.3.Tag.
<NSRY,46,0>Poarta</NSRY,46,0> <V3,47,0>era deschisă </V3,47,0> <COMMA,48,0>,</COMMA,48,0> <TSR,49,0>un</TSR,49,0> <NSN,50,0>soldat </NSN,50,0> <V3,51,0>şedea<A/3,51,0> <S,52,0>la</S,52,0> <NSN, 53,0>soare< /NSN,53,0> <S,54,0>pe</S,54,0> <TSR,55,0> o</TSR,55,0> <NSRN,56,0> bancă</NSRN,56,0><COMMA, 57,0>, </COMMA,57,0> <TSR,58,0>o</TSR,58,0> <NSRN, 59,0>ambulanţă</NSRN,59,0> <V3,60,0>aştepta<A/3,60,0> <S,61,0>ia </S,61,0> <NSRY, 62,0>uşa</NSRY,62,0> <S, 63,0>de</S,63,0> <NSN,64,0> serviciu</NSN,64,0> <CR, 65,0>şi</CR,65,0> <VG,66,0>intrând<A/G,66,0> <V1,67,0> am simţit</V1,67,0> <NSRY,68,0>mirosuK/NSRY,68,0> <NSOY,69,0> pardoselii</NSOY,69,0> <S,70,0>de</S,70,0> <NSRN,71,0>marmură</NSRN,71,0> <S,72,0>şi</S,72,0> <S,73,0>de</S,7310> <NSN,74,0>spital</NSN,74,0><POINT, 75,0>.</POINT,75,0>
Ex.5.3.3.Mar. (întindere de text între paranteze acolade {...}) [Poarta era deschisă, {un soldat şedea la soare pe o bancă,} o ambulanţă aştepta la uşa de serviciu şi intrând am simţit mirosul pardoselii de marmură şi de spital.
Ex.5.3.3.SCD.
[(Poarta) era deschisă ]-\ ,[ (un (soldat)) şedea (la (soare) (pe (o (bancă)))) k ,[ (o (ambulanţă)) aştepta (la (uşa) (de (serviciu))) ]3 şi[ intrând am simţit (mirosul (pardoselii)) (de (marmură) (şi (de (spital)))). ]4
Exemplul 5.3.4.
Ex.5.3.4.Tag.
<NPRY,1,0>Trupele</NPRY,1,0> <V3,2,0>treceau<A/3,2,0> <S,3,0>pe lângă</S,3,0><NSRN,4,0>casă</NSRN,4,0><COIv1MA,5,0>,</COMMA,5,0> <S, ' 6,0>pe</S,6,0> <NSRN,7,0>şosea</NSRN,7,0><COMMA,8,0>></COMMA,8,0> <CR,9,0>şi</CR,9,0> <NSRY,10,0>praful</NSRY,10,0> <RELO,11,0>pe care</ RELO.H.OxZ.^.O^/Z.^.OxPPSA.IS.OH^PPSA.IS^ <V3,14,0>ridicau</ V3,14,0> <PXA,15,0>se</PXA,15,0> <V3,16,0>astemea<A/3,16>0> <S,17,0>pe
</S,17,0> <NPRY, 18,0>frunzele</NPRY,18,0> <NPOY, 19,0>copacilor</NPOY, 19,0><POINT,20,0>.</POINT,20,0>
Ex.5.3.4.Mar.
[Trupele treceau pe lângă casă, pe şosea, şi praful^ [pe care-l ridicau se aşternea pe frunzele copacilor.]2
Ex.5.3.4.SCD. (clauză relativă - atributivă)
[(Trupele) treceau (pe lângă (casă)) , (pe (şosea)) ]t ,[ şi (praful) [pe care-(I) ridicau se aşternea (pe (frunzele (copacilor )))]2 .]3
Exemplul 5.3.5.
Ex.5.3.5.Tag.
<QZ,76,0>Nu</QZ,76,0> <PPSA,77,0>m</PPSA,77,0><Z,78,0>-</Z,78,0> <V3,79,0>a văzut<A/3,79,0> <CR,80,0>şi</CR,80,0> <QZ,81,0>n</QZ,81,0><Z, 82,0>T?</Z,82,0><V1,83,0>am ştiut</V1,83,0> <C,84,0>dacă</C,84,0> <V3,85,0> e</V3,85,0> <NSRY,86,0>cazuK/NSRY,86,0> <C,87,0>să</C,87,0> <PPSA, 88,0>mă</PPSA,88,0> <V1,89,0>duc<A/1,89,0> <S,90,0>la</S,90,0> <PPS,91,0> el</PPS,91,0> <C,92,0>să</C,92,0><Z,93,0>-</Z,93,0><PPSA,94,0>i</PPSA, 94,0> <V1,95,0>raportez<A/1,95,0> <C,96,0>că</C,96,0> <V1,97,0>am sosit</ V1,97,0> <C,98,0>sau dacă</C,98,0> <QZ,99,0>nu</QZ,99,0> <V3,100,0>e mai bine</V3,100,0> <C,101,0>să</C,101,0> <PPSA,102,0>mă</PPSA,102,0> <V1, 103,0>duc<A/1,103,0> <C, 104,0>să</C,104,0> <PPSA, 105,0>mă</PPSA, 105,0> <V1,106,0>aranjez<A/1,1 G6,0> <R,107,0>putin</R, 107,0><POINT, 108,0>.</POINT, 108,0>
Ex.5.3.5.Marc.
puţin. ]8 J 1— "uo,,wl uine Je isa ma duc ]7 [să mă aranjez
Ey.fi.3 «ţsrn
EX.5.3.5.SCD.
[Nu (m)-a văzut ]i şi[ n-am ştiut ]2 [dacă e (cazul) ]3 [să (mă) duc (la (el)) ]4 [să-(i) raportez ]5 [că am sosit ]6 [sau dacă nu e mai bine ]7 [să (mă) duc ]8 [să (mă) aranjez (puţin), ]9
Exemplul 5.3.6.
Ex.5.3.6.Tag.
<NSRY,109,0>Fereastra</NSRY,109,0> <V3,110,0>era deschisă<A/3, 110,0><COMMA,111,0>,</COMMA,111,0> <NSRY,112,0>patuK/NSRY,112,0> <PSS,113,0>meu</PSS,113,0> <V3,114,0>era acoperit<A/3,114,0> <S,115,0> cu</S,115,0>   <NSRY,116,0>pătura</NSRY,116,0><COMMA,117,0>,</COMMA,
185
117,0> <NSRY,118,0>masca</NSRY,118,0> <S,119,0>de</S,119,0> <NPN, 120,0>gaze</NPN,120,0> <S,121,0>cu</S,121,0> <NSRY,122,0>cutia</NSRY, 122,0> <PSS,123,0>ei</PSS,123,0> <ASN,124,0>lunguiaţă</ASN,124,0> <S,125, 0>de</S,125,0> <NSRN,126,0>tinichea</NSRN,126,0> <CR,127,0>şi</CR,127, 0> <NSRY,128,0>casca</NSRY,128,0> <S,129,0>de</S,129,0> <NSN,130,0> oţel</NSN,130,0> <V3,131,0>erau agăţate<A/3,131,0> <S,132,0>pe</S,132,0> <DMSR,133,0>acelaşi</DMSR,133,0> <NSN,134,0>cuier</NSN,134,0><POINT, 135,0>.</POINT,135,0>
Ex.5.3.6.Mar. (întindere de text între paranteze acolade {...})
[Fereastra era deschisă, {patul meu era acoperit cu pătura}, masca de gaze cu cutia ei lunguiaţă de tinichea şi casca de oţel erau agăţate pe acelaşi cuier. ]i
EX.5.3.6.SCD.
[(Fereastra) era deschisă ]-i ,[ (patul) (meu) era acoperit (cu (pătura)) ]2 ,[ (masca) (de (gaze) (cu (cutia) (ei (lunguiaţă)) (de (tinichea)))) şi (casca) (de (oţel)) erau agăţate (pe (acelaşi (cuier))). ]3
Exemplul 5.3.7.
Ex.5.3.7.Tag.
<V1,1,0>Aş vrea<A/1,1,0> <C,2,0>să</C,2,0><Z,3,0>-</Z,3,0><PPSD, 4,0>ţi</PPSD,4,0> <V1,5,0>spun<A/1,5,0> <C,6,0>că</C,6,0> <CR,7,0>şi</CR, 7,0> <R,8,0>mai</R,8,0> <R,9,0>târziu</R,9,0><COMMA,10,0>,</COMMÂ,10,0> <CR,11,0>şi</CR,11,0> <S,12,0>într</S,12,0><Z,13,0>-</Z,13,0><ASN,14,0>altă </ASN,14,0> <NSRN,15,0>parte</NSRN,15l0><COMMA,16,0>,</COMMA,16,0> <V1,17,0>am văzut<A/1,17,0> <C,18,0>că</C,18,0> <NPRY,19,0>lucrurile</ NPRY,19,0> <PXA,20,0>se</PXA,20,0> <V3,21,0>întâmplă<A/3,21,0> <R,22,0> tot aşa</R,22,0><COMMA,23,0>,</COMMA,23,0> <C,24,0>dar</C,24,0> <V3,25,0>ar fi nevoie</V3,25,0> <S,26,0>de</S,26,0> <PI,27,0>oarecari</PI,27, 0> <NPN,28,0>precizări</NPN,28,0> <CR,29,0>şi</CR,29,0> <V1,30,0>simt</ V1,30,0> <C,31,0>că</C,31,0> <QZ,32,0>nu</QZ,32,0> <PPSD,33,0>mi</PPSD, 33,0><Z,34,0>-</Z,34,0><V3,35,0>ar ajunge<A/3,35,0> <NSRY,36,0>respiraţia< /NSRY,36,0><COMMA,37,0>,</COMMA,37,0> <C,38,0>că</C,38,0> <V1,39,0>aş ocoli<A/1,39,0> <R,40,0>prea</R,40,0> <R,41,0>mult</R,41,0><POINT,42>0>.<'/ POINT,42,0>
Ex.5.3.7.Mar. (întindere de text între paranteze acolade {...})
[Aş vrea ]t [să-ţi spun ]2 [că şi mai târziu, {şi într-altă parte,} am văzut ]3 [că lucrurile se întâmplă tot aşa, ]4 [dar ar fi nevoie de oarecari precizări şi simt j5 [că nu mi-ar ajunge respiraţia, ]6 [că aş ocoli prea mult.]7
186
Ex.5.3.7.SCD.
[Aş vrea h [să-(ţi) spun ]2 [că şi (mai (târziu)) , şi (într-(altă (parte))) , am văzut ]3 [că (lucrurile) se întâmplă (tot aşa) ]4 ,[ dar ar fi nevoie (de (oarecari (precizări))) ]5 şi[ simt ]6 [că nu (mi)-ar ajunge (respiraţia) ]7 ,[ că as ocoli (prea (mult)).]8
5.4. Programele TexTag şi ClauSEGM
în cele ce urmează sunt prezentate câteva imagini de execuţie în cadrul programelor TexTag şi ClauSEGM, scrise în Visual C++ 5.0, şi utilizate pentru a eticheta şi segmenta texte de LN (limba română) [7]. Figurile 5.4.1. şi 5.4.2. se referă la TexTag, Figura 5.4.3. conţine execuţia algoritmului de segmentare M-1997 în cadrul ClauSEGM, iar Figura 5.4.4. conţine o execuţie a algoritmului de segmentare SCD-2002 sub mediul ClauSEGM. Stabilirea relaţiilor de dependenţă inter- şi intra-clauzale, pentru aceleaşi două tipuri de algoritmi, urmează să fie implementată în cadrul aceluiaşi mediu ClauSEGM.
Q e«08 > r«ftg*r Edfe*
~3 P"
VI 1 'i A.-, vrc.» ..\:.< .-.î   .     O    /. \ «i -   /.V.'    I'î'Sr» Im t;   Vl'-^l' -
MJJJ -pun  Vj.5.0   ■ C".6.f» cu   i .fc.U-    k'R.".0 -i   M'.'J.»     f'.ti.O inşii >'.<:'.:> K.y,u -liir/m   R^J'r   i'OVMAJiKn .   •: "i «MMA 1i\0 |<»  :i   * i- r...
S.12.U mir- -S. 12.0    7.H.0 - / i Vu    ASVl lj) nliă ASN.ll'i'
NS1:\'.        psulc   \SKNJ5.<1    • ''■ 'MMA.Hi.ii .• a i 'MMA.lM.'      \|l~.i> :ii:js/i/iI
\.^.21.u iritai Jiplă- \.j££K,j:.(j lot        U.Z2.0    . «' U'.lM.'i.J.U' .   ■ '.MM.UVu t.    J 0 dur • <<■ .11,0   23EE3SES2 clc °,,r tt,,ri prtt.'i'fm -n -ur.l     :ni n i-n ;iiun'.\c K-pi.Mi;i c.1 if ocoli prea mult.
Figura 5.4.1. Rezultatul etichetării morfologice sub TexTag
187
K «sî *
fir • s*.» < s**
Figura 5.4,2. Lista de etichete selectată cu un meniu din TexTag
t saiipisl Cl-il VCr(k V» vlt.:* tU' Vl£ ,; u tf.".,l1fi     r/«. i.u;i:u:ii iii- in: 3nnr.|iiK-.i
,IC4rpt:i-c CIL lÎHlîtli c:»p*K.n du ...riVîi(tj ,P|,i,n,n.;.-rS yi l.rt/.i «i.lbi i:iv;|ir.-
pC maramca ţ ostiei mlnmxMiâ >i .ru^r»-ji ]>ri/.îi Hir1;i dinspit ih;u<-\
m;:tm,,i
.   i f-i.-..
comma SI- I and KOUMAI
I f
ni
13!'.
ll
>CÂRY.23.0 Campvil ^SR\\2J.O-VX24.0 ci;t vcnk^:.'VJ:24,0'--CR.25,0 ?3 CR.25.0-•\SR"S .26.0 vi^r N^R V.26,0 ■
•■N\SFO*.28.0--vic< ."NSRX.28.D--P\A,29.0       -'R\A.29..0
S3U.0 ar SJKO •
VPN 32.0 lâstor NPN32.0
APN2W.0 .-APN33.0 •• CnMMA.31,0 \
VPRYJs.O- copacii• 'NFRY.35.0    -S36.0 de
NSRYJT.0: ivuii eincîî ■'NSR.Y37.0 N S* >\3K.0 1 f nsdcr NSO\ ..\ivU ^.3k3s>3 uilrmizivtiâ V339.0: < R.40.0 'iii- ,'CR. 10.0 VSPYJl .0 bri/a \sm\IL0 \ 3.-12.0 ^ut3a--V3.42.0-* S, 13.0 diu-pie  S. lA.rr
\\SRN\44A luare*  \SRKJ4.u:  :PQl!vrr. 15.0 - 'POINT35.0 *
6. Concluzii
Rezultatele obţinute în această lucrare nu se referă strict la compararea şi implementarea celor doi algoritmi de segmentare. Avem, de fapt, două tipuri de algoritmi de segmentare (şi dependenţă), şi fiecare din cele două tipuri reprezintă linii specifice de cercetare, cu importante consecinţe asupra domeniilor de procesare a LN cărora se adresează: algoritmul M-1997 [4] este destinat (teoriei şi) aplicaţiilor de procesare a discursului, generare automată a LN, şi rezumării automate, în timp ce algoritmul SCD-2002 [7] .se încadrează mai curând în teorii sintactice ale LN, cum sunt teoria FX-bar [3], parsarea bazată pe teorii (principii) sintactico-semartice ale LN, dar şi punerea în evidenţă a structurilor (segmentelor) şi relaţiilor de discurs [6].
Demonstrarea relaţiei (de scufundare) dintre cele două tipuri de algoritmi de segmentare [7], schiţarea (în secţiunea 1) a unui cadru formal general pentru algoritmii de segmentare a LN, în particular a segmentării de tip chunking, propunerea (în cadrul algoritmilor-SCD) unei metode generale de segmentare în unităţi textuale a LN şi de stabilire a dependenţelor între ele, toate acestea
189
constituie posibile noi perspective pentru abordările teoretice şi aplicative curente în procesarea automată a LN, inclusiv, şi mai ales, pentru limba română.
Revenind la aspectele concrete expuse în acest articol, extinderea algoritmilor către analiza complexă a structurilor semantico-discursive antrenate de clasele de marcheri, şi perfecţionarea actualelor implementări rămân principalele direcţii de continuare a prezentei abordări.
Referinţe bibliografice
[I] Neculai Curteanu (1994). From Morphology to Discourse Through Marker
Structures in the SCD Parsing Strategy, Language and Cybemetics, Akademia Libroservo, Prague, p. 61-73.
[2] N. Curteanu, G. Holban (1996). Strategia lingvistică SCD aplicată la analiza şi generarea limbii române, Limbaj şi Tehnologie (D. Tufiş, ed.), Editura Academiei Române, p. 169-176.
[3] Neculai Curteanu (2000). "Towards a Funcţional X-bar Theory", Technical Report, Institute of Theoretical Informatics, Romanian Academy, laşi Branch, 32 p.
[4] Daniel Marcu (1997). The Rhetorical Parsing, Summarization, and Generation of Natural Language Texts, Ph.D. Thesis, Univ. of Toronto, Canada, 331 p.
[5] Daniel Marcu (2000). The Theory and Practice of Discourse Parsing and Summarization, The MIT Press, Cambridge.
[6] O. Popârda, N. Curteanu (2002). L'evolution du discours juridique frangais analyse par la strategie linguistique SCD, LINCOM Studies in Theoretical Linguistics, LINCOM Europa, Munchen.
[7] N. Curteanu, C. Linteş (2002). Segmentation Algorithms for Clause-Type Textual Units, Research Report, Institute of Theoretical Informatics, Romanian Academy.
[8] N. Curteanu, D. Cristea, P. Mihaescu (1982). Cercetări în domeniul comunicării om-calculator prin intermediul limbajului natural. Contract de cercetare nr. 4774/1982, Universitatea laşi - ICI Bucureşti.
[9] Neculai Curteanu (1983). Algoritmi de analiză sintactică a frazei şi propoziţiei româneşti. Lucrările Conferinţei INFO-IAŞI'83, p. 533-549.
[10] D. Cristea, N. Curteanu, P. Mihaescu (1983). Implementarea analizorului morfologic şi definitivarea proiectului de analiză sintactică. Contract de cercetare nr. 1906/1983, Universitatea laşi - ICI Bucureşti.
[II] N. Curteanu (1984). Aspecte ale analizei logice a limbajului natural. Contract de cercetare nr. 4709/1984, Universitatea laşi - ICI Bucureşti.
[12] Rebecca Passonneau, Diane Litman (1997). Intention-based segmentation: human reliability and correlation with linguistic cues, in Proc. 31 th Annual Meeting of ACL, Ohio, p. 148-155.
[13] Lance Ramshaw, Michel P. Marcus (1999). Text Chunking Using Transformation-based Learning, in (S. Armstrong et al., eds.) "Natural Language Processing Using Very Large Corpora", Kluwer Acad. Publ., p. 157-176.
[14] Victor Raskin, S. Nirenburg (1999). "Lexical Rules for Deverbal Adjectives , in E. Viegas (Ed.) Breadth and Depth of Semantic Lexicons, Kluwer Acad. Publ., p. 99-119.
[15] M. Johnson, Federica Busa (1999). "Qualia Structure and Compositional
Interpretation of Compounds", in E. Viegas (ed.) Breadth and Depth of
Semantic Lexicons, Kluwer Acad. Publ., p. 167-186. [16] Denis Bouchard (2001). La source semantique des facteurs heterogenes qui
regissent   la   distribution   des   adjectifs,   Conferinţa Internaţională
"Representations du Sens Linguistique", Bucureşti.
[17] Dumitru Irimia (1997). Morfo-sintaxa verbului românesc. Editura Universităţii "Al. I. Cuza", laşi.
[18] Eva Hajicova, H. Skoumalova, P. Sgall (1995). An Automatic Procedure for Topic-Focus Identification. Computaţional Linguistics, 21(1): 81-94.
[19] P. Sgall, E. Hajicova, J. Panevova (1986). The Meaning of the Sentence in Its Semantic and Pragmatic Aspects. Kluwer Academic Publishers, Dordrecht.
[20] Neculai Curteanu (1988). Augmented X-bar Schemes. COLING'88 Proceedings, Budapest, p. 130-132.
[21] Dan Tufiş (2000). Using a Large Set of EAGLES-compliant Morpho-Syntactic Descriptors as a Tagset for Probabilistic Tagging, in Proceedings of the LREC'2000 International Conference, Athens.
[22] Dan Tufiş, A.M. Barbu (2001). Computaţional bilingual lexicography: automatic extraction of translation dictionaries, In Romanian Journal on Information Science and Technology, voi. 4, no. 3.
[23] Neculai Curteanu (2002). Către o teorie X-bar funcţională (în prezentul volum).
191
O metodă automată pentru inserarea diacriticelor în texte în limba română
Rada F. MIHALCEA
University of Texas at Dallas, Richardson, Texas, U.S.A. rada(a>utdallas.edu
Vivi A. NĂSTASE
University of Ottawa, Ottawa, Canada vnastase(5>site.uottawa.ca
1. Introducere
Problema restaurării diacriticelor constă în inserarea diacriticelor într-un text în care lipsesc. Creşterea continuă a numărului de texte disponibile prin Internet face ca metodele automate de inserare a diacriticelor să devină o componentă esenţială în multe aplicaţii importante, cum ar fi extragerea de informaţii, traducerea automată, colecţionarea de texte, construirea dicţionarelor electronice şi multe altele. Corectarea erorilor ortografice poate să aibă un impact major asupra calităţii rezultatelor obţinute în aceste aplicaţii. De exemplu, în absenţa unei metode de restaurare a diacriticelor, unele cuvinte devin ambigue, cum este cazul cuvintelor din limba română peşte, peste sau pături, paturi. O căutare bazată pe astfel cuvinte poate returna multe texte irelevante (de exemplu, o căutare pentru peşte ar returna şi documente conţinând peste). De asemenea, traducerea unor astfel de cuvinte într-o limbă străină poate fi eronată (de exemplu, traducerea corectă a cuvântului pături în limba engleză este blankets, dar în absenţa diacriticului este tradus greşit ca şi beds).
Metodele dezvoltate până în prezent pentru rezolvarea acestei probleme se bazează în general pe dicţionare şi pe diverse procesoare lexicale şi/sau sintactice. Multe dintre limbile care se confruntă cu problema restaurării diacriticelor nu beneficiază însă de astfel de resurse, şi ca urmare aplicabilitatea acestor metode este limitată la limbi bine studiate care dispun de suficiente resurse. Lucrarea de faţă prezintă o metodă automată de reinserare a diacriticelor în text care necesită doar o colecţie de texte de dimensiuni modeste. Spre deosebire de alte metode dezvoltate anterior, metoda introdusă în această lucrare nu necesită nici un fel de dicţionare sau procesoare morfologice şi/sau sintactice,
192
şi prin urmare poate fi folosită pentru prelucrarea de texte în orice limbă care dispune de un număr minim de texte cu diacritice. Datorită lipsei de restricţii, metoda propusă este foarte generală şi uşor aplicabilă pentru orice limbă. Pentru a demonstra aceasta afirmaţie, după ce vom prezenta experimentele pentru texte în limba română, vom arăta câteva rezultate obţinute pentru limbile cehă, poloneză şi maghiară.
2. Experimente anterioare
Restaurarea diacriticelor nu este în sine o problemă dificilă. Experimentele efectuate până în prezent au demonstrat că folosirea de dicţionare electronice poate duce la o acurateţe de peste 90% în restaurarea accentelor pentru limbile franceză şi spaniolă [9],[11],[5]. Metoda descrisă de Michael Simard în [9] este o îmbunătăţire adusă unei metode propusă anterior de El-Beze [4]. Această metodă se bazează pe Hidden Markov Models şi învaţă folosind cuvintele învecinate. Precizia raportată este de 99%. Tufiş şi Chiţu [10] propun o metodă similară pentru inserarea diacriticelor în texte în limba română. Yarowsky prezintă în [11] un set de metode folosite pentru restaurarea accentelor în limbile franceză şi spaniolă. Majoritatea algoritmilor pe care îi prezintă se bazează pe dicţionare şi cuvinte învecinate pentru a decide asupra ortografiei potrivite pentru fiecare cuvânt ambiguu. Yarowsky compară N-gram taggers, clasificatoare Bayesiene şi liste de decizii cu metoda de bază care constă în folosirea unui dicţionar. Pentru cele două limbi considerate în experimentele raportate, listele de decizii duc la performanţele cele mai ridicate. Toate aceste tehnici se bazează însă pe context, dicţionare şi în unele cazuri pe informaţii adiţionale de natură morfologică şi sintactică. Nagy et al. prezintă în [7] o abordare diferită a problemei, în care şiruri de litere sunt extrase din fiecare cuvânt şi folosite pentru a obţine statistici. Folosind metoda propusă, s-a observat o precizie foarte bună obţinută pe texte în limba franceză. Experimentele prezentate in [7] sunt asemănătoare cu cele raportate în [1], unde măsuri de similaritate între trigrame sunt folosite pentru a automatiza corectarea greşelilor de ortografie.
Majoritatea studiilor efectuate până în acest moment pe această temă, s-au ocupat de limbi bine cunoscute şi răspândite, cum ar fi franceza şi spaniola. Foarte puţine studii s-au concentrat pe limbi mai puţin mediatizate cum ar fi ceha, slovena, turca sau alte limbi care folosesc diacritice. Tabelul 11 prezintă diacriticele folosite în limbile europene cu alfabet latin. După cum rezultă din această listă, numeroase limbi se confruntă cu problema restaurării diacriticelor. Din setul de 36 de limbi cuprinse în tabel, engleza pare să fie singura limbă pentru care diacriticele
Tabelul cuprinde numai litere mici. Fiecărei litere mici îi corespunde o literă mare. Informaţia din acest tabel a fost agregată din liste de diacritice în limbi europene, disponibile la adresa www.tiro.com/di intro.html
193
nu constituie o problemă. Cuvintele din engleză care conţin diacritice au fost împrumutate din alte limbi, şi varianta acestora fără diacritice^ nu are un corespondent care să ducă la ambiguitate. Diacriticele par insa sa aiba un rol important în diferenţierea cuvintelor. Engleza, care după cum spuneam nu are diacritice per se, are în schimb o ambiguitatea semantică mai ridicata .
Tabel 1
Diacritice din limbile europene cu alfabet latin
Limba	Diacritice	Limba	Diacritice |
Albaneză	şe	Malteză	Cgh2
Bască	nu	Norvegiană	âas0
Bretonă	âenuu'	Olandeză	ee
Catalană	â ş e e i î 16 6 u ii	Poloneză	^cşln6§z£
Cehă	âetfeift6F§fuuy2	Portugheză	âăşeîiooo
Daneză	â&0	Română	âăîşţ
Engleză	None	Sami (Laponă)	âi'Cdnr) Stz
Estoniană	âC86§uz	Serbo-croată	c£dSz
Faroeză	âaedi 60uy	Slovacă	âăed'eiirnâof&f ix</l
Finlandeză	ââosz	Slovena	Uz
Franceză	ââa^eeeeîîooeuuy	Spaniolă	eun
Galiţiană	âeiou	Suedeză	ăâo
Germană	âouB	Turcă	ţgiioşu
Islandeză	âasdei66uyţ>	Sorbiană(l)	
Italiană	âeeiiîoouu	Sorbiană (2)	c 5 z S1A fSszz
Maghiară	âei656uUii	Welsh	âeîouwy
Aplicabilitatea metodelor menţionate anterior este limitată în următoarele cazuri:			
Studii efectuate pe corpusuri bilingve paralele, ar arătat ca vocabularul construit dmr-un text în limba engleză este aproximativ jumătate din vocabularul construit pe baza aceluiaşi text într-o altă limbă. Competiţia SENSEVAL [6] raportează de asemenea precizii mul mai mici pentru engleză comparativ cu alte limbi în rezolvarea ambiguităţii semantice. Lipsa diacriticelor în limba engleză ar putea constitui o explicaţie a acestui fenomen.
iii i
194
1.
Dicţionarele electronice nu sunt disponibile sau doar dicţionare de dimensiuni relativ mici sunt făcute publice. Mai mult decât atât, în cazul în care dicţionarul însuşi nu are diacritice, metodele care se bazează pe această resursă pentru restaurarea diacriticelor devin inaplicabile.
2. Procesoarele folosite pentru analiză morfologică şi/sau sintactică, considerate folositoare pentru problema restaurării diacriticelor, nu există sau nu sunt public disponibile.
3. Numărul de texte disponibile conţinând diacritice este relativ mic. Mărimea corpusurilor publice sau disponibile prin Internet influenţează mărimea vocabularului care poate fi construit ad-hoc pe baza acestor texte. în plus, majoritatea siturilor care publică texte pe Internet preferă în multe cazuri să evite diacriticele din motive de simplitate, uniformitate, sau pur şi simplu din lipsa de mijloace necesare pentru codificarea diacriticelor.
Lucrarea de faţă prezintă o metodă de restaurare a diacriticelor bazată pe învăţarea la nivel de literă, şi nu la nivel de cuvânt. Avantajul principal al acestei metode este faptul că oferă posibilitatea de generalizare dincolo de cuvinte. Metoda este folositoare mai ales pentru limbile pentru care resursele disponibile sunt limitate, în speţă limbi care nu au dicţionare electronice mari cu diacritice. Limbi cunoscute şi bine studiate, precum franceza si spaniola, pot de asemenea beneficia de aceasta metodă pentru procesarea cuvintelor necunoscute.
Experimentele prezentate în această lucrare adresează în principal problema restaurării diacriticelor în texte în limba română. Precizia observată pe limba română este de 99%, măsurată la nivel de literă. Experimente similare au fost efectuate pe alte trei limbi, şi anume poloneză, maghiară şi cehă, de asemenea cu rezultate foarte bune. Avantajul principal al metodei este faptul că nu necesită nici o etapă de preprocesare, ci numai un corpus relativ mic format din texte cu diacritice. Datorită simplităţii algoritmului, viteza de procesare este foarte mare, de aproximativ 20 pagini de text pe secundă, măsurată pe un calculator cu un procesor Pentium III cu frecvenţa de 500MHz şi 250MB memorie.
^ Practic, metoda propusă încearcă să înveţe reguli aplicabile la nivel de literă. în loc de a învăţa reguli care se aplică la nivel de cuvânt, cum ar fi "anuncio se scrie anuncio atunci când are funcţia de verb", dorim să învăţăm reguli aplicabile la nivel de literă, cum ar fi "s urmat de i şi spaţiu şi precedat de spaţiu se scrie ş". Astfel de reguli, învăţate la nivel de literă, sunt mai generale şi au aplicabilitate mai mare, în special în cazurile în care dicţionarele disponibile sunt de dimensiune redusă, când se întâlnesc multe cuvinte necunoscute în textul dat, sau când procesoare pentru analiză morfologică sau sintactică nu sunt la îdemână.
Este evident că în analiza limbajului literele constituie nivelul cu granularitatea cea mai scăzută, şi de aceea au şi cel mai mare potenţial de generalizare. în loc de aproximativ 150.000 de unităţi candidate potenţiale pentru algoritm (mărimea aproximativă a vocabularului de uz general a unei limbi), vom
195
§vea mai mult sau mai puţin 26 caractere pe baza cărora se vor constitui datele de intrare pentru algoritmul de dezambiguare1.
3. Experimente
Scopul experimentelor descrise în această lucrare este de a arăta că învăţarea la nivel de literă este posibilă şi poate rezolva, cu precizie mare, problema restaurării diacriticelor. Pe lângă faptul că metoda propusă constituie o problemă de cercetare, scopul învăţării la un nivel de granularitate atât de scăzut este de a oferi o metodă viabilă pentru limbile pentru care resursele lexicale şi isemantice disponibile sunt limitate, şi pentru care restaurarea diacriticelor prin învăţare la nivel de cuvânt este greu de realizat.
3.1. Date
Prezentăm în primul rând experimentele efectuate pe texte în limba română. Limba română nu este o limbă foarte răspândită şi în consecipţă nu are foarte multe resurse publice disponibile pentru pre-procesare, iar dicţionarele electronice sunt de dimensiuni relativ mici. în al doilea rând, am avut de rezolvat o problemă specifică de restaurare a diacriticelor într-un dicţionar electronic român-englez care conţine aproximativ 75.000 de cuvinte, dar are dezavantajul că diacriticele lipsesc. Am considerat că este avantajos să studiem problema restaurării diacriticelor şi să folosim acest dicţionar, în loc să ne bazăm pe alte dicţionare cu diacritice de dimensiuni reduse. în plus, pentru procesoarele pe care am dori să le dezvoltăm pentru limba română avem nevoie de numeroase texte electronice în limba română. De obicei aceste texte nu au diacritice, şi deci reinserarea diacriticelor este din nou necesară. Avem de asemenea posibilitatea de a compara eficacitatea acestei metode cu rezultate obţinute în experimente efectuate pe aceiaşi limbă constând în metode în care învăţarea se face la nivel de cuvânt [10].
Pentru a aplica metoda descrisă în lucrarea de faţă, avem deci nevoie de o colecţie de texte româneşti cu diacritice. în acest scop, am colectat articole din "România Literară"2, un ziar românesc publicat săptămânal, cu articole legate în general de literatură. Ziarul are o versiune care conţine diacritice începând din anul 2000. Colecţia disponibilă on-line la data colectării datelor (august 2001) cuprindea 2780 articole. în pasul următor, textul a fost extras din fişierele HTML. Atenţie deosebită a fost acordată doar caracterelor româneşti. Alte caractere cu diacritice întâlnite ocazional, cum ar fi e, e etc. au fost transformate în forma lor echivalentă, fără diacritice, având în vedere că suntem interesaţi doar de caracterele româneşti,
1 Numărul de litere depinde de limba care se analizează. S-a arătat de exmplu că aproximativ 85% dintre cuvintele în limba franceză nu au o formă ortografică cu diacritice, şi deci numai 20.000 de cuvinte sunt potenţial ambigue. Pe de altă parte, numai 7 litere
■ sunt ambigue în limba franceză. Accesibil prin http://www.romlit.ro
196
şi nu de caractere franceze sau din alte limbi. După toate aceste faze premergătoare, am obţinut un corpus conţinând aproximativ 3 milioane de cuvinte.
Literele mari au fost transformate în litere mici. Cazul literelor â şi / este special în limba română: deşi pronunţia lor este identică, folosirea lor este guvernată de reguli bazate pe poziţia lor în cuvânt. La începutul cuvântului se foloseşte întotdeauna /, iar â se foloseşte în interiorul cuvântului. Este bine cunoscut faptul că folosirea acestor litere a fost controversată de-a lungul timpului. O lege din anii '60 a schimbat ortografierea de la â la /, singura excepţie fiind cuvintele derivate din rădăcina român. La începutul anilor "90 ortografia veche a fost reintrodusă, şi astfel s-a ajuns la cazuri de texte inconsistente, în care se întâlnesc scrieri diferite ale aceluiaşi cuvânt. De exemplu, cîntec şi cântec sunt forme ale aceluiaşi cuvânt care pot fi întâlnite în acelaşi text. Ziarul "România Literară" păstrează încă ortografia cu /, cu mici excepţii (de exemplu, articole scrise de scriitori invitaţi care preferă să scrie folosind âîn loc de /).
3.2. Algoritmi de învăţare
Pentru a rezolva problema restaurării diacriticelor, am ales să folosim un algoritm bazat pe învăţarea de instanţe (IBL). Există două motive importante care au stat la baza luării acestei decizii. în primul rând, este faptul demonstrat că excepţiile au un rol important în procesarea limbajelor naturale. Algoritmii de tip IBL sunt recunoscuţi pentru faptul că iau în considerare fiecare exemplu de antrenament în luarea unei decizii de clasificare [2], şi deci folosirea acestui tip de algoritmi prezintă un avantaj deosebit în probleme de limbaj natural. în al doilea rând, acest gen de algoritmi sunt foarte eficienţi relativ la timpul de antrenament şi testare.
învăţarea pe bază de instanţe se desfăşoară în felul următor: în pasul de antrenament, toate exemplele de intrare sunt memorate. în faza de testare, fiecare exemplu din set este comparat cu exemplele memorate şi va primi-clasificarea dată de exemplul memorat de care este cel mai apropiat, distanţa fiind dată de măsura specifică aleasă în implementarea folosită. Pentru efectuarea experimentelor propuse, am folosit implementarea TiMBL [3] a acestor algoritmi. în plus, am efectuat experimente asemănătoare şi cu un clasificator pe bază de arbori de decizie, şi anume C4.5 [8]. Arborii de decizie sunt construiţi din setul de exemple de antrenament. La fiecare pas este ales un atribut care discriminează cel mai bine exemple din clase diferite (prin valorile sale). Grupele obţinute prin diviziunea după acest atribut vor fi din nou împărţite în grupe mai mici şi mai pure, prin alegerea unui nou atribut care discriminează cel mai bine exemplele din grupă. Acest proces continuă până când grupele obţinute au un grad de puritate acceptabil, sau mărimea arborelui depăşeşte un prag ales iniţial. Rezultatele obţinute folosind C4.5 sunt asemănătoare cu cele obţinute folosind TiMBL, însă C4.5 are capacitatea de a genera reguli expresive, folositoare pentru implementări practice.
Având în vedere că lucrăm la nivelul literelor, atributul care trebuie învăţat este constituit de litera ambiguă. Acesta poate fi oricare din literele ambigue enumerate în Tabelul 1. Pentru limba română avem 4 perechi de litere ambigue: s -
197
w>ş, t - ţ, a - ă, i - î. Literele mari au fost convertite în prealabil în litere mici. Datorită Inaptului că datele folosite aplică ortografia cu /, nu avem ambiguitatea a - â, ci doar ambiguitatea / - /. Aceasta nu implică însă o pierdere de generalitate. Conversia între cele doua forme de ortografie este simplă şi se poate realiza folosind doar poziţia literei în cuvânt, şi prin urmare scrierile diferite nu afectează rezultatul algoritmului.
! 3.3. Atribute
Atributele folosite în orice algoritm de învăţare au un impact foarte mare asupra eficacităţii algoritmului. După cum am menţionat şi în introducere, nu avem posibilitatea de a folosi procesoare care determină partea de vorbire a cuvintelor, şi nici un alt fel de analizoare morfologice sau sintactice. în plus, nu dorim să ne bazăm pe cuvintele învecinate, deoarece avem un număr limitat de date, şi în consecinţă există şansa de a întâlni un număr mare de cuvinte necunoscute. Prin urmare, ne-am decis asupra folosirii unor atribute foarte simple, pentru extragerea cărora nu este nevoie de nici un fel procesare specială. Vom folosi litere învecinate, cu o notaţie specială atribuită spaţiilor, virgulelor şi punctelor (aceste caractere pot afecta procesul de învăţare, fiind considerate caractere speciale de către C4.5 şi/sau TiMBL).
Dacă X este litera a cărui ambiguitate trebuie rezolvată, atributele folosite sunt N litere la stânga şi la dreapta literei ambigue:
L_N, L_ţN_{)L_j, X, Lj, L2L(N_{), LN Acest set de atribute se comportă surprinzător de bine, relativ la acurateţe, după cum vom arăta in cele ce urmează.
j După cum am menţionat anterior, am ales să nu ne bazăm pe nici un tag
obţinut cu procesoare lexicale sau morfologice, ci doar pe informaţia care se poate extrage din text neprelucrat. De asemenea, suntem interesaţi să găsim posibilităţi de generalizare, astfel încât un corpus limitat să poată fi folosit pentru a genera reguli de reinserare a diacriticelor. în loc de a învăţa reguli bazându-ne pe cuvinte, după cum s-a procedat până acum, dorim să învăţăm reguli bazate pe litere, pentru că acestea constituie cele mai mici unităţi în limbaj, şi oferă posibilitatea învăţării chiar şi dintr-o colecţie mică de texte.
Pentru fiecare pereche ambiguă de litere, parcurgem textul şi generăm toate exemplele posibile întâlnite în text. Atributele într-un exemplu sunt formate folosind N litere la stânga şi la dreapta literei ambigue, şi atributul ţintă este însăşi litera ambiguă. Forma generală a exemplelor generate este:
L_N, L_{ ,L{,L2L(N_{) ,LN,X
unde ca şi în exemplul anterior, X este litera ambiguă. Prezentăm mai jos exemple de vectori de atribute care constituie date de intrare pentru algoritmul de învăţare pentru rezolvarea ambiguităţii perechii s - ş. CO, DO şi SP sunt codurile care înlocuiesc virgula, punctul şi spaţiul.
198
I ■ /, i,n,SP,(,u,b,SP,i,n,s.
! e,CO,SP,r9o,-,g,a,r,d,ş.
l| '; g,atrtd,i,ttu,l, CO, SP, s.
j1;,, e,SP,o,r,a,DO,SP,t,o,t,ş. • i; | [ învăţarea se reduce la detectarea corelaţiilor între valorile atributelor care
i 1 ■ caracterizează exemplele de antrenament şi valorile atributelor ţintă, şi utilizarea
j -i \ acestora pentru stabilirea valorii atributului ţintă din exemplele de testare.
I Numărul de exemple extrase din corpus depinde de perechea de litere.
II Din întregul set de 3 milioane de cuvinte, am obţinut 2.161.556 exemple pentru |1 j perechea ambiguă a - ă, 2.055.147 pentru perechea / - /, 1.257.458 exemple j 11 pentru t - ţ, şi în final 866.964 exemple pentru perechea s - s. în fiecare din aceste
;!!, cazuri, spaţiul exemplelor este împărţit în două clase, date de cele 2 variante ale
ra| literei ambigue. Metoda de învăţare automată va folosi atributele date pentru a găsi
|l| reguli de clasificare a exemplelor în cele 2 clase.
ll 3*4'Rezultate
Precizia cea mai ridicată s-a obţinut pentru o fereastră de 10 litere în 'ijl vecinătatea literei ambigue (N = 5). Dată fiind această observaţie, am considerat
liiil1 că este important să studiem mai în detaliu acest caz, şi să determinăm ratele de
învăţare pentru cele 4 perechi de litere ambigue. Cu toate acestea, prezentăm rezultate pentru ferestre de diverse dimensiuni, pentru comparaţie.
, , Tabelul 2 arată rezultatele obţinute pentru N=5. Preciziile raportate în
acest tabel sunt obţinute folosind algoritmul bazat pe învăţarea de instanţe. Am efectuat experimente cu seturi de antrenament de diverse dimensiuni, variind de la 2.000.000 exemple până la 10 exemple, pentru a determina rata de învăţare şi I" i dimensiunea minimă a corpusului necesară pentru a obţine o precizie
j satisfăcătoare. în toate aceste experimente s-au folosit seturi de testare conţinând
ji " 50.000 exemple. Pentru a obţine rezultate cât mai exacte am folosit validare
j încrucişată folosind 10 seturi diferite de test. Tabelul indică de asemenea baza de
comparaţie, definită aici ca fiind precizia obţinută când se foloseşte implicit litera cea mai frecventă din fiecare pereche ambiguă.
Rezultatele prezentate în Tabelul 2 sunt reprezentate grafic în Figura 1. Este interesant de observat că cea mai importantă fază a procesului de învăţare are loc când se folosesc primele 10 000 exemple. în conformitate cu măsurătorile efectuate, a rezultat că aproximativ 100.000 - 250.000 caractere (aproximativ 25-60 pagini de text) sunt necesare pentru a genera 10.000 exemple cu diacritice, ij, ceea ce constituie un corpus de dimensiune relativ mic. Mai departe, pentru a
' obţine îmbunătăţiri de numai 1% este necesar un număr semnificativ de exemple.
ii|l Tabelul 2 indică de asemenea, în caractere groase, prima precizie care depăşeşte
11 baza de comparaţie, ca o indicaţie a dimensiunii minime a setului de antrenament
7
pentru care se observă o formă minimă de învăţare. După cum se observă din tabel, numai 1.000 exemple sunt suficiente pentru învăţare.
Tabel 2
Rezultate obţinute în rezolvarea ambiguităţii literelor cu diacritice în limba
română
	Pereche ambiguă				
	a - ă	a-ă(2)	i - î	s - ş	t-ţ
Nr.tota! exemple	2.161.566	1.369.517	2.055.147	866.964	1.157.458
Baza comparaţie	74.70°/c	85.90°/c	88.205	76.53°/c	85.81%
Exemple de	Precizie obţinută pe date de test				
Antrenament		(50.000 exemple)			
2,000,000	96.14%	-	99.69%	-	-
1,000,000	95.10%	99.14%	99.58%	-	98.75%
750,000	94.83%	98.97%	99.53%	99.07%	98.63%
500,000	94.57%	98.79%	99.46%	98.86%	98.40%
250,000	94.00%	98.37%	99.28%	98.87%	98.26%
100,000	93.03%	97.56%	98.96%	98.54%	97.81%
50,000	92.10%	96.86%	98.57%	98.13%	97.40%
25,000	90.99%	95.75%	98.11%	97.58%	96.92%
10,000	88.99%	93.75%	97.31%	96.53%	96.20%
5,000	87.56%	92.76%	96.65%	95.61%	95.10%
4,000	86.91%	91.86%	96.49%	94.99%	94.53%
3,000	86.39%	90.99%	96.19%	94.18%	94.30%
2,000	85.81%	89.93%	95.49%	93.47%	93.56%
1,000	83.49%	88.36%	93.78%	92.31%	91.85%
500	80.61%	85.66%	93.07%	90.75%	89.74%
250	77.89%	83.17%	92.75%	87.41%	87.23%
100	74.80%	84.04%	91.41%	82.13%	84.46%
50	72.79%	82.73%	88.05%	86.53%	77.54%
25	72.45%	81.34%	88.15%	78.26%	78.52%
10	73.38%	85.90%	88.20%	75.88%	85.81%
Folosind întregul set de exemple extrase din corpus, rezolvarea ambiguităţii perechii i - feste aproape 100% corectă. Pentru acest diacritic, avem acum o instanţă greşită din 300 instanţe, în timp ce baza de comparaţie implică o instanţă greşită din fiecare 8 instanţe, deci o îmbunătăţire semnificativă.
Cel mai slab rezultat este obţinut în cazul perechii a - ă. După o analiză a rezultatelor, reiese că principalul motiv care cauzează această precizie scăzută
200
este faptul că multe substantive în limba română au forma nearticulată terminată în ă şi forma articulată terminată în a. De exemplu, masa şi masă reprezintă forma articulată şi respectiv nearticulată a substantivului masă. De asemenea, timpuri diferite ale aceluiaşi verb se disting numai prin terminaţia în a sau ă. Algoritmul de învăţare este deci indus în eroare din cauza folosirii acestor litere în contexte identice. O soluţie simplă constă în evitarea în procesul de învăţare a exemplelor care conţin a sau ă la sfârşitul unui cuvânt. Rezultatele obţinute sub aceasta ipoteză simplificatoare sunt raportate in Tabelul 2, în coloana a-ă(2). După cum se arată în tabel, câştigul este de mai mult de 4% in precizie folosind doar această condiţie simplă (câştig care se traduce într-o reducere a erorii de 87%).
Am folosit de asemenea şi algoritmul de învăţare bazat pe arbori de decizie C4.5, cu aceleaşi date de antrenament, fără a observa însă nici o îmbunătăţire comparativ cu rezultatele raportate în Tabelul 2. Dezavantajul folosirii C4.5 pentru această problemă este faptul că faza de învăţare este mult mai lentă decât în cazul folosirii algoritmului TiMBL. Pe de altă parte, C4.5 are capacitatea de a genera reguli expresive. "Dacă L?=e şi L2=spaţiu atunci s"(99.5%), "Dacă L^t şi L2=spaţiu atunci s" (98.7%), "Dacă L4=p şi L.^v şi Lt=f şi L2=e atunci s"(95.5%), sunt exemple de astfel de reguli. L/denotă o literă învecinată în poziţia i relativ la litera ambiguă. Se observă că aceste reguli nu ţin cont de faptul că literele folosite în clasificare aparţin aceluiaşi cuvânt sau nu: Algoritmul de învăţare se bazează pur şi simplu pe litere, indiferent de cuvântul căruia îi aparţin. în consecinţă, pseudo-omonimele (cum ar fi peste şi peşte), sunt adresate în mod egal de această metodă, pentru că algoritmul are capacitatea de a se extinde dincolo de cuvinte.
100
85 •?
i
80 | 70 4-
100-,
95 ^JfcJW^
5000 10000
200000    400000    600000    800000 1000000
Figura 1. Rate de învăţare pentru diacriticele în limba română. Graficul din mijloc este o reprezentare mărită a zonei 0-10.000
201
3.5. Ferestre de dimensiune diferită
Am efectuat experimente cu ferestre de diverse dimensiuni, pentru a determina dimensiunea contextului care modelează cel mai bine problema noastră. Pentru aceasta, am considerat ferestre de dimensiune dpi, şase, zece, patrusprezece şi optsprezece litere învecinate (i.e. N = 1,3,5,7,9). Rezultate comparative sunt prezentate în Tabelul 3. Aceste numere trebuie comparate cu primul rând din Tabelul 2 (coloana corespunzătoare valorii N=5 în tabelul de faţă).
Tabel 3
Rezultate comparative obţinute cu ferestre de dimensiuni diferite
Pereche ambiguă	Dimensiune fereastră				
	N=1	N=3	N=5	N=7	N=9
a-ă(2)	88.63%	98.79%	99.14%	99.10%	99.10%
i -î	94.18%	99.13%	99.69%	99.68%	99.43%
s-ş	88.09%	99.06%	99.07%	99.02%	99.00%
t-t	89.45%	98.57%	98.75%	98.67%	98.25%
Când nu există suficient context disponibil, o fereastră de dimensiune N=3 poate fi folosită fără a pierde mult din precizie. însă, după cum am specificat şi înainte, cea mai ridicată acurateţe se obţine pentru o fereastră de zece litere înconjurătoare (N=5).
3.6. Comparaţie cu experimente asemănătoare
Rezultatele prezentate în lucrarea de faţă se pot compara cu rezultatele raportate de Tufiş şi Chiţu [10], care au folosit tot limba română în experimentele lor. Tufiş şi Chiţu menţionează că sarcina recuperării diacriticelor în limba română este mai dificilă decât în alte limbi, deoarece în română diacriticele sunt mai intens folosite. După cum raportează în experimentele lor, numai 60% din cuvintele din limba română nu au diacritice, comparat cu studii menţionate în [9] care arată că aproximativ 85% dintre cuvintele limbii franceze se scriu fără accent.
Abordarea prezentată de Tufiş şi Chiţu foloseşte dicţionare, un analizor morfologic, iar învăţarea se face la nivel de cuvinte. Folosind aceste resurse, au obţinut o precizie globală de 97.4%. Nu putem efectua o comparaţie directă a rezultatelor noastre, având în vedere că atât metodele, cât şi modul de evaluare, sunt fundamental diferite. Precizia medie de 99% pe care noi o raportăm este măsurată la nivel de literă, pe când acurateţea raportată în [10] este determinată la nivel de cuvânt1.
1 Diferenţa dintre precizia raportată la nivel de literă şi precizia raportată la nivel de cuvânt rezultă practic din diferenţa de granularitate dintre litere şi cuvinte. Presupunând că un cuvânt conţine L litere ambigue, o singură literă din acest set L a cărui ambiguitate este rezolvată greşit face ca întreg cuvântul să fie considerat greşit, pe când la nivel de litere avem doar o singura eroare din setul L. Pe de altă parte, chiar dacă mai multe litere din
202
203
Metodologia noastră depăşeşte abordările anterioare, prin faptul că s-au obţinut precizii şi viteze de procesare ridicate fără a folosi nici un fel de resurse adiţionale cum ar fi procesoare pentru analiză morfologică sau sintactică sau dicţionare. Din aceste motive, algoritmul se poate aplica oricărei limbi, singura cerinţă fiind un corpus relativ mic de texte cu diacritice.
4. Alte limbi
Pentru a demonstra generalitatea algoritmului pe care l-am propus, am efectuat experimente pe texte în alte trei limbi europene care fac uz de diacritice: cehă, poloneză şi maghiară. Limbile considerate pentru aceste experimente sunt limbi cu răspândire restrânsă, pentru care resursele publice sunt limitate.
Pentru fiecare dintre aceste limbi am colectat texte cu diacritice disponibile prin Internet. Principalele surse folosite pentru formarea setului de date sunt după cum urmează: (1) pentru cehă, am folosit arhiva ziarului Lidovky şi texte literare de Kafka, Hasek şi Capek; (2) pentru maghiară, arhiva furnizată de către Digitâlis Irodalmi Akademia şi un roman de Petofi Sândor, (3) pentru poloneză, arhiva ziarului Wiedza i zycie. Pe lângă acestea, am mai folosit texte adiţionale colectate de pe diverse situri, astfel încât să obţinem un corpus de minim un milion de cuvinte pentru fiecare limbă. Asemănător cu procesarea aplicată limbii române, datele au fost convertite în fişiere text, iar literele mari au fost transformate în litere mici. în urma acestei etape de pre-procesare, am obţinut un corpus de 1.46 milioane cuvinte pentru cehă, 1.72 milioane cuvinte în maghiară şi 2.5 milioane cuvinte în poloneză.
Algoritmii de învăţare şi atributele folosite în procesul de învăţare sunt identice cu cele folosite în experimentele efectuate pe limba română, raportate în detaliu în secţiunea precedentă. Tabelul 4 prezintă rezultatele obţinute pentru cele trei limbi. Pentru fiecare set de litere ambigue, sunt prezentate în tabel: (1) numărul de exemple obţinute din corpusul limbii respective, (2) baza de comparaţie, măsurată ca fiind precizia ce se poate obţine dacă pentru fiecare set ambiguu se foloseşte implicit litera cu frecvenţa de apariţie cea mai ridicată, şi (3) precizia obţinută prin aplicarea metodei propusă în lucrarea de faţă.
Media obţinută pentru toate patru limbile studiate (cele trei limbi a căror rezultate sunt prezentate in Tabelul 4, şi limba română) este de 98.17%. Precizia medie măsurată pe fiecare limbă în parte este influenţată de mărimea setului de date folosit. Textele colectate pentru cehă şi maghiară conţin aproximativ 1.4-1.7 milioane cuvinte, şi prin urmare precizia obţinută în aceste două limbi este mai joasă decât pentru poloneză şi română, pentru care am reuşit să colectăm un corpus de 2.5-3 milioane cuvinte. Estimăm deci posibilitatea creşterii preciziei ca urmare a creşterii dimensiunii corpusului de antrenament.
setul L sunt rezolvate greşit, avem tot o singură eroare la nivel de cuvânt, dar mai multe erori la nivel de literă. Nu este deci foarte clar care ar fi modalitatea corectă de a compara aceste două metode care lucrează la nivele de granularitate diferită.
Tabel 4
Rezultate obţinute în restaurarea diacriticelor în trei limbi europene
Set litere Număr exemple Bază comparaţie Metodă propusă ambigue _
Cehă			
a â	649,886	75.01%	96.96%
c t	217,570	72,21%	97.08%
d <r	271,070	99.05%	99.86%
e e	768,051	74.59%	97.02%
i i	504,298	60.43%	96.29%
n fi	439,552	98.97%	99.71%
o 6	566,521	99.08%	99.86%
r f	319,352	65.55%	97.60%
s s	380,805	84.44%	98.88%
t f	387,214	99.05%	99.85%
u ti u	264,408	80.89%	93.51%
y y	191,317	65.55%	95.06%
z z	219,082	66.49%	98.70%
		Medie	97.83%
Maghiară			
a â	1,198,294	73.51%)	96.91%
e e	1,306,944	76.34%	96.40%
i i	647,137	89.14%	99.49%
o 6  6 6	678,012	71.15%	96.10%
u  u ii îi	207,753	56.00%	97.31%
		Medie	97.04%
Poloneză			
a a_	1,387,019	88.83%	97.07%
c e	657,669	91.50%	99.42%
e e.	1,305,584	89.23%	98.47%
1 i	506,041	59.29°/	, 98.80%
n ri	878,824	[ 96.75°/	, 99.85%
o 6	1,230,38S	) 88.67°/	> 99.87%
s â	688,67'	' 88.67°/	> 99.83%
Z   Z Z	896,90S	> 86.26°/	> 99.73%
		Medie	99.02%
			
204
Este interesant de observat că numărul de diacritice într-o limbă nu influenţează precizia medie obţinută. Precizia care se obţine în cazul limbii maghiare, care are un total de 5 seturi de litere ambigue, este mai scăzută decât precizia care se obţine pentru limba cehă, care are un număr impresionant de diacritice (treisprezece). Şi aceasta cu toate că datele colectate pentru limba maghiară sunt mai numeroase decât datele colectate pentru limba cehă.
5. Concluzii
Am descris în lucrarea de faţă o metodă de restaurare a diacriticelor bazată pe tehnici de învăţare la nivelul de literă. Avantajul principal al metodei constă în capacitatea ei de generalizare dincolo de cuvinte. Nu este necesară nici un fel de analiză a textului, şi nu se folosesc nici un fel de procesoare de limbaj sau dicţionare. Singura cerinţă este un corpus relativ mic de texte cu diacritice.
Metoda este folositoare în special pentru limbi pentru care nu sunt disponibile dicţionare electronice de dimensiune adecvate, şi nici procesoare pentru analiză morfologică şi/sau sintactică. Mecanismul de învăţare foloseşte date de intrare extrase din texte neprelucrate, şi generează rezultate cu o precizie ridicată. Experimente detaliate efectuate pe texte în limba română au arătat că restaurarea diacriticelor în această limbă se poate efectua folosind metoda propusă cu o precizie de peste 99% la nivel de literă. Rezultatele au fost validate prin experimente efectuate pe alte trei limbi europene care fac uz de diacritice: cehă, poloneză şi maghiară. Precizie medie măsurată pe cele patru limbi de studiu este de 98.14%, fapt care demonstrează că metoda este independentă de limbă, în plus, un alt avantaj al metodei este faptul că, datorită simplităţii sale, viteza de procesare este foarte mare, de până la 20 pagini de text pe secundă.
205
[5] Galicia-Haro, S., Bolshakov, I., Gelbukh, A. A simple Spanish part of speech tagger for detection and correction of accentuation error. In Text, Speech and Dialogue - Second International Workshop, TSD'99, September 1999, Proceedings (Plzen, Czech Republic, 1999), voi. 1692 of Lecture Notes in Computer Science, Springer, pp. 219-222.
[6] Kilgariff, A., ed., Proceedings of SENSEVAL-2, 2002.
[7] Nagy, G., N., N., and Sabourin, M. Signes diacritiques: perdus et retrouves. In Actes du 1er Colloque International Francophone sur l'Ecrit et le Document CIFED '98 (Quebec, Canada, 1998), pp. 404-412.
[8] Quinlan, J. C4.5: programs formachine learning. Morgan Kaufman, 1993.
[9] Simard, M. Automatic insertion of accents in French text. In Proceedings of the Conference on Empirical Methods in Natural Language Processing EMNLP-3 (Granada, Spain, 1998).
[10] Tufiş, D., Chiţu, A. Automatic diacritics insertion in Romanian texts. In Proceedings of the International Conference on Computaţional Lexicography COMPLEX'99 (Pecs, Hungary, June 1999).
[11] Yarowsky, D. Corpus-based techniques for restoring accents in Spanish and French texts. In Natural Language Processing Using Very Large Corpora. Kluwer Academics Publisher, 1999, pp. 99-120.
Referinţe bibliografice
[1] Angell, R., Freund G., Willett, P. Automatic spelling correction using a trigram similarity measure. Information Processing and Management 19, 4 (1983), 255-261.
[2] Daelemans, W., van den Bosch, A., Zavrel, J. Forgetting exceptions is harmful in language learning. Machine Learning 34, 1-3 (1999), 11-34.
[3] Daelemans, W., Zavrel, J., van der Sloot, K., van den Bosch, A. TiMBL: Tilburg memory based learner, version 4.0, refernce guide. Tech. Rep., University of Antwerp, 2001.
[4] El-Beze, M., Merialdo, B., Rozeron, B., Derouault, A., Accentuation automatique des textes par des methodes probabilistes. Techniques et sciences informatique 16, 6 (1994), 797-815.
207
Contribuţii privind structura statistică de cuvinte în limba română scrisă*
Adriana VLAD şi Adrian MITREA Universitatea "POLITEHNICA" din Bucureşti Facultatea de Electronică şi Telecomunicaţii B-duI. luliu Maniu, 1-3, Bucureşti, România adriana_vlad@yahoo.com
1. Introducere
Această lucrare aparţine unui studiu mai larg dedicat de autori descrierii limbii române ca sursă de informaţie. Punctul de plecare al acestui studiu a fost presupunerea generală conform căreia limba naturală este bine aproximată de un lanţ Markov ergodic multiplu, cu ordin de multiplicitate mai mare decât 30, [1]. Descrierea acestei surse Markov multiple se realizează prin aproximaţii succesive. Investigaţia noastră statistică până în prezent a descris structura de litere, digrame, trigrame, tetragrame, precum şi probabilităţile condiţionate de o literă precedentă, [2]-[8].
Obiectivul principal ale prezentei lucrări este descrierea sursei de informaţie fără memorie având ca simboluri cuvintele limbii române scrise. Aceasta presupune determinarea probabilităţii unui cuvânt (oricare ales), în caz că această probabilitate există. Determinarea probabilităţii a însemnat implicit şi o verificare a ipotezei de staţionaritate a limbii române scrise pe baza structurii de cuvinte; verificarea s-a făcut utilizând o procedură similară cu cea pe care am dezvoltat-o pentru m-grame, [3]-[8] (m-grama este o succesiune de m litere consecutive în texte naturale). Metoda noastră statistică de a determina probabilităţile cuvintelor a combinat următoarele tipuri de inferenţe statistice: teoria estimării cu multiple intervale de încredere statistică; test al ipotezei că probabilitatea aparţine unui interval; test de egalitate între două probabilităţi.
Primele două tipuri de inferenţe statistice menţionate (teoria estimării cu multiple intervale de încredere statistica; test al ipotezei ca probabilitatea aparţine unui interval) au fost folosite pentru a decide care este intervalul de încredere statistică "reprezentativ pentru probabilitatea cuvântului investigat în textul natural.
O parte din acest studiu s-a desfăşurat în cadrul unuiGrant CNCSIS-MEC (2001-2002) cu tema: 'Descrierea limbii române scrise ca sursă de informaţie"
208
209
Simultan a apărut şi o mulţime "reprezentativă" de date Ud. extrase din textul natural, corespunzătoare cuvântului investigat (modelul statistic i.i.d. presupune că datele provin din variabile aleatoare independente statistic şi identic distribuite).
Ultimele doua tipuri de inferenţe statistice menţionate (test al ipotezei ca probabilitatea aparţine unui interval; test de egalitate între două probabilităţi) ca şi intervalele de încredere statistica "reprezentative" şi mulţimile de date "reprezentative" obţinute în prealabil au fost folosite pentru comparaţii matematice între texte naturale. Aceste comparaţii matematice (dincolo de valoarea lor ca atare) au avut scopul principal de a vedea dacă putem vorbi de un model matematic al sursei de cuvinte pentru limba ca ansamblu, pe domenii ale limbii, pe autori etc. Comparaţiile s-au făcut în două moduri:
• urmărind probabilităţile unui cuvânt (acelaşi) în texte naturale diferite;
• urmărind probabilităţile cuvintelor situate pe acelaşi rang în texte naturale diferite (se compară probabilităţile asociate unui aceluiaşi rang în ierarhiile frecvenţelor relative).
Rezultatele experimentale au adus probe noi în sprijinul ipotezei de staţionaritate a limbii române scrise în cadrul unui aceluiaşi domeniu punctând către unele diferenţe între domenii diferite.
Investigaţia noastră (atât privind intervalele de încredere statistică "reprezentative", cât şi comparaţia matematică dintre texte) a avut în vedere şi eroarea statistică de ordinul al doilea. Acest tip de eroare are un rol special în dimensionarea unui nou corpus lingvistic care să satisfacă acurateţea dorită pentru descrierea modelului matematic (sursa de informaţie de cuvinte).
Lucrarea mai conţine si un studiu experimental al uneia dintre cele mai cunoscute legi de tipul rang - frecvenţă, legea lui Zipf. Este analizat şi un corolar al acesteia, de interes lingvistic.
Analiza experimentală s-a bazat pe corpusul lingvistic global pe care l-am alcătuit în prealabil pentru studiul structurilor de litere, digrame, trigrame şi tetragrame (vezi spre exemplu [6]). Acest corpus este format din 93 de cărţi în limba română, scrise cu noua ortografie (introdusă după 1993). Cărţile reprezintă: literatură scrisă de autori români (11 cărţi: romane şi nuvele), literatură străină tradusă în română (47 de romane şi nuvele), cărţi ştiinţifice (drept, medicină, silvicultură, istorie, sociologie etc.) şi altele. Au fost considerate doar cele 31 de litere ale limbii române (AĂÂBCDEFGHIÎJKLMNOPQRSŞTŢUVW X Y Z) precum şi caracterul spaţiu (blanc); orice alte simboluri (cifre, elemente de ortografie sau punctuaţie) au fost eliminate (suprimate).
Rezultatele experimentale au fost obţinute pe diverse corpusuri organizate pe baza celor 93 de cărţi:
• Corpusul Mixt Global (#CMG) - obţinut prin concatenarea aleatoare a celor 93 de cărţi; acesta conţine un număr de Lc = 8806433 cuvinte dintre care Nc = 202403 sunt distincte.
• Cele două jumătăţi ale Corpusului Mixt Global: prima jumătate (#1JCMG) şi a doua jumătate (#2JCMG); acestea conţin un număr de Lc= 4403217 cuvinte şi respectiv Lc =4403216 dintre care Nc =148853 şi respectiv Nc =137845 sunt distincte.
• Corpusul Literar Global (#CLG) - obţinut prin concatenarea aleatoare a 58 de cărţi (romane şi nuvele scrise de autori români sau traduse în română); acesta conţine un număr de Lc =6255235 cuvinte dintre care Nc = 162124 sunt distincte.
• Cele două jumătăţi ale Corpusului Literar Global: prima jumătate (#1JCLG) şi a doua jumătate (#2JCLG); acestea conţin un număr de Lc =3127618 cuvinte şi respectiv Lc= 3127617 dintre care Nc = 116247 şi respectiv Nc = 116860 sunt distincte.
• Corpusul Ştiinţific Global (#CŞG) - obţinut prin concatenarea aleatoare a 11 de cărţi; acesta conţine un număr de Lc =1049969 cuvinte dintre care Nc = 59093 sunt distincte.
Au fost făcute determinări atât pe o singură carte cât şi pe grupuri de cărţi scrise de acelaşi autor. Dintre acestea menţionăm:
#1. GeorgeCălinescu, Bietul loanide, Editura Minerva, Bucureşti, 1995, ISBN 973-21-0432-5 (voi 1, ISBN 973-21-0431-7, pag. 1-214),-{voi. 2, ISBN 973-21-0433-3, pag. 5-256), {voi. 3, ISBN 973-21-0434-1, pag. 5-238).
#2. Radu Anton Roman, Precum fumul, Editura Cartea Românească, Bucureşti, 1996, ISBN 973-23-0274-7, pag. 5-283.
#3. Radu Anton Roman, Z/7e de pescuit, Editura Metropol, Bucureşti, 1996, ISBN 973-562-073-1, pag. 11-302.
#4. John le Carre, Casa Rusia, Editura Univers, Bucureşti, 1997, ISBN 973-34-0457-8, pag. 9-355.
#5. John le Carre, Spionul care venea din frig, Editura Univers, Bucureşti, 1996, ISBN 973-34-0355-5, pag. 9-252, cu ortografie actualizată.
#6. John Le Carre, Micuţa toboşăreasă, Editura Univers, Bucureşti, 1998, ISBN 973-34-0430-6, pag. 7-443, cu ortografie actualizată.
#7. Alexandr Soljeniţîn, Arhipelagul Gulag, Editura Univers, Bucureşti, (voi. I, 1997, ISBN 973-34-0454-3, pag. 7-432), {voi. II, 1997, ISBN 973-34-0480-2, pag. 5-474), (voi. III, 1998, ISBN 973-34-0497-7, pag. 5-414), cu ortografie actualizată, fără note.
210
211
Primul pas în analiza noastră a fost evaluarea frecventelor relative ale cuvintelor din corpusurile menţionate anterior. Tabelul 1 conţine primele 55 de cuvinte din ierarhia frecvenţelor relative din diverse corpusuri.
Tabel 1
Ierarhia frecvenţelor relative în câteva corpusuri 0. Rang; 1. Cuvânt; 2. Frecvenţă relativă (în %)
	#CI\	/IG	#CLG		#1			#4+#5+#6		#6			#csg	
0	1	2	1	2	1	2		1	2	1	2		1	2
1	de	4,10	de	4,02	de	4,17		de	4,17	de	4,12		de	4,87
2	si	3,20	si	3,12	Şi	2,65		în	2,55	în	2,58		în	3,47
3	în	2,67	în	2,44	în	2,50		si	2,39	si	2,58		si	3,07
4	să	1,62	să	1,87	cu	1,75		să	1,81	0	1,94		a	2,35
5	a	1,47	la	1,52	0	1,62		0	1,73	să	1,69		la	1,52
6	la	1,46	cu	1,50	a	1,47		la	1,55	cu	1,52		se	1,46
7	se	1,39	pe	1,45	la	1,43		cu	1,48	la	1,46		cu	1,21
8	cu	1,38	se	1,43	se	1,42		nu	1,41	se	1,44		care	1,17
9	0	1,30	0	1,41	pe	1,39		pe	1,39	pe	1,41		0	0,87
10	nu	1,28	nu	1,33	nu	1,37		se	1,35	nu	1,27		din	0,85
11	pe	1,27	a	1,17	să	1,33		un	1,18	un	1,25		pe	0,82
12	care	0,98	că	1,05	un	1,26		că	1,08	a	1,04		este	0,79
13	că	0,97	un	0,99	că	1,04		a	1,05	care	0,95		mai	0,75
14	mai	0,95	mai	0,97	lui	0,88		care	0,95	că	0,95		nu	0,73
15	din	0,91	din	0,94	mai	0,86		din	0,93	din	0,91		sau	0,71
16	un	0,87	care	0,89	din	0,86		ce	0,85	mai	0,84		să	0,70
17	ce	0,66	ce	0,69	care	0,84		mai	0,84	ce	0,79		pentru	0,67
18	ca	0,60	ca	0,58	ioanide	0,74		lui	0,68	pentru	0,71		că	0,54
19	pentru	0,54	lui	0,54	era	0,66		era	0,63	ui	0,71		al	0,53
20	ui	0,49	dar	0,51	ce	0,64		pentru	0,63	era	0,64		un	0,50
21	dar	0,45	era	0,51	e	0,54		ca	0,55	charlie	0,59		prin	0,44
22	fi	0,42	pentru	0,48	ca	0,53		ei	0,53	ei	0,57		ca	0,43
23	este	0,42	fi	0,42	fi	0,52		dar	0,50	dar	0,54		fi	0,35
24	era	0,39	când	0,39	pompo-nescu	0,44		fi	0,49	ca	0,53		sunt	0,33
25	sau	0,35	el •	0,38	pentru	0,40		fi	0,43	îi	0,53		ale	0,32
26	e	0,34	e	0,37	când	0,35		ei	0,42	ea	0,51		poate	0,29
27	el	0,34	am	0,35	el	0,33		ea	0,38	el	0,50		sa	0,29
28	al	0,33	ei	0,32	prin	0,27	când		0,34	fi	0,45	au		0,28
29	când	0,33	nici	0,30	am	0,26	nici		0,33	kurtz	0,36	ce		0,27
30	ei	0,29	îi	0,29	după	0,26	cum		0,31	când	0,34	art		0,27
31	am	0,28	mă	0,28	1	0,26	e		0,30	nici	0,32	fost		0,24
32	nici	0,28	cum	0,28	al	0,26	aSa		0,30 (	cum	0,30	după		0,24
33	prin	0,28	sau	0,25	nici	0,25	dacă		0,29'	Si	0,28	dacă		0,21
34	sa	0,26 1	fost	0,25 1	ară	0,25	îl		0,29 î	I	0,28	c (		0,19
35 5	sunt	3,25 (	după	0,24 '	i 0,25		charlie		0,29 c	3l	0,28	când (		3,19
36	cum	0,25	sa	0,24	avea	0,24	fost	0,28	aSa	0,26	m	0,18
37	fost	0,25	dacă	0,24	ar	0,23	barley	0,28	dacă	0,25	unei	0,17
38	dacă	0,24	al	0,24	dacă	0,23	al	0,27	e	0,25	cele	0,17
39	după	0,24	ea	0,23	gaittany	0,22	spuse	0,26	oseph	0,24	pot	0,16
40	au	0,23	asa	0,22	însă	0,22	iar	0,26	sau	0,24	are	0,16
41	îi	0,23	îl	0,22	foarte	0,21	îsi	0,26	ai	0,23	penală	0,16
42	mă	0,21	îsi	0,21	spre	0,20	este	0,26	după	0,23	trebuie	0,16
43	ea	0,21	este	0,21	ei	0,20	după	0,25	te	0,22	această	0,16
44	iar	0,19	au	0,21	asa	0,20	am	0,25	sa	0,22	iui	0,16
45	poate	0,19	sunt	0,20	sunt	0,19	sau	0,24	fără	0,22	acest	0,16
46	asa	0,18	iar	0,20	cum	0,19	ai	0,24	fost	0,22	iar	0,15
47	ar	0,18	fără	0,19	dar	0,19	ar	0,24	ar	0,22	lor	0,15
48	fără	0,18	prin	0,19	hagienuş	0,19	sa	0,23	este	0,21	numai	0,15
49	îsi	0,17	ar	0,19	sau	0,18	te	0,20	iar	0,21	dar	0,15
50	îl	0,17	le	0,18	fost	0,18	avea	0,20	le	0,21	mare	0,15
51	le	0,17	asta	0,18	toate	0,18	le	0,20	spuse	0,21	cel	0,14
52	ale	0,17	tot	0,18	este	0,18	leamas	0,20	apoi	0,20	unor	0,14
53	toate	0,17	eu	0,18	sa	0,18	timp	0,20	timp	0,20	fie	0,14
54	va	0,16	acum	0,17	îşi	0,17	apoi	0,19	lor	0,19	va	0,14
55	decât	0,16	până	0,17	qonzalv 0,17		au	0,18	săi	0,19	între	0,13
Un alt rezultat experimental interesant este identificarea unui număr de 162 de cuvinte care se regăsesc în toate cele 93 de cărţi ce alcătuiesc corpusul (fie că este vorba de literatură, medicină, drept etc). Deşi sunt doar 162, aceste cuvinte au o pondere importantă în textul global #CMG acoperind circa 45% din totalul celor 8806433 cuvinte. Aceste cuvinte comune împreună cu rangul lor în ierarhie şi frecvenţele lor relative în întreg textul #CMG sunt conţinute în Tabelul 2.
Tabel 2.
Lista cuvintelor comune în toate cele 93 de cărţi 1. Cuvânt; 2. Rangul cuvântului în ierarhia frecvenţelor relative în textul mixt global, #CMG; 3. Frecvenţa relativă a cuvântului în textul mixt global, #CMG,
(în %)
1	2	3	1	2	3	1	2	3	1	2	3
de	1	4,10	iar	44	0,19	unei	93	0,10	sar	185	0,05
si	2	3,20	poate	45	0,19	atunci	94	0,10	una	187	0,05
în	3	2,67	asa	46	0,18	două	95	0,10	început	188	0,05
să	4	1,62	ar	47	0,18	doar	96	0,10	încât	193	0,05
a	5	1,47	fără	48	0,18	dintre	100	0,10	alte	196	0,04
la	6	1,46	îsi	49	0,17	are	101	0,10	acestea	198	0,04
se	7	1,39	îl	50	0,17	face	102	0,10	facă	199	0,04
cu	8	1,38	le	51	0,17	sub	104	0,09	altă	200	0,04
0	9	1,30	ale	52	0,17	nimic	106	0,09	acelaşi	204	0,04
212
pe
care
mai
din
11
12
13
1,28
1,27
0,98
0,97
14 | 0,95 [lor
toate
va
decât
tot
un
ce
ca
pentru lui
dar
este
era sau
15   0,91 spre
16
17
18
19
23
25
26
ai
când
ei
nici
prin
sa
sunt
27
28
29
30
32
33
34
cum
fost
dacă
după
au
n_
ea
36
0,87
0,66
0,60
0,54
0,49 0,45
0,42
0,42
0,39
0,35
0,34
0,34
0,33
0,33
0,29
0,28
0,28
0,26
35 0,25
37
_38
39
40
41 43
0,25
0,25
0,24
0,24
0,23
pana
53 | 0,17|fei
54
55
56
57
58
chiar
mult
cel
fie
ne
ai
acum
trebuie
59
60
61
63
65
66
67
68
cele
numai
despre
avea
atât
această
putea
unde
0,16
0,16
0,16
0,16
0,15
0,15
ia
puţin
între
intru n
cea
107 0,09
108
109
110
111
112
0,15
0,14
0,14
săi
aceea
0,14
0,14
0,14
0,14
69 I 0,14
70
72
73
74
75
76
78
mtro
acest
noi
sai
cat
0,21
ceva
insa
80
81
82
84
86
87
88
89
91
0,13
0,13
ci
fată
unul
astfel
parte
înainte
pot
0,12
0,12
0,12
0,12
0,12
0,12
0,11
0,11
0,11
0,11
0,11
0,11
0,11
0,11
92 l 0,10
ele
totul
dată
tOt!
loc
fiecare
113
116
117
119
126
127
128
129
132
134
138
0,09
0,09
0,09
0,09
0,09
0,08
0,08
0,08
0,08
0,08
0,08
0,08
0,08
0,07
0,07
140
141
143
144
orice
spune
asemenea
sale
acesta
lucru
către
multe
celor
totuşi
153
155
165
0,07
0,07
0,07
0,07
0,06
0,06
166
167
168
169
174
175
178
184
0,06
0,06
0,06
0,06
0,06
0,05
0,05
0,05
0,05
desi
fac
printre pare
partea
afară
sus
faptul
locul
adevărat
tuturor
măcar primul
aceeaşi altfel
noua
acela
trebui
dintro
dă
afla
ramane
alt
pus
întâi
rând
alta
legătură
rândul
206 0,04
213
220
224
225
226
240
246
252
260
266 268
275 277
299
302
0,04
0,04
0,04
0,04
0,04
0,04
0,03
0,03
0,03
0,03 0,03
0,03
0,03
0,03
307 330 358 364
0,03
0,03
0,03
371 373 377
387
397
404
429 601
0,02
0,02
0,02
0,02
0,02
0,02
0,02
0,02
0,02 0,01
2. Descrierea structurii statistice de cuvinte. Studiu bazat pe multiple intervale de încredere statistică
Fie un text natural considerat ca succesiune de cuvinte pe care îl eşantionăm cu o perioadă suficient de mare astfel încât să rupem practic dependenţa dintre observaţiile succesive. Iniţial în investigaţia noastră statistică am considerat această perioadă ca fiind de 200 cuvinte. La fiecare moment de eşantionare am înregistrat observaţia făcută (cuvântul respectiv), conform Fig. 1. Mulţimea de date obţinute în acest fel conţine A/-cuvinte, unde N=Lc/200 iar Lc este lungimea textului în cuvinte.
213
1
CÂND GAITTANY
1. CÂND
2. GAITTANY
201
TĂCU CĂCI ŞTIA CĂCI
STIA
401
GAITTANY LIPSIT DE LIPSIT... DE.
200.
TĂCU
GAITTANY
Figura 1. 200 de mulţimi de date (cuvinte) în model statistic /./.cf. obţinute prin eşantionare periodică a textului natural
Deplasând originea eşantionării în textul natural apar 200 de astfel de mulţimi de date experimentale, fiecare în parte de volum A/, Fig. 1.
Fiecare mulţime de N observaţii astfel obţinută satisface modelul statistic i.i.d., model necesar în aplicarea inferenţelor statistice utilizate. Independenţa este asigurată de mărimea perioadei de eşantionare; distribuţia identică este un rezultat al ipotezei de staţionaritate a limbii naturale.
Acceptând ipoteza de staţionaritate a limbii, toate cele 200 de mulţimi de date experimentale (compatibile cu modelul i.i.d.) extrase din textul natural conform Fig. 1, trebuie să conţină aceeaşi informaţie despre probabilitatea cuvântului investigat (oricare ar fi acesta).
Atenţie însă, aceste mulţimi de date nu sunt independente între ele.
Un prim obiectiv al studiului nostru a fost de a vedea dacă într-adevăr cele 200 mulţimi de date confirmă sau nu aceeaşi probabilitate p teoretică (necunoscută) a cuvântului investigat.
Un răspuns afirmativ ne-ar permite să obţinem un model matematic pentru sursa de informaţie de cuvinte asociată limbii române. Pentru a da un răspuns am extins o procedură statistică pe care am dezvoltat-o în [3]-[8] pentru /n-grame. Prin această procedură cele 200 de mulţimi de date experimentale se compară între ele aplicând repetat un test statistic al ipotezei că probabilitatea aparţine unui interval dat, vezi Anexa 1.
Menţionăm că nu am putut face o comparaţie pe baza unui test mai des folosit, anume acela privind egalitatea între doua probabilităţi, întrucât mulţimile de date care se compară nu sunt independente între ele.
Procedura a permis în final determinarea unui interval de încredere statistică optim care a fost denumit în continuare "reprezentativ" pentru cuvântul urmărit şi textul natural. Simultan a apărut şi mulţimea de date experimentale i.i.d.
"reprezentativă" pentru cuvântul respectiv şi textul natural, mulţime ce va fi folosită în comparaţii matematice între texte naturale.
2.1. Intervale de încredere statistică "reprezentative" pentru probabilităţile cuvintelor. Metodă de determinare şi rezultate
experimentale
Scopul acestui subcapitol este de a determina probabilitatea p a unui un cuvânt urmărit.
Fie mţ numărul de apariţii ale cuvântului în mulţimea / de date experimentale i.i.d. de volum N, / = 1*200. (Aceste mulţimi sunt extrase din textul natural conform Fig. 1.)
Aplicând teoria estimării, fiecare din cele 200 de mulţimi de date conduce la o estimaţie p;=m;/N a probabilităţii p necunoscute şi la un interval de încredere statistică al probabilităţii //=(pi,/;p2,/)» i = 1 + 200. Considerând N suficient de mare astfel încât condiţia deMoivre - Laplace să fie satisfăcută, Np(l-p)»l, limitele intervalului de încredere statistică (inferioară şi superioară) se calculează conform relaţiei (1), [9], [10]:
Plj = Pi~ZalliP&-Pi)iN
P2J = Pi + Za/2^Pi(l~Pi)/N (1)
unde zaj2 este a/2 cuantila legii normale de medie 0 şi dispersie 1. în determinările noastre experimentale am lucrat cu un nivel de încredere statistică de 95%; rezultă zaji =1.96 .
Cu alte cuvinte putem spune că probabilitatea adevărată p se află în intervalul    = [p\j\P2j)> cu o încredere statistică egală cu 0,95.
într-o primă etapă a analizei noastre, pentru un anumit eveniment urmărit (apariţia unui cuvânt), s-au folosit următoarele mărimi (a se vedea Fig. 2):
• - frecvenţa relativă a cuvântului pe întreg textul natural considerat (ceea ce înseamnă măsurare din date corelate); p* este raportul între numărul de apariţii ale cuvântului în textul natural şi lungimea Lc a textului respectiv (numărul total de cuvinte). Se observă că p* este media aritmetică a celor 200 de estimaţii. Subliniem că p* este o mărime importantă pentru orice experimentator.
Pmin =min£;, / = 1 + 200
valoarea minimă a estimatiilor;
PmsiX
= maxp/, i = 1+200 - valoarea maximă a estimatiilor;
AM = maxp2,,-minpu, i-1+200 - reuniunea ceior 200 de intervale
de încredere statistică;
diferenţa maximă între două
A°M = maxp; - minpj,   i = 1 + 200
i i
estimaţii (intervalul de împrăştiere al estimatiilor);
8M =max|p; -/?*[, / = 1 + 200 - diferenţa maximă între estimaţiile p-L şi
frecvenţa relativă p *;
Sm =mm\pi , / = l + 200 - diferenţa minimă între estimaţiile px şi frecvenţa relativă p *.
Pl
Fia
Am
Pa Pih
h h
^200
P200
Figura 2. Mărimi utilizate în obţinerea intervalului de încredere statistică "reprezentativ" pentru probabilitate
Următoarele întrebări (probleme) au ghidat analiza noastră teoretică şi experimentală:
1. Cât de largi sunt intervalele , SM şi AM ? Intervalele kcM şi SM sunt importante în analiza împrăştierii estimatiilor în jurul valorii p*. Intervalul AM ne dă o idee despre cel mai mare interval în care s-ar afla p, probabilitatea adevărată, bănuită că există.
2. Există valori pi foarte apropiate de     şi cât de apropiate?
Pentru a răspunde la această întrebare a fost urmărită experimental mărimea 8m. Sm conduce la estimaţia p; care este cea mai apropiată de p*, estimaţie care va fi în continuare notată cu pA. S-a notat cu A intervalul de încredere statistică asociat estimaţiei pA conform relaţiei (1).
3. Cât de multe intervale de încredere statistică // conţin (îmbracă)
p*? Prin presupunerea de staţionaritate, ne aşteptăm ca un mare
număr de intervale de încredere statistică // să se intersecteze,
conţinându-l în acelaşi timp pe p*. Nu ne aşteptăm la o proporţie de
95%, întrucât cele 200 de mulţimi de date Ud. nu sunt independente între ele.
4. Putem găsi un interval de încredere statistică pentru probabilitatea adevărată p, interval care să fie acceptat de toate cele 200 de mulţimi de date experimentale? Se pot găsi mai multe astfel de intervale? Dacă ipoteza de staţionaritate este adevărată atunci astfel de intervale trebuie să existe. Dacă intervalul A (definit mai sus în întrebarea 2) este unul dintre aceste intervale, atunci el va fi preferat de experimentator şi va fi considerat ca "reprezentativ" pentru probabilitatea cuvântului şi textul analizat.
Pentru a înţelege metoda dezvoltată de noi care răspunde la aceste întrebări şi care conduce la obţinerea intervalului de încredere statistică "reprezentativ"exemplificăm pentru cuvântul DE în corpusul mixt global #CMG.
în Tabelul 3 cele 200 de rânduri corespund celor 200 de mulţimi de date experimentale i.i.d. fiind explicitate atât estimaţiile p; cât şi intervalele de încredere statistică //, / = 1 + 200. Succesiv, fiecare interval // a fost considerat ca interval de referinţă şi am aplicat 199 de teste ale ipotezei că probabilitatea aparţine intervalului menţionat, test descris în Anexa 1. Fiecare dintre cele 199 de teste este aplicat pe o singură mulţime de date experimentală. (Numărul 199 se explică prin faptul că nu se testează şi mulţimea care a produs intervalul de referinţă.)
în primul rând al tabelului 3, intervalul 1\ =(3,89; 4,27)xl0-^ este intervalul de referinţă faţă de care se aplică testele de apartenenţă a probabilităţii. Se testează dacă probabilitatea cuvântului DE aparţine sau nu intervalului /j pe baza unei singure mulţimi de date i.i.d.] aceasta înseamnă că verificăm succesiv fiecare din restul mulţimilor de date, anume / = 2 + 200. Acceptarea ipotezei că probabilitatea cuvântului DE aparţine intervalului 1\ este marcată cu "DA" pentru respectiva mulţime de date (Tabelul 3, rândul 1). în caz contrar, pe poziţia respectivă este completat "NU". Numărul total de mulţimi de date care trec testele este conţinut în ultima coloană din dreapta. Această procedură se repetă alegând ca referinţă pe rând toate cele 200 de intervale de încredere statistică //, / = 1 + 200.
Tabel 3
Determinarea intervalului de încredere statistică "reprezentativ" A pentru ^MlL» cuvântului DE în corpusul mixt global #CMG.Este îngroşat rândul 3 care corespunde intervalului "reprezentativ A
Pentru cuvântul DE s-a obţinut p* = 0,040986, iar estimaţia cea mai apropiată de p* a fost p3 = pA = 0,040992, SmIp* = 0,0002. Pentru estimaţia pA se obţine intervalul de încredere statistică 95% A = (0,0391; 0,0429). Din rândul 3 se observă că intervalul A trece toate cele 199 de teste ale ipotezei că probabilitatea cuvântului DE este cuprinsă în interiorul său. Sunt multe intervale care au compatibilitate cu toate mulţimile de date i.i.d. (în ultima coloană numărul 199 a apărut de 101 ori). Dintre aceste 101 intervale am ales A = (o,0391; 0,0429) ca fiind interval de încredere statistică 95% reprezentativ pentru probabilitatea cuvântului DE întrucât este uşor de determinat de oricare experimentator. Mulţimea de date i.i.d. specificată de indicele i = 3 va fi numită mulţime de date "reprezentativă" pentru cuvântul DE în corpusul #CMG.
Tabelul 4 conţine informaţii despre elementele analizei pentru primele zece cuvinte din ierarhia frecvenţelor relative în corpusul #CMG. Exemplificăm pentru cuvântul DE care având frecvenţa relativă p* = 4,10xl0~2 este pe primul loc în ierarhie. Valoarea p* este cuprinsă în N(p*)= 192 de intervale de încredere statistică din cele 200 considerate, (coloana 3); reuniunea celor 200 intervale de încredere statistică raportată la p* este A^/p* = 22,24xl0~2, (coloana 4); diferenţa maximă între două estimaţii raportată la p* este ACM /p* = 13,08xl0~2, (coloana 5); diferenţa maximă între o estimaţie p, şi p* raportată la p* este ■ <5M/p* = 7,80xl0~2, (coloana 6); diferenţa minimă între o estimaţie pt şi p*
218
219
raportată la p* este Sm/p* = 0.02xlO 2, (coloana 7); lărgimea intervalului de încredere statistică "reprezentativ" A raportată la p* este a/p * = 9,23 x 10~2, (coloana 8); există n(a)=101 intervale de încredere statistică la fel de bune ca intervalul A "reprezentativ", (coloana 9). Aceste n(a) intervale sunt confirmate de
toate cele 199 de teste de apartenenţă a probabilităţii la interval, prin care s-a făcut verificarea staţionarităţii.
Numărul relativ mare de intervale de încredere statistică confirmate practic de toate cele 199 de teste de apartenenţă a probabilităţii la interval - n(a) din coloana 9 a tabelului 4 - este o susţinere a ideii de staţionaritate.
Tabel 4
privind mărimile din Fig. 2 pentru cele mai frecvente 10
Rezultate numerice cuvinte în #CMG.
Cuvânt	p *	n(p*)	aM/p*		5m/p*		a/p*	n(a)
1	2	3	4	5	6	7	8	9
DE	4,10	192	22,24	13,08	7,80	0,02	9,23	101
SI	3,20	198	25,42	14,91	8,77	0,04	10,45	102
IN	2,67	194	24,88	13,43	7,09	0,04	11,43	172
SA	1,62	189	35,74	21,02	11,40	0,05	14,69	122
A	1,47	191	37,11	21,66	11,40	0,05	15,42	124
LA	1,46	185	38,07	22,52	12,89	0,00	15,45	104
SE	1,39	190	39,97	24,27	13,92	0,02	15,89	79
CU	1,38	195	37,40	21,55	11,30	0,05	15,92	132
0	1,30	191	37,52	21,29	12,38	0,02	16,39	120
NU	1,28	189	40,20	23,62	12,78	0,01	16,54	120
Prin centralizarea acestor tipuri de rezultate pentru toate corpusurile analizate şi pentru toate cuvintele pentru care s-a putut face analiza a rezultat Tabelul 5. Concret, studiul experimental a cuprins toate corpusurile prezentate în Introducere. Am putut aplica inferenţele statistice doar pentru acele cuvinte pentru care am avut suficiente date; anume Np*(l-p*)>20, unde N este volumul mulţimii de date i.i.d. (forma experimentală pentru condiţia DeMoivre - Laplace). Cuvintele au fost sortate în ordine descrescătoare a frecvenţelor de apariţie p*. Această sortare a permis organizarea studiului pe clase de frecvenţă. Am ales ca limite ale claselor următoarele valori: 5%, 2%, 1%, 0,5%, 0,2%, 0,1% şi 0,05%.
în studiul nostru experimental în aproape toate situaţiile (oricare cuvânt urmărit şi orice corpus lingvistic investigat) am găsit o estimaţie pA practic egală cu p*. Acest lucru se vede în Tabelul 5, coloana 8 urmărind raportul dintre 8m şi p*. Pentru toate situaţiile analizate am obţinut £m/p*<2,23%. Având în vedere
că studiul experimental a condus şi la obţinerea de intervale a "reprezentative" în toate situaţiile analizate, rezultă că aceste intervale de încredere statistică 95% pot fi scrise sub forma:
A=(p1A;p2A) = p*(l+£r),       ersl.96xV(l-p *)/(#/>*) (2)
£r este eroarea relativă cu care se determină probabilităţile.
Exemplificăm citirea Tabelului 5 pentru corpusul #CMG şi clasa a doua de frecvenţă. Există 8 cuvinte (coloana 3) care au frecvenţele relative cuprinse între (0,01; 0,02). Aceste 8 cuvinte acoperă 11,17% (coloana 4) din totalul apariţiilor de cuvinte din #CMG, Lc= 8806433. Celelalte coloane, 5-9, conţin informaţii referitoare la mărimile din Fig. 2. Astfel coloana 9 conţine raportul dintre lungimea intervalului A şi p* pentru cuvintele existente în clasa respectivă (limita minimă şi maximă). Acest raport este practic dublul erorii relative, £r, în determinarea probabilităţii cuvântului; se observă o precizie relativ bună a determinărilor din această clasă, er<8.5xl0~2 = 17xl0~~2/2.
în total în #CMG au fost 194 = 3 + 8 + 8 + 24+59 + 92 cuvinte pentru care s-a putut determina intervalul A "reprezentativ". Deşi cele 194 cuvinte reprezintă o mică pondere din totalul cuvintelor distincte posibile, ele acoperă 48,87% din Lc =8806433, totalul apariţiilor de cuvinte în corpusul mixt global, #CMG.
Tabel 5
Rezultate experimentale organizate pe clase de frecvenţe relative. Valorile
Clasa de frecvenţe	Corpus	Nr.	Acoperire	AM//?*	»-r	8Mlp	8m/p*	A/p*
1	2	3	4	5	6	7	8	9
2x10"2<p*<5x10"2	#CMG	3	9,97	22-25	13-15	7-9	0,02-0,04	9-11
	#1JCMG	3	10,04	31-39	18-22	10-13	0,01-0,07	13-16
	#2JCMG	3	9,90	30-41	17-25	9-14	0,01-0,06	13-16
	#CLG	3	9,58	27-33	16-19	8-11	0,03-0,04	11-14
	#1JCLG	3	9,60	39-47	23-27	12-14	0,05-0,10	16-20
	#2JCLG	3	9,55	38-46	22-25	12-13	0,03-0,10	16-20
	#CŞG	4	13,76	52-83	27-52	14-27	0,05-0,37	25-35
10"2<p*<2x10"2	#CMG	8	11,17	36-40	21-24	11-14	0,00-0,05	15-17
	#1JCMG	9	12,07	49-59	28-33	14-18	0,00-0,20	21-27
	#2JCMG	8	11,28	46-60	24-37	12-19	0,10-0,16	21-24
	#CLG	9	12,73	39-52	23-30	12-17	0,00-0,09	16-22
	#1JCLG	9	12,69	55-78	30-48	16-25	0,02-0,26	23-30
	#2JCLG	10	13,77	51-75	28-44	14-24	0,00-0,25	23-31
	#CŞG	4	5,36	110-130	67-78	34-48	0,24-0,59	44-50
	#CMG	8	6,48	42-61	23-36	12-20	0,00-0,16	19-26
	#1JCMG	8	5,93	60-92	33-62	17-34	0,11-0,28	27-38
1
J»
1|!
ii
fiii
I
Tabelul 5 indică şi precizia determinărilor (eroarea relativă er) pentru cuvintele analizate. Această precizie este relativ bună pentru determinările făcute pe corpusul mixt global #CMG (pentru cuvinte din primele patru clase de frecvenţă, er <20,5x 10~2 = 41 x 10~2 /2).
Aplicând procedura descrisă în Cap. 2.1 pentru toate corpusurile lingvistice şi pentru toate cuvintele care au satisfăcut condiţia deMoivre - Laplace au rezultat probe în sprijinul ipotezei de staţionaritate a limbii române scrise.
221
Intervalele "reprezentative" precum şi mulţimile de date i.i.d. "reprezentative" determinate pentru un cuvânt anumit şi textul natural considerat au fost în continuare folosite în Cap. 2.2, pentru a analiza dacă putem vorbi despre un model matematic al sursei de cuvinte pentru limba ca ansamblu, pentru diverse domenii ale limbii, pentru diverşi autori etc.
Acurateţea în determinarea probabilităţii cuvintelor este dată de:
• încrederea statistică (95%);
• erorile relative, er, cu care s-au obţinut intervalele A "reprezentative" conform Tabelului 5;
• mărimea celor două tipuri de erori statistice care apar în testul de apartenenţă a probabilităţii la interval, întrucât acest tip de test a stat la baza validării intervalului A ca "reprezentativ".
în ceea ce priveşte testul de apartenenţă a probabilităţii la interval acesta a fost aplicat pentru un prag statistic a = 0,05. întrucât testul a fost trecut de fiecare dată (fapt pentru care A a fost validat ca "reprezentativ') este important de a avea un control asupra mărimii (3, probabilitatea de a accepta date false. Dacă am impune valori mici pentru li am avea nevoie de un corpus mai mare. Spre exemplu, conform [6, Tabel 4], dacă se doreşte fi < 0,3 şi 5 = 0,15 (Anexa 1) pentru a investiga cuvinte din primele patru clase de frecvenţă am avea nevoie de un corpus de circa 30 de milioane de cuvinte.
2.2 Comparaţii matematice între diverse texte naturale pe baza
structurii de cuvinte
Investigaţia noastră (privind staţionaritatea) a fost completată cu comparaţii matematice privind probabilităţile cuvintelor, pe care le-am organizat după următoarele criterii:
a) Se verifică dacă un acelaşi cuvânt are aceeaşi probabilitate în cele două texte naturale care se compară. Această comparaţie va fi numită în continuare comparaţie între cuvinte ca atare.
b) Se verifică dacă probabilităţile cuvintelor situate pe un acelaşi rang în ierarhia frecventelor relative din cele două texte sunt egale. Spre exemplu, pe rangul 20 în corpusul literar global se află cuvântul DAR, iar în corpusul ştiinţific cuvântul UN, vezi Tabelul 1. La comparaţia între cele doua domenii se va urmări dacă probabilitatea celor două cuvinte (DAR şi UN) este aceeaşi. în cele ce urmează numim acest criteriu comparaţie pe baza rangului.
Toate comparaţiile matematice, atât pe baza criteriului a) cât şi pe baza criteriului b) au fost făcute folosind următoarele teste statistice:
• T1 - test al ipotezei ca probabilitatea aparţine unui interval, (Anexa 1);
• 72 - test de egalitate între două probabilităţi, (Anexa 2).
222
223
Pentru fiecare din cele două texte naturale care se compară şi pentru fiecare cuvânt investigat s-au determinat în prealabil intervalele "reprezentative" precum şi mulţimile de date i.i.d. "reprezentative".
Când aplicăm testul 77, intervalul (a;b) este intervalul "reprezentativ" a din primul text natural implicat în comparaţie, iar mulţimea [xiix2^>.,xN\ de date experimentale i.i.d. este mulţimea de date "reprezentativă" din cel de-al doilea text natural. Testul a fost aplicat în ambele situaţii: corpusl versus corpus2 şi corpus2 versus corpusl, Tabel 6.
Când aplicam testul 72 se considera pentru comparaţie cele doua mulţimi de date i.i.d. "reprezentative" extrase din cele două texte naturale pentru cuvintele care se compară.
Toate testele au fost aplicate pentru un prag de semnificaţie statistică a=0,05 . Cu alte cuvinte, probabilitatea de a respinge date corecte este mai mică decât 0,05.
Tabel 6
Comparaţii între texte naturale pe baza probabilităţii cuvintelor. Coloanele 4-9 conţin numărul de cuvinte rejectate de testele statistice
Texte cc	>mparate	Nr.	Comparaţie între cuvinte ca atare			Comparaţie pe baza rangului		
Corpus 1	Corpus 2		Test 77		Test 72	Test 77		Test 72
			1 versus 2	2 versus 1		1 versus 2	2 versus 1	
7	2	3	4	5	6	7	8	9
#1JCLG	#2JCLG	72	0	0	0	0	0	0
#1JCMG	#2JCMG	104	0	0	0	0	0	0
#CLG	#CSG	22	10	18	13	1	16	10
Rezultatele experimentale sunt sintetizate în Tabelul 6. Comparaţiile făcute în cadrul domeniului literar, când se compară cele două jumătăţi de corpus între ele (#1JCLG şi #2JCLG) nu indică diferenţe între probabilităţi indiferent de testul utilizat (77 sau 72) sau de criteriul utilizat (comparaţii pe baza aceluiaşi cuvânt sau pe baza aceluiaşi rang).
Acelaşi rezultat s-a obţinut şi când s-au comparat cele două jumătăţi ale corpusului mixt global, #1JCMG şi #2JCMG.
Exemplificăm în continuare modul de citire al Tabelului 6.
Primele două coloane conţin corpusurile care se compară între ele.
Coloana 3 indică numărul de cuvinte investigate în comparaţii (care au îndeplinit condiţia Np*(l-p*)>20 în ambele texte care se compară).
Rezultatele din coloanele 4, 5 şi 6 au fost obţinute aplicând criteriul comparaţiilor "cuvintelor ca atare".
Coloanele 4 şi 5 arată câte cuvinte nu au trecut testul 77 de apartenenţă a probabilităţii la interval. Coloana 4 se referă la situaţia când intervalul fix [a\b) este intervalul a "reprezentativ" din primul corpus al comparaţiei, iar mulţimea de date i.i.d. supusă testului este mulţimea Ud. "reprezentativă" din al doilea corpus. Similar, în coloana 5: intervalul fix (a\b) este intervalul a "reprezentativ" din al doilea corpus al comparaţiei, iar mulţimea de date i.i.d. supusă testului este mulţimea i.i.d. "reprezentativă" din primul corpus,
Coloana 6 conţine numărul de cuvinte care sunt rejectate de testul 72 de egalitate între probabilităţi.
Coloanele 7, 8 şi 9 conţin acelaşi tip de informaţie specificat în coloanele 4, 5 şi 6, cu diferenţa că de această dată se compară cuvintele care ocupă acelaşi rang în loc de cuvintele "ca atare".
Când se compară domenii diferite, spre exemplu literar şi ştiinţific, apar multe diferenţe marcate de ambele teste 77 si 72 şi de cele două criterii de comparaţie.
Rezultatele comparaţiilor punctează unele diferenţe între domeniile literar şi ştiinţific. Testele nu au indicat diferenţe când s-au comparat corpusuri organizate după aceeaşi reguli (jumătăţile corpusului mixt global între ele sau jumătăţile corpusului literar global între ele); reamintim că atât corpusul mixt global cât şi cel literar global au fost obţinute prin concatenarea aleatoare a cărţilor respective.
3. Legea lui Zipf. Studiu experimental
Ierarhiile frecvenţelor relative ale cuvintelor (prezentate în Cap. 1 şi întărite de analiza de staţionaritate din Cap. 2) au constituit o bază de plecare pentru studiul nostru experimental asupra legii lui Zipf. în lingvistică legea lui Zipf este una din cele mai cunoscute dependenţe rang - frecvenţă. (Aceste dependenţe rang -frecvenţă au fost observate de-a lungul timpului şi în diverse alte domenii: economie, fizică, biologie, demografie etc. [11], [12].) Obiectivul acestui capitol a fost de a stabili dacă şi în ce măsură (cu ce acurateţe) limba română scrisă satisface legea lui Zipf.
Fie un text (corpus) având o lungime de Lc cuvinte, dintre care Nc sunt distincte. Aceste Nc cuvinte se sortează într-o listă în ordine descrescătoare a numărului de apariţii în textul natural. Se notează cu k rangul unui cuvânt în listă şi cu f(k) frecvenţa relativă a acestuia (numărul de apariţii raportat la Lc): f(l)> f (2)>...>/(Nc). (Altfel spus, f(k) este de tipul p* din capitolele precedente). Legea lui Zipf afirmă că produsul dintre rang şi frecvenţa relativă este constant, [11] - [14]:
kf(k)=A (3)
224
Se observă că membrul stâng al ecuaţiei (3) corespunde realităţii fiind vorba de măsurători efectuate pe texte naturale în timp ce membrul drept corespunde modelului teoretic presupus.
Este ştiut din consideraţii privind alte limbi naturale că legea Zipf, apreciată ca foarte simplă şi foarte atractivă, funcţionează cu aproximaţie pentru o plajă limitată de ranguri, anume nu prea mici şi nu prea mari. Astfel un prim pas al studiului nostru teoretic şi experimental a fost să reprezentăm grafic dependenţa rang - frecvenţă pe tot corpusul de care am dispus (corpusul mixt global, #CMG). Fig. 3 prezintă această dependenţă la scară logaritmică (f(k) versus k). La o primă vedere am putea spune că mărimea A din (3) este aproximativ constantă pentru un interval de ranguri ke l&min;&maxJ Uf[de km[n >50. Am limitat studiul la acele ranguri pentru care numărul de apariţii ale cuvintelor a fost mai mare decât 50 pentru a beneficia de rezultatele anterioare privind studiul de staţionaritate prezentat în Cap. 2. Aceasta face ca rangul km2iX să depindă de corpusul analizat.
Legea lui Zipf este descrisă în numeroase referinţe dintre care în limba română menţionăm în special [13] şi [14]. Capitolul de faţă urmăreşte determinarea constantei legii atât pe corpusul de ansamblu, #CMG, cât şi pe diverse texte naturale (grupate după autori sau pe subdomenii ale limbii). Se analizează şi în ce măsură comportamentul real se abate de la cel teoretic.
3.1 Elemente teoretice
3.1.1 Determinarea parametrului legii Zipf prin minimizarea erorii pătratice Presupunând valabilitatea legii Zipf pentru rangurile ke [&min;&max] ne-am propus să determinăm mărimea A din condiţia de minimizare pe acest interval a următoarei funcţii (suma pătratelor erorilor):
k\xu\x
k—hrr\\
i2
(4)
Derivând funcţia g(A) şi egalând cu 0 se obţine valoarea mărimii A corespunzând minimului:
A =
V /(*)	/	( k \ y —
^ k k=k ■ "nun	/	k=k - &
(5)
Valorile km[n şi £max sunt la dispoziţia experimentatorului. Pentru o evaluare a acurateţei cu care limba naturală verifică legea lui Zipf definim următoarele tipuri de erori:
• s , suma pătratelor erorilor pe intervalul ke[kmin;kmax] şi forma ei normată, en :
225
k-km\n
£„=£/
ll ia/
X
k=k
min
M
eroarea relativă maximă pe intervalul de optimizare k e [fcmjn ;^max ]
£M = £r(*M)= max erW k
er(k) =
\f(k)-
UJ
(6)
(7)
3.1.2 Determinarea parametrului legii lui Zipf considerând cazul ideal Dacă acceptăm legea lui Zipf ca fiind corectă pe întreg domeniul de ranguri ke\l;Nc\, atunci valoarea constantei A se determină prin raţionamentul descris în [13], [14]:
c + In Nc
unde c este constanta lui Euler, egală cu 0,577215 şi Nc>50.
Observăm că mărimea A calculată cu relaţia (8) nu depinde decât de numărul Afc de cuvinte distincte din textul analizat. Prin urmare sunt de aşteptat unele diferenţe între evaluările mărimii A pe baza datelor experimentale cu relaţia (5) şi cazul ideal, pur teoretic, relaţia (8).
3.1.3 Corolar al legii lui Zipf Rezultatele experimentale cuprind şi verificarea unui corolar al legii Zipf care se referă la determinarea cotei părţi, ls/Lc , pe care o acoperă cele mai frecvente s cuvinte într-un text de lungime Lc , [13], [14].
ls     c + lns
(9)
Lc    c + \nNc
Relaţia (9) este valabilă pentru un număr de cuvinte s > 50.
Observăm că valoarea raportului ls/Lc nu depinde de mărimea A. De aceea diferenţele existente între diversele moduri de evaluare ale mărimii A nu vor influenţa acest raport. în consecinţă ne aşteptăm la o bună verificare experimentală a acestui corolar.
3.2. Rezultate experimentale şi concluzii
Analiza experimentală a legii lui Zipf a început cu corpusul global #CMG (vezi Fig. 3) şi a continuat pentru comparaţie cu o serie de texte naturale incluse în acesta (prezentate în Introducere). Rezultatele experimentale sunt concentrate în Tabelul 7. Pentru fiecare text analizat Tabelul 7 conţine în coloanele 2 şi 3 numărul total de cuvinte Lc şi numărul cuvintelor distincte 7VC. în toate textele analizate
226
227
s-au investigat toate cuvintele cu număr de apariţii mai mare decât 50; acesta determină rangul £max corespunzător fiecărui text analizat (coloana 4). &max diferă de la text la text; &min este ales întotdeauna 51. Pentru acest interval de rangurile L^min^maxJ» s-a determinat cu relaţia (5) mărimea A cuprinsă în coloana 5. Coloanele 6-9 conţin rezultatele numerice calculate cu relaţiile (6) şi (7) unde mărimea A este cea din coloana 5 (determinată din textul natural respectiv). Coloana 9 conţine rangul kM pentru care s-a obţinut eroarea relativă maximă eM .
Ne-am pus problema şi dacă mărimea A = 0,0909 determinată pentru corpusul mixt global #CMG, ar putea fi acceptată drept referinţă pentru limba română. De aceea coloanele 10-13 conţin succesiv mărimile din relaţiile (6) şi (7) unde A = 0,0909 pentru toate textele naturale analizate. Eroarea relativă maximă eM este însoţită de rangul corespunzător, kM .
Tabel 7
Studiu experimental al legii lui Zipf în limba română scrisă
Text	Lc		^•max	A x102	e x106	x102	x102	kM	£ x106	x102	£M x102	kM
1	2	3	4	5	6	7	8	9	10	11	12	13
#CMG	8806433	202403	14543	9,09	0,36	0,22	9,81	286	0,36	0,22	9,81	286
#CLG	6255235	162124	10299	9,60	0,30	0,17	13,93	10136	0,81	0,50	15,43	149
#1JCLG	3127618	116247	5568	9,58	0,26	0,14	10,53	136	0,72	0 44	16,41	136
#2JCLG	3127617	116860	5529	9,74	0,29	0,16	10,02	122	1,11	0,69	17,86	122
#1	226420	26943	466	9,81	0,37	0,22	9,07	68	1,28	0,88	16,81	173
#2	121177	18457	260	10,15	0,15	0,09	8,21	256	1,95	1,48	20,83	256
#3	88827	13768	190	10,07	0,20	0,14	10,17	186	1,60	1,33	22,07	186
#2+#3	210004	25036	484	9,97	0,52	0,29	18,71	478	1,89	1,29	30,18	478
#4	130743	18223	274	10,71	0,26	0,14	8,38	53	4,47	3,35	25,85	110
#5	75698	10351	187	11,56	0,42	0,22	10,86	183	9,22	7,71	40,92	183
#6	197889	23206	399	10,34	0,15	0,08	7,03	121	2,85	1,99	21,73	121
#4+#5+#6	404330	33555	849	10,53	0,20	0,10	8,90	103	4,03	2,62	26,08	103
#7	644794	49434	1195	10,03	0,35	0,18	10,80	477	2,04	1,30	21,49	77
In Fig. 3 sunt prezentate pentru corpusul mixt global două traiectorii, una experimentală (cu 'o') şi cea teoretică (cu '*') conform relaţiei (3) cu parametrul a = 0,0909 din coloana 5, Tabelul 7. Se observă o bună concordantă a celor două curbe pentru *e [WWl-
io-'
-1-1- • °0   j \	
-.........................................;................	
	
	
	_i_i-
_J-i-.-1
102 io3 104 105
Figura 3. Dependenţa rang - frecvenţă relativă de apariţie a cuvintelor în corpusul mixt global #CMG (scară logaritmică f(k) versus k). Curba experimentală marcată cu 'o'; curba teoretică, relaţia (3) pentru A = 0,0909 ,
marcată cu
în cazul ideal, pur teoretic, mărimea A poate fi determinată cu relaţia (8) pe baza coloanei 2 din Tabelul 7. Spre exemplu în corpusul global #CMG, unde au fost identificate Nc= 202403 cuvinte, A = 0,0781. în corpusul #CLG, pentru Nc =162124 cuvinte distincte, aplicând relaţia (8) rezultă A = 0,0795.
Tabel 8
Valori teoretice, relaţia (9), şi experimentale ale raportului ls/Lc în corpusul
literar global #CLG
X	0,1%	0,05%	0,01%
s	104	189	911
ls/Lc (experimental)	43,69%	49,64%	64,38%
ls/Lc (teoretic)	41,53%	46,28%	58,78%
Tabelul 8 conţine date despre cota parte acoperită de cuvintele pentru care f(k)>Ă unde A = 0,1%; 0,05%;0,01%, în textul literar global #CLG. S-a folosit relaţia (9) unde Nc =162124, iar numărul de cuvinte s corespunzător pragului X
I
Iii PJ
iii'1
«ni, iiiir
fi
Uifll','
228
este conţinut în linia 2 a Tabelului. Se observă o concordanţă destul de bună între valorile teoretice şi cele experimentale.
Notă: Din cele 189 cuvinte din corpusul literar global #CLG care au frecvenţa relativă mai mare decât 0,05%, doar 156 au îndeplinit condiţia deMoivre-Laplace şi au fost investigate cu control statistic apărând şi în Tabelul 5.
Ca o remarcă finală legea lui Zipf poate fi considerată ca valabilă şi pentru limba română pentru ranguri nu prea mici şi nu prea mari, fapt susţinut de Fig. 3 şi datele din Tabelul 7.
4. Concluzii
Unul din principalele rezultate obţinute în cadrul acestei lucrări este de a aduce probe noi privind staţionaritatea limbii române scrise, de această dată pe baza structurii de cuvinte. (Ipoteza de staţionaritate este inclusă în presupunerea generală conform căreia limbile naturale sunt lanţuri Markov multiple ergodice). Analiza staţionarităţii s-a făcut prin extinderea unei metode dezvoltate de autori pentru studiul structurii statistice de m-grame (litere, digrame, trigrame, tetragrame). în consecinţă s-au putut obţine probabilităţile cuvintelor cu intervale de încredere statistică 95% "reprezentative". Aceste intervale pe care le-am numit "reprezentative" au avut compatibilitate cu toate mulţimile de date i.i.d. obţinute prin eşantionarea periodică a textului natural. Simultap au rezultat mulţimile de date i.i.d. "reprezentative" pentru cuvântul investigat şi textul natural analizat.
O altă contribuţie constă în procedura de comparaţie matematică între texte naturale facilitată de intervalul "reprezentativ" pentru probabilitate şi de mulţimile de date i.i.d. "reprezentative". Comparaţiile făcute între corpusuri organizate în aceeaşi manieră (literar versus literar sau mixt versus mixt) au întărit ideea de staţionaritate a limbii şi au confirmat modelul matematic prezentat anterior prin intervale de încredere statistică 95% "reprezentative" pentru probabilităţile cuvintelor. Au apărut unele diferenţe între domeniile literar şi ştiinţific.
Rezultatele experimentale dau un plus de semnificaţie frecvenţei relative p*, mărime de care orice experimentator este interesat. Acest plus de semnificaţie este datorat faptului că în toate situaţiile analizate de noi (cuvânt sau text natural) am putut obţine o estimaţie a probabilităţii practic egală cu p*, iar intervalul de încredere statistică asociat acestei estimaţii a fost confirmat ca interval "reprezentativ" pentru probabilitate.
Lucrarea conţine totodată şi confirmarea valabilităţii pentru limba română scrisă a legii lui Zipf (lege de tip rang - frecventă) şi a unui corolar al acesteia de interes lingvistic.
229"
Autorii doresc să mulţumească D-lui dr. ing. Dan TUFIŞ, membru corespondent al Academiei Române, pentru sprijinul ştiinţific acordat continuu în studiul limbii române scrise. Autorii menţionează, de asemenea, sugestiile utile primite din partea D-lui Prof. dr. ing. Alexandru Şerbănescu de la Academia Tehnică Militară.
Referinţe bibliografice
[1] CE. Shannon, "Prediction and Entropy ofPrinted English", Bell Syst. Tech. J., Voi. 30, pp. 50-64, January, 1951.
[2] Adriana Vlad, A. Mitrea, "Estimating condiţional probabilities and digram statistical structure in printed Romanian", in Recent Advances in Romanian Languge Technology, D. Tufiş, P. Andersen eds., Ed. Academiei, Bucharest, 1997, (ISBN 973-27-0626-0), pp. 57-72; http://www.racai.ro/books/awde/ vlad.html.
[3] Adriana Vlad, A. Mitrea, M. Mitrea, D. Popa, "Statistical methods for verifying the natural language stationarity based on the first approximation. Case study: ' Printed Romanian", Proc. VEXTAL'99 (Venezia per il trattamento automatice della lingue), Ed. Unipress, (ISBN 88-8098-112-9), pp. 127-132, Nov. 22-24, 1999, Venezia; http://byron.cgm.unive.it/events/papers/vlad.pdf. _[4]. Adriana Vlad, A. Mitrea, M. Mitrea, "Verifying Printed Romanian Language Stationarity Based on the Digram Statistical Structure", Proceedings of the Romanian Academy, Series A, Voi. 1, No. 2, pp. 129-139, 2000.
[5] Vlad Adriana, Mitrea A., Mitrea M., "Two frequency-rank laws for letters in printed Romanian", Procesamiento del Languaje Natural, Revista No. 24, (Sociedad Espanol para el Procesamiento del Language Natural, ISSN 1135-5948), pp. 153-160, Septiembre, 2000.
[6] Adriana Vlad, A. Mitrea, M. Mitrea, "The trigram statistical structure in printed Romanian", ROMJIST (Romanian Journal of Information Science and Technology), Voi. 4, No. 3, pp. 353-372, 2001.
[7] Adriana Vlad, A. Mitrea, M. Mitrea, "A Corpus - based Analysis of how Accurately Printed Romanian Obeys Some Universal Laws", in A Rainbow of Corpora: Corpus Linguistics and the Languages of the World; A. Wilson, P. Rayson, T. McEnery eds., Lincom-Europa Publishing House, Munich, 2002, (ISBN 3-89586-872-8), pp. 153-165 .
[8] Adriana Vlad, A. Mitrea, M. Mitrea, "Estimating tetragram probabilites by using multiple data samples from a natural text. Case study: printed Romanian", Proc. IPMU 2002 - The 9th International Conference on Information Processing and Management of Uncertainty in Knowledge - Based Systems, July 2002, Annecy, France, pp. 1285-1292.
[9] J. Devore, Probability and Statistics for Engineering and the Sciences, 2nd ed., Brooks/Cole Publishing Company, Monterey, California, 1987.
[10] Adriana Vlad, B. Badea, M. Mitrea, Metode Statistice în Prelucrarea Informaţiei. Compendiu şi Aplicaţii, Ed. Metropol, Bucureşti, 1999, (ISBN 973-562-104-5).
[11] I. Kanter, D.A. Kessler, "Markov Processes: Linguistics and Zipfs Law", Physical Review Letters, Voi, 74, No. 22, pp. 4559-4562, May, 1995.
[12] R. Gunther, L. Levitin, B. Schapiro, P. Wagner, "Zipfs Law and the Effectof Ranking on Probability Distributions", Intl. J. of Theoretical Physics, Voi. 35, No.2, pp. 395-417, 1996.
[13] S. Marcus, Ed.Nicolau, S. Staţi, Introducere în lingvistica matematică, Ed. Ştiinţifică, Bucureşti, 1966.
[14] M. Dinu, Personalitatea limbii române, Ed. Cartea Românească, Bucureşti, 1996.
Fie / = (a;b) un interval în care presupunem că se află probabilitatea p a unui eveniment urmărit. Dispunem de o mulţime de date experimentale ;-[jq,x2,....*ArL date care satisfac modelul statistic i.i.d.. Ne interesează dacă datele experimentale  [xi,x2,..-,xN]  confirmă ipoteza că probabilitatea p aparţine intervalului / = (a;b), pentru un prag de semnificaţie statistică, a, ales.
Procedura de test este următoarea:
Se formulează cele două ipoteze statistice, ipoteza nulă Hq şi respectiv ipoteza alternativă Hi:
Hq: p aparţine intervalului (a;b); pe(a\b)\
H\: p este în afara intervalului {a\b)\ p£(a\b).
Se alege pragul de semnificaţie a (echivalent, nivelul de încredere statistică 1-a). Se calculează estimaţia p = m/N, unde cu m s-a notat numărul de succese ale evenimentului în mulţimea de date [*i,jt2,Verificăm dacă estimaţia p se află sau nu în zona de acceptare a datelor. Regiunea de acceptare a datelor este un interval (q;c2) care include (a\b). Intervalul (q^) se determină conform relaţiei (10), [3]-[8]:
*  ^    c?       1 (    (x-bf x
-yjlna{\-a)iN
exd
(*-«)2 2a(\-a)IN
^2nb{\-b)IN
•exp
2b(\-b)/N
\dx = i-a
(10)
în relaţia (10) apar două funcţii de densitate de probabilitate corespunzătoare legii normale: de medie a şi dispersie a{l-a)/N şi respectiv de medie b şi dispersie b(l-b)/N.
Ipoteza nulă Hq va fi acceptată dacă şi numai dacă estimaţia p aparţine intervalului (q;c2j. în caz contrar, p<£{ci;c2), datele se resping ca fiind semnificative pentru pragul de semnificaţie a ales (se acceptă ipoteza Hi).
Ca în orice test statistic, pot să apară două tipuri de erori:
Eroarea de tipul (genul) I: Eroarea de a fi respinse date bune, adică să fie respinsă ipoteza H0 când ea este corectă. Această situaţie apare atunci când estimaţia p nu satisface testul, adică p6(q;c2j, cu toate că probabilitatea adevărată p este în intervalul [a\b). Probabilitatea acestui tip de eroare este mai nnică decât a.
Eroarea de tipul (genul) II: Eroarea de a fi acceptate date false, adică să fie acceptată h0 când ea este, de fapt, falsă. Această situaţie apare atunci când estimaţia p satisface testul, pe(q;c2j, cu toate că probabilitatea adevărată p a evenimentului nu aparţine intervalului {a\b), pe{a;b). Pentru a si n fixate probabilitatea acestui tip de eroare depinde de valoarea adevărată necunoscută p şi se calculează cu relaţia:
p7ip(l-p)/N
exd
2p(l-p)/N
\dx,
P<£ (a;b).
/3{p) este mare atunci când p este la stânga lui a (sau la dreapta lui b), dar foarte aproape de a (respectiv de £>). Practic, deranjante sunt situaţiile în care p<(l-6)>a sau p>(l + d)-b, cu toate că testul este trecut, adică /?e(q;c2J. Valoarea 5 este determinată (prestabilită) de utilizator, în funcţie de cât de mult deranjează această situaţie.
în studiul nostru asupra staţionarităţii limbii române acest test a fost absolut necesar, vezi Cap. 2. A trebuit să stabilim dacă probabilitatea p a unui anumit cuvânt este aceeaşi când dispunem de diverse mulţimi de date experimentale extrase dintr-un acelaşi text natural (unde mulţimile sunt compatibile cu modelul statistic i.i.d., dar nu sunt independente între ele). Testul a fost folosit şi în comparaţii între texte naturale.
Anexa 2. Test de egalitate între două probabilităţi - T2
Dispunem de două mulţimi de date experimentale în model statistic i.i.d., de volume N[, respectiv N2. Notând cu m\ numărul de succese (apariţii) ale unui eveniment în prima mulţime de date experimentale, estimaţia probabilităţii este Pi=(m[fNi). Similar, pentru a doua mulţime de date experimentale, estimaţia probabilităţii este p2 =(m2/N2). Urmărim să stabilim dacă cele două estimaţii p\ şi p2 provin din aceeaşi probabilitate teoretică, respectiv p\-p2.
Procedura de test este următoarea:
Se formulează cele două ipoteze statistice, ipoteza nulă Hq şi respectiv ipoteza alternativă Hy:
H0: cele două probabilităţi teoretice sunt egale p\ = p2; H\: cele două probabilităţi teoretice sunt diferite p\ * p2 . Se alege pragul de semnificaţie statistică a. Se construieşte o valoare de test z conform, [9], [10]:
z = -
P\-P2
P\(l-P\) , P2({~P2)
N2
Valoarea z depinde de datele experimentale prin estimaţiile px şi p2. In condiţiile în care ipoteza Hq este adevărată z provine dintr-o variabilă aleatoare a cărei iege de repartiţie este practic legea normală standard.
întrucât p\ şi p2 sunt necunoscute, se consideră p\ = p2 = în aceste condiţii valoarea de test z devine:
z =
- N\+NZ
m\N2-m2N\
N\N2   ^{m\ + m2)(Ni + N2-m\ -m2)
m\ + m2 N{+N2
(11)
Ipoteza nulă Hq va fi acceptată (se va considera că probabilităţile sunt egale, p\= p2) dacă şi numai dacă \z\^za/2 (za/2 corespunde pragului de semnificaţie statistică a ales; am folosit za/2=>\,96). în caz contrar se respinge ipoteza de egalitate a celor două probabilităţi pentru pragul de semnificaţie statistică a ales.
Această procedură de test a fost folosită când am comparat între ele diverse texte naturale.
235
Dezambiguizarea automată a cuvintelor din corpusuri paralele folosind echivalenţii de
traducere
Dan TUFIŞ
Institutul de Cercetări pentru Inteligenţa Artificială, Academia Română Calea 13 Septembrie, nr. 13, 74311, sector 5, Bucureşti
tufiş@racai.ro
Rezumat
Corpusurile paralele constituie surse de cunoştinţe extrem de valoroase, traducerea unui text reprezentând o succesiune de decizii lingvistice pe care traducătorul le ia în vederea asigurării unei transpuneri cât mai naturale şi mai fidele a semnificaţiei din textul sursă în textul tradus. Explicitarea şi extragerea acestor cunoştinţe prin metode algoritmice, formalizarea şi reutilizarea lor ulterioară constituie provocări ale inteligenţei artificiale, subiecte de interes fierbinte în cercetarea actuală. Lucrarea prezintă o serie de contribuţii în această direcţie, prezentând mai întâi o metodă originală de identificare a echivalenţilor lexicali de traducere a cuvintelor dintr-un corpus paralel (extrăgând deci un dicţionar multilingv) şi apoi o metodă extrem de promiţătoare pentru identificare automată a diferitelor sensuri ale cuvintelor polisemantice.
1. Motivaţii
Evoluţia ştiinţifică şi tehnologică este o sursă permanentă de formare a noi termeni sau a noi sensuri specializate pentru cuvintele existente. în domeniul lexicografiei multilinguale, păstrarea în actualitate a dicţionarelor bi- şi multilingve fără a apela la tehnologiile informatice, cu precădere cele din sfera ingineriei lingvistice, este aproape imposibilă. O serie de studii în domeniul traducerii automate au arătat că principalele probleme în acceptabilitatea traducerilor automate şi cu atât mai mult al celor implicând pre- sau post-editare umană, nu sunt legate de probleme de natură sintactică (topică, acorduri, structură frazală) ci ele se regăsesc cu precădere în sfera lexicală, mai precis a semanticii lexicale. Evaluarea sistemelor existente de prelucrare a limbajului natural şi mai ales a
236
celor de traducere automată (cu variantele ce presupun intervenţia expertului uman) a condus la identificarea unor puncte sensibile, deficitare (pentru o interesantă trecere în revistă a problemelor privind evaluarea sistemelor de prelucrare a limbajului natural şi a sistemelor de traducere a se vedea http://www.isi.edu/natural-language/mteval/). De pildă, traducerea greşită a unui cuvânt sau a unei expresii într-o frază perfectă din punct de vedere sintactic este percepută de imensa majoritate a consumatorilor de traduceri, în special de natură ştiinţifică, ca mult mai gravă decât un dezacord gramatical sau vreo altă abatere de la norma gramaticii. S-a invocat pe bună dreptate că dificultatea majoră a prelucrării automate a limbajului este rezolvarea ambiguităţilor lexicale, a omonimiilor şi a polisemiei ce apar în orice text (scris sau vorbit). Spre deosebire de oameni, care de multe ori nici nu conştientizează aceste fenomene (ele sunt "obturate" fie de contextul textului, fie de cunoştinţele de "bun simţ" ale fiecărei persoane),  procesoarele artificiale  de  limbaj  natural încearcă rezolvarea ambiguităţilor printr-un proces inteligent de alegere, dintr-un spaţiu al tuturor soluţiilor posibile în raport cu o modelare a limbajului, a soluţiei care respectă cel • mai bine restricţiile modelului. Raportarea la modelul limbajului este esenţială întrucât dificultatea procesului de prelucrare este cu atât mai mare cu cât modelul este mai complex: spaţiul de căutare a soluţiilor poate creşte exponenţial, iar procesul   decizional   poate   deveni   nedeterminist   sau   de complexitate neoperaţională.
Rezolvarea algoritmică eficientă a omografiei a cunoscut spectaculoase progrese în ultimii 10-15 ani, dar identificarea automată a sensului pe care îl are un anumit cuvânt polisemantic într-un context dat este încă o problemă nerezolvată satisfăcător şi, prin urmare, un subiect "fierbinte" de cercetare. Problema identificării sensului cu care este utilizat un cuvânt este vitală în traducerea automată, întrucât se cunoaşte faptul că de foarte multe ori un cuvânt polisemantic dintr-o limbă se traduce într-o altă limbă prin cuvinte diferite, în funcţie de sensul considerat. Este interesant de remarcat că dacă un cuvânt polisemantic din limba sursă se traduce printr-un singur cuvânt polisemantic în limba ţintă, sau altfel spus toate sensurile cuvântului de tradus se regăsesc în cuvântul reprezentând traducerea sa, necesitatea identificării sensului de utilizare al cuvântului sursă nu mai este obligatorie (cel puţin la nivelul fazei de transfer lexical) cu excepţia situaţiei în care. diferitele sensuri ale cuvântului ţintă se realizează lingvistic prin structuri de subcategorizare distincte.
în această lucrare vom prezenta în prima parte o metodă de extragere automată a echivalenţilor de traducere şi vom descrie apoi procedura de discriminare a sensurilor cuvintelor din corpusuri paralele pe baza echivalenţilor de traducere.
237
2. Echivalenţi de traducere
2.1. Noţiuni preliminare
O pereche de texte în două limbi diferite LA şi LB, astfel încât unul reprezintă traducerea celuilalt constituie cea ce se numeşte un bitext Un bitext suficient de mare constituie un corpus paralel. LA şi LB se numesc echivalenţi de traducere. Noţiunea de echivalenţă de traducere se poate rafina ia niveluri subtextuale, de pildă la nivelul paragrafului, al propoziţiei sau chiar la nivel lexical, al cuvântului sau al expresiei. în continuare elementul de aliniere lexicală îl vom numi, generic, atom lexical sau simplu atom. Un bitext în care echivalenţii de traducere sunt explicităţi se numeşte un bitext aliniat. Cea mai mică unitate textuală la nivelul căreia se realizează alinierea defineşte granularitatea echivalenţilor de traducere. Echivalenţii lexicali de traducere (obiectul nostru de interes în această lucrare) depind evident de bitextul din care sunt extraşi iar procesul de extragere a lor devine echivalent cu extragerea unui dicţionar bilingv, specific unui anumit domeniu1. Extragerea unui dicţionar de echivalenţi de traducere dintr-un bitext este în fond un proces de explicitare a dicţionarului mental folosit de translatorul (sau translatorii) textului original.
Presupoziţia fundamentală în încercarea de a alinia corpusurile paralele este că aceeaşi semnificaţie este exprimată în două sau mai multe limbi. Definirea identităţii de înţeles între două sau mai multe reprezentări ale (presupus) aceluiaşi lucru este o binecunoscută problemă filozofică care rămâne deschisă chiar în domenii mult mai precise decât cel al limbii (de pildă în ingineria software). Prin urmare, noţiunea de echivalent de traducere este un concept vag, şi pentru operaţionalizarea sa în domenii ca traducerea automată, terminologie, managementul multilingual al documentelor şi altele asemenea avem nevoie de o definiţie precisă în termeni direct cuantificabili. Una dintre cele mai larg acceptate definiţii a echivalenţei de traducere este cea folosită în [1]: "the translation equivalence defines a (symmetric) relation that holds between two different language texts such that expressions appearing in corresponding parts of the two texts are reciprocal translations. These expressions are called translation equivalents".
Majoritatea abordărilor moderne în extragerea automată a echivalenţilor de traducere2, sprijinite de forţa de calcul din ce în ce mai mare a calculatoarelor, utilizează metode statistice şi pot fi clasificate în două mari categorii:
^Posibilitatea de a genera automat dicţionare bilingve în domenii specializate, coroborată cu performanţele tot mai bune ale programelor de clasificare automată a textelor, deschide noi perspective traducerii automate şi în general prelucrăriimultilinguale a textelor. In continuare, dacă nu vom specifica altminteri, prin "echivalenţi de traducere" vom înţelege implicit "echivalenţi lexicali de traducere".
238
239
• paradigma "presupune şi testează" [2], [3] etc, se bazează pe generarea unei mulţimi de potenţiali echivalenţi de traducere (spaţiul ipotezelor) din care se selectează ulterior, pe baza unor teste de independenţă statistică, echivalenţii de traducere. Selectarea fiecărui echivalent de traducere se face independent de echivalenţii extraşi anterior (procesul poate fi considerat ca fiind unul de optimizare locală).
® paradigma "modelului de limbă" [4], [5], [6] etc. presupune construirea unui model statistic al bitextului, model ai cărui parametri se estimează prin metode de optimizare globală. în această abordare un candidat supus estimării nu mai este o pereche de atomi lexicali ci o mulţime de perechi, numită asignare [4].
Există susţinători şi critici ai ambelor abordări şi o discuţie a avantajelor şi dezavantajelor lor este prezentată în [6]. în esenţă,' paradigma "presupune şi testează" este mult mai eficientă din punct de vedere computaţional deoarece presupune investigarea unui spaţiu al soluţiilor proporţional cu N2, unde N este maximul dintre numerele de articole lexicale distincte din cele două părţi ale bitextului, dar echivalenţii de traducere cu număr mic de apariţii sunt de obicei pierduţi. Paradigma "modelului de limbă" este extrem de costisitoare din punct de vedere computaţional întrucât spaţiul de căutare al soluţiilor este teoretic proporţional cu N!, în schimb având potenţialitatea identificării corecte chiar şi a echivalenţilor de traducere cu o singură apariţie în bitext (hapax-legomena). în [4] sunt prezentaţi o serie de algoritmi foarte eficienţi, bazaţi pe o serie de ipoteze simplificatoare dar raţionale, ce permit ignorarea unor mari regiuni din spaţiul de căutare, regiuni în care este improbabil să existe soluţii acceptabile.
Metoda descrisă aici poate fi încadrată în categoria abordărilor de tip "presupune şi testează". Algoritmul generează mai întâi o listă de candidaţi şi apoi succesiv, alege din această listă perechile cu cele mai mari scoruri de co-ocurenţă în regiuni corespondente ale bitextului. După cum se va vedea în continuare, acest algoritm nu are nevoie de un dicţionar bilingv iniţial, dar dacă acesta există, utilizarea sa poate spori substanţial viteza şi acurateţea prelucrării.
2.2. Ipoteza corespondenţei lexicale 1:1
în general, un cuvânt dintr-un segment ce apare într-o parte a bitextului se traduce în segmentul corespunzător din cea de a doua parte a bitextului tot printr-un singur cuvânt. Dacă acest lucru s-ar întâmpla întotdeauna, problema alinierii lexicale a unui bitext ar fi substanţial mai simplă decât în realitate. Din păcate ipoteza "cuvânt la cuvânt" nu este adevărată în foarte multe cazuri, astfel încât adoptarea ei ca premisă de calcul nu pare foarte promiţătoare. Dificultatea poate fi însă ocolită prin considerarea ipotezei conform căreia un articol lexical dintr-o limbă se traduce în cealaltă tot printr-un singur articol lexical. Un articol lexical
f este reprezentat fie de un cuvânt, fie de o secvenţă de cuvinte (sintagmă, compus, I expresie). Această formulare, cunoscută sub numele de "ipoteza corespondenţei ^' lexicale 1:1", adoptată ca premisă computaţională, simplifică mult problema ţintă a '   alinierii lexicale a unui bitext, dar introduce probleme noi şi anume definirea şi respectiv recunoaşterea automată a articolelor lexicale. Din fericire aceste probleme sunt reductibile la contexte monolingve şi au soluţii simple şi foarte eficiente. Un program capabil să realizeze recunoaşterea automată a articolelor lexicale se numeşte segmentator lexical. Un segmentator lexical este în general independent de limbă, iar funcţionarea sa este controlată prin resurse specifice (dicţionare conţinând cuvinte, secvenţe de cuvinte sau expresii regulate definite peste un vocabular limitat). în [7] este discutată structura resurselor necesare segmentării lexicale a textelor în limba română cu ajutorul segmentatorului MtSeg, dezvoltat la Universitatea Aix-en-Provence în cadrul proiectului european "Multext".
Adoptarea  "ipotezei corespondenţei lexicale   1:1" reduce dramatic complexitatea problemei extragerii echivalenţilor lexicali, indiferent de paradigma
...... în care este abordată rezolvarea (a se vedea   [7], [8] pentru detalii). Trebuie
menţionat însă că o segmentare lexicală perfectă (din punctul de vedere al utilităţii ei într-un context multilingv) este practic imposibilă din cauza incompletitudinii inerente a oricărui dicţionar frazai. în [9], [8] se arată cum poate fi surmontată această incompletitudirie a resurselor necesare segmentării lexicale.
2.3. Etape de preprocesare
2.3.1 Alinierea frazată înainte de extragerea propriu-zisă a echivalenţilor de traducere, un corpus paralel este supus unor prelucrări preliminare, de aducere a bitextului într-o formă normalizată. După ce fiecare parte a bitextului a fost supusă segmentării lexicale, urmează etapa de aliniere la nivelul propoziţiei a corpusului paralel. Pentru acest scop, am utilizat o variantă puţin modificată a algoritmului prezentat şi documentat în [10]. în [7] este descris procesul de aliniere la nivel de frază şi furnizate exemple şi statistici pentru diferite perechi de limbi prezente în corpusul paralel multilingv "1984", conţinând traduceri, în şase limbi, ale romanului omonim al lui George Orwell. Acolo arătam că, în marea majoritate a cazurilor, traducerile din limba engleză s-au realizat în celelalte limbi păstrând corespondenţa de 1:1 la nivelul frazei1, cu alte cuvinte, aproape întotdeauna o frază din textul englezesc a fost tradusă ca o singură frază în celelalte limbi reprezentate în corpusul paralel. Algoritmul de aliniere la nivelul frazei poate depista şi acele cazuri în care traducerea s-a realizat fără păstrarea corespondenţei 1:1. Astfel, au fost cazuri în care două fraze sursă au fost traduse printr-o singură frază, sau invers, când o frază din limba engleză a fost tradusă prin 2
1 Noţiunea de frază este luată aici în sensul ei larg, al unei propoziţii sau fraze (enunţ terminat cu un semn de punctuaţie din categoria celor finale: punct, punct şi virgulă, două puncte, semnul exclamării, semnul întrebării, trei puncte).
240
241
sau chiar 3 fraze în celelalte limbi. în cele ce urmează, indiferent de tipul de aliniere (1:1, 2:1, 1:2 etc.) vom numi porţiunile aliniate la nivelul frazai, unităţi de traducere (UT).
Raţiunea acestei etape de prelucrare constă în intuiţia comună că elementele lexicale aflate în relaţie de echivalenţă de traducere se regăsesc în frazele ce se constituie în unităţi de traducere. Pe de altă parte, procesul de aliniere la nivelul frazei este mult mai simplu, pentru că în general indiferent de perechile de limbi considerate într-un bitext ordinea frazelor dintr-o limbă este păstrată în cealaltă limbă. Această ipoteză, operaţionalizată de un algoritm de optimizare dinamică de genul celui descris în [10], permite printre altele şi identificarea porţiunilor netraduse într-una din limbi (alinieri de tipul N:0 sau 0:M).
O altă ipoteză simplificatoare pentru procesul identificării echivalenţilor lexicali de traducere se bazează pe observaţia că în marea majoritate a traducerilor, categoriile gramaticale din limba sursă se conservă în limba ţintă [1]. Cu alte cuvinte, un verb se traduce de obicei printr-un verb, un substantiv printr-un substantiv ş.a.m.d. Melamed a numit o astfel de pereche de traducere, pereche de tip V, distingând-o de perechile de tip P, în care atomii lexicali în cele două limbi au categorii gramaticale diferite. Melamed, distinge şi o a treia categorie de perechi de traducere, tipul I, perechile de traducere incomplete, rezultate ca urmare a unei segmentări lexicale parţiale şi a utilizării "ipotezei de aliniere lexicală 1:1". Consideraţiile lui Melamed referitoare la distribuţia celor trei tipuri de traduceri lexicale sunt foarte bine confirmate de experimentele noastre, în ciuda faptului că textul nostru este un text literar în timp ce textul său este un text politic (dezbaterile din Parlamentul Canadian) conţinând traduceri literale, mult mai puţin afectate de personalitatea literară a traducătorului. Ceea ce este demn de remarcat este că perechile de tip P nu conţin categorii gramaticale arbitrare, şi că de la o pereche de limbi la alta, se pot identifica regularităţi în alternanţa categoriilor gramaticale la traducere (de ex. participiu-adjectiv, gerunziu-substantiv, gerunziu-adjectiv). Astfel de regularităţi pot fi abstractizate prin expresii regulate, efectul net fiind ca multe din perechile de tip P pot fi asimilate (algoritmic) perechilor de tip V. Prin urmare, necesitatea identificării rapide şi precise a categoriei gramaticale (şi eventual al altor trăsături morfologice sau lexicale) pentru atomii lexicali dintr-un bitext impune o altă prelucrare preliminară, respectiv etichetarea morfo-lexicală, prelucrare pe care o prezentăm în secţiunea următoare.
2.3.2 Etichetatea morfo-lexicală şi lematizarea Etichetarea morfo-lexicală este procesul prin care fiecărui articol lexical dintr-un text arbitrar i se atribuie un cod morfo-lexical unic dintr-o mulţime specifică articolului lexical respectiv, numită clasa sa de ambiguitate. Codul'morfo-lexical reprezintă o reprezentare compactă, şi de obicei standardizată, a proprietăţilor
morfologice şi lexicale ce caracterizează apariţia unui atom lexical într-un text. Clasa de ambiguitate a unui atom lexical reprezintă mulţimea tuturor interpretărilor posibile în orice context legal al atomului respectiv. De exemplu cuvântul "urâţr are cel puţin 8 interpretări posibile, putând fi substantiv, adjectiv sau verb. Lema sa poate fi una dintre "urât" (substantiv sau adjectiv), "a urâţi" sau "a urî" (verb).
urâţi	urâţi	Vmnp	(inf.: A urâţi înseamnă a face să devină urât)
urâţi	urâţi	Vmis3s	(ind., perf simplu, sing., pers. 3: El urâţi totul în
			viaţa ei)
urâţi	urâţi	Vmm-2s	(imp., sing: Prietene, nu urâţi singurul lucru frumos
			din viaţa lui!)
urâţi	urî	Vmip2p	(ind., prez., pl, pers. 2: De pomană îi urâţi pe ei,
			ceilalţi sunt de vină)
urâţi	urî	Vmsp2p	(subj., prez., pl., pers. 2: Voi ar trebui să urâţi tot ce
			e împotriva vieţii)
urâţi	urî	Vmm-2p	(imp., pl.: Nu-i urâţi pe apărătorii planetei!)
urâţi	urât	Afpmp-n	(adj., mase. pl., neart. : Doi câini urâţi şi răi păzeau
			intrarea.)
urâţi	urât	Ncmp-n	(subs. corn., mase. pl., neart.: Nişte urâţi m-au
băgat în sperieţi.)
Aşadar, clasa de ambiguitate a cuvântului "i/râff este mulţimea (Vmnp, Vmis3s, Vmm-2s, Vmm-2p, Vmip2p, Vmsp2p, Afpmp-n, Ncmp-n), iar etichetarea morfo-lexicală a acestui cuvânt înseamnă a alege, în funcţie de contextul apariţiei sale, unul şi numai unul dintre cele 8 coduri reprezentând interpetarea contextuală a cuvântului. în cercetările anterioare am dezvoltat o metodă statistică de etichetare morfo-lexicală [11], numită etichetarea cu două niveluri şi modele de limbă combinate (TT-CLAM: tiered-tagging with combined language models), bazată pe programul TnT al lui Thorsten Brants [12] de prelucrare a modelelor markov cu legături ascunse de ordin 2 (3-gram HMM), program ce poate fi descărcat de la adresa www.coli.uni-sb.de/~thorsten/tnt/. Abordarea TT-CLAM a arătat că texte arbitrare în limba română pot fi etichetate morfo-lexical în mod corect în peste 98.5% din cazuri şi că atunci când de interes este numai categoria gramaticală, procentul de etichetare corectă depăşeşte 99.5%. Metoda TT-CLAM s-a dovedit independentă de limbă, rezultate mai bune decât în alte abordări fiind raportate în literatura de specialitate pentru limbi foarte diferite de limba română: limba maghiară [13], [15] limba germană [16], [17].
Lematizarea este procesul prin care o formă flexionară a unui articol lexical (cuvânt sau expresie) este redusă la forma normală de dicţionar. Lematizarea se poate realiza fie printr-un proces de analiză morfologică fie prin căutarea într-o bază de date lexicale, conţinând cuvinte în formă flexionară însoţite de analiza lor morfologică şi de forma Iernă. Lematizarea se realizează în acest caz prin
identificarea în baza de date a lemei pentru care forma flexionară şi analiza morfo-lexicală sunt identice cu cele din textul de lematizat, care desigur a fost în prealabil etichetat. Pentru limba română, noi am experimentat cu ambele metode şi datorită vitezei mult superioare, am optat pentru varianta a doua.
în figura de mai jos este exemplificat rezultatul prelucrărilor preliminare discutate în această secţiune (segmentare lexicală, aliniere frazală, etichetare morfo-lexicală şi lematizare) pentru începutul bitextului Englez-Român din corpusul multilingv "1984". Prima linie arată că în limba română, fraza cu identificatorul Oro.1.2.2.1, reprezintă traducerea a două fraze din textul englezesc, respectiv a celor cu identificatorii Oen. 1.1.1.1 şi Oen.1.1.1.2 (avem deci o aliniere de tip 1:2). Liniile următoare, specifică pentru fiecare articol lexical din fiecare limbă tipul său (TOK, LSPLIT, DATE, ABR etc), forma ocurenţă, Ierna, codul morfo-lexical şi categoria gramaticală (ultimele trei separate prin caracterul T). <linktargets="Oro.1.2.2.1; Oen.1.1.1.1 Oen.1.1.1.2">
(<S FROM="Oro.1.2.2.1"> (<S FROM="Oen.1.1.1.1">
LSPLIT        într-     întru\Spsay\S   TOK  It it\Pp3ns\P TOK o        un\Tifsr\T TOK was be\Vmis3s\AUX
TOK TOK
</S>
zi zi\Ncfsrn\N TOK senină senin\Afpfsrn\A TOK
a a\Di\D bright bright\AAA
</S>
<S FROM="Oen.1.1.1.2"> </S>
Figura 1: Bitext preprocesat pentru extracţia echivalenţilor lexicali de traducere
O descriere a principiilor de codificare morfo-lexicală, în conformitate cu recomandările EAGLES poate fi găsită în [18]. Codificarea specifică pentru limba română, conformă cu standardul respectiv este pe larg descrisă în [19].
2.4. Un prim algoritm de extragere automată a echivalenţilor
lexicali de traducere
Există, aşa cum am văzut mai sus, mai multe ipoteze simplificatoare care permit ţinerea sub control a complexităţii problemei extragerii automate a echivalenţilor de traducere. Nici una dintre aceste ipoteze nu este satisfăcută întotdeauna, dar situaţiile în care ele nu sunt adevărate sunt suficient de rare astfel încât adoptarea lor nu alterează semnificativ valoarea rezultatelor. Trebuie
subliniat faptul că ipotezele simplificatoare folosite de noi, discutate anterior şi rezumate în continuare, în general nu afectează precizia (corectitudinea) dicţionarelor bilingve extrase ci completitudinea lor. Altfel spus, o serie de perechi corecte (echivalenţi de traducere reali), deşi prezente în bitext, pot să nu fie găsite. Precizia şi completitudinea (în limba engleză aceşti termeni sunt precision şi recall) se definesc în mod standard astfel:
PREC=(număr de echivalenţi corect extraşi)/(număr total de echivalenţi extraşi)
COMP=(număr de echivalenţi corect extraşi)/(număr total de echivalenţi existenţi în bitext)
Mai trebuie precizat şi faptul că ipotezele simplificatoare enumerate mai jos nu împiedică recuperarea ulterioară a echivalenţilor negăsiţi din cauza adoptării acestor ipoteze de lucru. în [9] sunt discutate metode de recuperare a unor echivalenţi de traducere ce nu respectă ipoteza "echivalenţei lexicale 1:1".
• ipoteza "echivalenţei lexicale 1:1"; ea stă la baza majorităţii abordărilor cunoscute: [20], [21], [6], [22], [23], [1] etc. Aşa cum am arătat mai devreme, un articol lexical identificat corespunzător de un segmentator lexical adecvat diminuează considerabil efectul contrazicerii acestei ipoteze;
• un articol lexical polisemantic ce apare de mai multe ori în aceeaşi unitate de traducere este folosit cu acelaşi înţeles; această presupoziţie este explicit utilizată de [1] şi implicit de toţi cercetătorii amintiţi mai sus;
• un articol lexical dintr-o parte a unităţii de traducere UT poate fi aliniat unui articol lexical în cealaltă parte a UT doar dacă cele două articole au categorii gramaticale compatibile; în majoritatea cazurilor compatibilitatea categoriilor gramaticale se reduce la identitate, dar cum am specificat anterior, este posibil să se definească corespondenţe compatibile (de pildă, verbele la participiu şi gerunziu din limba engleză sunt destul de frecvent traduse în limba română ca adjective sau substantive, şi reciproc).
• Deşi ordinea cuvintelor nu este un invariant al traducerii, ea nu este nici arbitrară; când două sau mai multe perechi de articole lexicale candidează la statutul de echivalenţi de traducere, iar alte criterii de evaluare nu permit departajarea lor, atunci este preferată perechea conţinând articolele cele mai apropiate în poziţiile lor relative. Această euristică este, de asemenea, folosită de [23].
Pe baza bitextului preprocesat aşa cum s-a prezentat în secţiunea precedentă, primul pas al algoritmului este de a delimita spaţiul de căutare al soluţiilor. Acest lucru se realizează prin construcţia unei liste a tuturor candidaţilor
76
244
245
posibili (în conformitate cu ipotezele de lucru amintite mai sus). Această listă, pe care o notăm cuTECL (Translation Equivalence Candidates List) conţine la rândul ei o mulţime de sub-liste (câte una pentru fiecare categorie gramaticală luată în considerare). Fiecare sublistă conţine perechi de forma <tokens tokenT> unde tokeris şi tokenT sunt articole lexicale de categorii gramaticale compatibile şi care au apărut în părţile corespunzătoare ale aceleiaşi unităţi de traducere. Fie TUj cea de a ja unitate de traducere (translation unit). Prin colectarea tuturor articolelor lexicale aparţinând aceleiaşi categorii gramaticale POSk (păstrând ordinea lor relativă şi eliminând duplicatele) se construiesc pentru fiecare TUj mulţimile ordonate LSjPoskŞi LTjPosk- Pentru fiecare POSiffie TUVosi produsul cartezian LSjPOsi ®LTjposi- Atunci, definim lista de corespondenţe în unitatea de traducere TUj ca fiind CTUj (correspondences in the jth translation unit):
no.of.pos
CTO= |JTUPosi
i=1
Cu aceste notaţii, şi presupunând că bitextul de intrare conţine n unităţi de aliniere, atunci TECL se defineşte astfel:
tecl=[JCTUj
H
TECL conţine desigur foarte mult "zgomot" şi cele mai multe perechi candidate (TEC=Translation Equivalence Candidate) sunt extrem de improbabile. Pentru a elimina cât mai multe din perechile TEC improbabile, TECL este filtrată pe baza unor funcţii scor ce supun fiecare TEC la o analiză a ipotezei statistice de independenţă a asocierii articolelor lexicale. Pentru a prezenta funcţiile scor pe care le-am utilizat în experimentele noastre, vom mai defini o serie de notaţii:
• TEC = <TS TT> g TECL, un potenţial echivalent de traducere definit ca perechea formată din articolul lexical sursă Ts şi posibila sa traducere TT în limba ţintă;
• nu = numărul de ocurenţe ale <TS TT> din TECL;
• n12 = numărul de perechi <TS -iTT> din TECL în care Ts a fost asociat cu un articol lexical diferit de TT;
• n2i = numărul de perechi <-.Ts TT> din TECL în care TT a fost asociat cu un articol lexical diferit de Ts;
• n22 = numărul de perechi <-Js -»TT> din TECL ce nu conţin nici pe Ts şi nici pe TT;
• nr = numărul de perechi <TS *> din TECL în care apare Ts indiferent cu cine este asociat;
• n«i = numărul de perechi <* TT> din TECL în care apare TT indiferent cu cine este asociat;
• n2* = numărul de perechi <-.Ts *> din TECL în care Ts nu apare; .   n*2 = numărul de perechi <* -,TT> din TECL în care TT nu apare;
• n« = numărul de perechi <* *> din TECL;
Tabela de contingenţă din figura de mai jos ilustrează aceste notaţii:
	TT	-.TT	
Ts	nu	ni2	nr
-Ts	n21	n22	n2*
	nM	n*2	n~
nr=nn+ n12, n2*=n21+ n22 n*i= n<n+ n2i, n*2=ni2+n22 2 2 n~= X E ny ;=li=l
Figura 2: Tabela de contingenţă pentru un potenţial echivalent de traducere <TS TT>
Pentru ordonarea potenţialilor echivalenţi de traducere în vederea filtrării (eliminarea candidaţilor cei mai puţin plauzibili) am realizat experimente folosind 4 funcţii de calcul al scorului de echivalenţă: Ml (informaţia mutuală), DICE, LL (log likelihood), and %2 (chi-pătrat). Folosind notaţiile de mai sus, aceste funcţii-scor se definesc în felul următor:
(1)
(2)
(3)
(4)
n***nn
rij* *n*j 2n
Ml
MI(Tţ, Ts) = log DICE(TT, Ts) =     # .
2    2 *
LL(Tţ, Ts) =2*XE "«'log-^r- ?'
y=i i=i
2    2  I nij
X2(Tt,Ts)= n**^^
./=i i=i
IV * n*j ^
Figura 3: Funcţii-scor pentru evaluarea unui potenţial echivalent de traducere <TS TT>
246
(4')
O formulă mai simplă de calcul pentru %2 (TT, Ts) este următoarea:
%2(T  T ) = n**(nn 1122 ni2*n2i)
Filtrarea potenţialilor echivalenţi de traducere se face în raport cu un prag numeric impus scorului calculat cu una dintre funcţiile de mai sus. Toate perechile ce obţin un scor mai mare decât pragul ales sunt considerate plauzibile şi vor fi supuse unor prelucrări suplimentare iar celelalte sunt eliminate. Orice metodă de filtrare statistică va elimina mulţi echivalenţi falşi de traducere, dar pe lângă aceştia şi un număr de perechi corecte. Alegerea pragului de scor s-a făcut având ca obiectiv minimizarea numărului de perechi corecte dar eliminate în mod greşit şi a numărului de perechi incorecte acceptate ca urmare a scorului superior pragului de selecţie. După mai multe experimente, cele mai bune rezultate s-au obţinut folosind funcţia de scor LL cu limita pragului de acceptanţă egală cu 9.
într-o primă variantă, algoritmul nostru de extragere a echivalenţilor de traducere, având unele asemănări cu algoritmul iterativ prezentat în [23], implementa o strategie de selecţie indiferentă la locul şi poziţia în corpus a articolelor lexicale apărând în perechea TEC analizată la un anumit moment. O diferenţă majoră faţă de algoritmul descris în [23] este că în programul nostru calculul diferitelor probabilităţi (mai exact al estimaţilor de probabilitate) şi al scorurilor (testul t) devine nenecesar, conducând la o viteză de prelucrare cu cel puţin un ordin de mărime mai mare. Pornind de la lista filtrată a potenţialilor echivalenţi de traducere, algoritmul selectează în mod iterativ cei mai plauzibili candidaţi (vezi mai jos) şi apoi îi şterge din lista iniţială. Algoritmul se opreşte după un număr prestabilit de iteraţii sau mai devreme în cazul în care lista candidaţilor s-a golit sau dacă nici un candidat nu mai îndeplineşte condiţia de selecţie.
în iteraţia k a algoritmului se construieşte o matrice de contingenţă (TBLk) pentru fiecare categorie gramaticală (POS) având dimensiunile Sm* Tn unde Sm şi Tn reprezintă numărul de articole lexicale din limba sursă respectiv ţintă care mai există în lista de candidaţi la pasul k (Figura 4). Liniile şi coloanele tabelei sunt indexate cu articolele lexicale (având aceeaşi categorie gramaticală) din limba sursă respectiv limba ţintă. Fiecare celulă (i,j) a matricii reprezintă numărul de ocurenţe in lista de candidaţi a perechii <TSi, TTj>.
Tsi
Tti		TTn	
nu		nin	ni*
			
			
		rimn	nm*
n*i			n**
n m n m
ny = occ(TSi,TTi); i> = ^ ; n*f= £nsj ; n- = £(Xnij)-
j=1 i=1 j=1 i=1
Figura 4: Matricea de contingenţă la pasul k
Condiţia de selecţie la pasul k a mulţimii de echivalenţi de traducere este exprimată de relaţia (5):
(5) TPk={cTsiT15>|VPfq(nu >niq)A(nij >npj)}
Condiţia de mai sus constituie esenţa algoritmului iterativ (numit în [14] algoritmul BASE) şi ea spune că pentru a selecta perechea <TSi, TTj> drept echivalent de traducere, numărul de asocieri ale lui TSi cu TTj trebuie să fie mai mare sau cel puţin egal decât numărul de asocieri ale lui TS| cu orice alt TTp (p*j) şi simultan numărul de asocieri ale lui TT] cu TSj trebuie să fie mai mare sau cel puţin egal decât numărul de asocieri ale lui TTj cu orice alt TSq (q*i). Toate perechile selectate în TPk sunt eliminate din lista de candidaţi (ceea ce în matricea de contingenţă pentru pasul k+1 implică punerea pe 0 a contoarelor de ocurenţă pentru perechile selectate anterior). Dacă TSj este tradus în mai multe moduri (fie pentru că are sensuri ce se lexicalizează diferit în limba ţintă, fie pentru că în limba ţintă se folosesc diferiţi sinonimi pentru TTj) restul traducerilor sale va fi extras în iteraţiile următoare. Algoritmul discutat este schiţat în figura 5:
procedure BASE(bitext,step; dictionary) is: k=l;
TP(0)={};
TECL(k)=build-cand(bitext); for each POS in TECL do loop
TECL(k)=update(TP(k-1),TECL(k))
248
iii
249
TBL(k)=build_TEC_table(TECL(k));
TP(k)= select(TBL(k));    ## relaţia (5) ##
add(dictionary, TP (k));
k=k+l;
until   {(TECL(k-l)    is   empty)or(TP(k-1)    is   empty)or(k > step) } endfor
return dictionary end
Figura 5: Algoritmul iterativ de extragere a echivalenţilor de traducere
2.5. Un algoritm îmbunătăţit de extragere automată a echivalenţilor lexicali de traducere
Una dintre principalele deficienţe ale algoritmului BASE este vulnerabilitatea la ceea ce [1] numeşte asociaţii indirecte. Dacă <TSj, TTj> are un scor de coocurenţă ridicat iar TTj apare (dintr-un motiv sau altul) de mai multe ori împreună cu TTk, s-ar putea ca şi perechea <TSl-, TTk> să primească un scor ridicat. Deşi, aşa cum observa şi Melamed, în general, asociaţiile indirecte au un scor mai mic decât cele directe (corecte), ele pot obţine totuşi scoruri mai mari decât multe alte perechi corecte ce n-au legătură cu TSl- iar acest lucru nu numai că generează echivalenţi de traducere greşiţi, dar va elimina din competiţie şi echivalenţi corecţi. Prin urmare asociaţiile indirecte afectează atât precizia cât şi completitudinea
. procesului. Pentru a slăbi această sensibilitate în implementarea algoritmului BASE a fost nevoie de stabilirea unei limite inferioare de ocurenţă pentru fiecare articol lexical luat în consideraţie. Această limită, conduce inevitabil la eliminarea din spaţiul de căutare a soluţiilor a mai mult de 50% dintre echivalenţii de traducere1. Deficienţa algoritmului BASE se explică prin faptul că scorurile de coocurenţă sunt calculate în mod global fără a verifica dacă atomii lexicali ai unei perechi evaluate sunt sau nu prezenţi în unităţile de traducere prelucrate.
Pentru diminuarea influenţei asociaţiilor indirecte fără a mai impune un prag de ocurenţă, algoritmul BASE a fost modificat astfel încât ierarhizarea şi alegerea celor mai probabili echivalenţi de traducere se realizează în contextul local al fiecărei unităţi de traducere (deşi scorurile lor se calculează tot la nivelul întregului bitext). Cu această modificare, noul algoritm (BETA) se apropie de algoritmul "competitive linking" al lui Melamed [1]. Candidaţii proveniţi din unitatea de traducere curentă sunt analizaţi prin prisma scorului lor de coocurenţă şi cel cu
scorul cel mai mare este selectat. în baza ipotezei corespondenţei lexicale 1:1,
1 Pierderea unui aşa mare număr de echivalenţi de traducere desigur nu surprinde întrucât
dintre candidaţii rămaşi sunt eliminaţi toţi aceia care conţin unul din articolele lexicale ale perechii câştigătoare. Dintre candidaţii care rămân după această filtrare, se alege din nou cel cu scorul cel mai bun şi iar se elimină candidaţii conţinând unul dintre articolele lexicale din perechea selectată. Procesul se repetă până când nici un echivalent de traducere nu mai poate fi extras din unitatea de traducere curentă, caz în care algoritmul trece la prelucrarea următoarei unităţi de traducere.
Eliminarea pragului de ocurenţă a îmbunătăţit substanţial completitudinea şi calitatea dicţionarelor de traducere (o detaliată comparaţie a performanţelor şi o analiză cantitativă şi calitativă a dicţionarelor extrase automat este furnizată în [8]) dar a ridicat problema decelării între candidaţii cu una sau două apariţii, pentru care scorul de coocurenţă este statistic nesemnificativ. în acest caz, criteriul frecvenţei a fost înlocuit cu o combinaţie între un scor de similaritate ortografică şi un scor de proximitate relativă. Funcţia de similaritate ortografică folosită de noi, COGN(Ts, TT), este o variantă a funcţiei XXDICE descrisă în [21]. Astfel, dacă Ts este un şir de m caractere otia2. . . am and TT un şir de n caractere (3-t(32 • • • Pn se ' construiesc două noi şiruri Ts şi T'T prin inserarea în Ts şi TT a unui număr minim de caractere speciale astfel încât în final şirurile T's şi T'T au aceeaşi lungime p (max (m, n)<p<m+n) şi un număr maxim de caractere poziţional identice. Fie a, un caracter din T's şi   Pi un caracter din T'T care se potrivesc şi sunt puse în corespondenţă. Fie 8(ai) numărul de caractere speciale consecutive ce preced imediat caracterul otj şi 8(Pj) numărul de caractere speciale ce preced imediat caracterul Pi . Fie q numărul de caractere care se potrivesc în cele două şiruri. Cu aceste notaţii, măsura de similaritate COGN(Ts> TT) se defineşte astfel:
(6)
COGN(Ts,TT ) =
m + n
if q>2 ifq<2
Limita de relevanţă a scorului de similaritate a fost empiric găsită a fi 0.42. Această valoare este dependentă într-o oarecare măsură de perechea de limbi considerată în procesul de extragere a echivalenţilor de traducere. Implementarea efectivă a testului de similaritate include şi o serie de normalizări ale şirurilor testate (eliminarea unor afixe, reducerea consoanelor duble, ignorarea distincţiei create de diacritice etc.) normalizări care depind de morfologia fiecărei limbi în parte.
Cel de al doilea criteriu de evaluare a plauzabilităţii unui candidat este scorul de proximitate, DIST(TS, TT) definit după cum urmează:
Dacă((<Ts, TT>e LSjposk ®LTjposk)&(Ts este al n-lea element în Lsjp0sk)&(TT este al m-lea element în LTjposk)) atunci DIST(TS, TT)=|n-m|
8304
Filtrul COGN(Ts, TT) este mult mai semnificativ din punct de vedere lingvistic1 decât DIST(TS> TT), astfel încât scorul de similaritate are precedenţă asupra celui de proximitate. Funcţia DIST(TS, TT) este invocată doar atunci când COGN(Ts, TT)=0 (deci când atomii lexicali nu prezintă similaritate ortografică) şi perechea <TS, TT> nu reprezintă o pereche singulară în corpus (hapax-legomena), sau când mai multe perechi candidate au obţinut acelaşi scor de similaritate.
Algoritmul BETA este schiţat mai jos:
procedure BETA(bitext;dictionary) is: dictionary={}; TECL(k)=build-cand(bitext); for each POS in TECL do for each TXJ\0S in TECL do finish=false; loop
best__cand = get_the_highest_scored_pairs (TUXP0S) ; conf licting_cand=select___conf licts (best_cand) ; non_conf licting__cand = best_cand\conf licting_cand; best_cand=conflicting_cand;
if cardinal(best_cand)=0 then finish=true; else
if cardinal(best_cand)>1 then best__card=f iltered(best__cand) ; endif;
best__pairs = non_conf licting__cand + best_cand add(dictionary,best_pairs); TU1 =
pos i
remove_pairs_containing_tokens_in_best_pairs (TU pos) ; endi f;
until { (TU1P0S={} lor (f inish=true) } endfor endfor
return dictionary end
procedure filtered(best_cand) is:
result = get_best__COGN_j3Core (best_cand) ;
if (cardinal(result)=0)&(non-hapax(best_cand))then
result = get_best_DIST__score (best_cand) ; else if cardinal(result)>1
251
endif
endffSUlt = get-best-DIST_score(best_cand) ;
'^£S3S55S8S5£3S£
return result; end
Din corpusul paralel multilingv "1984" am extras 6 bitexte conţinând textul în limba engleză şi traducerea în una din cele 6 limbi amintite. Fiecare bitext a fost prelucrat conform celor prezentate în acest capitol şi au fost extrase 6 dicţionare bilingve, din care s-a obţinut şi un dicţionar multilingv în 7 limbi (cele 6 plus engleza). în [8] este furnizată o analiză contrastivă cu alte sisteme de acest tip a vitezei de prelucrare. Timpul mediu de extragere a unui dicţionar bilingv din corpusul paralel multilingv "1984" (circa 110.000 de cuvinte în fiecare limbă) este 3 minute. Eşantioane ale acestor dicţionare pot fi consultate la adresa: http.V/www.racai.roMufis/BilingualLexicons/AutomaticallvExtractedBiiingual Lexicons.html.
3. Dezambiguizarea sensurilor lexicale folosind echivalenţele de traducere
3.1. Ambiguitatea limbajului natural
Este binecunoscut faptul că una dintre cele mai dificile probleme în prelucrarea automată a limbajului natural este ambiguitatea sa inerentă. Ambiguitatea se manifestă la toate nivelurile tradiţionale ale analizei de limbaj: nivelul fonetic şi/sau lexical, sintactic, semantic sau discursiv. Ambiguitatea prezentă pe fiecare nivel generează exploziv ambiguităţi pe nivelurile următoare. De pildă, omofonia sau omografia prezentă pe primul palier, la nivelul unuia sau al mai multor cuvinte va produce secvenţe lexicale diferite (combinaţia tuturor interpretărilor posibile la acest palier) pentru intrarea fazei de analiză sintactică. Fiecare secvenţă poate conduce, din pricina unor ambiguităţi de natură structurală, la interpretări sintactice multiple, după cum o serie de secvenţe lexicale vor putea fi abandonate pe motivul contrazicerii unor restricţii postulate de modelul sintactic al limbii prelucrate. Fiecare dintre interpretările sintactice posibile poate la rândul ei să conducă la multiple interpretări semantice, în virtutea multiplelor sensuri pe care le poate avea fiecare element frazai al unei analize sintactice. Desigur, interpretarea semantică poate elimina unele structuri sintactice generate în faza anterioară pe baza încălcării unor restricţii semantice (valabile în orice univers de discurs sau specifice unor domenii discursive de interes). în sfârşit, în analiza de discurs, în care contextul interpretativ transcende limita propoziţiei, ambiguităţile rămase se presupun a putea fi rezolvate prin utilizarea restricţiilor pragmatice motivate fie de principii generale ale dialogului (coeziune, coerenţă), fie de natura bine precizată a unui univers de discurs (modelată prin cunoştinţe extra-lingvistice despre entităţile universului de discurs). De pildă, în [24] rezolvarea anaforelor, proces tipic analizei de discurs, este modelată în termenii identificării căilor de
accesibilitate a entităţilor menţionate în discurs ("vene ale discursului"), care la rândul lor sunt formal definite pe baza principiilor generale ale coeziunii şi coerenţei unui text.
Rezultă din cele spuse până aici că identificarea şi rezolvarea timpurie, la fiecare nivel de prelucrare, a ambiguităţilor este un imperativ al oricărui demers computaţional privind prelucrarea limbajului natural. Şi cum cuvântul (sau mai exact spus, atomul lexical) este elementul primar în prelucrarea limbajului o mare parte a eforturilor de cercetare este îndreptată spre nivelul lexical al prelucrărilor. Metodele de etichetare morfo-lexicală (tagging), printre care etichetarea cu două niveluri şi modele de limbă combinate - amintită în capitolul 2, permit rezolvarea cu mare acurateţe a ambiguităţilor categoriale şi intracategoriale. De pildă cuvântul vin poate fi atât substantiv cât şi verb (ambiguitate categorială), iar ca verb, el conţine ambiguitatea intracategorială de persoană, număr şi mod ("indicativ + persoana I + număr singular", "conjunctiv + persoana I + număr singular" sau "indicativ + persoana III + număr plural"). Un program de etichetare morfo-lexicală "instruit" corect pentru limba română este capabil să rezolve, în contextul apariţiei sale, astfel de ambiguităţi morfo-lexicale.
Curentul lexicalist, predominant în modelarea sintactică a limbajului natural, presupune precizarea în descrierea de dicţionar a fiecărui cuvânt a proprietăţilor şi restricţiilor sale distribuţionale sau colocaţionale relevante pentru analiza sintactică. Pe baza acestor descrieri lexicalizate şi a contextului local, multe din potenţialele ambiguităţi structurale pot fi eliminate, înaintea unei costisitoare analize sintactice, prin tehnici cunoscute sub numele de analiză sintactică parţială (parţial parsing sau shallow parsing).
Un cuvânt omograf, chiar după ce a fost corect clasificat din punctul de vedere al categoriei sale gramaticale şi al proprietăţilor sale distribuţionale sau colocaţionale, poate rămâne ambiguu din punct de vedere semantic. Identificarea sensului cu care este utilizat cuvântul polisemantic într-un context dat este desigur de mare interes. Există însă diferite grade de rafinare a noţiunii de sens, iar natura aplicaţiei pentru care identificarea sensului este necesară poate impune o accepţie a noţiunii de sens diferită de cea utilizată într-un dicţionar explicativ. Să luăm, de pildă, problema traducerii automate. întrucât în imensa majoritate a cazurilor rezultatul traducerii este destinat uzului uman, ceea ce este important este ca în textul tradus să nu apară ambiguităţi suplimentare faţă de cele din textul sursă. Cu alte cuvinte, dacă o analiză algoritmică evidenţiază în limba sursă o serie de ambiguităţi, pornind de la premiza că textul este admisibil pentru vorbitorii nativi ai limbii textului sursă, de cele mai multe ori este nenaturală o traducere ce încearcă să evite total ambiguitatea identificată. La nivel lexical, aceasta revine la a spune că dacă diferitele sensuri ale unui cuvânt din limba sursă nu se lexicalizează prin cuvinte diferite în limba ţintă, este neproductivă o încercare a diferenţierii sensului contextual, atâta timp cât indiferent care ar fi el, traducerea cuvântului respectiv în
r limba ţintă este aceeaşi. De exemplu, cuvântul englezesc "bottle" are în ? Wordnetl .5 [25] două sensuri (ca substantiv) anume de vas de sticlă sau plastic '  cilindric cu un gât îngust şi fără mâner, respectiv cantitatea de substanţă conţinută r într-un astfel de vas. Ambele sensuri se regăsesc în cuvântul românesc "sticlă" (care însă include şi alte sensuri lexicalizate în engleză prin cuvîntul "glass"). în acest caz, a încerca eliminarea ambiguităţii la traducerea textului "He drank only a f  bottle of beer" în limba română, de pildă prin utilizarea unei parafraze de genul "El - băuse doar conţinutul unei sticle de bere", este nenecesară. Orice vorbitor al limbii române va găsi traducerea "El băuse doar o sticlă de bere" mult mai naturală şi desigur nu va avea dificultăţi în a înţelege despre ce este vorba.
Acelaşi gen de consideraţii se poate face şi în raport cu ambiguităţile sintactice pure. Celebrul exemplu " I saw the Statue of Libery flying over New York" conţine cel puţin 4 ambiguităţi, dar dacă de pildă rezolvarea omografului saw (am văzut / tai cu fierăstrăul) este esenţială în traducere, rezolvarea ambiguităţii structurale poate fi lăsată în sarcina minţii celui ce citeşte textul: "Am văzut Statuia Libertăţii zburând deasupra New York-ului ", căci dacă cititorul englez nu are dificultăţi în a înţelege cine şi cum zbura, e plauzibil că nici cititorul român (de exemplu) nu le va avea. Aceasta nu înseamnă că nu există ambiguităţi structurale a căror nerezolvare prealabilă să nu conducă la traduceri hazlii sau chiar incomprehensibile. Ideea este că metodele formale de analiză a limbajului, modelabile algoritmic, explicitează de multe ori ambiguităţi greu de conştientizat de omul obişnuit, iar luarea în considerare a factorului uman poate simplifica mult prelucrările automate. Reconsiderarea conceptului de traducere automată în accepţiunea clasică (MT) în favoarea unor concepte mai realiste de tipul HAMT (human assisted machine translation) sau MAHT (machine assisted human translation) a relevat faptul că, în numeroase ocazii, posteditarea umană a unui text tradus automat introduce ambiguităţi care, deşi nu sunt sezizabile uşor la lectură, pot fi totuşi puse în evidenţă de algoritmii de analiză.
Cercetările moderne în domeniul dezambiguizării automate, în context, a sensurilor cuvintelor sunt motivate şi de alte aplicaţii informatice, cum ar fi clasificarea după conţinut a volumelor mari de texte, regăsirea mai precisă a documentelor electronice, rezumarea automată a textelor, extragerea de cunoştinţe din texte, crearea de ontologii. Această direcţie de cercetare, identificată în literatura engleză prin acronimul WSD (Word Sense Disambiguation) constituie de câţiva ani obiectul unor conferinţe specializate şi chiar a unei competiţii de evaluare (SENSEVAL, ajunsă la a treia ediţie) a soluţiilor propuse de specialişti din întreaga lume.
Primii care au sugerat ideea că, pentru obiectivele WSD, sensurile ce trebuie diferenţiate sunt cele care se lexicalizează într-o altă limbă prin cuvinte diferite au fost Resnik and Yarowsky [26]. Intuitiv, se poate presupune că, dacă un cuvânt din limba sursă se traduce în limba ţintă în mai multe feluri şi aceste
traduceri nu sunt sinonimice, atunci trebuie să existe o motivaţie conceptuală. Analizând un număr suficient de mare de limbi şi de texte, e plauzibil, afirmau cei doi specialişti, să identificăm diferenţierile lexicale semnificative care delimitează sensurile unui cuvânt. Aceste sensuri sunt numite de cei doi "sensuri tari'. Inabilitatea de a identifica corect sensurile tari este principala sursă a erorilor inacceptabile în orice aplicaţie multilinguală. Utilizarea textelor paralele pentru WSD [27], [28], [29], în scopul identificării proprietăţilor semantice a lexemelor şi a relaţiilor dintre ele [30] a folosit implicit sau explicit noţiunea de "sens tare", Mai recent, pe baza echivalenţilor de traducere extraşi din corpusul "1984" prin procedura noastră, descrisă în capitolul precedent, Ide [31] a arătat că diferenţele de traducere în 5 limbi (din 4 familii diferite) pot constitui un criteriu extrem de eficace în identificarea sensurilor tari în limba de pornire (în acest caz, engleza). Resnik and Yarowsky [32] au folosit în schimb traducerile unor propoziţii izolate în limba engleză efectuate de vorbitori nativi ai limbilor ţintă, dar în mare concluziile studiului lor au fost aceleaşi cu ale lui Ide. în ambele studii amintite referinţa pentru limba engleză a fost WordNet [33] şi deşi rezultatele lor sunt promiţătoare, mai ales pentru sensurile tari, ele se bazează pe o mulţime prestabilită de sensuri. Date fiind divergenţele semnificative între distincţiile de sens realizate în dicţionarele (monolingve) existente, precum şi inexistenţa unui acord general asupra gradului de rafinare a descrierilor de sens în practica lexicografică internaţională, raportarea la un inventar prestabilit de sensuri, cel puţin din perspectiva prelucrării automate a limbajului, nu pare a fi o soluţie optimă. în continuare, vom prezenta o abordare alternativă, detaliată în [34], [35].
3.2. Discriminarea automată a sensurilor lexicale: metodologia
Metoda pe care o vom descrie este menită a identifica sensurile distincte cu care unul sau mai multe cuvinte apar într-un text dat. întrucât este foarte improbabil ca într-un text omogen, chiar foarte lung (de pildă un roman), un cuvânt să fie folosit în toate sensurile sale, metoda desigur va identifica, prin analiza textuală descrisă în continuare, doar acel sens sau acele sensuri cu care este folosit cuvântul respectiv în textul prelucrat. La limită prin prelucrarea unor texte foarte diferite este posibil teoretic să fie identificate toate sensurile atestate ale unui anumit cuvânt.
Din punct de vedere metodologic, studiul nostru s-a bazat pe corpusul paralel multilingv "1984" şi pe dicţionarul multilingv extras din acest corpus. Cele 7 limbi ale experimentului nostru fac parte din patru familii: germanică (engleza), romanică (româna), slavică (bulgara, ceha şi slovena) şi ugro-finică (estoniana, maghiara). Deşi corpusul conţine un text beletristic, textul orwelian ca şi traducerile sale în celelalte limbi nu sunt foarte stilizate şi, ca atare, oferă un eşantion rezonabil de limbă modernă, comună. Mai mult, traducerile textului original, efectuate de translatori avizaţi (unii dintre ei fiind apreciaţi scriitori), reflectă riguros originalul: pentru mai mult de 95% din textul englezesc o frază sursă este tradusă
* în celelalte limbi tot ca o singură frază ;l   corpusul "1984" sunt prezentate în tabela
. Tipurile de alinieri frazale existente în de mai jos şi discutate în [7]:
Estoniană-Engleză
Tip
3-1
2-2
2-1
1-3
1-2
1-1
1-0
0-2
0-1
Nr.
2
3
60 1
100
Proc
0.030321% 0.045482% 0.909642% 0.015161% 1.516070%
6426 97.422681%
1
1
2
0.015161% 0.015161% 0.030321%
Bulgară- Engleză
Maghiară-Engleză
Proc Tip
0.014997% 3-1 0.014997% 2-4 0.104979% 2-3 0.014997% 2-2 1.619676% 2-1 0.014997% 2-0 0.014997% 1-5 0.689862% 1-3 97.165573% 1-2 0.014997% 1-1 0.044991% 0-3 0.284943% 0-2 0-1
Cehă- Engleză
Română-Engleză
Tip	Nr.
7-0	1
4-1	1
3-1	7
3-0	1
2-1	108
1-6	1
1-5	1
1-2	46
1-1	6479
0-4	1
0-2	3
0-1	19
Nr.	Proc
3	0.046656%
1	0.015552%
3	0.046656%
2	0.031104%
85	1.321928%
1	0.015552%
1	0.015552%
14	0.217729%
259	4.027994%
6047	94.043551%
2	0.031104%
2	0.031104%
10	0.155521%
Slovenă- Engleză
2-2	2	0.030017%	4-1
2-1	23	0.345190%	3-1
1-2	72	1.080594%	2-1
1-1	6558	98.424134%	1-3
0-1	8	0.120066%	1-2
			1-1
			0-1
1
2
109
2
81 6438
21
0.015029% 0.030057% 1.638112% 0.030057% 1.217313% 96.753832% 0.315600%
3-3
2-1
1-5
1-2
1-1
1-0
0-1
1
48
1
53 6572
2
3
0.014970% 0.718563% 0.014970% 0.793413% 98.383234% 0.029940% 0.044910%
Figura 6: Distribuţia tipurilor de aliniere frazală în corpusul paralel "1984"
Alinierile de tipul N:M reprezintă situaţiile în care M fraze din limba engleză au fost traduse cu N fraze în limba respectivă. Un caz particular îl reprezintă situaţiile de omisiune în traducere (0:M) sau de inserare de text fără corespondent în original (N:0).
3.3. Experimentul iniţial
Textul original "1984" conţine 7.069 leme diferite, iar dicţionarul multilingv extras prin metoda descrisă în prima parte a acestei lucrări conţine 1.233 de intrări. Aceste intrări au fost reţinute respectând condiţia ca un articol lexical din limba engleză să aibă traduceri (eventual multiple) în cât mai multe limbi ţintă. Condiţia
256
257
impusă dicţionarului multilingv este foarte restrictivă, având în vedere că majoritatea dicţionarelor bilingve extrase automat conţin între 6000 şi 7000 de intrări. Intrări tipice (parţiale) în dicţionarul multilingv sunt ilustrate în figura 7. O informaţie suplimentară, ce nu apare în exemplificarea din figura 7, este mulţimea tuturor unităţilor de traducere din corpusul paralel în care cuvântul englezesc a fost tradus prin echivalenţii săi listaţi în dicţionar. Dintre aceste intrări, au fost selectate 845 pentru care s-au găsit una sau mai multe traduceri în toate limbile. Dintre acestea, s-a ales o mulţime de 33 de substantive, acoperind toate gamele de frecvenţă şi ambiguitate, cu care s-a realizat experimentul ale cărui rezultate au fost validate de experţi umani [34].
Engleză	Categorie	Bulgară	Cehă	Estoniană	Maghiară	Română	Slovenă
							
finally	R	HaKpaa	nakonec konecne	lopuks viimaks	vegul	în_cele_di n_urmă până_la_ur mă	koncen nazadnje
							
wealth	N	6oraTCTBo 6uaro	bohatstvi	joukus rikkus	jolet gazdagsâg	avuţie bogăţie 1	blaginja bogastvo
Figura 7: Exemple de echivalenţi de traducere identificaţi în corpusul paralel "1984"
Pentru fiecare substantiv din acest eşantion au fost extrase toate frazele englezeşti în care apare, împreună cu toate frazele corespunzătoare din celelalte limbi şi pentru fiecare ocurenţă a sa a fost construit un vector binar reprezentând toate traducerile posibile ale cuvântului respectiv. O valoare 1 în poziţia n a acestui vector semnifică faptul că acea ocurenţă a fost tradusă prin cuvântul ce reprezintă a A?-a traducere posibilă. O valoare 0 semnifică faptul că a n-a traducere posibilă nu a fost folosită. De pildă pentru substantivul "wealth" (vezi figura 7) au fost depistate 11 traduceri posibile (2 în bulgară, estoniană, maghiară, română şi slovenă, 1 în cehă). Un vector asociat oricărei ocurenţe a lui wealth va avea prin urmare 11 poziţii. Astfel, dacă a m-a apariţie în textul original al romanului "1984" a cuvântului wealth are ataşat vectorul 10101010101 acest lucru semnifică faptul că în varianta bulgărească el a fost tradus cu 6oeamcmeo, în cea cehă cu bohatstvi, în cea estoniană cu rikkus, în cea maghiară cu gazdagsâg, în cea română cu bogăţie iar în cea slovenă cu bogastvo. Vectorii astfel definiţi au fost prelucraţi cu un algoritm de clasificare de tip aglomerativ [36], clasele rezultate fiind
considerate a reprezenta sensuri distincte în care cuvântul curent a fost folosit de-a lungul romanului. Clasele produse de algoritm au fost comparate cu clasele rezultate prin dezambiguizarea manuală efectuată, independent, de 2 vorbitori nativi ai limbii engleze. Dezambiguizarea manuală a fost efectuată utilizând numerotarea sensurilor din WordNet 1.6.
Pentru a putea compara rezultatele produse de dezambiguizatorii umani (numiţi în continuare adnotatori) cu cele produse de algoritmul nostru, datele au fost normalizate în feiui următor: pentru fiecare adnotator şi pentru algoritm, fiecare din cele 33 de cuvinte a fost reprezentat printr-un vector binar de lungime n, unde n este numărul de ocurenţe ale cuvântului în tot corpusul. Poziţiile în vector reprezintă o asignare de tip "DA/NU" indicând dacă ocurenţa respectivă a fost clasificată la fel de către adnotatori, respectiv algoritm. Rezultatele acestui prim experiment sunt rezumate în tabelul din figura 8 indicând procentul de acord între clasificările propuse de algoritm şi cele ale fiecărui adnotator, acordul dintre cei doi adnotatori şi acordul dintre toţi cei trei clasificatori.
Algoritm/Adnotator 1	66.7%
Algoritm /Adnotator 2	63.6%
Adnotator 1/Adnotator 2	76.3%
Algoritm /Adnotator 1/ Adnotator 2	53.4%
Figura 8: Concordanţa între diferite clasificări
3.4. Cel de-al doilea experiment
Rezultatele primului experiment au arătat că metoda discriminării sensurilor folosind echivalenţii de traducere este foarte competitivă, acurateţea procesului fiind comparabilă (şi uneori superioară) cu performanţele obţinute de alţi cercetători ce au folosit ca referinţă acelaşi dicţionar (Wordnet). Mai mult, diferenţele de acord asupra clasificării dintre cei 2 adnotatori pe de o parte şi dintre fiecare adnotator şi algoritm pe de altă parte este de numai 10-13%, ceea ce din nou este foarte competitiv în raport cu scorurile obţinute în alte experimente.
Pentru a valida aceste rezultate empirice, în cea de a doua fază a experimentului a fost luat în considerare un număr dublu de substantive (76) dintre cele "dificile", adică cu grad de ambiguitate mare, atât din clasa celor abstracte cât şi a celor concrete (de exemplu, "thought", "stuff, "meaning", "feeling" respectiv "hand", "boot", "glass", "girl" etc). Am ales acele substantive care au apărut cel puţin de 10 ori în corpus (pentru a elimina efectul de "insuficienţă a datelor") şi în plus care au cel puţin 5 traduceri în cele 6 limbi ţintă. Restricţia de 10 apariţii a
SSK^^W Pe care ,-am impus procesu|uj de ^ g
LL(TT,Ts)=2*^^nij,Jogn^
7=1 i=l
> 18
aj. -ă doi vorbitori nativi
e .chetată, în mod independent de 5; clasa* f CUV'ntelor se,ectate * fost a<ci. In tabela din figura 9 sunt reLmtte Sp, Şl a,90ritmul discutat
adnotatori: rezumate datele ş. rezultatele de acord între cei 4
Nr. de cuvânte Nr. ocurenţe
Număr mediu de ocurenţe/cuvânt
Nr. de sensuri găsite de adnotatorul 1
Nr. de sensuri găsite de adnotatorul 2
Nr. de sensuri găsite de adnotatorul 3
Nr. de sensuri găsite de adnotatorul 4
Nr. de sensuri găsite împreună de toţi adnotatorii
Numărul mediu de sensuri pe cuvânt
Procent de acord între adnotatori
Acord total (4/4)
75% acord total (3/4)
50% acord total (2/4)
Dezacord total
76
2399
32
241
280 213 232 345 4.53
54.27 28.13 16.92 0.66
Figura 9: Datele experimentului şi acordul între 4 adnotatori umani independenţi
Rezultatele produse de algoritmul de clasificare şi clasificările realizate de adnotatori prin asignarea sensurilor din Wordnet1.6 au fost de data aceasta normalizate în mod diferit, prin ignorarea etichetei puse de adnotatori şi considerând doar clasele rezultând din această etichetare. Pentru a clarifica acest aspect să urmărim modul în care doi dintre adnotatori au dezambiguizat cele 7 ocurenţe ale cuvântului "youth":
Ocurenţa nr.	1	2	3	4	5	6	7
Adnotatorul 1	1 3	1	6	3	6	3	1
Adnotatorul 2	1 2	1	4	2	6	2	1
Figura 10: Acordul de clasificare pentru cuvântul" youth" între 2 adnotatori
umani independenţi
Acordul între cei doi adnotatori este doar de 43% (doar ocurentele 2, 5 şi 7 au asignate sensuri consensuale); totuşi, ambii adnotatori au clasificat ocurenţele 1, 4, şi 6 ca având acelaşi sens, deşi primul le-a etichetat cu sensul 3 din Wordnet, în timp ce al doilea le-a etichetat cu sensul 2. Dacă însă ignorăm eticheta clasificarea celor 3 ocurenţe este consistentă, în sensul că ambii adnotatori au decis că ele au acelaşi sens. Acordul de clasificare se dublează în acest caz1, iar datele sunt mult mai uşor de comparat cu rezultatele produse de algoritm.
în acest al doilea experiment am luat în considerare determinarea momentului optim de oprire a clasificării aglomerative. în primul experiment, am folosit o distanţă minimă predefinită, pentru determinarea numărului de sensuri între care se realizează discriminarea. Această soluţie nu ţinea însă cont de proprietăţile individuale ale cuvintelor (numărul maxim de sensuri, prescrise de Wordnet, frecvenţa de apariţie a cuvântului, numărul mediu de traduceri pe care le-a primit cuvântul în corpus). Noul algoritm de clasificare a fost modificat astfel încât să-şi calculeze un număr optim de clase2, optimalitatea fiind judecată în raport cu numărul mediu de clase identificate de adnotatori. Drept criteriu de oprire am folosit distanţa minimă dintre clasele existente la fiecare pas de aglomerare. La un pas de aglomerare, clasele cu cea mai mică distanţă relativă sunt reunite într-o clasă mai mare. Procesul începe cu fiecare ocurenţă într-o clasă distinctă şi se opreşte când distanţele relative între clasele existente este "suficient" de mare. Distanţa dintre două clase se calculează pe baza vectorilor caracteristici (centroizii) ai celor două clase (evident depinzând de cuvânt, de numărul de ocurenţe şi de numărul de sensuri ale cuvântului clasificat):
dist(v\,V2) = /£J(v{(i)-V2(i))2
i=l
1 Singurul dezacord rămas constă în faptul că Adnotatorul 1 consideră ocurenţele 3 şi 5 ca având acelaşi sens, în timp ce Adnotatorul 2 atribuie un sens diferit ocurenţei 3—în fapt, realizând o discriminare mai fină între sensurile celor două ocurenţe.
2 în principiu, limita superioară a numărului de sensuri pe care îl poate avea un cuvânt englezesc într-un text este dată de numărul de sensuri listate în Wordnet; după cum era de aşteptat însă nu există în corpusul nostru nici un exemplu în care vreun cuvânt polisemantic să fi apărut cu toate sensurile din WordNet
0626281747
Cele mai bune rezultate în discriminarea automată au fost obţinute pe cale experimentală, impunând drept criteriu de oprire a algoritmului condiţia:
mindist(k) - mindist(k +1) ^ ^ ^^ mindist(k +1)
în care mindist(k) reprezintă distanţa minimă între clasele existente la pasul k de aglomerare.
Pentru medierea opiniilor adnotatorilor am definit o adnotare de referinţă reprezentând clasificarea majoritară între cei 4. în cazul egalităţii de voturi, adnotatorul care a fost în cele mai multe cazuri de aceeaşi opinie cu majoritatea a impus clasa. Folosind această clasificare mediată şi raportând-o la clasificarea produsă de algoritm pentru cele 76 de cuvinte, am analizat diferenţele de clasificare, considerate ca fiind erori. Marea majoritate a erorilor de clasificare pentru cele 2399 de ocurenţe au apărut în cazul cuvintelor pentru care distribuţia sensurilor este foarte inegală; ca urmare am adăugat algoritmului o fază suplimentară de postprocesare, în care clasele cu un număr mult mai mic de ocurenţe decât clasa cu cele mai multe ocurenţe au fost incorporate în ultima. Raportul minim între numărul de ocurenţe al celei mai mari clase şi numărul de ocurenţe din clasele potenţial absorbabile în cea dintâi a fost ales empiric ca fiind 101. Motivaţia acestei euristici constă în constatarea făcută de mai mulţi cercetători în domeniul lingvisticii corpusului (fapt sugerat chiar de Zipf cu peste 50 de ani în urmă) că utilizarea frecventă a unui cuvânt într-un text omogen tinde să-i păstreze sensul.
Cu această nouă euristică încorporată, algoritmul de clasificare a atins cifra de 74,6% acord cu clasificarea mediată. în [35] sunt prezentate alte variante ale algoritmului care au condus prin evaluarea empirică la versiunea sa finală. Clasele produse de fiecare pereche de clasificatori (om sau maşină) au fost evaluate printr-un algoritm ce calculează alinierea claselor astfel încât intersecţia lor să fie maximală. Diferenţele dintre două clase astfel aliniate au fost considerate dezacorduri de clasificare. Scorul de acord a fost calculat ca fiind raportul dintre suma numărului de ocurenţe comune pentru fiecare clasă aliniată şi numărul total al ocurenţelor cuvântului respectiv. In tabela din figura 10 este exemplificat modul de calcul al acordului dintre clasificarea produsă de algoritm şi clasificarea mediată a adnotatorilor pentru cuvântul movement. Acesta a apărut în text de 40 de ori. Atât algoritmul cât şi cei patru adnotatori au identificat 4 sensuri distincte în care acest cuvânt a fost utilizat. Aşa cum se vede din figura 10, cea mai numeroasă clasă (clasa 1) conţine în clasificarea mediată 28 dintre cele 40 de apariţii ale cuvântului movement, în timp ce clasa corespondentă creată de algoritm conţine doar 25 de ocurenţe. Dintre acestea, 24 sunt comune cu cele din clasa 1 a
definiţia anterioară a scorului de acord,
rezul,a,ul corec,,n ** *cazuri-
clasificării mediate. în conformitate^cu pentru acest exem
10 este o valoare precaută; experimente viitore, de mai mare anvergură, ar putea furniza argumente pentru coborârea acestui prag.
CLASA _.	|l_	2	3	4	2.
Clasificare mediată	IJ28	6	3	3	40
Clasificare algoritmică	25	7	6	2	40
Intersecţie	24	6	3	1	34
Precizie
85%
Figura 11: Clasificarea mediata si cea produsă de aigoritm pentru cuvântu.
y movement
3.5. Rezultate
Rezultatele obţinute cu ultima variantă a clasificatorului în cel de-al doilea experiment sunt sintetizate in tabelul din figura 12. Tabelul indică procentul de acord între diverse clasificări: 1, 2, 3, 4, reprezintă clasificările realizate de adnotatorii umani, M reprezintă clasificarea mediată a clasificatorilor umani, A reprezintă clasificarea produsă de algoritm, iar B este referinţa de bază (baseline) care presupune toate ocurenţele unui cuvânt ca având acelaşi sens.
I	1	2	3	4      | M		A
1 B |	71.1	65.1	76.3	74.1	75.5	81.5
1		78.1	75.6	83.1	88.6	74.4
2			71.3	75.9	82.5	66.9
3				77.3	82.1	77.1
4				90.4		75.9
M				1		77.3
Figura 12: Acorduri între diverse clasificări
Tabela arată că acordul între adnotatorii umani comparat cu cel dintre algoritm şi adnotatorii umani (cu excepţia unuia dintre ei (4), pe care îl suspectăm că a văzut clasificările celorlalţi trei şi în consecinţă şi-a revizuit unele decizii) nu diferă substanţial. Acest lucru demonstrează (cel puţin în raport cu datele experimentului nostru) că dezambiguizarea automată este comparabilă ca acurateţe cu cea efectuată de adnotatori umani. Diferenţa fundamentală constă în
262
263
• faptul că programul a terminat în circa 2 minute clasificarea pentru care adnotatorilor le-au trebuit între 4 şi 5 săptămâni.
Experimentul descris a evaluat dezambiguizarea automată a cuvintelor englezeşti pornind de la traducerea lor în celelalte 6 limbi. Această direcţionare a fost impusă doar de disponibilitatea pentru limba engleză a textului dezambiguizat de experţi umani (vorbitori nativi ai limbii engleze). întrucât algoritmul de clasificare nu depinde în nici un mod de limba pentru care se realizează dezambiguizarea (limba ţintă) şi nici de limbile martor în raport cu care se face acest proces, rezultă că exact acelaşi procedeu descris până aici poate fi folosit pentru dezambiguizarea cuvintelor româneşti folosind echivalenţii lor de traducere în engleză, bulgară, cehă, estoniană, maghiară şi slovenă, ori pentru dezambiguizarea cuvintelor bulgăreşti pe baza echivalenţilor lor de traducere în celelalte 6 limbi. întrucât sensul este (în principiu) un invariant al traducerii, nu pare a se justifica şi pentru celelalte limbi efortul de adnotare umană făcut pentru limba engleză. Este raţional a presupune că rezultate similare (raporturi relative) s-ar obţine indiferent de limba ţintă şi de limbile martor.
Să mai menţionăm şi faptul că există o anumită corelaţie (factorul Spearman - 0.51) între numărul de sensuri în Wordnet ale unui cuvânt şi nivelul de acord între diferitele clasificări ale ocurenţelor sale. Cele mai scăzute scoruri de acord au fost obţinute pentru "line" (29 sensuri), "step" (10), position (15), "place" (17) şi "corner" (11). Acorduri perfecte s-au obţinut pentru majoritatea cuvintelor cu mai puţin de 5 sensuri, ca de exemplu "hair" (5), "morning" (4), "sister" (4), "tree" (2), and "waist" (2) care toate au fost considerate, atât de adnotatori cât şi de algoritm, a fi fost folosite cu un singur sens în tot textul. Pe de altă parte, gradul de acord pentru câteva cuvinte cu mai puţin de 5 sensuri ("rubbish" (2), "rhyme" (2), "destruction" (3) şi "belief (3)) a fost semnificativ mai mic decât media pentru toate perechile de clasificări (adnotator-adnotator, adnotator-algoritm). Concluzia a fost că pentru unele cuvinte, distincţiile de sens sunt atât de fine în Wordnet, încât chiar vorbitorii nativi (şi cu atât mai mult algoritmul de clasificare) nu pot face diferenţieri sistematice de sens ale diferitelor ocurenţe ale acestor cuvinte. O astfel de hiperdiferenţiere a sensurilor este în imensa majoritate a cazurilor irelevantă pentru aplicaţiile de prelucrare a limbajului natural.
4. Concluzii
Rezultatele experimentelor noastre arată că acurateţea discriminării sensurilor pe baza echivalenţilor de traducere extraşi din corpusuri paralele este comparabilă cu cea produsă de adnotatori umani. întrucât abordarea noastră este complet automatizată ea poate fi folosită la crearea de volume mari de texte, având discriminate sensurile cuvintelor polisemantice. Utilizarea experţilor umani este prohibitivă sub aspectul costului şi al timpului de realizare a unei asemenea
sarcini, iar procentajul suplimentar de acurateţe, presupus de activitatea umană, este prea mic pentru a justifica procedurile manuale.
Metoda pe care am descris-o în această lucrare nu etichetează clasele de ocurenţe ale unui cuvânt cu un număr de sens ales dintr-un inventar prescris de sensuri iar majoritatea aplicaţiilor de prelucrare a limbajului natural (de pildă clasificarea textelor, regăsirea informaţiilor, rezumarea automată etc.) nici nu au nevoie de această informaţie suplimentară; pentru aceste tipuri de aplicaţii este suficient a decide că două sau mai multe ocurenţe ale unui cuvânt sunt folosite în acelaşi sens sau nu. O etichetare convenţională a sensurilor identificate pentru un anumit cuvânt ar putea să se bazeze pe frecvenţa sensurilor respective (sensul 1 corespunzând clasei cu cele mai multe ocurenţe). Evident o astfel de etichetare depinde de registrul lingvistic al textului pe baza căruia se identifică sensurile distincte.
O direcţie foarte promiţătoare [37], [38], [39] o constituie utilizarea metodologiei prezentată aici în construcţia şi validarea ontologiilor multilingve de tip EuroWordNet. Folosind echivalenţii de traducere şi clasificarea ocurenţelor echivalente din punctul de vedere al sensului se poate verifica dacă proiecţia interlinguală a două sau mai multe dicţionare semantice este corectă. Aceasta presupune că sensurile cuvintelor extrase ca echivalenţi de traducere ai cuvintelor englezeşti dezambiguizate să fie puse în corespondenţă cu acelaşi concept interlingual aparţinând Indexului Interlingual (ILI - vezi [39]- în acest volum). în cazul contrar (echivalenţii de traducere sunt puşi în corespondenţă cu concepte interlinguale diferite) este fie vorba de o eroare propriu-zisă de proiecţie conceptuală într-unui sau mai multe dintre dicţionarele semantice aliniate ori conceptele interlinguale sunt atât de apropiate semantic încât se poate propune unificarea lor într-un concept mai general cu lexicalizare în mai multe limbi. Aceasta este esenţa conceptului de "soft-clustering" definit în comunitatea EuroWordNet.  Faţă de identificarea prin metode statistice a conceptelor interlinguale foarte apropiate semantic, analiza prin metoda "echivalenţilor de traducere şi a discriminării sensurilor" a proiecţiilor sensurilor făcute de lexicografi profesionişti peste o mulţime de sensuri conceptualizate în ILI este mult mai robustă. Experimentele preliminare discutate în [37] au arătat că în diferite limbi pentru care se realizează o ontologie lexicală multilingvă (bulgară, cehă, greacă, română, sârbă, turcă) există dificultăţi identice de proiecţie conceptuală a sensurilor unor cuvinte din limbile considerate. Faptul că aceleaşi concepte interlinguale creează acelaşi tip de dificultate în proiecţia sensurilor unor cuvinte aparţinând unor limbi foarte diferite indică cu claritate că acele concepte trebuie generalizate.
Un alt aspect care merită subliniat este că metodologia prezentată aici, corelată cu existenţa a tot mai multe dicţionare semantice de tip Wordnet, ce aderă la principiul EuroWordNet de aliniere la Indexul Interlingual, va permite dezvoltarea
264
265
de corpusuri adnotate semantic (de tipul SemCor) pentru orice limbă. Tranzitivitatea relaţiilor de tip "EQ-SYN" folosite în proiecţia sinseturilor unui wordnet monolingv peste ILI, corelată cu echivalenţa de traducere (relaţie tot între sensuri) extrasă dintr-un corpus paralel, în care textul dintr-una din limbi este adnotat semantic, permite importul adnotărilor în toate celelalte limbi. Deoarece limba din care se importă adnotarea semantică nu este relevantă pentru această procedură, rezultă că eforturile depuse de-a lungul timpului în crearea celor câteva corpusuri cu adnotare semantică pentru limbile "mari" pot fi valorificate pentru orice altă limbă în care există (sau se creează) traduceri ale textelor din corpusurile adnotate. Mai mult, se poate imagina crearea unui consorţiu multilingv care să aleagă un corpus paralel în cât mai multe limbi cu scopul de a-l adnota semantic. Prin adnotarea independentă, în fiecare limbă, a unor porţiuni distincte din corpusul paralel, folosind o metodologie de genul celei prezentate în această lucrare (şi desigur având un dicţionar semantic multilingv de tip EuroWordNet) adnotările secţiunilor monolingve vor putea fi importate în secţiunile corespunzătoare ale tuturor celorlalte texte monolingve, în final putându-se obţine adnotarea semantică, consistentă, a întregului text din fiecare limbă a corpusului paralel.
Mulţumiri
Rezultatele prezentate în această lucrare sunt rodul mai multor proiecte internaţionale de cercetare desfăşurate la Institutul de Inteligentă Artificială, alături de colegii Ana Măria Barbu, Eduard Barbu, Radu Ion, Cătălin Mititelu, Octavian Popescu. De asemenea/colaborarea cu Nancy Ide de la Universitatea Vassar din Poughkeepsie, SUA, şi cu Tomaz Erjavec de la Institutul "Jozef Ştefan" din Ljubljana, Slovenia, parteneri în proiectele amintite, a fost şi este extrem de productivă. Tuturor le aduc aici cuvenitele mulţumiri.
Referinţe bibliografice
[1] Melamed, D. - "Empirical Methods for Exploiting Parallel Texts", MIT Press, 2001, 373p.
[2] Gale, W.A., K.W. Church, - "Identifying word correspondences in parallel texts". In Fourth DARPA Workshop on Speech and Natural Language, 1991, 152:157
[3] Smadja, F., K.R. McKeown, and V. Hatzivassiloglou - "Translating collocations for bilingual lexicons: A statistical approach". Computaţional Linguistics, 22/1, 1996, 1:38.
[4] Brown, P., Della Pietra, S. A., Della Pietra, V. J„ Mercer, R. L. - "The mathematics of statistical machine translation: parameter estimation" in Computaţional Linguisticsl 9(2): 263-311, 1993. [5] Kupiec, J. - "An algorithm for finding noun phrase correspondences in bilingual corpora". In Proceedings of the 31 st Annual Meeting of the Association of Computaţional Linguistics, 1993,17:22 [6] Hiemstra, D. - "Deriving a bilingual lexicon for cross language information
retrieval". In Proceedings ofGronics, 1997, 21:26 [7] Tufiş, D., Barbu, A.M. - "Automatic Learning of Translation Equivalents" in "Romanian Journal on Information Science and Technology", Romanian Academy, vol.4, no. 3-4, 2001b, 325:351. [8] Tufiş, D., Barbu, A.M. - "Revealing translators knowledge: statistical methods in constructing practicai translation lexicons for language and speech processing", în International Journal of Speech Technology. Kluwer Academic Publishers, no.5, 2002, 199:209. [9] Tufiş, D. - "Parţial translations recovery in a 1:1 word-alignment approach",
RACAI Research report, June, 2001b, 32pp. [10]Gale, W.A., K.W. Church - "A Program for Aligning Sentences in Bilingual
Corpora". în Computaţional Linguistics, 19(1), 1993, 75:102 [11]Tufiş, D. - "Tiered Tagging and Combined Classifiers". în F. Jelinek, E. Noth (eds) Text, Speech and Dialogue, Lecture Notes in Artificial Intelligence 1692, Springer, 1999, 29:33. [12]Brants, T. - "TnT - A Statistical Part-of-Speech Tagger", în Proceedings of the Sixth Applied Natural Language Processing Conference, ANLP-2000, April 29 - May 3, 2000, Seattle, WA, 2000 [13]Varadi, T. - The Hungarian National Corpus, Proceedings of LREC2002, Las
Palmas, Spain, 2002, 385:389. [14] Tufiş, D. - "A cheap and fast way to build useful translation lexicons" în Proceedings of the 19th International Conference on Computaţional Linguistics, COLING2002, Taipei, China, 2002, 246:251. [15]Tufiş, D., Dienes, P., Oravecz, C, Vâradi T.,*- "Principled Hidden Tagset Design for Tiered Tagging of Hungarian" Proceedings of the Second International Conference on Language Resources and Evaluation (LREC), Athens, Greece, 2000,1421:1426 [16]Hinrics, H., Trushkina, J. - "Forging Agreement: Morphological Disambiguation of Noun Phrases", Proceedings of the Workshop on Treebanks and Linguistic Theories 2002, Sozopol, Bulgaria, 2002, 1:18.
5610
266
[17] Erjavec. T. - "An Experiment in Automatic Bi-lingual Lexicon Construction from a Parallel Corpus", Proceedings of the 7th TELRI International Seminar on Corpus Linguistics, Dubrovnik, Croaţia, 2002.
[18] Erjavec T., Ide, N. - "The Multext-East corpus". în Proceedings of First International Conference on Language Resources and Evaluation, Granada, Spain, 1998,971:974
[19]Tufiş, D., Barbu, A.M., Pătraşcu, V., Rotariu, GM Popescu, C. - "Corpora and Corpus-Based Morpho-Lexical Processing", în D. Tufiş, P. Andersen (eds.) "Recent Advances in Romanian Language Technology", Editura Academiei, 1997, 35:56
[20]Kay, M., Roscheisen, M. - "Text-Translation Alignment". în Computaţional Linguistics, 19/1, 1993, 121:142
[21]Brew, C, McKelvie, D. - "Word-pair extraction for lexicography", 1996, http:///www. Itg.ed.ac.uk/ ~chrisbr/papers/nemplap96
[22]Tiedemann, J. - "Extraction of Translation Equivalents from Parallel Corpora", în Proceedings of the 11 th Nordic Conference on Computaţional Linguistics, Center for Sprogteknologi, Copenhagen, 1998, http://stp.linq.uu.se/ -ioerg/
[23]Ahrenberg, L., M. Andersson, M. Merkel - "A knowledge-lite approach to word alignment", în [40].
[24] Cristea, D., Dima, G. E. - "An Integrating Framework for Anaphora Resolution", Journal on Information Science and Technology, Romanian Academy Publishing House, Bucharest, voi. 4, no. 3, 2001, 273:292.
[25]Fellbaum C. - Wordnet: An Electronic Lexical Database, MIT Press, 1998, 423p.
[26]Resnik, P. and Yarowsky, D. - A perspective on word sense disambiguation methods and their evaluation. ACL-SIGLEX Workshop Tagging Text with Lexical Semantics: Why, What, and How? Washington, D.C., 1997, 79:86.
[27] Gale, W. A., Church, K. W., Yarowsky, D. (1993). A method for disambiguating word senses in a large corpus. Computers and the Humanities, 26, 415:439.
[28]Dagan, I., Itai, A., Schwall, U. - Two languages are more informative than one. Proceedings of the 29th Annual Meeting of the ACL, 18-21 Berkeley, California, 1991, 130:137.
[29]Dagan, I., Itai, A. - Word sense disambiguation using a second language monolingual corpus. Computaţional Linguistics, 20/4,1994, 563:596.
[30]Dyvik, H. (1998). Translations as Semantic Mirrors. Proceedings of Workshop Multilinguality in the Lexicon II, ECAI98, Brighton, UK, 1998, 24:44.
[31] Ide, N. - Cross-lingual sense determination: Can it work? Computers. and the Humanities, 34/1-2, 1999, 223:234.
267
[32]Resnik, P. and Yarowsky, D. - Distinguishing systems and distinguishing senses: New evaluation methods for word sense disambiguation. Journal of Natural Language Engineering, 5(2), 2000,113:133. [33]Miller, G. A., Beckwith, R. T. Fellbaum, C. D., Gross, D. and Miller, K. J. -WordNet: An on-line lexical database. International Journal of Lexicography, 3/4,1990,235:244.
[34] Ide, N., Erjavec, T., and Tufiş, D. (2001). Automatic sense tagging using parallel corpora. Proceedings of the Sixth Natural Language Processing Pacific Rim Symposium,Tokyo, 2001,83:89. [35] Ide, N., Erjavec, T., Tufiş, D. - "Sense Discrimination with Parallel Corpora" in Proceedings of the SIGLEX Workshop on Word Sense Disambiguation: Recent Successes and Future Directions. ACL2002, July Philadelphia, 2002, 56:60
[36]Stolcke, A. - Cluster - 2.9. http://www.icsi.berkeley.edu/ftp/global/pub/ai/ stolcke/software/cluster-2.9.tar.Z, 1996.
[37] Tufiş, D. - "Interlingual alignment of parallel semantic lexicons by means of automatically extracted translation equivalents", Proceedings of the 7th TELRI International Seminar on Corpus Linguistics, Dubrovnik, Croaţia, 2002.
[38]Tufiş, D., Cristea, D. - "Methodological issues in building the Romanian Wordnet and consistency checks in Balkanet", în Proceedings of LREC2002 Workshop on Wordnet Structures and Standardisation, Las Palmas, Spain, 2002, 35-41.
[39]Tufiş, D., Cristea, D. - "RO-BALKANET - ontologie lexicalizată, în context
multilingv, pentru limba română", 2002, în acest volum. [40]Veronis, J. (ed), Parallel Text Processing. Text, Speech and Language
Technology Series, Kluwer Academic Publishers Voi. 13, 2000.
269
Referentialitate si cursivitate în relaţie cu
9 9 »
structura de discurs
Dan CRISTEA
Universitatea "Al.l.Cuza" laşi, Facultatea de Informatică Academia Română, Institutul de Informatică Teoretică - Filiala laşi
dcristea@infoiasi.ro 1. Introducere
în ultimii 25 de ani s-a studiat enorm pentru a se înţelege ce anume face dintr-un text (considerat o secvenţă de propoziţii sintactic corecte) să fie un discurs, aşadar de ce un discurs e coerent şi ce elemente îi atribuie coeziune. Dintre teoriile computaţionale ale discursului, trei au avut o influenţă covârşitoare asupra dezvoltărilor ultimilor ani din acest domeniu: teoria structurilor retorice, teoria stărilor atenţionale şi teoria centrelor.
Dezvoltată iniţial din perspectiva generării textelor, teoria structurilor retorice {rhetorical structure theory, de aici încolo RST), a fost elaborată de Mann şi Thompson ca o teorie a organizării textelor [Mann, Thompson, 1988; Hovy, 1988; Scott, de Souza, 1990]. Ea caracterizează structura de discurs în termeni de relaţii ce,leagă părţi componente ale textului. Unitatea elementară de discurs în RST este, de regulă, o propoziţie, aşadar o întindere textuală în care se formulează o predicaţie. O structură de discurs este descrisă de o schemă. Ea grupează o secvenţă de unităţi, sau de unităţi şi scheme, sau o secvenţă de scheme. O schemă poate fi asemuită cu o regulă a unei gramatici, ea relevând structura de constituenţi a unui compus. O schemă constă dintr-o relaţie (27 în RST) care leagă două sau mai multe întinderi de text, fiecare dintre ele având, la rândul său, o structură (constituenţii schemei). Un discurs este fie o unitate, care este o întindere de text elementar, fără structură, fie o schemă (un text mai lung decât o singură unitate şi care prezintă o structură). Relaţiile pot fi de două tipuri: hipotactice - dacă argumentele sunt constituenţi neegali ca importanţă şi paratactice (sau echinucleare) - dacă constituenţii pe care-i agregă sunt egali ca importanţă. între constituenţii uniţi de relaţiile hipotactice există întotdeauna unul singur mai important, numit nucleu, ceilalţi fiind numiţi sateliţi. La relaţiile paratactice, prin convenţie, se consideră că toţi constituenţii sunt nucleari. Satelitul este, în general, mai susceptibil de a fi schimbat sau eliminat complet decât
nucleul, fără ca, prin aceasta, înţelesul discursului să se modifice. Dimpotrivă, înlocuirea sau ştergerea nucleului este o opţiune mult mai drastică, care poate duce la denaturări ale înţelesului. Relaţiile hipotactice sunt, în general, cele intenţionale, în care o întindere de text comunică un scop şi celelalte exprimă subscopuri ce completează, dezvoltă etc. scopul principal. Pe de altă parte, relaţiile paratactice sunt, în general, de natură informaţională, simetrice, neputându-se stabili dacă, sau care, componentă predomină.
în RST accentul este pus pe performanţa retorică: prin ce mijloace un scriitor (sau vorbitor) reuşeşte să convingă un cititor (ascultător) de intenţiile pe care le are de comunicat. Ca produs secundar al liniei principale de investigare în RST, multe eforturi de cercetare care au succedat elaborarea teoriei s-au concentrat asupra îmbunătăţirii şi structurării setului de relaţii propus iniţial [Rambow, 1993]. Pe de altă parte, pare extrem de convenabil, inclusiv din punct de vedere computaţional, să vedem discursul reprezentat ca un arbore, în care nodurile terminale să reconstituie, în secvenţa lor, textul. Cu toate acestea RST nu aduce nici o lumină în privinţa vreunei legături care ar exista între structură şi referenţialitate. RST este deci o teorie asupra structurii globale a discursului.
Teoria stărilor atenţionate (atenţionai state theory, AST) [Grosz, Sidner, 1986] reprezintă o dezvoltare a liniei de cercetare în discurs dominată de Barbara Grosz şi Candace Sidner asupra manierii în care focarul ori centrul de discurs (focus în engleză) se modifică pe parcursul derulării textului şi a recunoaşterii intenţiilor comunicate de discurs [Grosz, 1981; Sidner, 1983]. Grosz şi Sidner nu cred că varietatea atât de mare a intenţiilor ce pot fi comunicate de un discurs poate fi condensată într-un număr fix de şabloane retorice exprimate ca relaţii, cum sugerează RST sau tentative similare acesteia. Teoria se doreşte a fi un model formal, care se distanţează de detaliile ce ar putea fi asociate participanţilor la discurs. Realizând proiecţii corespunzătoare utilizatorului de limbaj, însoţite de detalii specifice, ea s-ar putea regăsi atât în construcţia unui sistem automat cât şi într-o teorie psihologică, ambele consumatoare de limbaj natural. Deşi recunoaşte însemnătatea mesajului transmis de un discurs, teoria nu abordează problema înţelesului discursului şi a manierei în care acesta poate fi dedus din elementele constitutive ale textului. Ea este, primordial, o teorie a structurii discursului, prin aceasta plasându-se la baza oricărei tentative de a aborda problema construirii sensului.
Conform lui Grosz şi Sidner intenţiile joacă rolul principal în explicarea structurii discursului, în timp ce dinamica atenţiei joacă rolul principal în explicarea interpretării discursului. Structura discursului are trei componente distincte, dar strâns corelate:
- o structură lingvistică, care face ca una sau mai multe propoziţii, exprimări (utterance) să fie agregate într-un segment de discurs iar limitele dintre segmente să fie indicate de expresii lingvistice, intonaţie,
schimbări ale timpului şi aspectelor verbelor. Segmentul de discurs are însă o definiţie recursivă: un segment poate îngloba alte segmente, acestea pe altele ş.a.m.d.; -   o structură intenţională, care face să vedem discursul ca având un scop global (scopul discursului - SD), scopul fundamental al vorbitorului/scriitorului la emiterea discursului. Fiecare segment are un scop al segmentului (scopul segmentului de discurs - SSD), care este un subscop al scopului segmentului din care face el parte. Intuitiv, SSD specifică cum contribuie respectivul subsegment la realizarea scopului segmentului din care face el parte. Teoria admite că nu există o listă finită de scopuri ale discursului, care să facă posibilă o comparaţie cu lista categoriilor gramaticale, de exemplu. Conform teoriei, două relaţii structurale sunt suficiente pentru a compune structura discursului: relaţia de dominare (dacă SSDi domină SSD2 atunci SSD2 contribuie la SSD1} sau SSD2 este intenţionată să satisfacă parţial SSD^ şi relaţia de satisfacere-precedenţă (SSDi satisface-precede SSD2 dacă SSD^ trebuie satisfăcut înainte de SSD2);
-   o stare atenţionată, prin care se asociază fiecărui segment al discursului un spaţiu al entităţilor aflate în centrul atenţiei. Starea atenţionaiă reprezintă o trăsătură dinamică a discursului, păstrând obiecte, proprietăţi şi relaţii ce sunt importante în fiecare moment al interpretării discursului. Starea atenţionaiă e modelată printr-un set de spaţii ale centrelor atenţiei, în timp ce schimbările ce pot avea loc în starea atenţionaiă sunt restricţionate de un set de reguli de tranziţie care arată condiţiile de adăugare şi ştergere a spaţiilor. Colecţia tuturor spaţiilor centrelor de atenţie ce sunt disponibile în fiecare moment al interpretării unui discurs formează o structură a atenţiei ce are dinamica unei stive şi care ar fi capabilă să explice procesele implicate în interpretarea discursului, inclusiv accesibilitatea referen-ţială: domeniul în care trebuie căutate entităţile de discurs referite în segmentul corespunzător stării atenţionale aflate în vârful stivei este cel al stărilor aflate în stivă. Structura recursivă a segmentului de discurs din AST permite şi aici acceptarea unei reprezentări arborescente, în cadrul căreia cele două relaţii între segmente, de dominare şi de satisfacere-precedenţă, nu sunt altceva decât relaţiile fireşti pe orice structură de arbore: cea dintre părinte şi orice fiu al său şi, respectiv, cea de ordine dintre fraţi. AST se constituie, aşadar, într-o teorie globală asupra structurii şi a coeziunii discursului.
Cercetători precum Moser şi Moore [1996] sau Marcu [1999].pun în evidenţă similarităţi semnificative între AST şi RST, inclusiv în ceea ce priveşte
272
maniera de reprezentare prin arbori a structurii de discurs, ceea ce permite combinarea puterii de reprezentare, mai fine în RST, datorită proliferării relaţiilor, cu implicaţiile pe care structura le poate avea asupra referenţialităţii, puse în evidenţă de AST. Utilizând structura de segmente şi stiva, ca mecanism de prelucrare, AST propune o manieră de a rezolva accesibilitatea referinţelor anaforice printr-o transparenţă pe verticală, de sus în jos, de-a lungul stărilor atenţionale ce se află la un moment dat în stivă. Reprezentarea prin segmente din AST are însă o slăbiciune: modelul stivă nu poate reflecta relaţia de dominare atunci când scopul dominat corespunde unui segment care apare în text înaintea celui care domină [Ide, Cristea, 2000]. Să remarcăm că defectul este unul de . granularitate pentru că identificarea segmentului dominat ce precede pe cel dominator cu însuşi segmentul dominator elimină problema. AST nu e, aşadar, capabilă să reprezinte segmente având o granularitate oricât de fină: coborând de la o granularitate grosieră la una fină, există o limită dincolo de care ne putem aştepta la grave contradicţii.
Teoria centrelor (centering, CT) [Grosz et al., 1995; Brennan et al., 1987] furnizează explicaţii convingătoare asupra restricţiilor de utilizare a pronumelor pentru realizarea referinţelor şi asupra ce anume face un discurs să fie coerent. CT nu se aplică însă dincolo de limitele unui segment (văzut în accepţiunea din AST). Avem de a face, aşadar, cu o teorie locală asupra coeziunii şi coerenţei. Deşi nu este definită riguros în teorie, în toate exemplele autorilor unitatea elementară a structurii lingvistice este fraza [utterance, exprimare). Abordări ulterioare întrevăd posibilitatea de a considera o segmentare mai fină, la nivel de propoziţie (v. [Kameyama, 1998] de exemplu). Noi vom considera drept unitate a structurii de discurs acelaşi tip de întindere lexicală ca şi în cazul RST, adică acea întindere ce la nivel sintactic este o propoziţie iar la nivel semantic - o predicaţie. Fiecare unitate de discurs un ce intră în compoziţia unui segment este caracterizată de o listă de centre anticipatoare (forward-looking) notată Cf{un). Centrele listei Cf(un) sunt entităţi semantice ce corespund, la nivelul textului, expresiilor referenţiale cuprinse în unitatea un. Spunem că o expresie referenţială realizează un centru. Elementele acestei liste sunt ordonate pentru a reflecta importanţa relativă în un. Criteriile de ordonare a elementelor listei Cf, sunt, în forma originară a teoriei, de natură sintactică, deşi alte abordări le diferenţiază în funcţie de limbă (v. de exemplu [Walker et al., 1994] pentru japoneză, [de Eugenio, 1990; de Eugenio, 1998] pentru italiană, sau [Strube, Hahn, 1996] pentru germană). Pentru limba engleză autorii CT dau următorul criteriu: subiect > obiect-direct> obiect-indirect > complemente > adjuncţi. Elementele listei C^un) sunt acele entităţi despre care se vorbeşte în unitatea un şi deci despre care e cel mai probabil că se va continua să se vorbească şi în unitatea următoare, un+1, dacă aceasta aparţine aceluiaşi segment ca şi un. Cel mai bine plasat element al listei C{un) se numeşte centru principal şi se notează Cp{un). Fiecărei unităţi îi este asociat un unic centru retroactiv (backward-looking), notat Cb(un). Prin convenţie, centrul retroactiv al
273
primei unităţi a segmentului este considerat centrul principal, în timp ce, pentru toate celelalte unităţi ale segmentului, el este cel mai bine plasat element al listei Cf a unităţii precedente care este de asemenea realizat şi în unitatea curentă.
Teoria face o clasificare a tranziţiilor posibile între unităţi consecutive, din punctul de vedere al invariantei ori nu a centrelor retroactive şi al identificării ori nu a lor cu centrele principale. Astfel, cu excepţia cazului în care între unităţi succesive ale aceluiaşi segment nu există centre comune, următoarele patru tipuri de tranziţii sunt posibile:
CONTINUARE (continuing, CON): Cb{un+1) = Cb{un) şi Cb(un+1) = Cp{un+1), corespunzând situaţiei în care atât în un cât şi în un+1 se vorbeşte despre aceeaşi entitate şi este de aşteptat ca şi în unitatea următoare să se vorbească despre ea. REŢINERE {retaining, RET): Cb(un+i) = Cb(un) dar Cb{un+1) ± Cp{un+1), a cărui interpretare este că, deşi atât în un cât şi în i/n+i se vorbeşte despre aceeaşi entitate, este de aşteptat ca în unitatea următoare să se vorbească despre o alta. SCHIMBARE LINĂ (smooth-shifting, SSH): Cb(un+1) * Cb(un) dar Cb(un+1) = Cp{un+1), cu semnificaţia că deşi în un şi în un+1  nu se vorbeşte despre aceeaşi entitate este de aşteptat ca în unitatea următoare să se vorbească despre entitatea menţionată ultima oară. SCHIMBARE ABRUPTĂ (abrupt-shifting, ASH): Cb(un+1) ± Cb(un) şi Cb(un+1) * Cp(un+i), cu semnificaţia că în un şi în un+i nu se vorbeşte despre aceeaşi entitate şi este de aşteptat ca în unitatea următoare să se vorbească despre o altă entitate decât ultima menţionată.
Nucleul CT este concentrat în două reguli, prima enunţând o constrângere asupra formei de realizare a centrelor prin pronume, iar cea de a doua formulând preferinţe asupra secvenţelor de tranziţii ale centrelor. Regula a doua, cea care se referă la coerenţă, formulează presupunerea că anumite secvenţe produc o încărcare inferenţială în ascultător mai mare decât altele:
Regula 2: Secvenţele de continuări sunt preferabile secvenţelor de reţineri, care sunt preferabile secvenţelor de schimbări line, iar acestea sunt preferabile secvenţelor de schimbări bruşte: CON > RET > SSH > ASH.
Dacă ne abţinem de a penaliza CT, ca teorie locală, aşadar aplicabilă la întinderea unui segment, pe motivul fragilităţii noţiunii de segment, care are o definiţie recursivă (un segment este constituit din alte segmente), slăbiciune moştenită de la AST, atunci apare naturală tentativa de a lărgi aplicabilitatea CT la întregul discurs, într-o manieră recursivă, pe chiar această structură de segment definită, ea însăşi, recursiv. Teoria nervurilor propune o astfel de generalizare.
274
Teoria nervurilor (veins theory, VT) [Cristea et al., 1998], preluând de la RST diferenţierea dată de nuclearitate între argumentele relaţiilor retorice dar ignorând, ca şi în AST, numele acestora, relevă o structură "ascunsă" în arborele de discurs, numită nervură. Fără a nega structura lingvistică a segmentelor de discurs, cât şi pe cea intenţională a relaţiilor dintre scopurile comunicate de segmente şi care, prin echivalarea de care am amintit ([Moser, Moore, 1996; Marcu, 1999]), poate fi recuperată din structura de arbore proprie analizelor RST, VT corectează defectul de accesibilitate al AST înlocuind modelul accesibilităţii în stivă cu accesibilitatea de-a lungul nervurilor arborelui de discurs şi explicând naturaleţea unor referinţe la distanţă realizate prin mijloace de evocare foarte economice (pronume) [Fox, 1987]. Concluziile VT sunt, de asemenea, stabile la granularitate. în felul acesta VT se constituie într-o teorie globală a coeziunii discursului. VT generalizează totodată partea din CT relativă la încărcarea inferenţială (regula a doua), extinzând concluziile ei la întregul discurs, prin aceasta VT constituindu-se şi într-o teorie globală a coerenţei.
în secţiunea următoare sunt prezentate argumente lingvistice în favoarea teoriei. Secţiunea 3 prezintă definiţiile teoriei, secţiunea 4 enunţă conjectura VT relativă la referenţialitate, iar secţiunea 5 - conjectura VT referitoare la coerenţă. Secţiunea 6 descrie rezultate experimentale în sprijinul presupoziţiilor VT, secţiunea 7 prezintă o proprietate de granularitate, iar ultima secţiune este dedicată concluziilor şi prezentării unor aplicaţii ale VT.
2. Intuiţiile VT
Noţiunea de nervură s-a născut sintetizând observaţiile asupra modului în care se aliniază referinţele pe o reprezentare arborescentă a discursului. Considerând organizarea ierarhică dată de structura de arbore şi principiul compoziţionalităţii (v. de exemplu [Marcu, 2000]), care permite ca unităţi de discurs aflate la distanţă să fie fraţi sub aceeaşi relaţie, aceste observaţii au fost următoarele (pentru simplificarea exprimării vom spune că "o unitate A referă o unitate B" şi vom înţelege "o expresie referenţială aparţinând unei unităţi A referă o entitate de discurs introdusă de (sau referită dintr-o) unitate B"; de asemenea vom nota cu uh u2, u3 - unităţi de discurs iar cu R, Ru R2 - relaţii. Atunci când apar ca argumente ale unei relaţii, unităţile de discurs vor purta un indice ridicat " sau s, cu semnificaţia de nucleu şi respectiv satelit):
- un satelit sau un nucleu poate referi un frate nuclear aflat la stânga: în combinaţii
u" R u2, sau u" R u2, u2 poate referi uu Ex. 1
1. Ion a plecat de acasă fără umbrelă
2. deşi dimineaţă 0 aflase la radio că va ploua.
275
Subiectul vid (notat 0) din unitatea 2, un satelit al unităţii 1, referă entitatea [Ion]1 introdusă de expresia referenţială Ion din prima unitate.
-   un nucleu poate referi un satelit al său aflat la stânga: în combinaţii uf R u2, u2 poate referi u-,. Astfel, în exemplul:
Ex.2
1. Ion i-a dat Măriei o floare.
2. Pentru că 0 s-a simţit frustrată,
3. soţia lui - s-a supărat.
unitatea 2 este un satelit al unităţii 3. Pe cine desemnează pronumele vid (notat 0) din 2, pe [Măria] sau pe [soţia lui Ion]? într-o interpretare incrementală a textului, la sfârşitul receptării celei de a doua unităţi avem tendinţa de a asocia, prea timpuriu, subiectul vid [Măriei] apreciind totodată bizarul situaţiei. După citirea unităţii 3 are loc însă o reconsiderare a legării 0-> [Măria] şi o identificare a expresiei referenţiale soţia lui cu subiectul vid din 2, ambele indicând entitatea [soţia lui Ion].
un satelit dreapta al unui nucleu u nu e accesibil dintr-un alt frate dreapta, nuclear sau satelit, al lui u: în combinaţii {u" u2)n R2 u3n sau (u" R1 u2s)n R2 u3s, u3 poate referi u-\ dar nu u2.
Ex.3
1. Ion i-a mărturisit Măriei că o iubeşte.
2. El n-&fost niciodată căsătorit
3. şi a trăit până la 40 de ani lângă mama sa.
4. Ea, dimpotrivă, a fost măritată de două ori.
Secvenţa 2-3-4 oferă o completare la 1. Secvenţa 2-3 se află într-o relaţie de CONTRAST (o relaţie paratactică) faţă de 4, iar 3 aduce o completare la 2. Structura este deci următoarea: u" ((u2 R2 u3s)n R3 u4n)s în care R3 este relaţia CONTRAST. Pentru cei mai mulţi cititori, ea din unitatea 4 trebuie să fie [Măria], iar nu [mama lui Ion], deşi [mama lui Ion] este entitatea cea mai recent referită, din poziţia unităţii 4, cu care pronumele feminin se potriveşte în număr şi gen. Motivul preferării Măriei în locul mamei este acela că cititorul recunoaşte unitatea 4 ca fiind într-o relaţie de CONTRAST cu unitatea 2 (relaţie pusă în evidenţă prin dimpotrivă), ceea ce face ca cele două unităţi să fie percepute ca fiind adiacente. Apropierea lor nu este însă una liniară, ci ierarhică, pe structură. Unitatea 3 este închisă la referinţă din unitatea 4.
1 Vom nota prin [text] entitatea de discurs introdusă/referită de expresia referenţială text.
8553973^
ş
iii
i p j I
"11'
îl'1
I' ti
11 'Ui!
I||ki' ui!
Ii1
276
un nucleu blochează accesibilitatea dintr-un satelit dreapta spre un satelit stânga: în combinaţii (uf Rf u2n)n R2 u3s, u3 poate referi u2 dar nu uh
Ex.4
1. încă înainte cu un an de terminarea mandatului său de preşedinte al firmei
2. dl. W. Ross începuse maşinaţiile pentru falimentarea acesteia. *3. De altfel, circulau vorbe că l-ar fi obţinut fraudulos.
în acest exemplu 1 şi 3 sunt sateliţi ai lui 2 (1 este o circumstanţială a lui 2, în timp ce unitatea 3 dă o explicaţie la purtarea necinstită a lui Rossj. Referinţa /=[mandatul lui Ross de preşedinte al firmei] se deduce cu dificultate, ceea ce face ca întregul discurs să fie defectuos. Dimpotrivă, în următoarea variantă, discursul câştigă în cursivitate:
Ex.5
1.
2.
3.
Dl. W. Ross începuse maşinaţiile pentru falimentarea firmei al cărei preşedinte era
încă înainte cu un an de terminarea mandatului său. De altfel, circulau vorbe că l-ar fi obţinut fraudulos.
In Ex. 5 unitatea 2 este un satelit al lui 1, iar 3 - un satelit al lui 2 (aici de altfel anunţă o paranteză la informaţia asupra mandatului de preşedinte). Referinţa /=[mandatul lui Ross de preşedinte al firmei] poate fi recuperată acum fără dificultate.
Motivaţia acceptării Ex. 5 şi rejectării Ex. 4, constă nu în depărtarea liniară mai mare a anaforului de antecedent în Ex. 4 decât în Ex. 5, ci în faptul că în Ex. 4, spre deosebire de Ex. 5, accesul anafor-antecedent se face dinspre un satelit către un alt satelit, între ei interpunându-se un nucleu. Să remarcăm, de asemenea, că Ex. 4 poate fi reparat şi dacă se elimină această referinţă:
Ex. 6
1. încă înainte cu un an de terminarea mandatului său de preşedinte al firmei
2. dl. W. Ross începuse maşinaţiile pentru falimentarea acesteia.
3. De altfel, circulau vorbe că el ar fi fraudat alegerile.
3. Definiţiile teoriei
Intuiţia fundamentală care stă la baza dezvoltărilor unificatoare asupra structurii de discurs şi accesibilităţii în VT este că distincţia specifică RST dintre
277
nuclee şi sateliţi constrânge plaja de antecedenţi asupra cărora pot fi rezolvaţi anaforii1; cu alte cuvinte, distincţia nucleu-satelit, corelată cu o structură de discurs, induce pentru fiecare unitate de discurs un domeniu de accesibilitate referenţială imediată pentru anaforii pe care-i conţine. Mai precis, VT avansează ipoteza că pentru fiecare anafor x aparţinând unei unităţi de discurs u, x poate fi rezolvat cu uşurinţă examinând doar un subset al mulţimii entităţilor de discurs care preced u. Dacă antecedentul lui x este plasat într-o unitate de discurs aflată în afara domeniului lui u atunci legătura anafor-antecedet este refăcută cu greutate, sau pentru realizarea ei e nevoie de mijloace referenţiale tari, cum sunt, de exemplu, numele proprii.
Mai mult decât atât, aceeaşi corelaţie nuclearitate-structură, aplicată întregului discurs, permite generalizarea CT dincolo de graniţele unui segment, ceea ce face posibilă aplicarea concluziilor CT asupra coerenţei la întregul discurs.
VT se bazează, în mare măsură, pe aceleaşi elemente ale structurii de discurs ca şi RST:
- unităţile de bază ale discursului sunt întinderi de text (în engleză - text span) ce nu se intersectează. După cum am precizat mai sus, noi le vom asimila cu propoziţii, la nivel semantic fiecare conţinând o predicaţie (căreia îi corespunde o reprezentare evenimenţială sau situaţională);
- structura unui discurs este reprezentată ca un arbore. Spre deosebire de RST, dar fără a reduce generalitatea, în VT vom considera arborii de discurs ca fiind binari (fiecare nod al arborelui are exact doi descendenţi) (pentru argumentaţie, v. [Marcu, 2000] şi [Cristea, Webber, 1997]);
- principiul secvenţialităţii [Cristea, Webber, 1997]: secvenţa de noduri de pe frontiera terminală a arborelui corespunde secvenţei de unităţi de discurs ce compune textul2;
- principiul compoziţionalităţii [Marcu, 2000]: o relaţie ce se aplică între două întinderi de text se aplică, de asemenea, şi între subîntinderile nucleare ale întinderilor aflate în relaţie;
- la fel ca în RST, nuclearitatea nodurilor arborelui este importantă, nodurile fiind clasificate în nuclee (cele mai importante) şi sateliţi (cele mai puţin importante);
1 într-o relaţie anaforică, interpretarea anaforului depinde de cea a antecedentului, antecedentul fiind plasat în text înaintea anaforului.
2 Unităţile de discurs întrerupte nuanţează acest principiu. Astfel într-un discurs precum următorul: O datări când treceau unul pe lângă altul pe coridor?! ea îi aruncase o privire piezişă11 care parcă-l străpunsese2! şi pentru o clipă fusese cuprins de o groază oarbăfl (G. Orwell, 1984), unitatea 1 este întreruptă de unitatea 2.
' "iii
m
mm
vin
â
lillJ
278
- nodurile terminale ale arborelui reprezintă unităţi de discurs, în timp ce nodurile neterminale reprezintă relaţii retorice între întinderi adiacente de text. Spre deosebire de RST, în VT nu interesează numele relaţiilor, ceea ce contează fiind topologia arborelui, nuclearitatea nodurilor şi etichetarea nodurilor terminale;
- între fiii fiecărui nod intermediar al arborelui există cel puţin un nod nuclear. Nodul rădăcină, prin convenţie, e considerat satelit.
în vizualizarea arborilor vom reprezenta nodurile neterminale prin dreptunghiuri fără nume, pe cele terminale - prin ovaluri etichetate, iar nodurile nucleare vor fi subliniate (v. Figura 1). în definiţiile ce urmează vom folosi următoarele convenţii de notare:
- mark(a) este o funcţie care întoarce şirul a în care fiecare simbol este marcat (de exemplu, este poziţionat între paranteze);
- unmark(d) este funcţia inversă lui markQ, ce îndepărtează toate marcajele ataşate simbolurilor din expresia a (ex. unmark(mark(a)) = a);
- simpl(a) este funcţia care elimină toate simbolurile marcate din expresia argumentului a (ex. simpl(mark(a)) = 0, şirul vid, şi simpl(cx • mark(p) • y)) = a - y)\
- seq(a, (3) este o funcţie de secvenţiere, care întoarce acea permutare a concatenării simbolurilor din a şi j3 dată de citirea de la stânga la dreapta a nodurilor corespunzătoare simbolurilor din a şi /3 pe frontiera terminală a arborelui. Funcţia menţine marcajele asupra simbolurilor, dacă acestea există, seq(0, fî) = /?; şi seq(a, seq(P)) = seq(seq(a), j8) = seg(a, 0);
- H(n) şi V(n) reprezintă expresiile head şi nervură (în engleză - vein) ale unui nod n;
- pref(u, a) reţine prefixul expresiei simbolice a până la simbolul u inclusiv, o etichetă de nod terminal.
Teoria nervurilor calculează două expresii, pe care le ataşează fiecărui nod al structurii.
3.1 Expresia head a unui nod al arborelui
Intenţia expresiei head a unui nod al arborelui de discurs este de a exprima secvenţa celor mai importante unităţi de discurs din întinderea de text acoperită de nod. Ea este o secvenţă de etichete de unităţi, calculată după cum urmează:
279
Expresia head a unui nod terminal este însăşi eticheta sa; 2.  Expresia head a unui nod neterminal este dată de concatenarea, în ordinea apariţiei lor în arbore de la stânga la dreapta, a expresiilor head ale descendenţilor săi nucleari. Definiţiile expresiilor head sugerează un proces de calcul care se propagă de jos în sus în arborele de discurs. Cele mai importante unităţi de discurs sunt proiectate în sus până în primul nod satelit întâlnit.
direcţia de propagare a calculelor pentru expresiile head
Figura 1: Calculul expresiilor head
3.2 Expresia nervurii unui nod al arborelui
Expresia nervurii unui nod intenţionează să surprindă secvenţa unităţilor de discurs care sunt semnificative pentru a sintetiza1, în contextul întregului text, întinderea de text acoperită de nod. Pentru orice nod al structurii, expresia nervurii este formată din cele mai importante unităţi din întinderea acoperită de nod, împreună, eventual, cu alte unităţi din afara acestei întinderi.
Prin sinteza, sau rezumatul, unei întinderi de text se înţelege un text mai scurt care redă ideea principală a textului supus sintezei. Indiferent dacă este realizat prin parafrazare sau prin punerea cap la cap a unor subsecvente ale întinderii originale [Mani, 2001], orice rezumat trebuie să fie comprehensibil, adică trebuie să poată fi înţeles prin el însuşi (printre altele, de exemplu, rezumatul trebuie să conţină toate elementele care să permită rezolvarea anaforilor). Adesea însă, atunci când întinderea este decupată dintr-un context mai larg, pentru ca rezumatul să fie comprehensibil, el trebuie să conţină şi elemente din afara întinderii şi care aparţin contextului. Avem de a face, în acest caz, cu o sinteză a unei întinderi de text în contextul unei întinderi mai vaste. Să mai observăm că, în multe privinţe, "a sintetiza" e analog cu "a înţelege", pentru că ceea ce ne rămâne după lectura unui text este o sinteză a lui.
09762675
Definiţiile care urmează, datorită recursivităţii lor, vor face posibilă considerarea contextului dat de totalitatea textului din exprimarea "a înţelege, în contextul întregului text, întinderea s" mărginit la întinderea de text acoperită de nodul părinte al celui corespunzător întinderii s. Cu alte cuvinte, la fiecare nivel al structurii, cu excepţia rădăcinii, adică întotdeauna unde există două noduri fii sub un nod părinte, cu întinderile celor două noduri fii însumând întinderea nodului părinte, expresia nervură a părintelui conţine deja informaţia care permite înţelegerea/rezumarea întinderii acoperite de el în contextul global. Coborârea pentru înţelegerea/rezumarea subîntinderii acoperite de nodul curent al definiţiei (unul dintre cele două noduri fii) înseamnă adăugarea şi/sau ştergerea unei secvenţe noi/subsecvenţe la/din secvenţa de etichete contribuită de nervura părintelui, în funcţie de polaritatea şi poziţia specifică a întinderii corespunzătoare nodului fiu curent în întinderea nodului părinte. în continuare, întinderea întregului text, o constantă pentru orice subîntindere, va fi numită contextul total. în figurile 2-^-6, nodurile curente - cele vizate de definiţiile curente de nervură - apar în gri. Ele sunt notate simultan cu un dreptunghi şi un oval pentru a sugera că pot fi atât noduri interioare (neterminale), cât şi noduri terminale.
Definiţii
1. Expresia nervurii rădăcinii este egală cu expresia sa head.
Particularizând intenţia pe care o exprimă expresia nervurii unui nod la modul rădăcină obţinem: cele mai semnificative unităţi de discurs necesare înţelegerii/rezumării întinderii acoperite de nod (în cazul de faţă - întregul text) în contextul total. Cum contextul este aici egal cu textul în totalitatea lui, el poate fi lăsat la o parte în descriere, ceea ce ne lasă cu definiţia expresiei head a nodului rădăcină.
2. Pentru fiecare nod nuclear, al cărui părinte are nervura v:
a. dacă nodul nu are un frate nenuclear în stânga, atunci expresia nervurii este v(v. Figura 2);
Figura 2: Expresia nervurii unui nod nuclear fără frate satelit în stânga
Definiţia exprimă faptul că secvenţa de unităţi necesară înţelegerii/ rezumării, în contextul total, a unei întinderi nucleare de text ce are ca frate în structură o altă întindere nucleară necesită aceeaşi secvenţă de unităţi ca şi cea necesară înţelegerii/rezumării, în contextul total, a reuniunii celor două întinderi. Cu alte cuvinte', o întindere nucleară ce este frate, în structură, întinderii nucleare curente este esenţială înţelegerii/rezumării întinderii curente.
b. dacă nodul are un frate nenuclear în stânga de head h, atunci expresia nervurii lui este seq(mark{h), v) (v. Figura 3);
Figura 3: Expresia nervurii unui nod nuclear având un frate satelit în stânga
Secvenţa de unităţi necesară înţelegerii/rezumării, în contextul total, a unei întinderi nucleare de text ce are ca frate stânga în structură o întindere nenucleară necesită, suplimentar faţă de secvenţa necesară înţelegerii în contextul total a întinderii acoperită de nodul părinte (comunicată de expresia nervură a nodului părinte) şi secvenţa head a întinderii frate stângi (adică cele mai importante unităţi din întinderea stângă). Considerarea, în expresia nervurii întinderii nucleare curente, a expresiei head a întinderii nenucleare frate stânga, corespunde, prin prisma definiţiei 2a, cu atribuirea întinderii stângi a calităţii de a se comporta ca un nucleu. Marcarea contribuţiei satelitului frate stânga prin funcţia markQ face însă această revizuire a nuclearităţii lui, una cu valoare temporară, după cum se va dovedi mai jos, în definiţia 3b.
3. Pentru fiecare nod nenuclear de head h, al cărui părinte are nervura v: a. dacă nodul este descendentul stâng âl părintelui său, atunci expresia nervurii sale este seq(h, v)\
282
283
Figura 4: Expresia nervurii unui nod satelit stânga
Definiţia exprimă faptul că pentru a înţelege/rezuma, în contextul total, o întindere nenucleară de text ce este descendent stâng, în structură, nodului părinte, la secvenţa de unităţi ce exprimă influenţa contextului total (precizată de expresia nervură a părintelui) trebuie adăugate cele mai importante unităţi din întinderea proprie (date de expresia head proprie). Să observăm că în expresia nervurii nodului părinte, care moşteneşte expresii head ale nodurilor superioare, nu poate răzbate influenţa unui fiu satelit al său, deci numai includerea head-u\u\ fiului satelit, direct în expresia nervurii sale poate completa această influenţă.
b. dacă nodul este descendentul drept al părintelui său, atunci expresia nervurii lui este seq(h, simpl(v)).
Figura 5: Expresia nervurii unui nod satelit drept
Pentru a înţelege, în contextul total, o întindere nenucleară de text ce este descendent pe dreapta al nodului părinte, la secvenţa de unităţi necesară înţelegerii/rezumării contextului total (precizată de expresia nervură a părintelui) şi
din care s-au şters unităţile marcate trebuie adăugate cele mai importante unităţi din întinderea proprie (date de expresia head proprie). în acest fel, dacă expresia nervură a nodului părinte nu conţine unităţi marcate (în conformitate cu definiţia 2b), atunci expresia nervură a unui satelit dreapta nu diferă de expresia nervură a aceluiaşi satelit ce ar fi fost poziţionat pe stânga (conform definiţiei 3a). Dacă însă nervura părintelui conţine unităţi marcate, atunci acestea dispar din expresia nervurii satelitului drept. Conform definiţiei 2b, unităţile marcate pot fi datorate doar unui satelit stânga, frate al celui mai apropiat ascendent nuclear ai întinderii curente. Urmează că definiţia curentă exprimă o proprietate de blocare a accesibilităţii dinspre un satelit plasat în dreapta unui nucleu către un satelit plasat în stânga sa (v. Figura 6).
Figura 6: Simplificări în calculul expresiei nervură a unui satelit dreapta: V=seq(h2, simpl(seq(v, markţhi))) = seq(h2, seq(v)) = seq(h2, v)
Dacă semnificaţia expresiei nervurii unui nod oarecare din structură este particularizată la un nod terminal, obţinem: expresia nervurii unei unităţi de discurs reprezintă secvenţa unităţilor de discurs care sunt semnificative pentru a înţelege/rezuma, în contextul întregului text, însăşi unitatea de discurs în cauză. Printre altele, aceasta înseamnă că expresia nervurii unei unităţi de discurs este suficientă pentru a interpreta toate referinţele anaforice conţinute în unitate.
4. Relaţia dintre structura de discurs si referentialitate
Ipoteza pe care o avansăm este că rezoluţia anaforică este caracterizată de două tipuri de procese: evocative (sau imediate) şi post-evocative (sau infe-renţiale). Procesele evocative, cele mai frecvente, sunt rapide şi pot fi realizate prin orice mijloace de evocare referenţială, inclusiv cele fragile (de tipul subiectelor
'ffl
'"Iii
w
nil f
li
284
vide şi pronumelor). Ele dau textului fluenţă şi-l fac coeziv. Cele post-evocative sunt mult mai puţin frecvente decât cele evocative, necesită o încărcare inferenţială mai mare pentru a fi interpretate şi utilizează mijloace referenţiale tari (nume proprii, substantive comune articulate).
Vom asocia spaţiul de căutare al proceselor evocative unui domeniu de accesibilitate referenţială evocativă sau imediată (domain of evocative accessibility - dea) pe baza definiţiei nervurii şi a următoarelor observaţii:
- relaţia anaforică este de natură semantică, iar nu textuală
[Halliday, Hassan, 1976]: o relaţie anaforică are doi termeni: anaforul şi antecedentul. Anaforul este reprezentat de o expresie referenţială a cărei natură este textuală. Natura semantică a relaţiei anaforice trebuie înţeleasă ca răsfrângându-se asupra antecedentului, care nu trebuie identificat cu o anumită expresie referenţială ce precede în text anaforul, ci cu o reprezentare a acesteia într-un plan semantic, în aşa fel încât semnificaţia anaforului se construieşte din antecedentul însuşi iar nu din semnificaţia lui. în cazul particular al unui lanţ co-referenţial, acest lucru înseamnă că antecedentul este "realizat" repetat în text în aceeaşi entitate de discurs. Expresiile co-referenţiale "ancorează", în diverse poziţii ale textului, o aceeaşi entitate de discurs.
- dinamica interpretării discursului este incrementală: un discurs este un text în procesul citirii ori ascultării lui de către un subiect (om sau maşină). Când citirea/ascultarea unui text s-a terminat, discursul este încheiat şi ceea ce rămâne este o reprezentare a lui în memoria subiectului. De asemenea, la un moment dat pe parcursul interpretării unui text, anumite elemente ale discursului pot fi plasate privilegiat în sfera atenţiei [Grosz, Sidner, 1986; Sidner, 1983; Walker, 1996], iar trecerea de la o unitate de discurs la următoarea poate produce schimbări în structura memorată ce configurează sfera atenţionaiă.
- anafora şi a catafora au o natură cognitivă comună: din punct de vedere cognitiv, toate referinţele anaforice se fac dinspre expresii referenţiale (entităţi textuale) către entităţi ale discursului (entităţi semantice) deja introduse de discursul trecut. Acest lucru înseamnă că, într-o limbă în care textul se notează de la stânga spre dreapta, nu există jeferinţe anaforice spre dreapta. Distincţia dintre anafora şi cataforă, devine, în această viziune care încearcă să reconstituie procesele cognitive ce stau la baza înţelegerii textelor (cu sau fără scopul simulării lor pe maşină), inutilă. în aceeaşi manieră în care, în cazul unei anafore, un antecedent este o entitate de discurs propusă de o expresie referenţială ce precede anaforul şi pe care anaforul o referă apoi, pronumele ce precede un nume, în cazul unei catafore, propune o reprezentare, mai săracă, pe care numele o referă şi o
285
completează în acelaşi timp [Cristea, Dima, 2001]. Acest lucru atribuie interpretării discursului o unică direcţionalitate, care corespunde axei timpului lecturii, şi care este cea a desfăşurării liniare a textului (pentru limbile europene, de exemplu, de la stânga la dreapta). Relaţia de referenţialitate trebuie deci să se proiecteze pe această axă, dinspre anafori "noi" către entităţi "vechi", mereu către înapoi pe axa timpului lecturii.
Ex.7
1. Pentru că 0 n-a vrut să-şi lase tata singur,
2. Ion a renunţat la concediu.
Expresia referenţială vidă de pe poziţia de subiect a unităţii de discurs 1 propune o entitate de discurs caracterizată cel mult de o descriere [type human, number singular] (ce poate fi atribuită, cel mai probabil, unor surse de cunoaştere de natură pragmatică: cineva care nu poate să-şi lase tatăl singur trebuie să fie o persoană, corelate cu surse de natură sintactică: acordul în număr cu predicatul). Apoi, substantivul propriu /on, din unitatea 2, referă entitatea construită precedent şi o completează până la o reprezentare: [type human, number singular, name Ion].
Corelarea definiţiei nervurii cu observaţiile de mai sus, conduce la configurarea domeniului de accesibilitate referenţială evocativă ca fiind format din toate unităţile de discurs care preced unitatea în care se găseşte expresia referenţială (şi din care au fost îndepărtate eventualele marcaje, ce îndeplineau un rol de memorie temporară):
dea(u) = pref(u, unmark(V(u)).
Definiţia dea formalizează prima conjectură a VT (sau a coeziunii), care pune în legătură accesibilitatea referenţială imediată cu structura de discurs: antecedenţii expresiilor referenţiale dintr-o unitate de discurs u se găsesc, cu precădere, printre entităţile de discurs ancorate în unităţile ce preced pe u, inclusiv u, în expresia nervurii acesteia.
Paul Cornea [1998] vorbeşte despre recodificarea sensului şi memorizarea. El pune în evidenţă trei tipuri de memorie, ce apar, de altfel, la mai mulţi cercetători [Kinntsch, Vârî Dijk, 1975; Schank, Abelson, 1977; Walker, 1996]: memoria imediată, memoria de scurtă durată (de termen scurt - MST) şi cea de 'ungă durată (de termen lung - MLT). Memoria imediată este un sistem de stocaj senzorial al informaţiilor, reţinerea urmelor din ultima jumătate de secundă. MST conservă câteva secunde informaţia. Lungimea acestei memorii pare a fi de 7±2 semne (cuvinte, cifre, litere - funcţie de context, v. şi [Miller, 1956]; alţi cercetători
12
286
287
apreciază acest "empan" mijlociu la 13^-15 cuvinte, la un lector lent fiind de 8 cuvinte, la unul rapid - de 16-5-20 [Richadeau, 1969] - citat în [Cornea, 1998] p. 166).
Construcţia structurii de discurs se face dinamic, în actul lecturii. Să ignorăm un posibil proces de multi-interpretare ce poate duce la sintetizarea simultană a mai multor construcţii alternative, din care să se selecteze, în urma unui proces de dezambiguizare, una sau mai multe structuri arborescente finale. Arborele însuşi poate fi considerat rezumat în diverse grade, conform capacităţii de memorare a subiectului. Dacă unitatea curentă este un, să notăm ARn arborele de structură rezumat, la momentul prelucrării unităţii un. Nervura acesteia, culeasă pe ARn, este V(un), iar domeniul ei de accesibilitate imediată dea(un).t Noi credem că MST poate fi considerată o fereastră de lungime 7±2 semne în directă legătură cu dea(un): fie 7±2 unităţi din această secvenţă, fie tot atâtea structuri evenimenţiale -ca reprezentări ale unităţilor de discurs, fie încă numai simboluri (cuvinte etc.) culese din acest şir de unităţi. Tranzitarea la următoarea unitate, un+1, înseamnă înlocuirea memoriei de scurtă durată dea(un) cu dea{un+1). Acest lucru duce uneori la o simplă prelungire a domeniului de accesibilitate precedent, alteori la o alterare a lui prin ştergerea unor unităţi şi adăugarea altora, de fiecare dată domeniul încheindu-se cu unitatea curentă. MST este aşadar o proiecţie a unui şir de unităţi de discurs (sau de microstructuri ce-şi au suportul în aceste unităţi) decupate din structura dinamică curentă. Modificările ce apar în şirul MST reflectă schimbările de focalizare, în parcurgerea discursului. Componenţa acestui şir este influenţată de uitare (deci de un proces de abstractizare) şi de modificarea de interes curentă în parcurgerea discursului. Când interesul s-a mutat pe o altă axă, componenţa nervurii şi, de aici, a domeniului de accesibilitate imediată sunt şi ele actualizate. Includerea sau excluderea din MST a unor unităţi de discurs în ritmul citirii, pentru că dea evoluează eliminând unele unităţi şi "redeşteptând" altele "uitate", amintesc de procesele de "chemare" în sfera atenţiei ale memoriei cash a lui Walker [Walker, 1996]. Pe de altă parte, structura memorată (rezumată) a discursului este păstrată în MLT şi folosită pentru aducerea în prim plan a unităţilor de interes curent ce au fost temporar retrogradate de o comutare a atenţiei într-o altă direcţie. Procesele evocative se desfăşoară aşadar în memoria de scurtă durată. Pe de altă parte, procesele post-evocative sunt procese de rezoluţie anaforică de natură inferenţială, ce presupun un anumit efort de regăsire a unei entităţi de discurs într-o zonă a memoriei de lungă durată sau evocă entităţi ale cunoaşterii generice din sfera culturală a subiectului. Noi credem că aceste procese se dezvoltă tot pe structura de discurs dezvoltată deja, ieşind din dea, când rezoluţia a eşuat acolo.
Dintr-un punct de vedere ce se concentrează asupra relaţiei dintre referenţialitate şi structura de discurs, celor două tipuri de procese anaforice pe care le-am pus în evidenţă le corespund referinţe evocative, respectiv post-evocative (sau inferenţiale). Diferenţa dintre ele este că, în cazul primelor, lanţul retroactiv al unităţilor ce ancorează expresii aflate în relaţii referenţiale
intersectează domeniul de accesibilitate referenţială imediată al unităţii anaforului în cel puţin încă un punct decât unitatea anaforului, pe când în cazul referinţelor post-evocative nu există această intersecţie dublă. în [Cristea et al., 2000; Cristea, 2000] referinţele evocative sunt, mai departe, detaliate în directe şi indirecte.
în referinţele directe, a doua unitate de intersecţie este unitatea cea mai recentă liniar ce ancorează aceeaşi entitate de discurs ca şi anaforul (în cazul relaţiei de co-referinţă) sau o entitate corelată funcţional cu aceasta (în cazul unei relaţii de referinţă funcţională). în referinţele indirecte intersecţia dea cu lanţul co/func-referenţial se realizează într-o unitate mai depărtată decât cea mai recentă liniar de unitatea anaforului. în referinţele inferenţiale lanţul retroactiv al legăturilor anaforice ale anaforului nu intersectează dea (în Figura 7 lanţul legăturilor anaforice este reprezentat punctat, iar dea printr-o linie groasă).
G
R
..a
o
referinţă directă
R
referinţă indirectă
G"
O
R
9*
referinţă inferenţială
Figura 7: Referinţe evocative şi post-evocative
O categorie particulară de referinţe post-evocative sunt referinţele pragmatice (ce pot fi numite şi pseudo-referinţe). în acest tip de referinţe participă expresii referenţiale care pot fi interpretate fără un antecedent pentru că interpretarea lor se bazează pe cunoştinţe exterioare textului, ce vin din cunoaşterea comună asupra lumii, deci din pragmatică. Deşi există cel puţin încă o expresie referenţială în text ce realizează aceeaşi entitate de discurs, expresiile referenţiale pot să nu aibă, în mod necesar, o reprezentare unică, fără ca prin acesta înţelegerea textului să sufere.
288
289
Recunoaşterea antecedentului se datorează, în toate cazurile, unor procese de confruntare de şabloane (pattern-matching) îmbogăţite cu euristici, în care intervin structura de caracteristici morfo/sintactico/semantice ce definesc anaforul şi structurile de caracteristici ce definesc entităţile de discurs deja introduse [Cristea, Dima, 2001; Cristea et a/., 2002a].
5. Relaţia dintre structura de discurs şi cursivitate
5.1. Linii de argumentaţie
Expresiile nervură ale unităţilor ce compun un discurs arată tot atâtea moduri diferite în care poate fi citit acel discurs. Fiecare în parte dă o rezumare a discursului prin prisma unităţii de discurs curente. Atunci când interesul este orientat către un anumit episod al povestirii, putem sări peste pasaje întregi pentru a ne concentra asupra manierei în care elementul de interes se leagă cu ansamblul discursului. în acelaşi fel, putem avea în vedere o altă pistă şi atunci lectura focalizează un alt fir de interes. Acest nou fir poate să aibă elemente în comun cu primul dar poate, des asemenea, să incorporeze şi altele noi. Fiecare fir în parte poate pune în evidenţă anumite particularităţi, legate însă strâns de linia principală a discursului. Toate aceste sub-discursuri sunt coerente şi, în general, nu există referinţe anaforice pentru a căror interpretare să avem nevoie de fragmente aflate în afara rezumatului însuşi. Acest lucru înseamnă că traseele referenţiale ale rezumatului conţin suficiente elemente care să ducă la recuperarea înţelesului anaforilor.
Să luăm următorul text:
Ex. 8
1. Piton primise-n taină poruncă de la Hera să-l pîndească pe Apolo,
2. cînd va trece prin munte,
3. şi să-i răpună viaţa.
4. Hera-I ura pe fiul cel nou născut al Letei,
5. pentru că soţul său, prea puternicul Zeus, ţinea mai mult la dînsul decit la fiii ei: Hefaistos şi Ares.
6. Cînd a ajuns Apolo în muntele Parnas,
7. dihania uriaşă s-a avîntat spre dînsul,
8. dornică să-/ ucidă.
9. Dar zeul şi-a întins arcul.
10. A tras prima săgeată.
11. Erau doar patru zile de cînd văzuse lumea,
12. şi întiia lui săgeată a şi nimerit monstrul.
Afexandru Mitru - Legendele Olimpului, Editura Tineretului, 1966
Structura de discurs a acestui text este cea din Figura 8. Tabela 1 dă expresiile nervură şi domeniile de referenţialitate evocativă ale nodurilor terminale, în coloana dea(u) au fost, totodată, marcate în aldine domenii de referenţialitate imediată maximale vis-â-vis de relaţia de incluziune (cele mai lungi trasee dea). Astfel dea(1) c dea(2) <z dea{3) c ofea(4) c dea{5) <t dea(6) ş.a.m.d. Vom numi aceste secvenţe care întrerup lanţuri de incluziuni linii de argumentaţie (/a), în cazul nostru: 1 2, 1 3 4 5, 1 3 6 7, î 3 7 8 şi 1 3 7 9 10 11 12. Dacă /a(u,) precede imediat /a(u2), atunci în la{u2) se regăsesc domeniile tuturor unităţilor dintre uY+1 şi u2. în particular, în la{u2) se regăsesc unităţile ce preced imediat unitatea u, pentru orice u între i/7+1 şi u2, în domeniui lor de accesibilitate imediată (adică acel domeniu care conferă discursului maximum de coerenţă). Cu alte cuvinte, pe la(u2) putem aplica definiţiile CT de calculare a tranziţiilor pentru orice u între i/t+1 şi u2.
Tabela 1: Nervurile şi domeniile unităţilor din Ex. 8
u	V(u)	dea(u)
1	1 379 10 12	1
2	1 2379 10 12	1 2
3	1 379 10 12	1 3
4	1 3479 10 12	1 34
5	1 34579 10 12	13 4 5
6	1 3679 10 12	1 36
7	1 3(6)7 9 10 12	1 367
8	1 3789 10 12	1 378
9.	1 379 10 12	1379
10	1 379 10 12	1 379 10
11	1 379 10 11 12	1 379 10 11
12	1 379 10 (11) 12	1 379 10 11 12
Figura 8: Structura de discurs a Ex. 8
5.2. O generalizare a CT
Urmând recomandările teoriei centrelor, să presupunem că marcăm tranziţiile ce apar între unităţi de discurs cu scoruri care să dea un grad al uşurinţei de prelucrare:
CONTINUARE (CON) 4
REŢINERE (RET) 3
SCHIMBARE LINĂ (SSH) 2
SCHIMBARE ABRUPTĂ (ASH) 1
LIPSĂ Cb (-) 0
f. jî.,jll I
I Hi
El!:i
III1' i
111 i.
w\
îl 3 ! lll'
290
în felul acesta, tranziţiile line primesc scoruri mari, cele abrupte, scoruri mici. însumând aceste scoruri pentru fiecare unitate a unui segment (segment, în spiritul AST) vom avea un scor al segmentului. Să notăm un scor în spiritul CT al unui segment s cu SCcts (CCT de la Classical Centering Theory). El ne va da o măsură a uşurinţei de interpretare a segmentului: cu cât un segment s, în totalitatea lui, e mai fluent, cu atât scorul lui va fi mai mare şi cu cât el este mai abrupt, mai dificil de interpretat, cu atât scorul lui va fi mai scăzut. în fine, să adunăm aceste scoruri pentru toate segmentele discursului, într-un scor al sumei segmentelor SCcrp
SCCT-
5 cct
Să ne imaginăm acuma că forţăm nota şi calculăm aceste scoruri şi dincolo de graniţele de segment, deci inclusiv în punctele de frontieră dintre segmente. Să notăm acest scor global cu SCctg- în scorul global SCctg contribuie cu scoruri de tranziţii toate unităţile cuprinse între a doua unitate şi ultima. în mod normal tranziţiile în punctele de trecere între segmente ar trebui să fie foarte abrupte, cotate deci slab ori zero, şi deci scorul global ataşat textului n-ar trebui să fie modificat semnificativ. Dacă apare totuşi o diferenţă, ea trebuie să fie datorată unor tranziţii accidentale peste graniţa de segment. în orice caz trebuie să avem Scctg ^ Scct-
Să procedăm acum în mod analog, ca suport folosind de data aceasta liniile de argumentaţie iar nu secvenţele liniare de unităţi ale segmentelor în sensul clasic. Datorită comportamentului lor similar segmentelor, putem numi liniile de argumentaţie segmente în sens ierarhic. Să notăm SHcts (HCT de la Hierarchical Centering Theory) suma scorurilor unităţilor aparţinând unei linii de argumentaţie (segment ierarhic) s. Ca să dăm o măsură a fluenţei discursului în accepţiunea ierarhică, similară scorului global SCctg în calculul scorului global al discursului în sens ierarhic nu va trebui să repetăm contribuţiile unităţilor ce apar în mai mult decât o singură linie de argumentaţie. Dacă notăm SHcts scorul unui segment ierarhic s' în care am păstrat numai unităţile noi faţă de segmentul anterior, atunci scorul global ierarhic al discursului este:
>hct
G=I>;
hct
Cea de a doua conjectură a VT (a coerenţei): Scorul global în sensul ierarhic al unui discurs este mai bun sau cel puţin egal decât scorul global în sensul clasic: SHctG ^ SCctg.
Pentru un anumit detaliu de granularitate în definirea segmentelor în sens clasic, unui segment în sens clasic îi corespunde o secvenţă de nervură, deci o
porţiune a
conjectură l nervurilor,
segmente.
de autori t explicaţie
în
probează
291
unei linii de argumentaţie. în spiritul acestei observaţii, cea de a doua enunţă prezumţia că tranziţiile la distanţă lungă, calculate în lungul sunt sistematic mai line decât tranziţiile accidentale la graniţele dintre Să notăm că această presupoziţie este conformă unor observaţii făcute precum Passonneau [1995] şi Walker [1998], furnizând totodată o pentru rezultatele lor.
cele ce urmează prezentăm o analiză comparativă clasic-ierarhic care ipoteza coerenţei, pe discursul din Ex. 8.
cînd 0 va trece prin munte,
şi 0 să-i răpună viaţa.
0= [Piton], KApolo], [viaţa]
\Hera-l ura pe fiul cel nou născut al \Letei,___-
[Hera], [Leta], fiul cei nou-născut al LeteHApolo]
pentru că soţul său, prea puternicul Zeus, ţinea mai mult la dînsul decit la fiii ei: Hefaistos şi Ares.
\Cînd a ajuns Apolo în muntele Parnas,
\dihania uriaşă s-a avîntat spre idînsul,
\0 (era) dornică să-l ucidă.
par zeul şi-a întins arcul.
10
11
12
Zeus], său=[Hera], dmsu/=[Apolo], [Hefaistos], [Ares]
[Apolo], [munte]
dihania ur/aşă=[Piton], Id/nsuHApolo]
|0= [Pitoni, l=[Apo»o]
\zeul = [Apolol [arcul]
0a tras prima săgeată.
Erau doar patru zile de cînd 0 văzuse lumea,
0 = [Apolo], [săgeata] i0 = [Apolo], [lumea]
\şi întiia lui săgeată a şi nimerit \monstrul.__
[[săgeata] /u/=[Apolo], monsfriy/=[Piton]
[Apolo]
[Apolo]
[Hera]
Apolo
[Apolo
[Piton;
[Apolo
[Apolo
[Apolo
[Apolo
RET
ASH
SSH RET
SSH
SSH
CON
CON
RET
Total 29
Snzijia da 29/11=2.63 ceea ce înseamnă că tortul, conform aprecen, CT, se
ii
iJECWIM If
ll III11'!
292
comportă, în medie, intermediar între o schimbare lină (SSH) şi o reţinere (RET), mai apropiat de o reţinere.
Dacă luăm în calcul liniile de argumentaţie indicate de nervuri, pot fi puse în evidenţă 5 sub-discursuri, în lungul cărora vom calcula, de asemenea, tranziţiile, în tabelele 3^7 de mai jos unităţile pentru care considerăm tranziţiile sunt, de asemenea, indicate în caractere aldine în prima coloană. Să remarcăm că citirea textelor date de liniile de argumentaţie produce, în toate cazurile, discursuri perfect coerente. în ansamblu, doar câte o tranziţie este calculată pentru fiecare unitate, la fel ca şi în interpretarea clasică.
Tabela 3: Analiza HCT a primei linii de argumentaţie, secvenţa de unităţi 1-2
293
n		0{un)	Cb(un)	Traz.	Scor
1	Piton primise-n taină poruncă de la Hera să-l pîndească pe Apolo,	[Piton], [Hera], [Apolo],	[Piton]	-	-
2	cînd 0 va trece prin munte,	0 = [Apolo], [munte]	[Apolo]	SSH	2
Total					2
Tabela 4: Analiza HCT a celei de a doua linii de argumentaţie, secvenţa de unităţi 1-3-4-5					
n	un		Cb(Un)	Traz.	Scor
1	Piton primise-n taină poruncă de la Hera să-l pîndească pe Apolo,	[Piton], [Hera], [Apolo],	[Piton]	-	-
3	şi 0 să-i răpună viaţa.	0= [Piton], /=[Apolo], [viaţa]	[Piton]	CON	4
4	Hera-I ura pe fiul cel nou născut al Letei,	[Hera], [Leta], fiul cel nou-născut al Lete/=[Apolo]	[Apolo]	ASH	1
5	pentru că soţul său, prea puternicul Zeus, ţinea mai mult la dînsul decit la fiii ei: Hefaistos şi Ares.	[Zeus], său=[Hera], d/>?si//=[Apolo], [Hefaistos], [Ares]	[Hera]	ASH	1
Total					6
Se constată că tranziţia RET a unităţii 3 către 2 din analiza CCT s-a transformat într-o tranziţie CON, pe nervură, dinspre 3 către 1 deşi tranziţia RET dinspre 3 spre 4 în CCT devine aici o tranziţie ASH, deci mai abruptă, datorită modificării Cb-ului unităţii 3 din [Apolo] în [Piton].
Tabela 5- Analiza HCT a celei de a treia linii de argumentaţie, secvenţa de unităţi '* 1-3-6-7
n	un	C/(Un)	Cb(un)	Traz	Scor
1	Piton primise-n taină poruncă de la Hera să-/ pîndească pe Apolo,	[Piton], [Hera], [Apolo],	[Piton]		
3	şi 0 să-i răpună viaţa.	0= [Piton], HApolo], [viaţa]	[Piton]	O O LI	o
6	Cînd a ajuns Apolo în muntele Parnas,	[Apolo], [munte]	[Apolo]	SSH	Z o
7	dihania uriaşă s-a avîntat spre dînsul,	dihania ur/aşă-[Piton], dfnsu/=[Apolo]	[Apolo]	RET	O c
	j_—----                                                                           i otai				5
Tabela 6: Analiza HCT a celei de a patra linii de argumentaţie, secvenţa de unităţi
1-3-7-8
n	Un	Ci(un)	Cb(Un)	Traz.	Scor
1	Piton primise-n taină poruncă de la Hera să-l pîndească pe Apolo,	[Piton], [Hera], [Apolo],	[Piton]		
3	şi 0 să-i răpună viaţa.	0= [Piton], MApolo], [viaţa]	[Piton]		
7	dihania uriaşă s-a avîntat spre dmsul,	dihania i/r/aşă-[Piton], dînsul=[Apo\o]	[Piton]		
8	0 (era) dornică să-l ucidă.	0= [Piton],/=[Apolo]	[Piton]	CON	4 A
	j_--------                                                                                      i otai				4
Se constată că tranziţia SSH a unităţii 7 către 8 din analiza CCT s-a transformat într-o tranziţie CON, pe nervură, tot între 7 şi 8 (Cb-ul unităţii 7 s-a schTmbat din [Apolo] în [Piton], pentru că, pe nervura lui 8, precedenta unitate a lui 7 este acum 3, iar nu 6 ca în secvenţa liniara).
294
295
Tabela 7: Analiza HCT a ultimei linii de argumentaţie, secvenţa de unităţi 1-3-7-9-10-11-12
n	Un		Cb(un)	Traz.	Scor
1	Piton primise-n taină poruncă de la Hera să-l pîndească pe Apolo,	[Piton], [Hera], [Apolo],	[Piton]	-	-
3	şi 0 să-i răpună viaţa.	0= [Piton], /=[Apolo], [viaţa]	[Piton]	-	-
7	dihania uriaşă s-a avîntat spre dînsul,	dihania uriaşă=[Piton], d/nsi//=[Apolo]	[Piton]	-	-
9	Dar zeul şi-a întins arcul.	zeul = [Apolo], [arcul]	[Apolo]	SSH	2
10	0 A tras prima săgeată.	0 = [Apolo], [săgeata]	[Apolo]	CON	4
11	Erau doar patru zile de cînd0 văzuse lumea,	0= [Apolo], [lumea]	[Apolo]	CON	4
12	şi întîia lui săgeată a şi nimerit monstrul.	[săgeata] /u/=[Apolo], monstruHPiton]	[Apolo]	RET	3
Total					13
însumând scorurile tranziţiilor pentru toate liniile de argumentaţie se obţine scorul total: 30, ceea ce corespunde unei tranziţii medii a discursului, calculată conform HCT de 30/11=2,72, aşadar o tranziţie medie mai bună decât cea calculată conform CCT.
6. Validarea conjecturilor VT
Validarea conjecturilor VT s-a realizat pe corpusuri adnotate la structură si la legături co-referenţiale. Astfel în [Cristea et al., 1998] se raportează o investigaţie efectuată pe texte în limbile engleză, franceză şi română ce au însumat un total de 176 de unităţi de discurs. Plecând de o adnotare în maniera RST a structurii de discurs, un program a calculat expresiile nervurilor unităţilor. Pentru verificarea conjecturii coeziunii, utilizând adnotarea legăturilor referenţiale s-a calculat apoi procentajul referinţelor directe, indirecte şi pragmatice. în medie 99,1% dintre referinţe se încadrează acestor trei categorii (87,1% directe, 8,5% indirecte şi 3,5% pragmatice). Pentru verificarea conjecturii coerenţei, suplimentar marcajelor de structură şi lanţuri co-referenţiale s-au marcat manual, pentru fiecare unitate, Cd-ul, în varianta clasică şi în varianta ierarhică, şi s-au calculat tranziţiile în cele două variante. Scorul SHCT a fost mai bun decât scorul SCCTÎn toate cazurile (scorurile medii pe tranziţie au fost de 2,03 în varianta ierarhică fată de 1,89 în cea clasică).
în [Cristea et al., 2000] se raportează experimente care au urmărit să compare potenţialul modelelor ierarhice, precum cele bazate pe VT, de a regăsi un antecedent într-o plajă de căutare dată faţă de modelele lineare (modele ce presupun o parcurgere lineară a textului dinspre unitatea anaforului spre începutul
textului). Pentru aceasta s-au utilizat 30 de texte englezeşti (însumând aproximativ 1560 de unităţi de discurs), adnotate la structura RST şi lanţuri co-referenţiale. Presupunând o plajă de căutare de doar 2 unităţi, căutarea pe nervură a adus cu aproximativ 16% mai mulţi antecedenţi decât căutarea liniară. După cum era de aşteptat, pe măsură ce lungimea textului căutat creşte, cele două tipuri de modele se apropie în ceea pe priveşte potenţialul de a regăsi legături co-referenţiale. O căutare ierarhică înapoi într-o plajă de 5 unităţi rezolvă potenţial doar 70% dintre anafore, pentru ca o performanţă potenţială de 90% să poată fi atinsă doar dacă se organizează o căutare într-o lungime de 12 unităţi pe nervură. O altă investigare a urmărit compararea efortului necesar regăsirii unui anumit antecedent în cele două tipuri de abordări (liniară şi ierarhică), unde prin efortul necesar găsirii unui antecedent se înţelege numărul de unităţi de discurs ce separă, în domeniu, unitatea anaforului de unitatea celei mai recente ancorări în text a unui antecedent. Din nou, modelele ierarhice, de tipul celui dat de VT, s-au dovedit superioare celor liniare: în corpusul folosit în experiment, care a conţinut 1200 de expresii referenţiale, spaţiul de căutare pentru legături co-referenţiale s-a redus cu aproximativ 800 de unităţi.
Un alt tip de investigaţie empirică [Ide, Cristea, 2000] a urmărit frecvenţa referinţelor evocative în comparaţie cu cele post-evocative şi depistarea unor corelaţii între tipul de referinţe şi puterea de evocare a anaforilor. Studiul a comparat predicţiile avansate de VT relativ la domeniul de referenţialitate evocativă cu cele ale modelului stivă al AST, corelând excepţiile (referinţe ce nu se supun prevederilor celor două teorii) cu puterea de evocare a anaforilor (pentru VT excepţiile marchează, evident, referinţe din categoria celor inferenţiale). într-o ordine descendentă a puterii de evocare (v. şi [Gundel et al., 1993]), tipurile de anafori care dau naştere la excepţii sunt, în ordinea descrescătoare a frecvenţei: referinţe pragmatice > nume proprii > substantive comune > pronume. Pronumele constituie mijloace de referire foarte fragile. Un emitent al unui mesaj utilizează un pronume când e sigur că structura permite recuperarea cu uşurinţă a entităţii referită de pronume. Practic, exceptând câteva cazuri în care un pronume putea fi înţeles fără un antecedent (our în our streets, de exemplu), este imposibilă utilizarea unui pronume pentru a referi o entitate aflată în afara dea. La extrema cealaltă se plasează referinţele pragmatice ce-şi recuperează antecedentul din cunoştinţe exterioare discursului şi numele proprii. Interesant este că această sortare descrescătoare a tipurilor de anafori dată de puterea de evocare se aliniază numărului de excepţii raportate în cazul VT (56,3% - pragmatice, 22,7% -nume proprii, 16,0% - substantive comune şi 5,0% - pronume) şi nu are nici o semnificaţie în cazul AST (0,0% - pragmatice, 26,1% - nume proprii, 39,1% -substantive comune şi 34,8% - pronume). Ea probează corectitudinea conjecturii coeziunii.
7. O proprietate de granularitate
Atunci când arborele de structură al discursului se modifică prin trecerea de la o granularitate mai fină la una mai grosieră, constrângerea de accesibilitate, conjecturată de VT, se păstrează.
Demonstraţie
Să presupunem un arbore de discurs D pe care s-au calculat expresiile head şi nervură ale nodurilor. O operaţie de mărire a granularităţii poate fi efectuată dacă o întindere de text, iniţial repartizată în mai multe unităţi, şi pentru care există un nod, fie el n, care să o acopere strict în structura iniţială, este "compactată" într-o singură unitate de discurs mai mare ce va lua locul nodului n din structura iniţială. Pentru a vedea în ce măsură o astfel de operaţie poate afecta accesibilitatea vom investiga rezultatul aplicării ei asupra expresiilor head şi nervură.
Definiţia expresiei head, punctul 1, obligă ca expresia head a ceea ce înainte de compactare era un nod interior, fie el n, să fi fost dată de concatenarea unui şir de etichete de noduri nucleare aflate în secvenţa de text subîntinsă de n. Să notăm acest nod, după compactare, cu o, etichetă compusă din secvenţa nodurilor terminale pe care le acoperă. De exemplu, pentru arborele din Fig. 9:
xl
Figura 9: Un subarbore de "compactare"
dacă subarborele cu rădăcina x2 ar fi compactat, atunci eticheta sa ar trebui să fie notată 1-2, iar dacă întregul arbore aflat sub x1 ar fi compactat, atunci eticheta sa ar trebui să fie notată 1-2-3-4 (e imposibil să avem un nod notat 2-3).
Acest lucru înseamnă că, aplicând o compactare asupra unui arbore, în expresiile head ale nodurilor sale, secvenţe de noduri vor fi acum înlocuite cu etichete compuse care conţin cel puţin aceleaşi noduri, eventual mai multe, decât în expresiile originale. De exemplu, presupunând că în arborele de mai sus, nodurile nucleare sunt x2, x3, 1 şi 3, atunci, dacă înainte de compactare am fi avut head(x1)=î 3, o expresie rezultată din concatenarea a două( etichete, după compactarea întregului arbore vom avea head(x1)=1 -2-3-4, adică o etichetă
compusă, dar care include etichetele nodurilor ce apăreau în expresia head originală. Vom numi astfel de expresii - expresii contraise şi le vom nota cu contr\e), unde e este expresia corespunzătoare de înainte de compactare (avem deci contr^ 3) = 1-2-3-4). Să remarcăm că secvenţele de etichete din expresiile contrase sunt formate întotdeauna din etichete de noduri adiacente, ceea ce permite comutarea funcţiilor seq si contr. seq(confr(ef), contr(e2)) = contr(seq(eh
Vom demonstra mai întâi că expresiile nervură ale nodurilor din arborele compactat sunt obţinute din expresiile nervură originale prin înlocuirea expresiilor head originale cu expresiile contrase. Investigând definiţiile expresiilor nervură, se poate constata că nici o altă modificare nu apare în expresiile nervură cu excepţia expresiilor contrase. într-adevăr, cazul 1 se transcrie: expresia nervură a rădăcinii arborelui compactat reprezintă expresia head contrasă a arborelui original, adică contr{h), cu h - expresia head a rădăcinii arborelui originar.
Să presupunem acum că ne aflăm într-un nod n ale cărui expresii head şi nervură pe arborele originar, necompactat sunt, respectiv h şi v, iar contr(h) este expresia head pe arborele compactat. Considerăm mai întâi cazul când n este fiu al nodului rădăcină, a cărui expresie head este contr[h0), unde h0 reprezintă expresia head pe arborele necompactat. Dacă n este nuclear, atunci conform cazului 2 (secţiunea 3.2), avem două subcazuri:
a) n nu are un frate nenuclear în stânga: atunci nervura sa este chiar nervura părintelui, adică contr\h0)',
b) n are un frate nenuclear în stânga de head contrat): nervura nodului n va fi seqimarkicontrihi)), contr(ho)) = seqicontrimarkih^), contr(h0)) = confr(seq(A77ar/c(/?7), h0)) = contr(v)',
Dacă n este un nod nenuclear, atunci conform cazului 3, avem:
a) n este în stânga: nervura sa este seq(contr(h0), contr(h)) = contr(seq(ho, h)) = contr(v);
b) n este în dreapta: nervura sa este seq(simpl(contr(h0)), contr(h)) = seq{contr(simpl(ho)), contr(h)) = contr[seq{simpl(h0)t h)) = contr(v).
Folosind inducţia, se probează în mod analog că expresia nervură a nodului n este o expresie contrasă şi pentru cazul în care n este un nod interior, nu neapărat imediat sub rădăcină, fiu al unui nod de nervură contr(v0).
Cum expresia accesibilităţii este definită ca un prefix al expresiei nervură din care au fost îndepărtate marcajele, iar nervurile sunt expresii contrase, deci eventual conţinând mai multe etichete de noduri, înseamnă că orice referinţă care pe arborele originar satisface prima conjectură, cu alte cuvinte are loc între ultima unitate a unei expresii nervură şi alta ce o precede, după compactare va satisface de asemenea conjectura, pentru că nici o unitate nu a dispărut din domeniu.
q.e.d.
^84013
298
299
8. Discuţii, aplicaţii ale teoriei
Plecând de la o reprezentare a structurii de discurs similară celei din RST şi în care esenţială este distincţia dintre nucleu şi satelit, VT defineşte nervura unui nod al arborelui ca secvenţa de unităţi ale discursului ce sunt suficiente pentru a rezuma/interpreta întinderea de text acoperită de nod în contextul întregului discurs. Presupunerea principală pe care se bazează noţiunea de nervură este că referinţele inter-unităţi sunt posibile cu precădere între unităţi ce se află într-o relaţie structurală, chiar dacă acestea sunt dispuse la distanţă una de alta în text. Mai departe, referinţele se realizează cu precădere spre unităţi nucleare şi doar în puţine cazuri către sateliţi, reflectând intuiţia că nucleele găzduiesc ideile principale ale discursului. Acest lucru se regăseşte în calculul expresiei nervurii pe arbori (binari) polarizaţi-stânga (pe orice nivel există un nucleu în stânga), în care orice referinţă se realizează dinspre un nucleu sau un satelit către un nucleu aflat în stânga (deşi, nu orice nucleu). Făcând uz de echivalarea modelului stivă al lui Grbsz şi Sidner [198Ş] cu structura de arbore utilizată de RST [Mann, Thompson, 1988], similaritate demonstrată de Moser şi Moore [1996] şi Marcu [1999], predicţiile VT asupra accesibilităţii referenţiale sunt consistente cu cele ale modelului stivă. în cazurile în care însă arborele de discurs nu e polarizat-stânga (există cel puţin un satelit care precede nucleul său, deci care apare ca frate stânga pe un nivel al structurii), VT oferă o interpretare mai naturală a accesibilităţii decât modelul stivă, corectând totodată slăbiciunile acestuia. într-adevăr, într-o secvenţă /4-satelit, 6-nucleu, deci în care B domină A în termenii AST, 6 ar trebui să apară în stivă poziţionat sub A, deşi el este procesat în secvenţă după A. Totodată, VT formalizează intuiţia că într-o secvenţă de unităţi A, S, C, unde A şi C sunt sateliţi ai lui S, C nu poate accesa A din cauza interpunerii unui nucleu, ce captează întreaga atenţie.
Referenţiaiitatea în lungul nervurilor este una naturală, uşor de interpretat şi care, în general, nu necesită mijloace de evocare foarte puternice. Dimpotrivă, ieşirea din acest domeniu incumbă utilizarea unor mijloace de evocare anaforică viguroase. Pe acest criteriu se face distincţia dintre referenţialitate evocativă şi neevocativă (sau inferenţială), referinţele evocative fiind detaliate în directe şi indirecte, iar între cele ne-evocative remarcându-se referinţele pragmatice, ce nu necesită un antecedent pentru înţelegere.
în privinţa coerenţei discursului, VT utilizează domeniile de referenţialitate pentru a introduce noţiunea de linie de argumentaţie şi a deduce din ea pe cea de segment în sens ierarhic ce generalizează segmentul în sens clasic (aşa cum este el utilizat în AST şi CT). Totodată VT avansează conjectura că segmentul în sens ierarhic dă o mai corectă interpretare a porţiunilor de discurs ce se comportă din punctul de vedere al coeziunii şi coerenţei ca un tot unitar. Aplicând concluziile CT relative la coerenţa discursului în lungul segmentelor în sens ierarhic, CT poate fi generalizată pentru a o transforma într-o teorie globală a coerenţei.
Au fost trecute în revistă o seamă de experimente care probează că prezumţiile VT sunt corecte şi independente de limbă. Un aspect important îl constituie, de asemenea, faptul că prezumţiile VT sunt stabile la trecerea de la o granularitate mai fină la una mai grosieră în segmentarea discursului.
Aplicaţiile VT se înscriu în trei direcţii importante: rezoluţia anaforei, parsarea discursului şi rezumarea automată. în [Cristea ef a/., 2002a] şi [Cristea et a/., 2002b] este descrisă o arhitectură care acţionează ca un motor general şi ~~" configurabil de rezoluţie anaforică. Una dintre componentele oricărui model de rezoluţie este o definiţie a domeniului de referenţialitate. Rezoluţia anaforică se realizează, aşadar, ghidată de structura de discurs.
în [Sereţan, Cristea, 2002] se propune o abordare inversă, în care cunoştinţe asupra legărilor anaforice pot fi utilizate pentru corectarea structurii. Noi credem că procesul de rezoluţie anaforică şi de construire a structurii de discurs sunt interdependente într-un asemenea grad încât în analiza de discurs ele trebuie să aibă loc simultan. în interpretarea unui text există o intercondiţionare reciprocă între referinţe şi structură care trebuie să conducă la obţinerea acelei reprezentări în care constrângerile, acţionând ca forţe, produc o stare de echilibru, ce trebuie să |      fie un fel de stare de energie potenţială minimă a sistemului. Oamenii dispun de un |      mecanism cognitiv care le permite să ajungă în mod natural la cea mai plauzibilă |      interpretare a unui text. Acest lucru este răsplătit de atingerea unei stări mentale ■    . "confortabile" ce trebuie să-şi aibă suportul în satisfacerea la maxim a unui sistem !      de constrângeri. în [Tablan ef a/., 1998] şi [Cristea, 2000] se descrie un mecanism i —  de parsare care modelează acest comportament uman. Prin combinarea unor |      scoruri contribuite de referinţe cu scoruri contribuite de o analiză HCT se obţine I      cea mai fluidă posibil structură de discurs (deci manifestând maximum de j      coerenţă) şi care prezintă maximum de referinţe pe nervuri (fiind deci cea mai I      coezivă posibil).
Noţiunea de head din VT este similară celei de mulţime de promovare (promotion set) pe care Marcu [2000] o utilizează pentru a obţine un rezumat ghidat de structura de discurs. Să remarcăm că definiţia nervurii presupune rezumarea ca o alternativă a înţelegerii unei unităţi de discurs în context. Credem că valenţele teoriei nervurilor în realizarea unei strategii de rezumare focalizată [Mani, 2001] pe o anumită entitate sau segment de discurs au fost doar tangenţial studiate până acum [Sofronie, 1999], [Postolache, 2001] şi merită atenţie în abordările viitoare. Credem, de asemenea, ca fiind interesantă o direcţie de studiu care să aprecieze maniera în care nervura poate constitui un cadru de sub-specificare a structurii [Schilder, 2001], plecând de la observaţia că structuri diferite (dau nu fundamental diferite) pot prezenta aceleaşi expresii ale nervurilor unităţilor componente.
300
301
Bibliografie
Brennan, S.E.; Walker Fredman, M. and Pollard, C.J. 1987. A centering approach to pronouns. Proceedings of the 25th Annual Meeting of ACL, Stanford, p 155-162.
Cornea, P. 1998. Introducere în teoria lecturii, Editura Polirom, laşi.
Cristea, D., and Webber, B.L. 1997. Expectations in incremental Discourse Processing. Proceedings of the 35th Annual Meeting of the Association for Computaţional Linguistics, Madrid.
Cristea, D., Ide, N., and Romary, L. 1998. Veins Theory: A Model of Global Discourse Cohesion and Coherence, Proceedings ofthe17th Coling and the 36th Annual Meeting of the ACL (C O LING-A CL '98), Montreal, Canada p.281-185.
Cristea, D., Ide, N., Marcu, D., and Tablan, M.V. 2000. An Empirical Investigation of the Relation Between Discourse Structure and Co-Reference. Proceedings of the 18th International Conference on Computaţional Linguistics COLING'2000, Saarbrueken, p. 208-214.
Cristea, D. 2000. An Incremental Discourse Parser Architecture. Christodoulakis, D. (Ed.) Natural Language Processing - NLP 2000, Second International Conference, Patras, Greece, Lecture Notes in Artificial Intelligence 1835, Springer, p. 162-175.
Cristea, D. and Dima, G.E. 2001. An Integrating Framework for Anaphora Resolution. Information Science and Technology, Romanian Academy Publishing House, Bucharest, voi. 4, no. 3-4, p. 259-372.
Cristea, D., Postolache, O.D., Dima, D.E., Barbu C. 2002a. AR-Engine - a framework for unrestricted co-reference resolution. Proceedings of the Third International Conference on Language Resources and Evaluation, LREC'2002, Las Palmas, Spain, p. 2000-2006.
Cristea, D., Dima, D.E., Postolache, O.D., Mitkov, R. 2002b. Handling complex anaphora resolution cases. Proceedings of the Discourse Anaphora and Anaphor Resolution Colloquium, Lisbon, Portugal.
deEugenio, B. 1990. Centering theory and the Italian pronominal system. Proceeding of Coling, p. 270-275.
deEugenio, B. 1998. Centering in Italian. Prince, E., Joshi, A. and Walker, L. (eds.) Centering in Discourse, Oxford University Press.
Fox, B. 1987. Discourse Structure and Anaphora. Written and Conversaţional English. Cambridge Studies in Linguistics, Cambridge University Press.
Grosz, B.J. 1981. Focusing and description in natural language dialogues. Joshi, A., Webber, B. and Sag, I. (eds.) Elements of Discourse Understanding, Cambridge University Press, England, P. 85-105.
Grosz, B.J., Joshi, A.K. and Weinstein, S. 1995 Centering: A framework for modeling the local coherence of discourse. Computaţional Linguistics, 12(2), p. 203-225.
Grosz, B.J. and Sidner, C. 1986. Attention, intentions, and the structure of discourse. Computaţional Linguistics, 12(3), p. 175-204.
Gundel, J., Hedberg, N. and Zacharski, R. 1993. Cognitive Status and the Form of Referring Expressions. Language, 69, P. 274-307.
Halliday, M.A.K. and Hassan, R. 1976. Cohesion in English, Longman, London and New York.
Hovy, E. 1988. Planning coherent multisentential text. Proceedings of the 26th ' Annual Meeting of the Association for Computaţional Linguistics (ACL-88), State University of New York, Buffalo, p. 163-169.
Ide, N. and Cristea, D. 2000. A Hierarchical Account of Referenţial Accessibility. Proceedings of the 38th Annual Meeting of the Association for Computaţional Linguistics, ACU2000, Hong Kong, p. 416-424.
Kameyama, M. 1998. Intrasentential Centering: A Case Study. Prince, E., Joshi, A. and Walker, L. (eds.) Centering in Discourse, Oxford University Press, p. 89-112.
Kintsch, W. and Van Dijk, T.A. 1975. Comment on se rappelle et on resume les histoires, Langages, 40.
Mani, I. 2001. Automatic Summarization. John Benkamin Publishing Company, Amsterdam/Philadelphia.
Mann, W.C. and Thompson, S.A. 1988. Rhetorical Structure Theory: Toward a Funcţional Theory of Text Organization. Text, 8(3), p. 243-281.
Marcu, D., 1999. A formal and computaţional synthesis of Grosz and Sidner's and Mann and Thompson's theories. Proceedings of the Workshop on Levels of Representation in Discourse. Edinburgh.
Marcu, D. 2000. The theory and practice of discourse parsing and summarization, The MIT Press, Cambridge, Massachusetts.
Miller, G. 1956. The magical number Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information, The Psychological Review, voi. 63, p. 81-97.
Moser, M. and Moore, J.D. 1996. Toward a synthesis of two accounts of discourse structure. Computaţional Linguistics, 22(3), p. 409-419.
302
303
Passonneau, R., J. 1995. Integrating gricean and attentional constraints. Proceedings of IJCAI.
Postolache, O. 2001. Sumarizarea textelor. Lucrare de licenţă. Universitatea "Al.l.Cuza" laşi, Facultatea de Informatică.
Rambow, O. (ed.) 1993. Intentionality and Structure in Discourse Relations. Proceedings of a Workshop Sponsored by the Special Group on Generation of the Association for Computaţional Linguistics, Ohio State University.
Richadeau, F. 1969. La lisibilite. Langage-Typographie-Signes-Lecture, Paris.
Schank, R. and Abelson, R. 1977. Scripts, plâns, goals and understandinq, Hillsdale, N.J.
Schilder, F. 2001. Robust Discourse Parsing Via Discourse Markers, Topicality and Position. Natural Language Engineering 1, (1), p.1-22.
Scott, D.R., de Souza, C.S. 1990. Getting the message across in RST-based text generation. Dale,R., Mellish, C. and Zock, M. (eds.) Current Research in Natural Language Generation, Academic Press, New York.
Sereţan, V. and Cristea, D., 2002. The Use of Referenţial Constraints in Structuring Discourse, Proceedings of the Third International Conference on Language Resources and Evaluation, LREC'2002, Las Palmas, Spain, p.1231-1237.
Sidner, C. 1983. Focusing in the comprehension of definite anaphora. Brady, M. and Berwick, R.C. (eds.) Computaţional Models of Discourse, MIT Press.'
Sofronie, V. 1999. Implementări existente în sumarizarea textelor. SumVT. Lucrare de licenţă. Universitatea "Al.l.Cuza" laşi, Facultatea de Informatică.
Strube, M. and Hahn, U. 1996. Funcţional Centering. Proceedings of the 34th Annual Meeting of the Association for Computaţional Linguistics, Santa Cruz, California., p. 270-277.
. Tablan, M.V., Barbu, C, Popescu, H., Hamza, R.O., Nita, C.I., Bocaniala, C.D., Ciobanu C. and Cristea, D. 1988. Co-operation and Detachment in Discourse Understanding. Proceedings of the Workshop on Lexical Semantics and Discourse Structure, ESSLLI'98, Saarbruecken.
Walker, M., lida, M., Cote, S. 1994. Japanese Discourse and the Process of Centering. Computaţional Linguistics, 20(2), p. 193-232.
Walker, M.A. 1996. Limited attention and discourse structure. Computaţional Linguistics, 22-2.
Walker, M.A. 1998. Centering, anaphora resolution, and discourse structure. In Marilyn A. Walker, Aravind K. Joshi, and Ellen F. Prince, editors, Centering in Discourse. Oxford University Press.
DLIR - un sistem de căutare documentară
multilingv
Amalia TODIRAŞCU
INRIA Lorraine, LORIA, Campus scientifique BP 239, 54506 Vandoeuvre-les-Nancy Cedex, France, todirasc@loria.fr
Abstract
Această lucrare prezintă un sistem de căutare documentară bilingv francez-român pentru un domeniu limitat, cel al securităţii computerelor. Căutarea şi indexarea documentelor se realizează utilizând o ontologie specifică domeniului. Identificarea instanţelor conceptelor în texte sau în întrebările utilizator se realizează cu ajutorul unor tehnici robuste de analiza limbajului natural, combinate cu o ontologie specifică domeniului.
Introducere
Sistemele de căutare de informaţii clasice indexează o bază de documente, folosind o listă de cuvinte cheie extrase din documentele respective. Scopul acestor sisteme este de a regăsi documentele care sunt relevante în comparaţie cu o întrebare lansată de un utilizator. Sistemele de căutare a informaţiilor interpretează întrebările utilizatorului, încearcă să găsească un index (unul sau mai multe cuvihte-cheie) care apare în întrebare sau care este similar unui termen din întrebare. Fiecare cuvânt-cheie care aparţine indexului este asociat unui document în care cuvântul cheie a fost folosit Răspunsul sistemului conţine un număr de documente care sunt relevante în raport cu întrebarea utilizatorului. Fiecare sistem de căutare defineşte un criteriu de relevanţă pentru a selecta documentele propuse ca răspuns. Aceste sisteme sunt evaluate pe baza a doi parametri: rapel (numărul de documente regăsite ca răspuns/numărul total de documente relevante care au fost indexate) şi precizie (numărul de documente relevante regăsite de sistem/numărul de documente regăsite). în cazul unui sistem de căutare multilingv, răspunsul la o întrebare poate conţine mai multe documente relevante, chiar dacă sunt scrise în alte limbi decât cea în care a fost formulată cererea.
304
305
Sistemele de căutare de informaţii clasice oferă utilizatorului răspunsuri imprecise sau vide. Aceste răspunsuri imprecise apar datorită faptului că majoritatea sistemelor de căutare documentară folosesc doar cuvinte-cheie sau expresii extrase cu ajutorul metodelor statistice, ignorând problemele legate de complexitatea limbajului natural: ambiguitatea (un cuvânt poate avea mai multe sensuri) sau polimorfismul (un concept poate fi exprimat în mai multe moduri). în plus, un sistem care îşi propune să facă o căutare într-o bază de date multilingvă trebuie sa fie capabil să găsească informaţia cerută în orice document disponibil, indiferent de limba în care a fost scris. Unele sisteme de căutare multilingvă folosesc drept indecşi cuvinte cheie pentru fiecare limbă, alte sisteme propun indexare pe baza unui index comun, alcătuit din concepte.
O alternativă la sistemele de indexare clasice sunt cele care folosesc structuri sintactice sau conceptuale pentru a indexa baza de documente. Acestea nu sunt foarte numeroase, pentru că pe de o parte, ontologiile generice nu sunt disponibile decât în număr prea restrâns (WordNet [19] şi Corelex [3] sunt doar două exemple de resurse libere). Folosirea conceptelor unei ontologii permite asocierea unor termeni din limbi diferite, de aceea am ales o metodă de indexare conceptuală, care va fi în secţiunea 4.
Traducerea termilor care sunt folosiţi ca indecşi ridică probleme într-o aplicaţie de căutare de informaţii, unui term i se pot asocia mai multe traduceri cu sensuri diferite sau sintagme. Rezolvarea problemelor specifice limbajului natural (ambiguitate, traducere automată) necesită resurse lingvistice importante pentru fiecare limbă care este tratată de către sistem, dacă aplicăm tehnicile clasice de analiza limbajului natural. Tehnicile clasice de analiză sintactică nu sunt adaptate sistemelor de căutare documentară, datorită dimensiunilor prea mari ale bazei documentare şi a resurselor lingvistice necesare. Pe de altă parte, textele specifice necesită adaptarea resurselor lingvistice (dicţionare, gramatici locale) folosite de analizoarele sintactice. Tehnicile robuste de analiză sintactică utilizate în domeniul extragerii de informaţii din texte (GATE [6], FASTUS) sunt dedicate rezolvării unor probleme precise (identificarea numelor proprii, ale grupurilor nominale simple). Printre acestea, automatele cu număr finit de stări [5], colocaţii [9] sau liste de pattern-uri sintactice (reprezentând structura sintactică a grupului nominal simplu a grupului prepoziţional) sunt resursele lingvistice necesare pentru aceste componente. Aceste tehnici au avantajul de a fi robuste, de a putea trata o cantitate importantă de informaţii în timp real, precum şi de a fi portabile de la un domeniu şi/sau o limbă la alta.
într-o aplicaţie de căutare de informaţii pe un domeniu restrâns, utilizatorul doreşte să obţină răspunsuri mai precise decât pentru texte cu caracter general. Aceasta impune folosirea de tehnici adaptate acestui tip de aplicaţii, bazate pe existenţa unei baze de cunoştinţe din domeniu. Pentru a evita problemele legate de traducerea termilor dintr-o limbă într-alta, propun folosirea unei ontologii specifice domeniului, în vederea ameliorării preciziei. în acest context, voi prezenta
o metodologie de extragere a conceptelor candidat din corpus. Acestea sunt folosite de către un expert uman pentru a îmbogăţi o ontologie existentă precum şi pentru a crea o reprezentare sub formă de concepte a documentelor. De asemenea voi prezenta o metodă de indexare a documentelor pe baza acestei ontologii, metodă care modifică metoda clasică de indexare semantică latentă.
2. Ontologii
Noţiunea de ontologie este dificil de definit, mai multe puncte de vedere coexistă. Pentru a simplifica, vom considera că o ontologie este un model restrâns al unui domeniu specific, format din mulţimea claselor de obiecte ce populează acest domeniu şi a relaţiilor lor cu celelalte clase din domeniu.
Ontologiile reflectă un anumit grad de subiectivitate din partea expertului ce a definit-o. Fiecare expert poate propune un ansamblu de clase de obiecte ce trebuie incluse în descrierea ontologiei, care poate fi diferit de clasele propuse de alţi experţi din domeniu.
O problemă a acestor ontologii este legată de portabilitate. O aplicaţie definită pentru un anumit domeniu dat va trebui adaptată unui alt domeniu prin construirea unei ontologii corespunzătoare. Construirea lor manuală este dificilă şi trebuie ţinut cont de posibilele redundanţe, erori, informaţii care lipsesc sau incoerenţe ce pot fi introduse în baza de cunoştinţe de către expertul uman care o construieşte.
în ultimii ani, s-au făcut eforturi deosebite pentru a putea reutiliza ontologiile existente: dezvoltarea unor formate standard: (Knowledge Interchange Format - KIF), Ontology Interface Layer - (OIL) [8], dezvoltate în cadrul proiectului Semantic Web (http://www.semweb.org). Aceasta permite reutilizarea ontologiilor existente de către alte sisteme şi aplicaţii, în ciuda erorilor care pot apare în urma construirii manuale.
Pentru a evita problemele legate de crearea manuală a ontologiilor, au fost propuse mai multe metode semi-automate de extragere a ontologiilor din corpusuri. Acestea disting mai multe etape:
- identificarea termilor (instanţele conceptelor exprimate în limbaj natural);
- identificarea relaţiilor între termi;
- identificarea relaţiilor între termi şi concepte.
Majoritatea acestor etape necesită validarea rezultatelor de către un expert uman, care va asocia o interpretare claselor de termi şi relaţiilor între două mulţimi de termi). Metodele statistice interpretează contextele existente şi
y; ]
306
regrupează termii cu contexte identice în aceeaşi clasă [1], [7]. Relaţiile între termi sunt interpretate pe baza informaţiilor de subcategorizare (structura predicat argument) asociate verbelor. Dezavantajul metodelor statistice este acela că necesită corpusuri adnotate de talie importantă pentru a putea învăţa, iar rezultatele (clasele obţinute) nu pot fi întotdeauna interpretate.
în comparaţie cu metodele statistice, metodele bazate pe inferenţe logice propun proceduri semi-automate pentru a verifica validitatea cunoaşterii existente. Conceptele noi, deduse de către regulile de inferenţă, sunt adăugate ierarhiei domeniului dacă sunt coerente cu cunoaşterea existentă. Relaţiile pot fi identificate folosind cunoştinţe legate de subcategorizare [4] sau interpretând relaţiile substantiv-modificator. Supragenerarea de concepte şi costul verificării incoerenţelor şi inconsistentelor cunoaşterii sunt principalele neajunsuri ale metodei. Mai multe formalisme de reprezentare a cunoştinţelor pot fi folosite în astfel de aplicaţii. Am ales logicile terminologice datorită avantajelor pe care le prezintă acestea.
2.1. Logici terminologice
Logicile terminologice (LT) sunt formalisme de reprezentare a cunoştinţelor care sunt derivate din formalismul reţelelor semantice, dar sintaxa şi semantica lor sunt bine definite. Ele combină proprietăţi ale sistemelor orientate-obiect, ale sistemelor de tip frame şi ale logicilor modale.
LT propun o organizare ierarhică a cunoaşterii, pe doua nivele: unul conceptual (T-Box), care descrie clasele abstracte conţinând obiectele relevante pentru modelarea domeniului şi un nivel aserţional (A-Box), conţinând instanţele claselor. Clasele de obiecte (concepte) sunt descrise de relaţii (numite roluri) cu alte concepte, şi cu atributele lor (rolurile cu valori atomice).
2.1.1. Sintaxa şi semantica logicilor terminologice Operatorii LT sunt inspiraţi de logica de prim ordin:
Operator	Operator Logic	Semantica
D = SOME R C	3x R(y,x)& C(x) & D(y)	Există cel puţin o instanţă a lui C în relaţia R cu o instanţă a lui D
D = ALL R C	Vx(R(y,x)&D(v) &C(x))	restricţionează co-domeniul relaţiei R
D = AND C1 C2	C1aC2	Conjuncţia de descrieri conceptuale
D = ORC1 G2	C1vC2	Disjuncţia de descrieri conceptuale
C1cC2	C1cC2	Axiom: C1 conţine condiţii necesare pentru C2
D= NOT C	-,C	complementul conceptului C
D = 3n.R.C	3y1...yn (1=<j=<n, R(x, yi)&C(yi)&D(x))	Există cel puţin n obiecte de tip C în relaţia R cu o instanţă a lui D D
Figura 1. Operatori în LT
307
Folosind toţi aceşti operatori, sau doar o parte a acestora, mai multe expresivităţi sunt posibile: definirea conceptelor şi a rolurilor ALC (folosind SOME, ALL, AND, OR, NOT ca operatori, axiomele conceptuale), posibilitatea utilizării rolurilor tranzitive (R+), a rolurilor inversabile (I), a ierarhiilor de roluri (H), a atributelor (f) sau a restricţiilor numerice.
Folosind toţi aceşti operatori, sau doar o parte a acestora, mai multe expresivităţi sunt posibile: definirea conceptelor şi a rolurilor ALC (folosind SOME, ALL, AND, OR, NOT ca operatori, axiomele conceptuale), posibilitatea utilizării rolurilor tranzitive (R+), a rolurilor inversabile (I), a ierarhiilor de roluri (H), a atributelor (f) sau a restricţiilor numerice.
Unele comenzi LT sunt explicate mai jos. CN este un nume de concept, C este o descriere conceptuală (orice combinaţie de operatori AND, SOME, NOT, ALL). Comenzile LT sunt inspirate de formalismul KRSS ([2]):
1. (define-concept CN C) - defineşte un nou concept ca o descriere conceptuală;
2. (instance IN C) - defineşte o instanţă a unui concept dat;
3. (implies C1 C2) - introduce o nouă axiomă conceptuală, definind condiţiile C1 necesare pentru descrierea conceptuală C2;
LT sunt fragmente decidabile ale logicii de prim ordin. LT propun mecanisme logice pentru a identifica subsumarea, regăsirea instanţelor, drumurile care unesc mai multe concepte. Clasificarea este o ordonare parţială a ierarhiei de concepte, în raport cu relaţia de subsumare. Există algoritmi decidabili pentru verificarea coerenţei şi consistenţei cunoştinţelor.
Câteva exemple de comenzi:
(concept-subsumes? C1 C2) testează dacă C1 subsumează C2 (concept-parents C) regăseşte strămoşii direcţi ai conceptului C (concept-children C) regăseşte fiii direcţi ai lui C (classify-tbox) calculează toate relaţiile de subsumare între conceptele definite în T-Box
(concept-instances C) regăseşte toate instanţele conceptul C
toate
2.2. Logici terminologice pentru sisteme de extragere şi de regăsire
a informaţiilor
Rolul cunoştinţelor specifice unui domeniu într-un sistem de extragere a informaţiilor este acela de a valida reprezentarea semantică a entităţilor care sunt potenţial relevante, identificate în text prin tehnici de procesare a limbajului natural. Aceste entităţi pot fi folosite pentru a adăuga noi concepte la ontologia existentă. Cea mai mare parte a sistemelor de extragere a informaţiilor foloseşte tehnici NLP
1053
I1
308
robuste pentru identificarea candidaţilor şi entităţile candidat sunt validate de către o interpretare semantică. Sistemele de extragere a informaţiilor pot folosi . cunoaştere implicită, cum ar fi relaţiile de hiponimie/hiperonimie.
Logicile terminologice prezintă avantajul de a lucra cu date semi-structurate sau incomplete. Nu este necesară definirea explicită a unor valori ca instanţe ale unor concepte. Valorile implicite nu sunt utilizate de către logicile terminologice. Unele valori ale rolurilor sunt lăsate nespecificate ca în următorul exemplu:
(define-concept computer (and physicalobject (some hasOperatingSystem OSystem) (some hasType Type)))
(define-primitive-concept Type)
(define-primitive-concept OSystem)
(instance suni (and computer (some hasType SparcStation)))
în acest exemplu, vom ilustra faptul că definiţiile implicite sunt acceptate de către logicile terminologice (SparcStation este definit explicit de către o instanţă sau un subconcept al conceptului Type). Nu este definită explicit nici o instanţă a rolului hasOperatingSystem.
Aceste proprietăţi nu sunt interesante pentru aplicaţia noastră, dar erorile sunt posibile, iar cunoaşterea domeniului este incompletă.
Relaţiile de hiperonimie sau hiponimie sunt tratate cu ajutorul relaţiilor de subsumare între conceptele domeniului. De exemplu, dacă un concept candidat este identificat în text ca:
(instance x (and PC (and hasOperatingSystem Linux)))
(define-concept PCcomputer (and computer (some hasType PC)))
x este de asemenea o instanţa a conceptului computer.
(instance y (and Password (some hasUser Root)))
(define-concept Password (and String (some hasAtr secret) (some hasBelongs User»)
(define-concept System (some hasUser User)) (define-concept Root User)
Pentru aplicaţia noastră avem nevoie de o logică terminologică care să permită raţionament la nivel de instanţă, să permită lucrul în contextul unei lumi deschise, precum şi proceduri optimizate de calcul a relaţiilor de subsumare sau de clasificare. Printre puţinele sisteme care implementează raţionament la nivel de instanţă am ales RACER ([10]), fiind unul dintre cele mai performante şi mai complete.
în secţiunea următoare voi prezenta metoda de extragere a termilor din texte folosind sistemul DLIR [16]. Textele vor fi traduse într-o reprezentare conceptuală unică, folosită ca index, permiţând regăsirea informaţiilor în mai multe limbi.
309
3. Arhitectura
Sistemul DLIR conţine mai multe module: un modul de analiză sintactică robustă, un modul de întreţinere a ontologiei domeniului, un modul de indexare a documentelor bazat pe celelalte două module. în cele ce urmează voi prezenta aceste module în detaliu.
Text de intrare (întrebare utilizator sau document)
Chunk-uri semantice adnotate cu descrieri conceptuale
Generator de
descrieri conceptuale
chunk semantic
Asociere concept-term
Ordona-		
rea		
^ chunk-		
urilor		
i		
Reguli		
euris-		
tice		
		
clasificator		
LT		
Identificator de relaţii între termi
chunck-uri complexe
Figura 1: Instanţe ale conceptelor care apar în întrebare
3.1. Analiza sintactică robustă
Acest modul este dedicat identificării termilor posibili, utilizând tehnici de analiză robuste, şi resurse specifice domeniului (o listă de corespondenţe cuvinte-concepte). Termii sunt combinaţi conform unor reguli euristice pentru a crea concepte complexe. Aceste concepte sunt validate ulterior, apelând modulul de acces la ontologia domeniului. Eventualele concepte valide sunt adăugate la ontologia existentă. Acest modul conţine mai multe submodule implementate în Java, în Perl şi CLIPS (modulul care aplică regulile de combinare a termilor). Noţiunea de chunk semantic a fost propusă pentru a identifica termii candidat [16]. Metoda a fost testată pentru limba franceză, dar cum resursele folosite pentru identificarea termilor sunt relativ independente de limba pentru care a fost construită aplicaţia, este posibilă extinderea ei şi pentru limba română, după cum voi arăta mai jos.
11 ,
310
3.2. Identificarea chunk-urilor semantice
Scopul principal al acestui modul este acela de a identifica secvenţele de cuvinte care corespund celor mai semnificative concepte ale domeniului (chunk-uri semantice).
Un chunk semantic conţine un pattern sintactic simplu (grup substantival simplu, grup verbal) şi este delimitat de doi separatori de clauze.
Separatorii sunt cuvinte funcţionale, verbe auxiliare, sau anumite sintagme prepoziţionale.
Exemplu."la victime d'une intrusion inattendue"
[victima unei intruziuni neaşteptate]
în acest exemplu, "victima" şi "unei intruziuni neaşteptate" sunt chunk-uri semantice, care conţin informaţia relevantă.
Modulul conţine mai multe submodule: un POS tagger, un tagger semantic, un identificator de frontiere şi un pattern matcher. Identificarea chunk-urilor semantice este bazată pe informaţia lexicală, propusă de POS tagger.
3.2.1. Part-Of-Speech tagging
Modulul care este dedicat identificării părţilor de vorbire asociate cuvintelor (folosind WinBrill, antrenat pentru franceză pe baza unui set de date propuse de Institut National pour la Langue Frangaise [11]) identifică cuvintele conţinut (substantive, adjective, verbe) şi cuvintele funcţionale (prepoziţii, conjuncţii etc).
Taggerul Brill foloseşte un set de reguli contextuale şi lexicale (bazate pe identificarea prefixelor şi a sufixelor), învăţate pe baza textelor adnotate, pentru a identifica partea de vorbire pentru cuvintele necunoscute.
Pentru limba română, se foloseşte QTAG adaptat pentru limba română [17], datorită performanţelor foarte bune (98% rezultate corecte).
3.2.2. Tagger-ul semantic Tagger-ul semantic conţine un pattern matcher, care consultă un dicţionar de talie redusă. Acesta conţine o listă cu cele mai frecvente cuvinte şi un set de sintagme asociate descrierilor conceptuale corespunzătoare.
Setul de descrieri conceptuale a fost stabilit de către un expert pe baza unei liste de cuvinte şi segmente repetate obţinute dintr-un corpus reprezentativ (200,000 cuvinte). Un segment repetat este o succesiune de cuvinte care intervin într-un text cel puţin de două ori [14].
Acest modul asociază fiecărui cuvânt conceptul sau descrierea conceptuală din dicţionar. Un astfel de dicţionar este creat pentru fiecare limbă care este tratată de către sistem.
t
tllltln
311
3.2.3. Modulul pentru identificarea frontierelor Acest modul identifică separatorii (cuvinte funcţionale sau construcţii sintactice mai complexe) care delimitează chunk-urile semantice. Acest modul foloseşte rezultatul POS tagger-ului (care identifică cuvintele funcţionale), precum şi un set de sintagme (constituienţi sintactici care conţin auxiliare, prepoziţii compuse). Setul de fraze este construit ca rezultat al studiilor corpusurilor de test pentru franceză şi română (200,000 cuvinte pentru fiecare limbă). Separatorii grupurilor nominale şi prepoziţionale (determinanţi, prepoziţii) sunt cei mai buni candidaţi pentru identificarea separatorilor de chunk-uri semantice; aceştia reprezintă anumite relaţii potenţiale între concepte.
3.2.4. Pattern matcher Scopul acestui modul este de a identifica nucleul chunk-urilor semantice, nucleu care este reprezentat de un grup nominal simplu sau un grup verbal.
Exemple. Un grup nominal simplu (în franceză) este identificat aplicând următoarele reguliiN -) NP, N ADJ -) NP,Def N -) NP,Def N ADJ -) NP Pentru limba română, un grup de reguli posibil poate fi: Indefart N -) NP,
Indefart N Adj -) NP, IndefArt N N -) NP
3.2.5. DLgen
Acest modul interpretează informaţia propusă de POS tagger şi generează în mod automat o definiţie de concept. Un expert trebuie să verifice rezultatele acestui modul. Câteva exemple de reguli propuse pentru generarea descrierilor DL simple (valabile pentru ambele limbi):
- S1/N S2/ADJ este asociat definiţiei (define-concept S1_S2 (AND S1 (SOME hasAtr "S2")))
- S1/N S2/NNP este asociat definiţiei (define-concept S1 (SOME hasName "S2"))
- S1/ADJ S2/N este asociat definiţiei (define-concept S2_S1 (AND S2 (SOME hasAtr "S1")))
- Verbele sunt traduse ca nume de roluri: S1A/B este asociat rolului hasS1.
Unele pattern-uri identifică negaţiile, chiar dacă este imposibil să enumerăm toate posibilităţile şi să detectăm corect domeniul negaţiei:
- sans/ADV S1/N este asociat definiţiei (define-concept noţ_S1 (NOT S1
- nici_unul/ADV S1/N este asociat definiţiei (define-concept not_S1 (NOTS1))
Hi-
Rezultatele propuse de DLgen sunt 61% corecte datorită faptului că regulile sunt incomplete. Ieşirea este validată de un expert folosind clasificatorul LT pentru a verifica definiţiile conceptuale obţinute în mod automat. Rezultatul este că fiecare structură are asociată o descriere conceptuală.
3.3. Relaţii între termi
Acest modul foloseşte inferenţele LT, ca şi regulile de sintaxă, pentru a combina descrierile conceptuale asociate fiecărui chunk semantic. Folosim un criteriu de ordonare al chunk-urilor, precum şi reguli de combinare a conceptelor pentru a crea concepte complexe. Descrierile rezultante sunt validate de clasificatorul LT.
3.3.1. Ordonarea chunk-urilor interpretează ordinea chunk-urilor şi poziţia chunk-urilor în
Modulul propoziţie.
Clasificăm chunk-urile în două categorii: chunk-uri principale şi chunk-uri secundare. Chunk-urile principale corespund noţiunii de nucleu propuse de către teoriile lingvistice clasice.
Chunk-urile secundare joacă rolul unui modificator, care adaugă informaţii • suplimentare sensului nucleului. Chunk-urile secundare pot lipsi, dar restul propoziţiilor este corect. Aceste exemple de reguli definesc chunk-uri diverse:
- chunk-urile care urmează după un verb la gerunziu sau un auxiliar plus un verb la participiu sunt chunk-uri secundare;
- verbele sunt întotdeauna chunk-uri principale. Exemplu:
'[Main Les atacs Main] [Main ont commence Main] [Second â utiliser
les faux comptes Second]'
'atacurile au început utilizând conturi false'
Cele doua chunk-uri principale detectate în exemplul de mai sus sunt subiectul propoziţiei şi verbul principal. Chunk-ul secundar este adnotat astfel pentru că urmează după prepoziţia â.
3.3.2. Reguli euristice Regulile sunt stabilite de către expert pe baza unui studiu asupra corpusului reprezentativ pentru fiecare limbă. Corpusul a fost adnotat cu categoria lexicală propusă de POS tagger şi adnotat manual cu descrierile conceptuale. Setul de reguli euristice este stabilit pe baza unei liste de pattern-uri de forma <Chunkî >?x/FW<Cftun/c1 >.
Exemplu de reguli euristice sintactice: dacă o prepoziţie este un separator între două chunk-uri semantice şi prepoziţia asociază un substantiv cu un modificator, atunci putem combina descrierile conceptuale ale celor două chunk-uri într-o descriere semantică mai complexă, rolul care leagă conceptele fiind cel de modificator:
if (<MainChunk1> <Border> <SecChunk2>) and (Noun in MainChunkl) and (Modifier in SecChunk2) then (and sem(MainChunkl) (some hasModifier sem(SecChunk2))) Pentru română, un exemplu de regulă de combinare a conceptelor este următoarea: dacă un verb la gerunziu se găseşte între un verb la un mod predicativ şi un grup nominal, atunci rolul care leagă conceptele este de asemenea un modificator.
Fiecare pattern este asociat unui cuvânt ţintă care identifică condiţiile pentru aplicarea regulilor. Prepoziţiile, verbele la modul participiu, sunt câteva exemple de cuvinte asociate regulilor euristice. Un număr de 43 reguli (pentru franceză) şi un număr de 21 de reguli pentru română au fost descrise în CLIPS. Ieşirea acestor reguli va fi o serie de chunk-uri complexe, ce trebuiesc validate de către expert, cu ajutorul ontologiei domeniului, care este independentă de limbă. Rezultatele propuse de acest modul conţin în mare parte concepte pertinente, dar o serie de concepte nu sunt identificate. Baza de reguli poate fi îmbunătăţită în urma studierii unui corpus de dimensiuni mai importante.
3.4. Indexare semantică
O posibilitate de indexare a documentelor este aceea de a folosi direct concepte drept index şi nu cuvinte cheie. O metodă eficientă de indexare o reprezintă indexarea semantică latentă. Această metodă construieşte o matrice ■ document-cuvinte cheie şi foloseşte tehnici de descompunere a matricilor folosind metoda valorilor proprii. în acest fel se elimină coloanele şi liniile care sunt vide (datorat faptului că mulţi termi apar foarte rar). Propunem utilizarea conceptelor care fac parte din ontologie în locul cuvintelor cheie. Este posibil ca într-un sistem de căutare a informaţiilor multilingv să avem diferenţe între ontologiile dintr-o limbă într-alta. Avantajul este că putem folosi drept index concepte care sunt comune ambelor ontologii. Pentru aplicaţia noastră am folosit o ontologie construită manual care conţine 54 de concepte şi 34 de relaţii.
Numărul de concepte este mai redus decât numărul de termi, exploatând în special relaţiile între termi.
Elementele matricii conţin o pondere weight(C,i) calculată astfel:
684013
weight(C,i) = —
/(C,i)
S/(C,J)
7=1
pentru fiecare concept, codificând frecvenţa instanţelor conceptului în document şi frecvenţa instanţelor în toate documentele indexate de sistem. f(C,i) - frecvenţa conceptului în documentul i;
Conceptele sunt legate prin rolurile dintre acestea. Frecvenţa unui concept care este situat în ierarhie foarte sus este compus din suma frecvenţelor instanţelor sale. Instanţele conceptelor în LT sunt instanţele tuturor subconceptelor şi ale instanţelor sale directe.
Indexarea documentelor se face aplicând metodele de extragere a termilor prezentate în secţiunea precedentă, înainte de a exploata sistemul. Se folosesc conceptele ontologiei care a fost construită manual. O serie de concepte mai generale ar putea fi obţinute combinând ontologia specifică domeniului cu WordNet ([16]).
Evaluarea acestui sistem a fost realizată pentru un set restrâns de întrebări (50) numai pentru limba franceză. Rezultatele au fost comparate cu cele furnizate de un sistem care foloseşte cuvinte-cheie pentru indexare. Pentru 74% din întrebări răspunsurile sistemului (rapel şi precizie) au fost comparabile cu cele obţinute prin metoda de indexare bazată pe cuvinte-cheie. în celelalte cazuri, răspunsurile au fost mai slabe decât indexarea pe baza de cuvinte cheie. Ontologia folosită este departe de a fi completă, ceea ce a dus la neidentificarea unor termi, de asemenea regulile de formare a conceptelor sau de generare a descrierilor conceptuale sunt incomplete.
4. Concluzii şi perspective
Articolul prezintă o modalitate de a folosi ontologia unui domeniu pentru căutare de informaţii bilingvă în limbile franceză şi română.
Sistemul integrează tehnici de analiză sintactică robustă pentru extragerea celor mai relevante chunk-uri semantice. Metoda foloseşte o ontologie a domeniului construită manual. Pentru evaluarea pertinentă a metodelor de indexare pe bază de concepte, ontologia va fi actualizată şi extinsă cu ajutorul raţionamentelor propuse de logicile terminologice, ca şi folosirea cunoştinţelor sintactice, folosite pentru extragerea unei reprezentări semantice pentru texte şi întrebări. Expertul uman trebuie să intervină pentru a decide dacă conceptele identificate în texte pot fi adăugate ontologiei domeniului.
Referinţe bibliografice
[1] Assadi, H., Bourigault, D., 2000, Analyse syntaxique et statistique pour la construction d'ontologies â partir des textes. în J.Charlet, M.Zacklad, G.Kassel, D.Bourigault (eds.) - Ingenierie des connaissances Evolutions recentes et nouveaux defis, Eyrolles Publishing House, pp. 243-256.
[2] Baader, F., Hollunder, B., 1991. A Terminological Knowledge Representation Systems with Complete Inference Algorithms, Proceedings of the Workshop on Processing Declarative Knowledge.
[3] Buitelaar, P., 1998. CORELEX: Systematic Polysemy and Under-specification, Ph.D. thesis, Brandeis University, Department of Computer Science .
[4] Capponi, N., Toussaint, Y., 2000, Interpretation de classes de termes par generalisation de structures predicat-argument. în J.Charlet, M.Zacklad, G.Kassel, D.Bourigault (eds.), Ingenierie des connaissances - Evolutions recentes et nouveaux defis, Eyrolles Publishing House, pp. 337-356.
[5] Chanod, J.P., 1999. Natural Language Processing and Digital Libraries. în M.T. Pazienza (ed.), Information Extraction, Springer-Verlag, LNAI 1714, pp. 17-31.
[6]    Cunningham, H., Wilks, Y., Gaizauskas, R.J., 1996. New Methods, Current Trends and Software Infrastructure for NLP. în Proceedings of the conference on New Methods in Natural Language Processing (NeMLaP-2), Bilkent University, Turkey, 1996, pp.1-12. [7]    Daille, B., 1996, Study and Implementation of Combined Techniques for Automatic Extraction of Terminology. In J.KIavans, P.Resnik (eds.) - The Balancing Act - Combining Symbolic and Statistical Approaches to Language, MIT Press, pp. 49-66. [8]    Fensel, D. et al., 2000, OIL in a nutshell. în R. Dieng et al. (eds.), Knowledge Acquisition, Modeling, and Management, Proceedings of the European Knowledge Acquisition Conference (EKAW-2000), Lecture Notes in Artificial Intelligence, LNAI, Springer-Verlag. [9]    Heid, U., 2000, A linguistic bootstrapping approach to the extraction of term
candidates from German text, Terminology, pp. 161-180. [10]   Haarslev, V., Muller R., 2001, Description of the RACER System and its Applications, Proceedings of the International Workshop on Description Logics (DL-2001), Stanford, USA, 1.-3. August 2001, pp. 132-141 [11]   Lecomte, J., Le Categoriseur BRILL14-JL5/WINBRILL-0.3, InaLF, InaLF/
CNRS report, December 1998. [12]   Riloff, E., Lorenzen, J.,  1999, Extraction-based Text Catecjorization Generating Domain-Specific Role Relationships Automatically. In ed. T. Strzalkowski, Natural Language Information Retrieval, Kluwer Academic Publishers, pp. 167-196.
1053
316
[13]
[14]
[15]
[16] [17]
[18]
[19] [20]
Riloff, E., Shepherd, J., 1997, A Corpus-Based Approach for Building Semantic Lexicons. în Proceedings of the Second Conference on Empirical Methods in Natural Language Processing.
Rousselot, F., Frath, P., Oueslati, R./Extracting concepts and relations from Corpora. In Proceedings of the Workshop on Corpus-oriented Semantic Analysis, European Conference on Artificial Intelligence, ECAI 96, Budapest 12 August 1996. '
Schimd, H., 1994, Probabilistic Part-of-Speech Tagging Using Decision Trees, Proceedings of the International Conference on New Methods in Language Processing, Manchester, United Kingdom. Todiraşcu, A., 2001, Semantic Indexing for Information Retrieval Systems, Ph.D. Thesis, University Louis Pasteur of Strasbourg, France, March 2001. ' Tufiş, D.f Mason O., Tagging Romanian Texts: a Case Study for QTAG, a Language Independent Probabilistic Tagger. în Proceedings of the First International Conference on Language Resources and Evaluation (LREC) Granada, Spain, 1998, pp. 589-596.
Vilain, M., 1999, Inferential Information Extraction. In M.Pazienza (ed.), Information Extraction, LNAI 1714, Springer-Verlag, pp.95-119. Vossen, P., Introduction to EuroWordNet, Kluwer Academic Publisher, 1998. Zweigenbaum, P., Consortium MENELAS, 1995, MENELAS: Coding and Information Retrieval from Natural Language Patient Discharge Summaries. In M.-F. Laires, M.J. Ladeira, J.-P. Christensen (eds.) - Advances in Health Telematics, IOS Press, Amsterdam, pp.82-89.
317
Mediu hermenofor pentru asistarea învăţării unor concepte dintr-o limbă străină
Ştefan TRĂUŞAN-MATU
Universitatea "Politehnica" Bucureşti, Facultatea de Automatică şi Calculatoare, Institutul de Cercetări pentru Inteligenţă Artificială al Academiei Române
email: trausan@cs.pub.ro, trausan@racai.ro URL: www.racai.ro/~trausan
1. WWW, o prezenţă din ce în ce mai comună
în mai puţin de zece ani, reţeaua globală de documente World Wide Web (WWW sau, pe scurt web), a devenit omniprezentă şi este posibil ca într-un timp nu prea lung să înlocuiască o mare parte din cărţi, televizorul, cinematograful, ziarele şi revistele (toate acestea fiind deja disponibile pe web) şi, în plus să furnizeze chiar posibilitatea imersiunii în realităţi virtuale. Un singur exemplu cred că este suficient: anul trecut rezultatele bacalaureatului au fost publicate pe web.
WWW a atins deja dimensiuni comparabile cu imensa Bibliotecă a Congresului SUA. Extinderea sa este datorată uşurinţei cu care poate fi parcurs de către oricine are un calculator şi de simplitatea cu care se poate publica ceva pe el. Pe de altă parte, costul accesului la resursele web este de cele mai multe ori infim.
WWW este un hipertext extins la scara întregului glob prin reţeaua mondială de calculatoare Internet. Pe fiecare calculator pot fi plasate unul sau mai multe documente care constituie noduri (pagini) în hipertext. Oriunde într-o astfel de pagină poate exista o legătură la o alta pagină, de pe acelaşi calculator sau de pe altul, în acest mod putând fi unite informaţii aflate în locuri diferite. O nouă pagină pentru web poate fi creată uşor chiar de utilizatori nu neapărat profesionişti în informatică, în acest scop existând mai multe editoare de texte specializate.
Termenul de hipertext se pare că provine de la termenul de spaţiu hiperbolic sau hiperspaţiu, apărut în 1704 şi folosit de matematicianul F. Klein pentru geometria cu mai multe dimensiuni [Rad91]. Din această perspectivă, un hipertext este un text cu mai multe dimensiuni explicite (faţă de doar o dimensiune, în cazul textului liniar). De fapt, orice text are implicit mai multe dimensiuni, deoarece, chiar dacă forma de prezentare a unui text este liniară, pe hârtie, în el
318
319
există o structură implicită, dată de discurs. De asemenea, există conexiuni implicite, subiective între părţi ale textului, concepte legate între ele, Hipertextul este o organizare a unui text în care toate aceste legături sunt explicitate şi pot fi exploatate în parcurgerea făcută pe un calculator.
în jurul anului 1962, Douglas Engelbart a dezvoltat primul sistem hipertext, prezentat atunci drept o arhitectură conceptuală destinată creşterii potenţialului intelectului uman ("Conceptual Framework for Augmenting Human Intellect") [Eng95]. Sistemul era destinat manipulării de concepte structurate într-o reţea în care arcele sunt relaţiile între concepte.
Primul sistem declarat ca fiind hipertext a fost creat de Theodor Nelson în 1967 sub numele de "Xanadu". Nelson îşi propunea atunci să dezvolte un sistem, masiv paralel, destinat muncii creative şi studiului. El a plecat în îndeplinirea acestei idei de la dorinţa de a găsi cea mai bună abstracţie care să unifice literatura şi arta cinematografică.
Sistemele hipertext (hipermedia) pe web permit accesul personalizat la volume imense de informaţii. în acelaşi timp, însă, ele suferă de problema afluxului de informaţie cu care este bombardat un utilizator. O soluţie este dezvoltarea de instrumente, aplicaţii, medii informatice pentru facilitarea accesului la cunoştinţele dorite pe web. Aceste instrumente trebuie să facilteze înţelegerea, abstractizarea textelor, extragerea informaţiilor utile. Acesta este unul din motivele pentru care le-am denumit instrumente hermenofore. Trebuie remarcat faptul că ideea de a considera hipertextele ca intrumente de sprijinire a activităţilor cognitive a stat chiar la baza conceperii acestora, după cum am precizat în paragrafele anterioare.
în continuare, după o trecere în revistă a problematicii ontologiilor, în secţiunea următoare, se va introduce conceptul de mediu hermenofor, se va justifica necesitatea acestuia şi se vor prezenta caracteristicile acestora. Lucrarea va fi încheiată cu o exemplificare printr-un sistem care are câteva trăsături ale unui mediu hermenofor şi de o secţiune de concluzii.
2. Ontologii
Termenul de "ontologie" a fost, până nu de mult, folosit exclusiv în filosofie, pentru a denumi teoria asupra existenţei, mai corect spus, asupra ceea ce consideră că există cel care întocmeşte teoria. Construirea multor sisteme filosofice pleacă de la o ontologie, adică de la definirea categoriilor fundamentale de entităţi din realitate şi a relaţiilor dintre ele. Chiar dacă ontologia nu este întotdeauna explicită, orice demers conceptual construieşte o ontologie, chiar implicit, inconştient.
în ultimii ani, termenul de ontologie este folosit şi în ştiinţa calculatoarelor. Cea mai frecventă extindere a folosirii acestui concept este în cadrul sistemelor de
inteligenţă artificială bazate pe cunoştinţe. Majoritatea programelor de calculator cu inteligenţă artificială prelucrează structuri de simboluri, care sunt menite a reprezenta conceptele, cunoştinţele referitoare la domeniul considerat. Aceste structuri simbolice sunt grupate într-o aşa numită bază de cunoştinţe care constituie, de fapt, un model al domeniului respectiv. în ultimii ani se consideră că această bază de cunoştinţe trebuie văzută ca o ontologie, o conceptualizare, o teorie asupra ceea ce există în domeniul avut în vedere. O ontologie este, din această perspectivă, o "specificare a unei conceptualizări ... Termenul este împrumutat din filosofie, unde însemna o considerare sistematică a existenţei. în inteligenţa artificială se referă la precizarea a ceea ce se consideră că «există»" [Gru96].'
între concepte pot exista diverse relaţii. Cea mai importantă relaţie este probabil cea hiperonimică [WN], taxonomică, între un concept şi unul sau mai multe concepte mai generale, din care derivează, care îl subsumează, din a căror combinaţie a fost generat. Prin această relaţie se pot "moşteni" proprietăţi de la conceptul (conceptele) mai general(e) la cel mai particular, dacă aceste proprietăţi nu sunt redefinite la conceptul din urmă. Alte relaţii sunt cea meronimică [WN] ("parte-întreg"), între un concept şi părţile sale sau cea antonimică, între două concepte (adjective) opuse.
O ontologie include, aşadar:
• categoriile, conceptele fundamentale,
• proprietăţile conceptelor,
• relaţiile şi distincţiile între concepte.
O ontologie este rezultatul unei experienţieri, a unor experienţe trăite, în care sunt evidenţiate nişte constante, nişte regularităţi, care ne îndreptăţesc să afirmăm că vor fi regăsite în viitor. în urma investigaţiei făcută pentru a găsi esenţa regularităţilor se delimitează entităţi mentale denumite concepte sau categorii, care pot fi diferenţiate de alte categorii. Aceste entităţi pot intra în combinaţie cu altele formând noi concepte.
Un aspect deosebit de important în ceea ce priveşte rolul ontologiilor este faptul că ele exprimă o comuniune, (co)existenţa unei diversităţi de concepte, cu diferenţe şi relaţii între ele. O presupoziţie este că există doar un număr limitat de concepte sau categorii, ceea ce înseamnă că se poate face un fel de cuantificare, de discretizare a realităţii. Acestea constituie un punct de sprijin pentru achiziţia de noi concepte sau pentru raţionamentele făcute de om sau de calculator.
Partajarea unei ontologii este esenţială în sistemele bazate pe agenţi (programe) inteligenţi pentru, de exemplu, comerţul electronic, pentru a le asigura autonomia, flexibilitatea şi agilitatea. Ontologiile sunt liantul care integrează sisteme de baze de date, sisteme de obiecte, sisteme bazate pe cunoştinţe, în diverse aplicaţii integratoare şi bazate pe colaborare. Ele reduc ambiguităţile
320
321
semantice în partajarea şi reutilizarea cunoştinţelor. "Scopul suprem este dezvoltarea de ontologii reutilizabile care pot fi aplicate pentru mai multe discipline". [OORG]
"O ontologie are drept prim scop facilitarea comunicării între calculatoare, independent de tehnologiile unui anumit sistem individual, arhitectura de prelucrare a informaţiilor şi domeniul aplicaţiei. Ingredienţii cheie care constituie o ontologie sunt un vocabular de termeni de bază şi o specificare precisă a ceea ce înseamnă aceşti termeni." [OORG] O ontologie este însă mai mult decât un vocabular. Ea este punctul de plecare pentru dezvoltarea de structuri de cunoştinţe, nu numai taxonomii sau clasificări de concepte ci şi relaţii complexe. [OORG]
Din punct de vedere al programelor de calculator care folosesc ontologiile, există două tipuri de ontologii. Primul tip este cel al ontologiilor destinate sistemelor bazate pe cunoştinţe, de exemplu, al unui sistem de diagnostic medical. Aceste ontologii sunt caracterizate de un număr relativ redus de concepte, dar legate între ele printr-un număr mare şi variat de relaţii. Conceptele sunt grupate în scheme conceptuale complexe sau scenarii. Pentru fiecare concept pot exista una sau mai multe particularizări.
Spre deosebire de primul tip de ontologii, ontologiile lexicalizate includ un număr foarte mare de concepte, legate printr-un număr redus de tipuri de relaţii (de exemplu, hiperonimică, meronimică etc). Conceptele sunt reprezentate, de exemplu în WordNet [WN], prin mulţimi de cuvinte sinonime. Astfel de ontologii sunt folosite în sistemele de prelucrare a limbajului uman.
Corespondenta ontologiei WordNet (care este concepută pentru limba engleză-americană) pentru limbile europene este EuroWordNet. Aceasta din urmă aduce avantajul că, fiind dezvoltată pentru mai multe limbi (engleză, franceză, germană, italiană, olandeză etc), permite şi dezvoltarea de aplicaţii multilingve. în prezent, în cadrul Institutului de Cercetări pentru Inteligenţă Artificială al Academiei Române este în desfăşurare, în colaborare cu mai multe ţări din regiunea balcanică proiectul BalkanNet pentru integrarea în EuroWordNet a limbilor din zonă, inclusiv a limbii române.
3. Medii hermenofore
Denumim mediu hermenofor o colecţie integrată de instrumente (pe care le vom numi hermenofore) şi aplicaţii informatice direcţionate către facilitarea unor activităţi de tip hermeneutic ale unui utilizator care explorează resurse aflate pe web. Termenul "hermenofor" [Tra01] poate fi parafrazat prin "generator de hermeneutică", pentru a sugera faptul că un mediu hermenofor facilitează activităţi hermeneutice, care acordă un rol important experienţierii şi sunt orientate spre descoperirea unor înţelesuri, a unor structuri profunde, greu detectabile.
Elaborarea de medii hermenofore este absolut necesară în contextul actual al exploziei numărului şi volumului de resurse şi a interconexiunilor între acestea pe web. Sistemele hipertext (hipermedia) aduc noi dimensiuni cum ar fi " interactivitatea, posibilităţile cu totul remarcabile de vizualizare, accesul personalizat la volume imense de informaţii. în acelaşi timp, însă, ele introduc şi unele probleme datorate afluxului de informaţie, care poate duce la depăşirea capacităţilor cognitive ale utilizatorului, la dezorientare şi chiar la alienare. Este un fapt că utilizatorul, chiar profesionist în informatică, poate fi dezorientat în "labirintul" de pagini de web şi resurse de tot felul (baze de date, documente, imagini, ontologii, lexicoane etc.) interconectate.
O soluţie la problemele enumerate mai sus este dezvoltarea de instrumente, aplicaţii, medii informatice pentru facilitarea accesului la cunoştinţele dorite pe web. Se poate spune, din această perspectivă, că browserele de web, "motoarele de căutare", agenţii (asistenţii) software sunt rudimente de medii hermenofore. Justificarea necesităţii considerării perspectivei hermenofore este lipsa abilităţilor hermeneutice ale acestor aplicaţii. Un exemplu tipic este faptul că "motoarele de căutare pe web" (de exemplu Google [Goo]) furnizează mii sau chiar zeci de mii de documente ca răspuns la o cerere. Alt exemplu este limita actuală a programelor de calculator în înţelegerea textelor cu scopul traducerii, sumarizării sau extragerii cunoştinţelor. Aceste probleme sunt datorate, în primul rând, problemelor generate de ambiguitatea limbajului natural, a aspectelor legate de semantică, de pragmatică, de interpretare, de considerarea contextului, a metaforelor, a cunoştinţelor de "bun simţ". Toate aceste probleme sunt recunoscute ca fiind "nodul gordian" al aplicaţiilor de inteligenţă artificială. După cum remarca Terry Winograd, programele de inteligenţă artificială nu pot depăşi condiţia unui birocrat, care nu poate să acţioneze când nu are "reguli", care nu se implică [Win87]. Putem spune că, de fapt, problema este că acestor aplicaţii le lipsesc abilităţile hermeneutice. Ideea noastră este de a oferi un cadru în care puterea oferită de tehnologia informaţiei să fie integrată cu capabilităţile specific umane.
Hermeneutica este, după opinia lui P. Ricoeur, o abordare complementară celei structuraliste în analiza limbajului, a înţelesului şi simbolismului cultural. "Hermeneutica bazează înţelegerea textelor pe intenţiile şi istoria autorilor şi relevanţa acestor fapte pentru cititori. în contrast, filosofia analitică identifică de obicei înţelesul cu referenţi externi pentru texte iar structuralismul găsind înţelesul în aranjarea cuvintelor. Hermeneutica priveşte textele ca mijloace pentru a I transmite experienţa, crezurile şi judecăţile de la un subiect sau comunitate către alţii. Astfel, determinarea înţelesurilor este o problemă de judecată practică şi raţionament de «bun simţ» şi nu privitor la o teorie a priori sau o demonstraţie ştiinţifică." [MHD].
322
Hermeneutica este studiul interpretării, iniţial ea referindu-se doar la interpretarea textelor [MHD]. în prezent s-a extins accepţiunea termenului hermeneutică, vorbindu-se de o poziţie hermeneutică în filosofie, care include pe Heidegger, Gadamer, Habermas şi Ricoeur, deosebită de formalişti (filosofia analitică, neo-pozitivism sau pozitivismul logic), reprezentaţi prin Descartes, jllj Leibniz şi Russell [Wes97]. Distincţia între cele două abordări pleacă de la
11 problema capturării înţelesului. Pe când formaliştii pretind că pot reprezenta
|[ înţelesul, semantica, doar prin identificarea unui denotat în lumea reală
| j corespunzător unei expresii formale, adepţii hermeneuticii neagă această
|j ţj posibilitate, pentru ei înţelesul implicând şi considerarea experienţei, a credinţelor
|l| subiectului. Se poate spune că, dintr-un punct de vedere se ajunge la aceeaşi
! | dispută dintre Husserl si Heidegger sau dintre Dennett si Chalmers.
ni Mediile hermenofore furnizează informaţiile dorite dintr-o perspectivă
|!;! • particulară, pentru un anumit utilizator, considerând un anumit domeniu şi într-un
jl i| anumit moment dat. Un mediu hermenofor trebuie conceput deci în scopul
| li personalizării interfaţării la resursele web-ului, pentru a facilita înţelegerea. Dacă
prezentările făcute într-un mediu hermenofor sunt structurate ca hipermedia, una | din preocupările principale ce trebuie avute în vedere este faptul că utilizatorul
S i trebuie să experienţieze parcurgerea unei secvenţe de pagini de web, secvenţă
care trebuie să respecte nişte reguli de pragmatică.
Iii In plus faţă de furnizarea unei interfeţe adaptabile, o altă caracteristică a
)! | unui mediu hermenofor trebuie să fie facilitarea iniţiativei utilizatorului. El trebuie să
J; | poată  experimenta,  să  poată  investiga  resursele web-ului. Instrumentele
i j hermenofore sunt destinate sprijinirii activităţii hermeneutice umane adică a unei
! !j| atitudini direcţionate către înţelegerea unor cunoştinţe sau structuri ascunse în
j! texte (hipiertextelor, hipermedia). Un rol important în procesul înţelegerii îl au
| j modalităţile de a genera experienţieri, adică experienţe de trăire, fapte de viaţă
1 j (conform teoriei că înţelegerea necesită un proces empatic [Wri95], [Mar97]). Unul
i dintre cele mai uzitate mijloace de acest gen este folosirea metaforelor [LaJ80], [TraOO]. în acest sens se înscrie preocuparea de a dezvolta instrumente
; (hermenofore) pentru detectarea, adnotarea şi prelucrarea metaforelor.
O caracteristică pe care o considerăm esenţială la un mediu hermenofor, ■ ! în contextul precizat mai sus, este şi posibilitatea de vizualizare multiplă, din
| perspective diferite, a aceluiaşi document. Enumerăm aici, drept exemplu, în afara
perspectivei conţinutului "brut" al unui document, alte perspective, date de concordanţe, adnotări (cu părţi de vorbire, de exemplu), extrase, rezumate, arbori de analiză semantică,, structuri care reprezintă conţinutul semantic. Remarcăm, în j acest context, rolul extraordinar de important al adnotărilor documentelor în
limbajul extrem de versatil care este XML [XML].
■ i|
;; Vom considera că instrumentele hermonofore au ca scop revelarea şi
i J valorizarea unor cunoştinţe sau a unor structuri încorporate în volumele imense de
323
> hipetexte şi hipermedia de pe web. Datorită faptului că abordarea hermeneutică |p pune pe prim plan rolul experienţierii umane, un instrument hermenofor trebuie pt neapărat considerat în relaţie cu utilizatorul care îl foloseşte. De aceea, el trebuie H;: să aibă asociat modelul utilizatorului, care să conţină cel puţin următoarele L- informaţii despre utilizator: ; I •   ontologia sa,
Jl- •   scopurile urmărite,
• profilul psihologic,
• istoricul acţiunilor efectuate,
• preferinţele sale (explicite sau implicite, derivate din observarea comportamentului său).
Pe de altă parte, instrumentele hermenofore trebuie să considere şi aspectele legate de particularităţile autorilor documentelor:
• ontologiile considerate (de exemplu, ontologiile impuse de paradigmele sau de practicile domeniilor considerate),
• scopurile presupuse,
• elemente de istoric,
• aspecte psihologice general umane.
Instrumentele hermenofore pot fi împărţite în mai multe clase, în funcţie de —  acţiunile efectuate:
• căutare a documentelor relevante,
• categorizare a documentelor conform unei taxonomii predefinite,
• relevare de regularităţi (de exemplu, colocaţii) sau structuri în documente,
• segmentarea textelor,
• extragere de informaţii sau cunoştinţe din documente,
• sumarizare,
• relevare de structuri pe web [WSD97],
• instrumente de adnotare (la nivel sintactic, semantic sau pragmatic) a documentelor.
Spre deosebire de instrumentele de minerit al textelor ("text mining"), instrumentele hermenofore pun, în plus, accentul pe aspectele legate de istoricul interacţiunii, de experienţa utilizatorului.
în secţiunea următoare se va prezenta sistemul GenWeb de instruire asistată a învăţării terminologiei financiare într-o limbă străină [TMC02], [ABK02]
5677
324
325
care a fost dezvoltat ca un modul într-un proiect mai mare, denumit "Larflast" şi finanţat de Comunitatea Europeană. GenWeb a implementat instrumente hermenofore care identifică şi utilizează metafore pentru a facilita înţelegerea unui anumit concept [TraOO]. în acest scop, el caută metafore în texte considerate relevante. Metaforele sunt identificate printre perechile de cuvinte care corespund la concepte din ontologia domeniului considerat (finanţe) şi din ontologia metaforelor, aceasta din urmă reflectând aspecte psihologice general umane [LaJ80]. Trecerea de la un concept la o mulţime de cuvinte (sinonime sau înrudite) se face pe baza ontologiei WordNet, derivată din investigaţii psiholingvistice [WN]. Metaforele sunt adnotate în XML [XML], unul din atributele folosite în adnotare fiind scopul urmărit de autor [TraOO].
Tot în GenWeb, textele adnotate cu metafore sunt folosite ulterior pentru a genera structuri (bazate pe principii retorice) de pagini de web personalizate conform modelului utilizatorului. Aceste structuri se constituie într-un sit în care cel care învaţă poate experienţia. Tot pe post de instrumente hermenofore, în GenWeb este disponibilă vizualizarea de concordanţe în context.
4. Sistem de instruire asistată cu calculatorul în înţelegerea unor termeni financiari
Există mai multe puncte de vedere asupra modului în care are loc un proces de învăţare. Suntem de partea abordării constructiviste [BIM96, Wil96] în conceperea proceselor educaţionale. Această abordare consideră că fiecare dintre noi ne construim propria realitate, propriul bagaj de cunoştinţe, plecând de la experienţele pe care le-am avut [ErK97]. După cum remarcă [BIM96], "Nucleul studiului este activitatea hermeneutică a construcţiei de interpretări." învăţarea poate fi şi ea văzută constructivist ca un proces hermeneutic, de înţelegere, de transpunere în domeniul studiat, de experimentare, de trăire.
Plecând de la ideile învăţării constructiviste se ajunge la următoarele principii [ErK97]:
• învăţarea este un proces activ în care studenţii experimentează, caută să înţeleagă singuri ceea ce învaţă, profesorul fiind mai mult un îndrumător;
• învăţarea trebuie să fie un proces auto-reglat de către studenţi;
• învăţarea constructivă este un proces situaţional în sensul că studentul trebuie introdus într-un mediu de învăţare care îi permite să experimenteze, în care se pot face simulări;
• învăţarea trebuie să fie socială, trebuie să existe o permanentă colaborare a studentului cu colegii lui.
Dintr-o altă perspectivă, învăţarea poate fi considerată ca un proces de inducere de modele mentale adecvate [JoL83]. înţelegerea poate fi văzută astfel ca momentul în care realitatea supusă comprehensiunii este pusă în corespondenţă cu un model mental complet şi valid. Empatia [Mar 97], identificarea eu-lui cu starea de lucruri considerată poate fi, în acest caz, tocmai sentimentul de "trăire" în lumea modelului mental.
O practică deja răspândită este de a dezvolta sisteme inteligente de asistare cu calculatorul a instruirii ("Intelligent Tutoring Systems") care încearcă să monitorizeze procesul de învăţare prin verificarea asimilării conceptelor din ontologia domeniului considerat [Tra95]. Se consideră că un model adecvat al cunoştinţelor elevului poate fi construit prin raportare la această ontologie. De fapt, această metodă este folosită şi în învăţământul tradiţional: noii termeni sunt introduşi prin genul proxim şi diferenţa specifică. în termenii ontologiilor, noii termeni sunt definiţi prin superconceptele care-i subsumează şi prin particularităţile care-i diferenţiază.
Orice profesor ştie însă că astfel de definiţii sunt necesare dar nu sunt suficiente. Pentru a aprofunda termenii definiţi sunt necesare exemple, imagini cu un grad mai mare sau mai mic de iconicitate, plecând de la poze şi schiţe, diagrame şi grafice, până la imagini sugerate, până la metafore. Acest fapt este prezent nu numai în învăţământ, el apare în orice proces de comunicare (învăţământul fiind, bineînţeles, şi el inclus).
în cele ce urmează nu ne vom referi la utilizarea imaginilor propriu-zise, care facilitează evident învăţarea sau comunicarea. Vom considera un caz particular de imagini, mentale, sugerate, semne iconice lipsite de caracterul vizual dar care comunică o experienţiere (de multe ori chiar mai puternic, printr-un efect care ar putea face să ne gândim la percepţia subliminală). Este cazul metaforelor, care sunt folosite într-o proporţie de cele mai multe ori nebănuit de mare în comunicarea inter-umană.
Pentru a ilustra puterea de expresie a metaforelor şi, bineînţeles, rolul lor în înţelegerea unor termeni, am să exemplific prin metafora "acţiunile la bursă sunt nişte creaturi foarte sensibile" (găsită într-un text pe situl de web al Bursei din New York - http://www.nyse.com). Nu este nevoie să ne imaginăm o anumită creatură concretă pentru a înţelege ce sugerează metafora exemplificată. Succesul unei metafore, puterea ei expresivă, capacitatea de comunicare sunt date de măsura în care "rezonăm" la mesajul transmis. Ori ce este mai percutant pentru un om decât faptul că suntem creaturi extrem de sensibile? Prin urmare, succesul metaforei folosită într-un context foarte pragmatic, al discursului unui specialist în finanţe este determinat de inspiraţia vorbitorului de a se referi la un fapt general uman. Nici o definiţie de tip gen proxim-diferenţă specifică nu poate comunica experienţa referitoare la aspectul foarte fragil al acţiunilor la bursă precum o face metafora de mai sus.
326
Rolul covârşitor al metaforelor în viaţa noastră a fost remarcat şi de Lucian Blaga ("omul este un animal metaforic" [Bla85]) şi a fost foarte bine evidenţiat de Lakoff şi Johnson într-o lucrare cu un puternic impact ("Metaforele cu care trăim" -"Metaphors we live by" [LaJ80]). Cei doi autori americani consideră că "subcategorizarea şi metaforele sunt două extremităţi ale unei continuum", că metaforele "formează sisteme coerente în care ne conceptualizăm experienţa" [LaJ80]. Putem spune că metaforele oferă alte mijloacd expresive decât cele de categorizare oferite de ontologii. Ele nu ţin de logica lui Ares, care categorizează, ci de logica lui Hermes, propusă de Noica [Noi86].
Dintr-o altă perspectivă, metaforele pot fi considerate instrumente empatice, care determină imersiunea cititorului (receptorului) în lumea experienţelor autorului. Acest fapt era evidenţiat şi de Lakoff şi Johnson: "Esenţa metaforei este înţelegerea şi experienţierea unui lucru prin altul" [LaJ80]. De exemplu, metafora amintită mai sus despre acţiunile la bursă ne comunică o informaţie pe care orice fiinţă vie o înţelege (sensibilitatea, perisabilitatea) dar care nu poate fi exprimată în categorizări.
Importanţa metaforelor a fost revelată şi de studiul preliminar făcut în cadrul proiectului Larflast (care a avut drept scop elaborarea unui sistem de asistare cu calculatorul a învăţării terminologiei financiare într-o limbă străină [Lar], [TMC02], [ABK02]) de o profesoară de limba engleză la o facultate economică din Sofia. Dânsa remarca ca o importantă dificultate "înţelegerea metaforelor. Limbajul economic şi financiar este extrem de metaforic şi, uneori, grupuri de metafore apar în imagini complexe. Deseori cuvinte uzuale sunt folosite în metafore elaborate, ... cum ar fi «a susţine o pierdere»" [Vit99].
Proiectul Larflast a inclus mai multe module tipice pentru sisteme inteligente de instruire, cum ar fi o ontologie, un mecanism de inferenţă, teste (grilă) pentru diagnosticarea cunoştinţelor elevului şi actualizarea modelului acestuia. Sistemul dezvoltat include cinci servere de web, unul la Bucureşti şi altele la Leeds, Manchester, Montpellier şi Sofia. Serverul de la Bucureşti, după ce este lansat, accesează serverul de la Sofia pentru a prelua modelul elevului (ce concepte ştie şi ce concepte nu) şi apoi generează pagini de web personalizate.
Metaforele sunt identificate în texte considerate relevante care au fost obţinute în urma căutării cu o maşină de căutare uzuală (de exemplu, Google [Goo]. Textele găsite sunt grupate într-un corpus care este adnotat cu metaforele identificate. Acest corpus, împreună cu ontologia domeniului şi cu modelul studentului (construit pe baza răspunsurilor date de student la teste) sunt folosite pentru generarea personalizată de pagini de web. în figura următoare este ilustrată arhitectura sistemului GenWeb.
327
WWW
Ontologia metaforelor
Căutare documente relevante pe web
Identificarea şi adnotarea metaforelor
Generare pagini de web
(hiper)texte cunoştinţe
Figura 1
Pentru identificarea şi adnotarea metaforelor a fost implementat un editor semantic specializat (fig.2) si un editor de concepte (fig.3)._
File Help
Text:
Metaphor List:
...--------------
<articol nr«"ll" type-"educaţional
URL="http: //ww.nyse. com/abouc/educacion/xnve3r./i7214.har I
<text> ,   .   . ^ „ ^
Oaetaph what="stock" how«"creature» Why«"senSitxvxty >Stc Stocks react to all kinds of xnfluences, large and small, and   oaetaph What="stock" hotj=" organism" Why="reactivxty > sensitive reactxons register as price changes</metaph>.
their sensitive reactions register as price changes News events can trigger a change in stock prices when
Load File...   |     Save File...   |     ParseText |
what stock how: creature why: |sensitivity
Apply
Find Metaphors
Source Domain:
organism (noun)    =   life form, organisn_±. act (verb)    =   act. move -- (perform an a building (noun)    =   building. edifice 0 pillar (noun)    =   pillar, mainstay -- (a pr <J_I
Tag: |metaph
Attributel: |what
Attribute2: |how
Attribute3: (why
Distance: |5
Load File.
Save File.
Attributes:
Change.
Destination Domain:
stock (noun) = stock - (the capital rai: market(noun) = market. securities im futures (noun) = future. future tense-credit (noun)    =   credit -- (money availa/
_1
Load File.,
Save File..
Figura 2
328
329
Concept List: jorganism Add
Attnbute List:
2<J
Modify
Remove
Senses List: |noun
"3
Change
act
building
pillar
move
Modify
sensitivity
reactivity
vulnerability
2. organism -- (a system considered analogous in structure or
WordNet Sense Number:
Antonym
Attribute
Cause
Derived
Entailed by
Entailment
iv Hypernym
RyponyrTŢj
Member Holonym T Member Meronym f Part Holonym f Part Meronym
Participle of ' See also Similar to
Substance Holonym Substance Meronym Verb group
life biont iperson individual someone somebody mortal human
d
mortal
human
soul
animal
beast
brute
creature
faun»
^1
Figura 3
Modelul studentului este creat pe baza răspunsurilor la teste:
Address |§] http://w
«.larflast.bas.bg/cgi-bin/gete.exe/passwd
An instituţional mechamsm created by society to channel savings and other financial serwices to those individuals and înshtutions willing to pay for them
= Instituţional mechamsms set up by society to trade or exchange loans and securities that have already been issued
Expenditures on capital goods or inventones of goods or raw materials that are used to produce other goods and serwces. causing future production and income to nse
Instituţional mechamsms set up by society to make loans and trade securities where the terms of trade are set by direct bargairung between a lender and a borrower
Contracts that call for the future delivery or sale of designated securities at a price agreed upon the day the contract is made and that are used mainly to hedge (protect) against changing intere st rates
A loan of funds in return for a promise of future payment.
Instituţional mechansim created by society to make loans and trade securities in which , any individual or institunon can participate
Agreements between contract wnters and contract buyers to accept delivery of ("caii") securities or place with buyers ("put") securities at a specified price on or before , the date the contract expires
l Instituţional mechamsms set up by society to trade newly issued loans and securities. !
1< Markets where temporary surpluses of cash are channeled into temporary loans of t funds. one year or less to maturity. 1
I Financial Market    »i
Options contracts
Investment
Credit
Secondary Market Open Market Negotiated Market Primary Markets Financial Market Futures Contract
g]Done iJQ Start)
J JJ
1^3 aS- îfei -^^^w*^
Figura 4
"& Internet
SSi,."S    3:13 PI
Paginile de web generate dinamic de modulul GenWeb, contribuţia românească la proiectul Larflast, se constituie în structuri care reflectă structura conceptuală (ontologia) a domeniului considerat. Parcurgerea acestora poate fi văzută şi în corespondenţa cu facilităţile oferite de o Artă a memoriei [Cul94]. Din altă perspectivă, structurile trebuie concepute în ideea unei retorici specifice paginilor de web [Cli95], [THH95].
Sunt mai multe tipuri de pagini de web generate:
• pagini de diagnostic,
• pagini care definesc concepte, dau exemple de metafore şi care includ structuri de paggini web care reflectă ontologia domeniului,
• pagini din structurile de mai sus,
• pagini cu concordanţe în context.
Aceste pagini sunt ilustrate în figurile următoare.
progg
i Address jiŞ] http://www.larflast.bas.bg/cgi-bin/gete.exe/passwd
£3 <>*
Diagnostics
Trausan, you havc correctly answered to some questions about: financial_market, secondary_market, futures_contract, option_contract, primary_market, investment, credit, but it seems that you still do n correctly know the following concept(s):
1. Credit
2. Futures contract
3. Investment
4. Primary market
5. Ootion contract
6. Monev market
7. Open market
8. Negotiated market
Picase browse the web pages describing these concept(s).
Only the wrongly known and unknown concepts are detailed presentedl
Back to n trausan(5>.valhalla racai.r»
About LarFlast Please send questions and remarks at
Sflstartj &i _jC:\trausan\s\larflast\styten ] ,.yCi\WlNNT\Sy«t«n32\toln... j _p}Mcro«oft PowarPoInt • Qa... ([frJhttp^/ww«i».larfla»tAa~
t£ Internet
3:19 PM
III
Hi
II 1
330
pas
.: http://www.larflast.bas.bg/cgl-bln/gele
f^Go File
t  o£ ]
i doilac
' Taii . oi New Tem e torelgn currency lecters of iull license domestic banka, a vulnerability Ues not in he central bank abandoned the nally. China does not have a te banka continue to allocate era from an over-extenaion ol accountlng standarde, greater nkruptcy Law improve tralisation, but monetary and implemented through a
Established iirst
cial banka
Abandoned
credit credit
credit
credit, credit credit
credit
extended to each cuatomer. In September 199 extended to each customer were eatablished. , provide «oreion currency guarantees, under cooperative», and bill rinance companie»- T growth or reliance on externai xunding, but allocation ceilings imposed on theae banka, ayatero. It remaina a caah-baaed society, eve base on the central plan and extend Ioana t , a bank-dominated financial ayatem and weak management ptocesses, and greater avenuea t «nanagement Harden budget constraint
polxcy still  implemented through a
Plan. Eatablishroelnt of special economic zone agency. SEC granted license to nine Soreign allocation ceilings  treplaeed with standard
S Dona
Addfess |?:J C^fausanVwsMacflastSstytenV.S TY18_ HT
"Financial market'
Definition:
Some «bşfc.rfcalpfcrases in wkick txis ««cept appears.
• theperfoima»»ofafmancial market
• nnancial markets that are continuat to gtow
• walysts expect the impact on the fWial market to be negativ» ' ^IfPP^^y fo'ti» fiwncialinarket» to «topt cha^s that wfll hek . mll afFect their economy and financi&l markets . fmaacial market has undergone substanţial developme,
• a robust fmancial market
• an open finaitcial market
. Fmancial markets an the heart of the financjal svstem Releva* texts &r tkis concept are:
; W2 :^ausan\$Maffla$t^tylen\US1_.HTM jj f»>Go ;MS1
Diagnostics
Joh* you have correctly answered to some questions about: money market, primary market but it seems that you still do not correctly W the foltowmg concept(S): ~
3.   Financial marlmt
5. -r,.^„
6. Credit 7-  Futures contrat
Pfcase browse the web pages descrioing these concept(s).
Onfy the wrongly known and unknown concepts are detaikd pwsented'
foette;ct/texts/nmht,v»crwi->'; ------»--- „     _ '-
aUP ^frfr^ Prlr-nnrr- n 111151
fe- My Computer
feunerse into the feiinwî^ to,M^
■TOUMB1III
Fie  » ;Adore«|frjC:\trausan\s^ ^Go |TH
■ e«|iki.»u>i
Secondary market
-OwnultirMa-
Some &cts about secoitdarymarket are :
. Secondary market trades already issued bonds . Change interest rates in the secondary market . Secondary market supports nsvr investments
Some similar concepts with secondary_market are:
• Monev ma^eţ
Secowlary_market is the opposito ofprimary,!!»!^^:
331
Concluzii
în contextul dezvoltării explozive a numărului de documente pe web este absolut necesară existenţa unor medii care să permită utilizatorilor explorarea în scopul extragerii cunoştinţelor din texte şi structuri de documente web. Această activitate trebuie sprijinită de ontologii, un rol foarte important avându-l integrarea ontologiilor de mari dimensiuni existente astăzi pe web. Un mediu hermenofor integrează instrumente hermenofore cu ontologii într-o arhitectură în care utilizatorul trebuie să poată experimenta, să investigheze diverse transformări ale textelor. Se poate spune că un mediu hermenofor înglobează sinergie instrumente de prelucrare a cunoştinţelor cu instrumente de prelucrare a textelor şi cu tehnici specifice web.
Bibliografie
[ABK02] G. Angelova, S. Boytcheva, O. Kalaydjiev, Şt. Trăuşan-Matu, P. Nakov, A. Strupchanska, Adaptivity in a web-based CALL system, în F. van Harmelen (ed.): ECAI 2002. Proceedings of the 15th European Conference on Artificial Intelligence, IOS Press, Amsterdam, 2002, pp. 445-449.
[Bla85] L. Blaga, Trilogia culturii, Ed. Minerva, 1985
[BIM96] Black, J.B., McCIintock, An Interpretation Construction Approach to Constructivist Design, in B.G. Wilson (ed.), Constructivist Learning Environments: Case Studies in Instructional Design, Education Technology Publications, 1996.
[Cli95] Clibbon, K., Conceptually Adapted Hypertext For Learning, Proceedings of CHI'95, http://www.acm.org/sigchi/chi95/Electronic/documnts/kc_bdy.html
[CTr01] Constandache, G.G., St. Trăuşan-Matu, Ontologia şi hermeneutica calculatoarelor, Editura Tehnică, 2001.
[Cul94] Culianu, I.P., Eros şi magie în Renaştere; 1484, Nemira, Bucureşti 1994.
[Eng95] Engelbart, D.G., Toward Augmenting the Human Intellect and Boosting our Collective IQ, CACM No.8, Vol.38, Aug. 95, pp. 30-33.
■ [ErK97] Ertl, B., Kraan, A.G., Internet-Based Learning Environments from a Constructivist point of view, Proceedings of RILW, llieni, 1997, p. 17-21.
[Goo] http://www.google.com
[Gru96] Gruber, T., What is an Ontology, http://www.kr.org/top/definitions.html
[JoL83] Johnson-Laird, P.N., Mental Models - Towards a Cognitive Science of Language, Inference, and Consciousness, Cambridge Univ. Press, 1983.
[LaJ80] Lakoff.G., Johnson, M., Metaphors We Live by, The University of Chicago Press, 1980.
[Lar] LarFLaST, http://www-it.fmi.uni-sofia.bg/larflast/
[Mar97] Marcus, S., Empatie şi personalitate, Ed. Atos, 1997.
[MHD] J.C. Mallery, R. Hurwitz, G. Duffy, Hermeneutics, Encyclopedia of Artificial Intelligence, pp. 596-611.
[Noi86] C. Noica, Scrisori despre logica lui Hermes, Ed. Cartea Românească, 1986.
[OORG] http://www.ontology.org/main/papers/faq.html \
[Rad 91] Hypertext from Text to Expertext, McGraw Hill, 1991.
[Sow99] J. Sowa, Knowledge Representation: Logical, Philosophical and Computaţional Foundations, Brooke Gole Publishing Co., Pacific Grove, CA, 1999, vezi şi [CTrOI].
[THH95] Thiring, M., Hannemann, J., Haake, J.M., Hypermedia and Cognition: Designing for Comprehension, Communications of the ACM, voi.38, no. 8, pp. 57-66, aug. 1995.
[TMC02] Şt. Trăuşan-Matu, D. Maraschi, S. Cerri, Ontology-Centered Personalized Presentation of Knowledge Extracted From the Web, în S. Cerri, G.Gouarderes (eds.), Intelligent Tutoring Systems 2002, Springer, Lecture Notes in Computer Science number 2363, pp. 259-269.
[Tra95] Şt. Trăuşan-Matu, Programe inteligente pentru asistarea învăţării, în Revista Română de Informatică şi Automatică, voi.5, nr.4, 1995, pag. 7-16.
[TraOO] Şt. Trăuşan-Matu, Metaphor Processing for Learning Terminology on the Web, in S.A.Cerri (ed.), Artificial Intelligence, Methodology, Systems, Applications 2000, Springer-Verlag, ISBN 3-540-41044-9, 2000, pp.232-241
[Tra01] Şt. Trăuşan-Matu, Interfatarea evoluată om-calculator, Ed. MatrixRom, 2001.
[Vit 99] I. Vitanova, English for Finance, Understanding Money and Markets, http://wwwjt.fmi.uni-Sofia.bg/larflast/
[Wes97] D.West, Hermeneutic Computer Science, CACM, Vol.40, No.4, pp. 115-116, 1997, şi în [CTrOI].
[Wil96] B.G. Wilson (ed.), Constructivist Learning Environments: Case Studies in Instructional Design, Education Technology Publications, 1996
[Win87] T. Windgrad, Thinking machines: Can there be? Are we?, Report No. STAN-CS-87-1161, Stanford, 1987.
[WN] WordNet, http://www.cogsci.princeton.edu/~wn/
[Wri95] von Wright, G.H., Explicaţie şi înţelegere, Humanitas, 1995.
[WSD97] http://www.research.att.com/-suciu/workshop-papers.html
[XML] www.w3.org/xml
Secţiunea lll
TEHNOLOGII ALE LIMBAJULUI VORBIT
64
335
Experimente în vederea recunoaşterii vorbitorului
Comeliu BURILEANU,
Universitatea „Politehnica" din Bucureşti, Spl.lndependeţei 303 cburileanu@messnet.pub.ro
Luigi BOJAN,
Graphco Technologies Inc., Newton, PA, USA 1. Introducere
Având în vedere funcţia realizată şi concomitent, sarcina de îndeplinit, tehnologia vorbirii se poate clasifica în mai multe domenii [1, 2]:
• Recunoaşterea automată a vorbirii. Se bazează pe analiza automată a semnalului vocal şi are în vedere informaţia transmisă de om maşinilor care "îl ascultă". Din această informaţie, maşina este programată să extragă acele caracteristici ce îi vor permite să deceleze cine vorbeşte, ce vorbeşte, în ce fel şi în ce condiţii.
• Sinteza automată a vorbirii. Se realizează răspunsul "prin voce" al maşinilor către operatorul uman.
• Codificare/decodificare (analiză şi sinteză) a vorbirii. Se referă la tehnici de compresie a informaţiei conţinută în semnalul vocal în vederea unor prelucrări ulterioare specifice sarcinii de îndeplinit.
Un domeniu interdisciplinar important, legat în mod esenţial de aplicaţiile de recunoaştere şi sinteză automată ale vorbirii este cel al dialogului om-maşină.
Termenul "comunicare om - maşină" pare forţat: maşina nu este o entitate socială, nu are nici scop nici cultură. Ea nu poate acţiona în lumea reală în sensul de a putea să răspundă corect la întrebări de genul: "ai putea să închizi uşa, te rog?". Ea nu este "conştientă" decât de propria sa "lume". Avem într-adevăr nevoie de a comunica cu maşinile? Au importanţă intenţiile lor, chiar dacă le-ar avea? Ce poate să-mi comunice sau să mă facă să ştiu o maşină?
Maşina îmi procură "uneltele" pentru a realiza o sarcină, ea mă face să proiectez noi obiecte (eventual, virtuale), ea mă aduce într-un univers artificial, îmi permite să utilizez un mediu de programare împreună cu alţi utilizatori umani, pentru a lucra într-o manieră cooperantă în acelaşi mediu informatic. Maşina se prezintă deci ca un factor de interacţiune. Ea trebuie să-mi furnizeze un spaţiu de
64
336
337
muncă, unelte şi metode. Dar pentru aceasta, maşina trebuie adaptată sarcinii curente sau unor sarcini noi, să adopte un comportament "comprehensibil", să se arate "prietenoasă" etc. Paradoxul este deci evident: maşina trebuie să fie, dintr-un anumit punct de vedere, socială pentru a colabora eficace cu un utilizator în scopul îndeplinirii sarcinilor, din ce în ce mai complexe, care îi sunt încredinţate.
Preocupările noastre în domeniul tehnologiei vorbirii au, între altele, scopul de a oferi mijloacele pentru o comunicare între om şi maşină prin mesaje vorbite [3]. Această comunicare este doar un aspect al dialogului. Rămâne în continuare deschisă problema definirii conceptelor şi cea a stabilirii unor strategii de dialog adecvate sarcinii de rezolvat.
Semnalul vocal conţine o varietate de informaţii utile: ce se vorbeşte, cine vorbeşte, în ce fel şi în ce condiţii. în cadrul recunoaşterii se pune problema identificării unui anumit tip de informaţii; de pildă, recunoşterea cuvintelor rostite înseamnă determinarea mesajului (ce se vorbeşte) indiferent (sau ajutându-se) de variabilităţile introduse de vorbitor (cine), maniera de a vorbi (în ce fel) şi zgomotul ambiental (în ce condiţii). Putem particulariza afirmând că recunoaşterea vorbirii este procesul de transformare a semnalului acustic continuu produs de organul fonator uman într-o reprezentare discretă căreia i se poate ataşa o semnificaţie şi care, când e înţeleasă, poate fi folosită pentru a determina un răspuns.
Problemele majore pe care le ridică recunoaşterea automată sunt legate de
• discretizarea semnalului vocal care, din punctul nostru de vedere înseamnă segmentare;
• caracterul adecvat al răspunsului ce depinde de natura sarcinii de îndeplinit; modalitatea de prelucrare este irelevantă.
Proiectarea unui sistem de recunoaştere presupune câteva opţiuni fundamentale de abordare. Punctul de vedere adoptat poate viza prelucrarea unui semnal acustic ca oricare altul, poate ţine seama de mecanismul producerii vorbirii, poate simula recepţia senzorială, sau poate folsi modelul uman al percepţiei vorbirii.
Termenul de recunoaştere a vorbitorului desemnează orice aplicaţie de discriminare a persoanelor pe baza vocii acestora. Procedurile de recunoaştere se desfăşoară în două etape [4]:
• etapa de antrenare: colectarea de material vocal de la persoana care se doreşte a fi recunoscută;
• etapa de testare: compararea unui fragment de vorbire neidentificat cu datele provenite din antrenare şi luarea deciziei de recunoaştere.
Există două subclase de aplicaţii:
• verificarea vorbitorului îşi propune să determine dacă un fragment de semnal vocal aparţine sau nu unui anumit vorbitor [5, 6, 7, 8]. Există doi parametri care caracterizează performanţele sistemului: respingerea adevăratului vorbitor şi
acceptarea unui impostor. Considerând un set de N vorbitori, informaţia (în biţi) obţinută este
presupunând probabilitatea de verificare a priori egală cu 0.5;
■ identificarea vorbitorului are ca scop punerea în corespondenţă a unei voci necunoscute cu un vorbitor dintr-un set dat [9,10,11,12]. Pentru N vorbitori, informaţia (în biţi) obţinută este
considerând probabilitatea de identificare a priori egală pentru toţi vorbitorii.
Rezultă că, potenţial, un sistem automat de verificarea vorbitorului are performanţe mai bune.
O clasificare suplimentară a automatelor de recunoaştere are în vedere natura sarcinii de îndeplinit şi se reflectă în complexitatea sistemului [13]:
• sisteme de recunoaşterea vorbitorului dependente de text - textul utilizat în faza de antrenare este acelaşi cu cel de testare;
• sisteme independente de text - indiferent de materialul vocal avut la dispoziţie.
Setul de vorbitori vizat poate impune, de asemenea, o clasificare a automatelor:
• "set închis" - pentru procesul de identificare descris ca mai sus;
• "set deschis - în cazul identificării există posibilitatea ca vocea necunoscută să nu aparţină niciunuia dintre vorbitorii din setul dat, numărul de decizii posibile fiind în acest caz N + 1. Identificarea pe "set deschis" devine astfel o combinaţie a proceselor de verificare şi identificare.
2. Reprezentarea parametrică
Variabilităţile pronunţării pentru diverşi vorbitori, sau la un acelaşi vorbitor, la momente de timp diferite, constituie una dintre dificultăţile majore ale sarcinii de recunoaştre a vorbitorului. Deosebirile de vorbire depind de dialect, context, stil de exprimare, stare emoţională etc. Mai mult, în opinia noastră, aşa cum vom încerca să argumentăm mai departe, limba în care se vorbeşte impune deosebiri de abordare şi diferenţe ale performanţelor automatului [14].
Din acest motiv, alegerea judicioasă a caracteristicilor acustice care vor fi utilizate în procesul de recunoaştere este deosebit de importantă:
• să diferenţieze vorbitori diferiţi dar să fie tolerante pentru acelaşi vorbitor;
• să fie uşor măsurabile din semnalul vocal;
• să fie stabile în timp;
• să nu fie susceptibile de a fi contrafăcute de potenţiali impostori.
Având în vedere cerinţele formulate mai sus, am decis utilizarea parametrilor cepstrali.
Anumite abordări ale prelucrării semnalului vocal presupun adoptarea unor decizii fundamentale de dezvoltare a analizei: considerarea unui model de producere a vorbirii având ca prototip aparatul fonator uman, separarea efectelor sursei vorbirii de comportarea tractului vocal propriu-zis, o serie de aproximări care să facă analiza eficientă în condiţii normale de procesare [15]. Variaţia (lentă) în timp a formei tractului vocal este aproximată printr-o serie de secvenţe de durată suficient de mică pentru a presupune forma invariantă: este ceea ce se numeşte "analiza în timp scurt". Dacă, în plus, în aceste durate "scurte" de timp se presupune că tractul este caracterizat în mod esenţial de frecvenţele sale de rezonanţă, se ajunge la un model al cărui parametri se pot deduce prin rezolvarea unui sistem de ecuaţii liniare. Deşi aproximările avute în vedere par destul de restrictive, analiza prin predicţie liniară (LPC) dă rezultate deosebite pentru că semnalul vocal are o redundanţă deosebită; este motivul pentru care metoda ne permite să aproximăm un eşantion de semnal printr-o combinaţie liniară (deci este liniar predictibil) dintr-un număr de eşantioane precedente. Desigur, principiile în sine ale metodei nu sunt noi; ele au permis însă, în decursul ultimilor ani, evoluţia spre metode mai sofisticate [16,17].
Nici principiile analizei cepstrale (analiză care, aşa cum vom arăta, se poate baza pe rezultatele analizei LPC) nu sunt noi: se dezvoltă un mecanism care să permită decelarea mai amănunţită a influenţelor diverselor elemente ale organului fonator. O serie de presupuneri fundamentale de abordare se păstrează (modelarea producerii vorbirii în maniera aparatului fonator uman, analiza "în timp scurt"); dar separarea efectelor excitaţiei glotale, tractului vocal şi radiaţiei buzelor poate fi făcută într-o modalitate care ţine seama mai detaliat de fiecare efect în parte [18, 19].
în concluzie, presupunerile fundamentale care stau la baza parametrizării propuse sunt:
• efectele excitaţiei tractului vocal şi ale tractului propriu-zis pot fi separate;
• tractul vocal este invariant pe durate scurte de timp, ceea ce are drept rezultat obţinerea unui model descris de un sistem liniar ai cărui parametri variază lent în timp (constanţi "în timp scurt").
Fundamental pentru modul în care concepem abordarea analizei semnalului este asimilarea analizei cu parametrizarea semnalului şi, în consecinţă,
cu compresia sa. Alegerea parametrilor a avut în vedre şi considerente pragmatice:
• complexitatea prelucrării;
• gradul de compresie,
• tipul de aplicaţie,
• în ce măsură parametrii sunt semnificativi şi robuşti.
O primă variantă a schemei bloc care descrie funcţionarea sistemului de recunoaşterea vorbitorului este prezentată în fig. 1. Blocul de preprocesare presupune filtrarea şi achiziţia semnalului în condiţii normale pentru orice sistem de recunoaştere. în această secţiune vom descrie obţinerea cepstrului pornind de la analiza LPC, iar în secţiunea următoare vom descrie principiile cuantizării vectoriale şi deci procedura de recunoaştere propriu-zisă.
Fie semnalul vocal presupus a fi convoluţia unei excitaţii şi a funcţiei de transfer a tractului vocal:
s(t)=e(t)*v(t) (3) Analiza homomorfică care duce la obţinerea cepstului presupune aplicarea unui operator neliniar" H"
s(n)—^—^s(n)
în care s(n) va fi numit cepstrul complex asociat semnalului s(n). Prin definiţie
(4)
n
Astfel, cepstrul complex asociat semnalului devine S{n)=e(n)+ v(n)
(5)
(6)
ceea ce permite separarea componentelor printr-o "filtrare temporală" aplicată cepstrelor
H~'
(7)
s{n)-
->s{n}
->e(n)
->v(n)-
H~'
>v(n)
Obţinerea parametrilor cepstrali se poate realiza ţinând seama de câteva proprietăţi ale cepstrului.
340
	4>
	
mm ale	
	-O ce*
*	
o	
"g	
C	
Figura 1. Un sistem de recunoaştere a vorbitorului - schema de
Fie c(n) partea pară a cepstrului complex al semnalului
c(n)=[s(n)+s{-n)]/2 Secvenţa c(n) se numeşte cepstrul real al semnalului ^(n)
este o secvenţă cauzală - ca şi s(n); rezultă 0   pentru n<0
s(n)=c(n)-
341
(8)
(9)
1 pentru n-0
2 pentru n>0
Cum transformata "z" a unei secvenţe cauzale e determinată complet prin
partea reală a transformatei sale Fourier, rezultă
c(n) = ^-lln\s(eM}eJ"u> d(H
(10)
principiu
Vom prefera calculul coeficienţilor cepstrali din coeficienţi a,, ai analizei prin predicţie liniară (LPC) conform relaţiilor recursive:
c(l) = -a,
(11)
• a„ • c[i-n) i>u
i
n=l
Figura 2 prezintă evoluţia coeficienţilor cepstrali pentru o voce feminină şi una masculină.
Materialul vocal a fost achiziţionat folosind un microfon de calitate (considerat fără zgomot) şi a fost eşantionat cu frecvenţa de 8 kHz. Intervalele de analiză au lungimea de 240 ms, cu o suprapunere de 160 ms. Analiza prin predicţie liniară s-a efectuat cu ordinul de predicţie p = 10, iar pentru estimarea coeficienţilor de predicţie liniară s-a folosit algoritmul Levinson-Durbin. O primă observaţie este aceea că modulul amplitudinii coeficienţilor este descrescător cu ordinul acestora. Pentru coeficienţii de ordinul 5-10, evoluţia coeficienţilor cepstrali tinde să devină uniformă. Amplitudinea redusă a acestora anunţă existenţa unor dificultăţi de estimare în condiţii de zgomot.
99
'Ilf«
Iii 1
•index copsîru
Figura 2- Evoluţia în timp a coeficienţilor cepstrali ai
semnalului vocal
1
343
în scopul unei aprecieri calitative, fig. 3 prezintă, distribuţia coeficienţilor | cepstrali în planul c(1)-c(2), pentru aceiaşi doi vorbitori (masculin şi feminin). Se poate f; observa distribuţia diferită a principalilor coeficienţi cepstrali pentru cei doi vorbitori. Se f  remarcă o concentrare a coeficienţilor în anumite zone ale planlui c(1 )-c(2).
Voce masculină
o
c{1)
Voce feminina
c(1)
Figura 3. Reprezentarea coeficienţilor cepstrali în planul c(1) - c(2)
39
în fig. 4 este prezentată distribuţia parametrilor cepstrali corespunzători unui semnal vocal compus numai din vocalele limbii române. Ordinul analizei cepstrale este p = 12. Reprezentarea grafică s-a făcut numai în planul c(1) - c(2). Se observă faptul că vocalele sunt relativ uşor separabile în spaţiul cepstral, într-o configuraţie asemănătoare celei din spaţiul formantic. Această analiză oferă premize interesante şi pentru recunoaşterea vorbirii în limba română. | — :
345
Figura 4- Semnal compus din vocalei^:-77.----
• Parametru cepstrali corespunzători
Cuantizarea vectorială
Din punctul de vedere al sistemelor de recunoaştere a vorbitorului, o persoană produce în timpul vorbirii o secvenţă de vectori de parametri. Aceştia caracterizează atât vorbitorul cât şi cuvintele pronunţate. Pentru un interval de timp suficient de lung, ne aşteptăm ca datele achiziţionate să acopere spaţiul vectorial într-un mod care depinde mai mult de caracteristicile vorbitorului şi mai puţin de ceea ce a pronunţat. Se face pesupunerea că, având ia dispoziţie un volum suficient de date, se poate genera un model al vorbitorului care să fie utilizat într-un proces de recunoaştere [20, 21].
Principiul cuantizării vectoriale este aplicat în sensul compresiei unui volum mare de vectori acustico-fonetici, reprezentând material vocal pronunţat de către un vorbitor, într-un set restrâns de vectori denumit tabelă de coduri (sau de centroizi). în etapa de antrenare, partiţionarea spaţiului acoperit de vectorii spectrali este făcută astfel încât media distanţelor minime dintre fiecare vector cepstral şi cel mai apropiat centroid să fie minimizată. în etapa de testare, un set de vectori provenind de la un vorbitor necunoscut, este codat utilizând tabela de vectori corespunzătoare vorbitorului vizat. Distorsiunea totală medie este utilizată în decizia de recunoaştere [22].
Fie {Xn\ ansamblul de N versiuni cunoscute ale vectorului X .
Fie {G^} o partiţie a acestui ansamblu în K clase; o clasă Gk cuprinde
gk elemente, astfel ca
(12)
Notăm cu Xf^ cuvântul prototip ("centroid", "vector-cod") al unei clase Gk Distanţa medie între centroizi este
— 1
(13)
Distanţa medie între vectorii dintr-o aceeaşi clasă, parcurgând toate clasele este
(14)
17
346
Raportul = reprezintă calitatea partiţiei
Algoritmul utilizat pentru găsirea centroizilor este atunci următorul:
• dacă cei K centroizi sunt aleşi la întâmplare, clasele sunt constituite asociind fiecare vector X centroidului cel mai apropiat:
XneGk   dacă  D(xnfXţ))<D(xnfX^) Mi±k
• se iterează găsirea centroizilor căutând în fiecgre clasă k vectorul X^ care are distanţa faţă de vectorul cel mai depărtat al clasei minimă:
xfsXJf'   dacă  maxD(xf\x^) eminimă
m
• această procedură e iterată până când centroizii sunt stabilizaţi.
Prezentăm în fig. 5 un exemplu de cuantizare vectorială folosind algoritmul Linde-Buzo-Gray (LBG). Vectorii cuantizaţi sunt coeficienţii cepstrali de predicţie liniară. Pentru reprezentarea în plan s-a ales sistemul de coordonate c(1) - c(2). Dimensiunea tabelei de centroizi aleasă este M = 8. Se poate observa cum, în urma operaţiei de optimizare, centroizii tind să "acopere" întregul spaţiu ocupat de vectori. în mod evident, eroarea de cuantizare scade pe măsură ce dimensiunea tabelei de centroizi creşte.
Pe parcursul algoritmului se pot utiliza diverse strategii de divizare. De exemplu, dacă după o operaţie de divizare şi reclasificare, una dintre clase devine subpopulată sau chiar vidă, o alta va fi divizată la pasul următor, pentru a menţine constant numărul total de clase. Se pot folosi următoarele criterii de alegere a clasei care va fi divizată: clasa care posedă cel mai mare număr de elemente, clasa care prezintă distorsiunea totală cea mai mare, clasa care prezintă distorsiunea medie cea mai mare. Folosind această structură arborescentă, clasificarea unui vector se poate efectua prin asocieri succesive, printr-o parcurgere a claselor găsite pentru fiecare nivel de divizare. în aplicaţiile care necesită o acurateţe de clasificare ridicată, se preferă o metodă de clasificare prin căutare exhaustivă.
■
Figura sTEvi^alg^^
"•" - vectori cepstrali; * - centroizi
4. Rezultate obţinute
Un aspect important în proiectarea automatelor de recunoaştere a vorbitorului (eventual independent de text) îl reprezintă posibilitatea de evaluare a performanţelor acestora. Pentru a putea evalua un astfel de automat cu o precizie acceptabilă este nevoie de o bază de date corespunzătoare [23]. O astfel de bază de date trebuie să îndeplinească următoarele cerinţe:
• să cuprindă material vocal achiziţionat de la cât mai mulţi vorbitori (de preferat, de ordinul zecilor sau sutelor);
• să conţină, eventual, dialecte diferite;
• să conţină fraze cât mai variate;
• frazele să fie rostite de mai multe ori, la intervale de timp
• pentru evaluare în condiţii reale (de exemplu transmisie telefonică), materialul vocal trebuie să fie achiziţionat prin intermediul mai multor aparate telefonice, în decursul mai multor legături, de preferat la distanţe diferite [24, 25].
Proiectarea şi construirea unei astfel de baze de date este o sarcină
dificilă.
Am folosit mai multe baze de date: internaţionale, oarecum standard pentru procedurile de recunoaştere - TIMIT" şi "YOHO", precum şi o bază de date proprie, în română şi engleză - "DiSPPALL".
Baza de date "TIMIT". conţine eşantioane de voce provenind de la 630 de vorbitori, fiecare pronunţând 10 fraze. Experimentele descrise în lucrare au fost efectuate pe secţiunea TEST, care conţine 168 vorbitori. Cele 10 fraze sunt: două fraze de calibrare (SA), cinci fraze compacte din punct de vedere fonetic (SX) şi trei fraze variate contextual (SI). în experimente s-au folosit frazele SA şi SX în faza de antrenare şi frazele SI în cea de testare. Pentru evaluarea efectelor zgomotului telefonic în algoritmii de recunoaştere a vorbitorului, s-a folosit o variantă a bazei de date numită "NTIMIT". Aceasta conţine aceiaşi material vocal ca şi baza "TIMIT" cu deosebirea că acesta a fost transmis prin intermediul reţelei telefonice. Transmisia s-a făcut folosind un echipament de simulare a tractului vocal uman, în legături telefonice reale, la diferite distanţe.
Baza de date "YOHO" cuprinde fraze rostite de 138 de vorbitori (106 bărbaţi şi 32 femei), iar vocabularul folosit constă din numere de două cifre rostite în grupuri de câte trei. Pentru fiecare vorbitor am folosit 4 sesiuni de antrenare de câte 24 de enunţuri şi 10 sesiuni de verificare de câte 4 enunţuri.
Baza de date proprie "DiSPPALL" [26] cuprinde materialul vocal de la 26 de vorbitori (23 de bărbaţi şi 3 femei) cu vârsta ce variază de la 21 la 50 de ani. Fiecare vorbitor în parte s rostit 31 de fraze: 11 fraze echilibrate din punct de
vedere fonetic au fost folosite pentru antrenare şi 20 de fraze pentru verificare: 5 enunţuri de bază repetate de câte 4 ori. Frazele de verificare au fost înregistrate în două sesiuni diferite, 5 enunţuri de bază fiind repetate de două ori în fiecare sesiune. Prima sesiune de verificare a fost înregistrată în acelaşi timp cu sesiunea de antrenare, iar sesiunea a doua a fost înregistrată după două-trei săptămâni, înregistrările s-au făcut cu un microfon de tip "head-set" într-o cameră cu zgomot ambiental normal: spre deosebire de baza "YOHO", baza "DiSPPALL" conţine material vocal alterat de zgomot pentru a face condiţiile de test mai dificile şi mai apropiate de o situaţie reală de recunoaştere a vorbitorilor
în experimentele de verificare a vorbitorului, o frază de test este comparată cu referinţa vorbitorului a cărui identitate se doreşte verificată, calculându-se o distorsiune totală medie. Dacă aceasta este mai mică decât un prag dat, vorbitorul este considerat acceptat, altfel el este respins. Există două tipuri de erori asociate procesului de verificare: respingerea utilizatorului căruia îi aparţine referinţa (denumită eroare de tip  I) şi acceptarea unui impostor (eroare de tip II) [27]. Fiecare frază de test este comparată cu referinţele corespunzătoare tuturor vorbitorilor din baza de date aleasă pentru test. Pragurile de decizie nu sunt fixate a priori ci se determină distanţa medie totală pentru care eroarea de tip I este egală cu cea de tip II ("rata-erorii-egale'). Valoarea corespunzătoare a erorii este considerată rezultatul final al procesului de evaluare. în fig. 6 sunt prezentate rezultatele procesului de verificare a vorbitorului, folosind cuantizarea vectorială, utilizând baza de date "TEST/TIMIT". Ordinul de predicţie (şi implicit dimensiunea vectorilor cepstrali) este P -10 iar dimensiunea tabelei de centroizi, M =64 . Ca distanţă vectorială s-a folosit distanţa euclidiană ponderată.
d(va,vb) = -ljy£J(vaj-vbj)2
(17)
unde s] este varianta componentei j calculată pe întreg setul vectorilor de
antrenare. Ca metodă de cuantizare vectorială s-a folosit algoritmul LBG modificat.
Sunt evidente tendinţele contrare ale erorilor de tip I, respectiv II. Rata-erorii-egale pentru evaluarea de mai sus este 6.8%, corezpunzând unui prag de decizie egal cu 2.8. în funcţie de aplicaţia concretă, pragul de decizie se poate stabili a posteriori la o altă valoare, adecvată scopului propus. Spre exemplu, dacă se doreşte limitarea acceptării impostorilor la 2%, respingerea adevăraţilor utilizatori va fi de 19.7%. Reciproc, pentru o eroare de respingere a utilizatorilor reali de 2%, acceptarea impostorilor va fi de 12.9%.
350
h  ■  N< = 9--------------1_________________					>~—-	7" —■
8--------						
7 —-----						
			'/ "			
	—i---------,					
1-----------1						
						
	—v—					
		/	.......... i			
I 2			r" .....i i			
Distant medie totala
Figura 6. Eroarea de verificare a unui sistem de recunoaştere a vorbitorului utilizând cuantizarea vectorială
în experimentele de identificare a vorbitorului, fiecare frază de test provenind de la un vorbitor considerat necunoscut este comparată cu referinţele fiecărui vorbitor din baza de date aleasă pentru test. Referinţa asociată cu cea mai mică distorsiune totală medie faţă de fraza de test este considerată ca aparţinând vorbitorului identificat. în funcţie de corespondenţa dintre apartenenţa frazei de test şi a referinţei aceluiaşi vorbitor sau unor vorbitori diferiţi, se decide dacă rezultatul procesului de identificare este adevărat sau fals. Eroarea de identificare este calculată ca raportul dintre numărul de identificări incorecte şi numărul total de identificări [28, 29, 30].
351
5. Utilizarea frecvenţei fundamentale în recunoaşterea vorbitorului
Frecvenţa fundamentală poate fi utilizată ca parametru discriminator suplimentar în conjuncţie cu algoritmi de cuantizare vectorială a vectorilor cepstrali.
Frecvenţa fundamentală F0 sau perioada fundamentală T0 (cunoscută şi
sub numele de "pitch"), constituie un parametru important al vocii umane, care îşi găseşte utilizări practice în multe domenii ale procesării vorbirii. încercări de utilizare a frecvenţei fundamentale în procesul de recunoaştere a vorbitorului se cunosc încă de la începutul anilor 70, aceasta fiind pusă în corespondenţă directă cu prozodia. Majoritatea acestor experimente s-au desfăşurat utilizând sisteme de recunoaştere dependente de text şi metode de aliniere temporală. Sistemele de recunoaştere a vorbitorului independente de text bazate exclusiv pe frecvenţa fundamentală nu au dat rezultate satisfăcătoare.
Ideea prezentată în secţiunea de faţă este aceea de a folosi frecvenţa fundamentală ca un parametru discriminator suplimentar, în conjuncţie cu algoritmi de cuantizare vectorială a vectorilor cepstrali [31]. Justificarea teoretică a acestei abordări rezidă în primul rând în modelul predicţiei liniare aplicat semnalului vocal, care presupune, aşa cum am arătat o separare clară între sursa de semnal şi tractul vocal. De asemenea, am arătat în secţiunea 2 că analiza cepstrală folosită pentru extragerea vectorilor cepstrali este un proces de deconvoluţie, coeficienţii cepstrali obţinuţi caracterizând în mod exclusiv tractul vocal. Ca atare, utilizarea ca date de intrare în acelaşi sistem atât a vectorilor cepstrali cât şi a frecvenţei fundamentale nu reprezintă o abordare redundantă.
Cerinţele de bază ale unui algoritm de extragere a frecvenţei fundamentale sunt: acurateţea de estimare (evitarea armonicilor), robusteţea deciziei sonor/nesonor, insenzitivitatea la zgomot, volumul de calcule minim. Se cunosc numeroşi algoritmi de estimare a frecvenţei fundamentale (AMDF, Dubnowski, Rabiner, SIFT, etc), fiecare prezentând avantaje şi dezavantaje. Trebuie arătat faptul că, din cauza, în principal, comportării nestaţionare a semnalului vocal, niciunul din algoritmii cunoscuţi nu este considerat perfect. Cu alte cuvinte, se acceptă ideea existenţei erorilor atât în luarea decizei sonor/nesonor cât şi în obţinerea valorilor propriu-zise ale frecvenţei fundamentale. în experimentele prezentate mai jos s-a folosit algoritmul Rabiner, considerat ca fiind unul dintre cele mai robuste.
Ideea introdusă este aceea de a utiliza frecvenţa fundamentală în scopul unei clasificări grosiere a potenţialilor candidaţi, atât pentru sarcina de verificare a vorbitorului, cât şi pentru cea de identificare. în cazul verificării, scopul propus este acela de a reduce erorea de tip II, prin eliminarea vorbitorilor a căror frecvenţă fundamentală nu "corespunde" cu cea a vorbitorului de referinţă. în cazul sarcinii
352
de identificare, se doreşte reducerea numărului de candidaţi posibili, fără a afecta acurateţea de identificare. Aceasta poate conduce la o reducere majoră a volumului de calcule, dat fiind că estimarea frecvenţei fundamentale se face o singură dată pentru fiecare vorbitor şi este mai puţin consumatoare de timp decât clasificarea vectorială.
Având în vedere considerentele de mai sus, schema de principiu a sistemului de recunoaştere a vorbitorului modificat prin introducerea frecvenţei fundamentale ca parametru discriminator este prezentată în fig. 7.
Un aspect important în utilizarea frecvenţei fundamentale în aplicaţiile de recunoaştere a vorbitorului îl reprezintă alegerea formei de prelucrare a datelor furnizate de estimator. "Conturul de pitch", reprezentând evoluţia în timp a parametrului F0 , deşi utilizat în sisteme de recunoaştere a vorbitorului dependente
de text, conţine un volum de date dificil de utilizat în operaţii de discriminare. în consecinţă, s-a încercat o reducere a datelor la câţiva parametri statistici. Au fost investigate patru valori statistice derivate din conturul de pitch: valoarea medie, valoarea maximă, valoarea minimă şi dispersia (deviaţia standard). Pentru fiecare vorbitor, s-au Calculat aceste valori pe ansamblul materialului vocal disponibil. Ca parametru de discriminare a fost utilizat raportul valorilor statistice de mai sus
_ media F0 pentru antrenare
**Pt medie ~~ 7.    7 ~
media F0 pentru test
(18)
tratându-se în mod similar toate celelalte valori statistice (maximă, minimă, dispersie). Pentru a evalua utilitatea acestori parametri în procesul de discriminare, s-a determinat distribuţia fiecăruia atât pentru frazele pronunţate de aceiaşi vorbitori (intra-vorbitor) cât şi pentru toate combinaţiile de fraze pronunţate de vorbitori diferiţi (inter-vorbitor).
dacă
Modul de discriminare a vorbitorilor este următorul: fixându-se un prag 8,
(19)
vorbitorul este rejectat şi nu se execută clasificarea vectorială. în caz contrar, vorbitorul este considerat potenţial candidat şi urmează procesul de clasificare prin cuantizare vectorială.
353
«3
Ii
T
£ 73
*	«*
	o CL O
	
	
Calcul	1 a 40 CL
1
1 *
1
rr
Figura 7. O variantă a sistemului de recunoaştere a vorbitorului - schema de
principiu
354
355
Utilizând elementul de discriminare descris mai sus s-au obţinut îmbunătăţiri importante atât în procesul de verificare a vorbitorului cât şi în cel de identificare. Rezultatele obţinute pentru 14 coeficienţi cepstrali şi 128 centroizi sunt prezentate în tabelul 1.
Tabelul 1
e	Neutilizat	0.30	0.25	0.20	0.15	0.10
EER la verificare (%)	6.3	6.1	5.3	3.9	2.7	6.5
Eroarea de identificare (%)	6.2	6.2	5.9	5.6	5.5	9.4
Candidaţi identificare (%)	100	57.2	49.1	43.4	32.3	26.5
Cele mai bune rezultate s-au obţinut pentru 8 = 0.15, caz în care eroarea de verificare obţinută este de aproape 2.5 ori mai mică decât în cazul folosirii doar a clasificării vectoriale. în cazul identificării, deşi îmbunătăţirile de acurateţe nu sunt impresionante, cel mai important rezultat îl reprezintă'reducerea numărului candidaţilor, cu peste 65%. Pentru valori ale lui 8 mai mici decât 0.10, se observă o degradare abruptă a performanţelor de verificare şi identificare, ceea ce indică faptul ca variaţia intra-vorbitor a frecvenţei fundamentale medii este mai mare decât acest prag.
6. Concluzii
Lucrarea de faţă se ocupă de un aspect bine delimitat al tehnologiei vorbirii şi anume recunoaşterea vorbitorului ca parte integrantă a recunoaşterii automate şi mai departe a dialogului om-maşină. Tipurile de probleme care apar sunt similare pentru întreg domeniul recunoaşterii automate.
Am precizat presupunerile fundamentale care au stat la baza analizei propuse (în special opţiunea de a aborda proiectarea ţinând seama de mecanismul producerii vorbirii); insistăm asupra faptului că aceste abordări nu sunt obligatorii, ci constituie alternative care au avantaje şi dezavantaje.
S-au trecut în revistă etapele esenţiale ale procedurilor de recunoaşterea vorbitorului: achiziţia semnalului vocal, prelucrarea acustico-fonetică, recunoaşterea propriu-zisă.
Am subliniat importanţa parametrizării semnalului vocal. Analiza cepstrală care a fost aleasă pentru reprezentarea parametrică a semnalului vocal este legată de opţiunile fundamentale de analiză: separarea efectelor sursei de semnal şi ale tractului, separarea efectelor diverselor porţiuni din tractul vocal, analiza "în timp scurt"
Am utilizat cuantizarea vectorială ca metodă de recunoaştere. Sunt prezentate o parte dintre rezultatele experimentelor realizate. Subliniem importanţa
utilizării unor baze de date specifice şi, în consecinţă, am acordat spaţiu prezentării acestora.
O contribuţie pe care o considerăm interesantă la îmbunătăţirea performanţelor recunoaşterii vorbitorului o constituie utilizarea frecvenţei fundamentale ca parametru discriminator grosier. Sunt prezentate o serie de rezultate care probează în ce mod anumite performanţe sunt superioare abordării "clasice".
O parte dintre rezultatele obţinute sunt susceptibile de a fi generalizate pentru recunoaşterea vorbirii în limba romană [32] (de pildă, coeficienţii cepstrali pentru foneme ale limbii române). De asemenea, utilizarea frecvenţei fundamentale apropie recunoaşterea vorbitorului de o anumită dependenţă de limba în care sunt rostite frazele de antrenare şi de test.
Referinţe bibliografice
[ 1] M.Drăgănescu, C.Burileanu, coordonatori (1986). Analiza şi sinteza semnalului
vocal - Editura Academiei Române, Bucureşti. [ 2] M.Dragănescu, G.Stefan, C.Burileanu (1991). Electronica funcţională - voi. I,
Editura tehnică, Bucureşti, ISBN 973-31-0290-3.
[ 3] G. Yu and H. Gish (1993). Identification of Speakers Engaged in Dialog, Proc. of IEEE Int. Conf. Acoust, Speech, Signal Processing, Voi.II, p. 383-386.
[ 4] Sadaoki Furui (1994). An Overview of Speaker Recognition Technology, Proc. of ESCA Workshop on Automatic Speaker Recognition, Identification and Verification, p. 1-9.
[ 5] Y. Bennani, P. Gallinari (1994). Connectionist Approaches for Automatic Speaker Verification - ESCA Workshop on Speaker Recognition, Identification and Verification, p. 95-103.
• [ 6] M. Hanah s.a. (1994). The Role of the Reference Template in Speaker Verification - ESCA Workshop on Speaker Recognition, Identification and Verification, p. 181-184.
[ 7] Chi-Shi Liu; Hsiao-Chuan Wang; Lee, C. (1996) Speaker Verification Using Normalized Log-Likelihood Score, IEEE Tr. on Speech and Audio Processing, Voi. 4. Issue 1, p. 56
[ 8] S. Nakagawa, K. P. Markov (1997). Speaker Verification Using Frame and Utterance Level Likelihood Normalization, Proc. of SPCHL97 ,Vol. 2, p. 1087.
[ 9] K.T. Assaleh, R.J. Mammone (1994). New LP - Derived Features for Speaker Identification - IEEE Tr.on SAP, vol.2, no.4, p. 630-638.
356
[10] H. Gish, M. Schmidt (1994). Text-lndependent Speker Identification - IEEE Signal Proc. Mag., vol.11, nr.4, p. 18-32.
[11] Q. Lin s.a. (1994). Microphon Array Speaker Identification - IEEE tr. on ASSP, vol.2. nr.4, p. 622-629.
[12] D. Reynolds (1994). Experimental Evaluation of Feâtures for Robust Speaker Identification - IEEE Tr. on ASP, vol.2, nr.4, p. 639-643.
[13] F. Bimbot, G. Chollet, A. Paoloni (1994). Assessement Methodology for Speaker Identification and Verification - ESCA Workshop on Speaker Recognition, Identification and Verification, p. 75-83.
[14] M. Abe, S. Sagayama (1990). Statistical Study on Voice Individuality Conservation Across Different Languages - Proc. of ICSLP, p. 157-160.
[15] Y. Gong, J.P. Haton (1994). Non-Linear Interpolation Methods for Speaker Recognition - ESCA Workshop on Speaker Recognition, Identification and Verification, p .23-26.
[16] J. He s.a. (1995). On the Use of Feâtures from Prediction Rersidual Signal in Speaker Identification Proc. of EUROSPEECH95, p. 313-316.
[17] D.Naik s.a. (1994). Robust Speaker Identification Using Pole Filtering - ESCA Workshop on Speaker Recognition, Identification and Verification, p. 225-228.
[18] J. Openshaw, J. Masson (1994). Optimal Noise-Masking of Cepstral Feâtures for Robust Speaker Identification - ESCA Workshop on Speaker Recognition, Identification and Verification, p. 231-234.
[19] J. Thompson, J.S. Masson (1993). Within Class Optimization of Cepstra for Speaker Recognition, Proc. of EUROSPEECH, p. 165-168.
[20] K. Sonmez, L. Heck, M. Weintraub (2000). Multiple Speaker Tracking and Detection: Handset Normalization and Duration Scoring, Digital Signal Processing, 10(1/2/3), p. 133-143.
[21] T. Isobe, J. Takahashi (1999). A New Cohort Normalization Using Local Acoustic Information for Speaker Verification, Proc. IEEE Int. Conf. Acoust. Speech, Signal Processing, 26.8, voi. 2, p. 841-844.
[22] X. Zhu s.a (1994). Text-lndependent Speaker Recognition Using VQ, Mixture Gaussian VQ and Ergodic HMMs - ESCA Workshop on Speaker Recognition, Identification and Verification, p. 55-58.
[23] L. Boves s.a. (1994). Design and Recording of Large Data-Bases for Use in Speaker Recognition and Identification - ESCA Workshop on Speaker Recognition, Identification and Verification, p. 43-46.
[24] A. Federico (1995). Parametric Speaker Recognition Over Large Population of Telephonic Voices - Proc. of EUROSPEECH95, p. 329-332.
1
357
[25] J.L. Gauvain s.a (1995). Experiments with Speker Verification over the
Telephone - Proc. of EUROSPEECH95, p. 651-654. [26] C. Burileanu, D. Burileanu s.a.(2000). Cohort Normalisation Methods for Speaker Verification - Proc. of International Conference "Communications 2000", Bucharest, România, p.118-121. [27] M. Wagner s.a. (1994). Analysis of Type-ll Errors for VQ-Distortion Based Speaker  Verification   -   ESCA  Workshop  on   Speaker Recognition, Identification and Verification, p. 83-86. [28] J.F. Bonastre (1993). Automaic Spaker Recognition and Analytic Process -
Proc. of EUROSPEECH93,    p. 441-444. [29] M. Sugiyama s.a. (1993). Speech Segmentation, Clustering Based on
Speaker Feâtures - Proc. of ICASSP, p.395-398. [30] H. Beigi, S. Maes and J. Sorensen (1998.) A Distance Measure Between Collections of Distributions and Its Application to Speaker Recognition, Proc. of ICASSP, Voi. 2, p. 753-756. [31] L.E. Bojan, C. Burileanu s.a. (1996). Enhancements in Automatic Speaker Verification and Identification for Large Data-bases Using Pitch Contour Analysis - Proc. of ICSPAT96, Boston, SUA, p. 1796-1800 [32] C. Burileanu, L.E. Bojan s.a. (1993). A Representation for Recognition of Isolated Words Spoken in the Romanian Language - Proc. of ICSPAT93, Santa Clara, USA, p. 1478-1484.
359
Prelucrarea iniţială a textului de intrare în cadrul unui sistem de sinteză a vorbirii pornind de la text în limba română
Dragoş BURILEANU
Laboratorul de "Tehnologia vorbirii şi prelucrarea digitală a semnalelor", Facultatea de Electronică şi Telecomunicaţii, Universitatea "POLITEHNICA" Bucureşti Bdul luliu Maniu 1-3, Sector 6, 77202 Bucureşti bdragos@mESsnet.pub.ro
1. Introducere
Limbajul reprezintă modalitatea de exprimare a ideilor prin intermediul unui ansamblu de semne, fie grafic, fie prin gesturi, sau sunete, un astfel de sistem structurat fiind specific doar oamenilor. Fără îndoiala, vorbirea este una din principalele sale componente; ea este cea mai veche modalitate de comunicare între oameni şi este şi astăzi cea mai răspândită. Este deci uşor de înţeles faptul că vorbirea a fost studiată intens şi s-a încercat adesea să fie prelucrată într-un mod automat. Pentru mulţi ingineri şi specialişti din domeniu, posibilitatea de a conversa liber cu o maşină reprezintă de fapt o adevărată provocare pentru înţelegerea cât mai deplină a proceselor de producere şi percepţie implicate în comunicarea prin voce între oameni. Ceea ce este însa şi mai important este faptul ca interfeţele de comunicare prin voce devin tot mai mult o necesitate. în viitorul apropiat, sistemele şi reţelele interactive vor oferi un acces simplu si ieftin la cantităţi mari de informaţie si servicii, ceea ce va afecta fundamental viaţa noastră zilnică.
Deşi principiile de bază ale producerii şi recepţionării vorbirii au început să fie studiate încă de la sfârşitul secolului al XVIII-lea, când s-au înregistrat primele cercetări în domeniul dezvoltării sintetizoarelor mecanice de sunete asemănătoare vocii umane, tehnologiile de prelucrare a vorbirii au obţinut rezultate semnificative doar în ultimele decenii (fiind denumite în sens larg tehnici de analiză şi sinteză a semnalului vocal). Aceste rezultate au fost posibile datorită progreselor făcute în domeniile acusticii şi lingvisticii, modelării matematice a producerii şi percepţiei vorbirii, prelucrării semnalelor şi tehnologiilor VLSI. Putem evidenţia în acest sens dezvoltarea procesoarelor numerice de semnal pe un singur chip, realizarea de
'if!
fl îl
iii
360
capsule de memorie mai mari şi mai ieftine, apariţia unor algoritmi îmbunătăţiţi pentru prelucrare de semnal, iar în domeniul comunicaţiilor crearea de standarde globale pentru transmisie, compresie de semnal şi protocoale de comunicaţie.
Prin urmare, putem aprecia că cercetările actuale în domeniul prelucrării vorbirii au ca scop larg îmbunătăţirea calităţii, securităţii şi costului comunicaţiilor şi a accesului uman la informaţii. Pe de o parte, este de aşteptat în viitorul apropiat o extindere importantă a serviciilor integrate de voce, poştă electronică, FAX, paging şi transmisiuni de date pe canale fără fir. Pe de altă parte însă, comunicarea verbală între om şi maşini, în ambele sensuri, tinde deja să devină o realitate, fiind vizibilă tendinţa actuală de a apropia caracteristicile maşinii de cele ale utilizatorului uman.
în acest ultim sens, trebuie observat faptul că tendinţa menţionată anterior este absolut firească. Filozoful grec Aristotel (384 - 322 î.C, fondator al logicii formale), afirma: "Raţiunea de a fi a oricărui lucru constă în funcţia sa". Ori este evident faptul că o interfaţă de dialog prin voce reprezintă o modalitate ideală de comunicare cu maşina, vorbirea fiind cea mai naturală, flexibilă, eficientă şi economică modalitate de comunicare utilizată de oameni.
Aceste idei legate de posibilitatea comunicării prin voce între om şi maşina nu sunt noi; totuşi, doar în ultimii ani a început să prindă contur conceptul ce a căpătat denumirea de "dialog om-maşină", iar tehnologia necesară implementării acestui concept a părăsit deja laboratoarele şi a pătruns în lumea reală, într-o gamă largă de aplicaţii.
Pentru a realiza un mod de comunicare cât mai natural şi pentru a permite o utilizare cât mai largă, calculatorul trebuie să înţeleagă şi să producă singur vorbirea; acesta este motivul principal pentru care recunoaşterea şi sinteza vorbirii au devenit în ultimii ani tehnologii de un interes special şi constituie subiecte pentru cercetări intense şi aprofundate. Ambele tehnologii prelucrează vorbirea în primul rând sub aspectul conţinutului informaţional: recunoaşterea transformă vocea omului în text ce poate fi folosit literal (de exemplu pentru dictare), sau o interpretează sub forma unor comenzi de control pentru diverse aplicaţii, iar sinteza permite generarea limbajului vorbit pornind de la text sau de la anumite concepte.
Cu toate că s-au făcut paşi importanţi în aceste domenii, rezultatele sunt încă departe de aşteptări. Sarcinile enunţate iniţial s-au dovedit în timp a fi deosebit de dificile, în primul rând datorită complexităţii semnalului vocal ca şi a dificultăţilor legate de prelucrarea acestuia, dificultăţi legate fie de recunoaşterea conţinutului său informaţional (semnalul vocal depinzând puternic de vorbitor şi de condiţiile în care acesta rosteşte un mesaj), fie de producerea sa, fie de transmiterea acestui semnal la distanţă [1].
II
361
în acest context, producerea vorbirii artificiale şi în special conversia text -voce, care constituie obiectul principal al lucrării de faţă, este astăzi un obiectiv de bază al domeniului prelucrării vorbirii şi subiect al unor cercetări intense. Un sistem de sinteză pornind de la text (TTS - "Text-to-Speech") poate oferi o gamă variată de aplicaţii, de la accesul la poşta electronică şi diferite tipuri de baze de date, la pronunţarea unui text pentru persoane cu handicap vizual.
Este important de observat faptul că tehnologia de răspuns prin voce prezintă o serie de avantaje fundamentale pentru transmiterea informaţiei:
• oricine poate înţelege un mesaj, fără antrenare sau concentrare deosebită;
• mesajul poate fi recepţionat chiar dacă cel ce ascultă este implicat în alte activităţi, cum ar fi mersul, manipularea unor obiecte, sau citirea altor informaţii;
• reţeaua telefonică convenţională poate fi utilizată pentru accesul rapid la distanţă la o bază de informaţii;
• această formă de comunicare este mai economică decât cea tradiţională prin mesaje scrise.
Toţi aceşti factori precum şi numeroasele aplicaţii cerute de industrie au creat premisele unor cercetări aprofundate, obţinându-se astfel în multe ţări sisteme comerciale care pot produce vorbire sintetică pornind de la text, cu o inteligibilitate acceptabilă.
într-adevăr, scopul principal al celor mai multe sisteme de sinteză existente este de a produce o vorbire inteligibilă. Din acest punct de vedere, sinteza pare a fi de mai multă vreme o tehnologie "stabilă", ieftină şi uşor de implementat; se spune chiar, uneori, că acest domeniu este în prezent suficient de bine dezvoltat, iar problemele rămase sunt minore din punct de vedere ştiinţific. Dacă însă scopul este sinteza în timp real, pornind de la un vocabular nelimitat de cuvinte şi fără restricţii asupra textului, iar vorbirea să fie nu numai inteligibilă, ci şi la fel de naturală ca cea umană, atunci se constată că performanţele actuale sunt departe de a fi satisfăcătoare. Rămân încă multe probleme importante de rezolvat: extinderea vocabularului oferit, înlăturarea restricţiilor impuse textului în privinţa unor caractere speciale, îmbunătăţirea caracteristicilor de prozodie, posibilitatea de modificare a ritmului şi stilului vorbirii sintetizate, sau elaborarea unor sisteme de sinteză în mai multe limbi. Aceste sarcini se dovedesc a fi deosebit de dificile şi cer, evident, eforturi interdisciplinare susţinute [2].
362
363
2. Sinteza automată a vorbirii
Etimologic, cuvântul "sinteză" provine din limba greacă şi semnifică îmbinarea mai multor elemente diferite într-un tot.
în ceea ce priveşte sinteza vorbirii, nu există o definiţie precisă şi unanim acceptată de către specialiştii în tehnologia vorbirii. Acest termen a avut în decursul timpului mai multe accepţiuni, majoritatea depinzând de nivelul tehnologic al momentului şi de elementele constitutive ale semnalului vocal care au fost folosite pentru sinteză. De exemplu, primele circuite integrate care permiteau simpla restituire a unui mesaj vocal înregistrat şi stocat digital au purtat denumirea de "sintetizoare vocale", fie că se făcea sau nu o compresie a semnalului. Este evident că în acest caz nu se poate vorbi de sinteză, din moment ce textul este fix şi astfel de sisteme nu pot rosti decât mesaje preînregistrate; chiar dacă vocea umană este comprimată cu ajutorul unui algoritm, nu este cu adevărat "sintetică", ci poate fi numită mai curând o "înregistrare cu număr redus de biţi".
Aceeaşi situaţie este în cazul sintezei la recepţie a unor mesaje transmise pe canale de comunicaţie standard (caracteristică sistemelor de tip "vocoder"), care este de obicei considerată ca făcând parte din domeniul codării vorbirii şi cuprinde tehnici de reducere a debitului semnalului vocal pentru transmisie; cu alte cuvinte, şi acest tip de sinteză, care reface acelaşi mesaj analizat la emisie, deci nu generează fraze noi, nu este tratat ca o sinteză automată propriu-zisă.
O categorie distinctă de sinteză vocală este aceea care implică sisteme ce concatenează cuvinte sau fraze preînregistrate, dar generează fraze noi, acestea nefiind niciodată pronunţate ca atare; astfel de sisteme cer utilizarea unor reguli lingvistice mai mult sau mai puţin complicate pentru a funcţiona corespunzător.
în sfârşit, o categorie specială o reprezintă sinteza vorbirii pornind de la text; aceasta reprezintă, în esenţă, transformarea unui text oarecare, scris într-un anumit limbaj, în semnal vocal. Trebuie remarcat faptul că în prezent, în multe lucrări ştiinţifice, acest tip de sinteză este sinonim chiar conceptului de sinteză automată a vorbirii.
Analizând exemplele de mai sus, putem defini trei noţiuni generale [3], pe care le vom utiliza pe parcursul lucrării de faţă:
Definiţia 2.1 Sinteza automată a vorbirii este "tehnologia integrată care simulează procesul uman de generare a vorbirii, mergând de la sisteme simple ce pot genera automat fraze noi şi cuprind un formalism lingvistic minimal şi până la sisteme care transformă în vorbire reprezentări simbolice sau lingvistice ale limbajului".
Definiţia 2.2 Un sistem de sinteză pornind de la text este "un sistem automat care poate produce vorbirea plecând de la un text scris, prin intermediul unei reprezentări fonetice a mesajului".
Definiţia 2.3 Sintetizorul vocal este "etajul unui sistem de sinteză automată a vorbirii care realizează conversia finală în semnal vocal, pornind de obicei de la o reprezentare parametrică a unor segmente acustice fundamentale".
3. Sinteza vorbirii pornind de la text
Pentru a înţelege mai bine dificultatea sarcinii unui sistem de sinteză pornind de la text, considerăm că este util să punem în evidenţă mai întâi modul (fiziologic) în care o persoană citeşte cu voce tare un text. Imaginea textului este sesizată de neuronii sistemului vizual, transmisă creierului sub forma unor stimuli electrici, aici fiind prelucrată pentru a putea permite comanda neuronilor responsabili de corecta activare a plămânilor^ coardelor vocale şi organelor articulatorii. în acest fel se produce vorbirea, ea fiind permanent monitorizată de creier (în special prin intermediul organelor auditive), în scopul ajustării configuraţiei tractului vocal în timp real.
Desigur, cunoaştem încă prea puţin despre organizarea de ansamblu a sistemului nervos uman, care este capabil de această activitate complexă; putem propune totuşi următorul model funcţional prin care este prelucrată informaţia optică şi apoi este dată comanda de generare a vorbirii:
• Atunci când citim un text, efectuăm practic o sarcină de recunoaştere de caractere, ignorând, parţial inconştient, anumite erori de redactare a cuvintelor (caractere lipsă sau înlocuite cu altele) şi decodificând mai degrabă cuvântul ca un întreg; are loc un proces de inferenţă a informaţiei dintr-un context posibil incomplet. De asemenea, recunoaştem cu uşurinţă caractere speciale sau abrevieri.
• Considerând fonemele ca fiind cele mai mici elemente sonore care permit diferenţierea între ele a cuvintelor, este evident că secvenţa fonemică corespunzătoare unui cuvânt diferă de şirul de caractere grafice din care este compus cuvântul; creierul trebuie sa facă prin urmare o transcriere fonetică pornind de la litere, această operaţie practic instinctivă permiţând pronunţia unui număr nelimitat de cuvinte.
• în cele mai multe situaţii, suntem capabili să începem pronunţia unei fraze mult înainte de terminarea ei; cu alte cuvinte, putem face o stucturare sintactică, descompunând fiecare propoziţie în grupuri de cuvinte şi asociindu-le intonaţia corespunzătoare. Şi acest proces este practic inconştient, fiind bazat pe educaţie şi experienţă.
• în sfârşit, putem discrimina cu uşurinţă cuvinte ce se scriu asemănător dar se pronunţă diferit, după înţelesul semantic, fapt posibil datorită aceleiaşi capacităţi de deducţie a creierului de care am vorbit mai sus.
364
Concluzia este simplă: pe baza experienţei lingvistice căpătate în urma educaţiei, o persoană familiară cu limbajul în care este scris un text depăşeşte imediat paşii descrişi anterior şi poate cu uşurinţă să citească cu voce tare textul scris, în primul rând pentru că înţelege ceea ce citeşte.
Având în vedere consideraţiile expuse anterior, devine evident faptul că o maşină care trebuie să pronunţe un text scris nu va putea adopta o schemă de prelucrare atât de complicată cum este cea care caracterizează acţiunea citirii cu voce tare a unui text de către o persoană. Sunetele vorbirii sunt inerent guvernate de ecuaţii diferenţiale ale mecanicii fluidelor, aplicate într-un context nestaţionar, deoarece presiunea aerului ia nivelul plămânilor, tensiunea glotală, ca şi configuraţiile tractului vocal şi nazal, evoluează în timp. Toate acestea surit controlate de creierul uman, care beneficiază de avantajul puterii sale de prelucrare paralelă pentru extragerea esenţei textului citit: înţelesul. Chiar şi la nivelul la care a ajuns ştiinţa astăzi (cercetări intense în domeniile sintezei articulatorii, reţelelor neuronale artificiale şi prelucrării limbajului natural), construirea unui sistem de sinteză pornind de la text cu un model atât de complex rămâne practic nerealizabilă; chiar dacă, să spunem, s-ar ajunge foarte aproape de aceste cerinţe, sistemul rezultat nu ar fi de loc compatibil cu criteriile economice normale.
Figura 1 introduce o diagramă funcţională foarte generală a unui sistem TTS, bazată pe observaţiile anterioare.
Text
	Formalism lingvistic Structurare sintactică şi semantică Inferenţe logice		
		r	
	Modele m Algo Tehnici de sii	atematice ritmi iteză acustică	
Modul de prelucrare a limbajului natural
Modul de prelucrare a semnalelor
365
Ca şi pentru un cititor uman, schema cuprinde un modul de prelucrare a limbajului natural, capabil să producă o transcriere fonetică a textului citit, împreună cu informaţii despre intonaţie, accente, durate şi de asemenea un modul de prelucrare a semnalelor, care transformă informaţia simbolică primită în vorbire sintetică, pe baza unor tehnici de sinteză adecvate şi a unor structuri stocate în urma unei analize preliminare. Etapele de bază ale sintezei pornind de la text pot fi astfel descrise printr-un număr de transformări succesive ce trebuie aplicate asupra şirului de caractere ce reprezintă textul de intrare; scopul este de a se obţine o vorbire de calitate, într-o limbă oarecare, fără constrângeri asupra textului introdus.
Trebuie menţionat faptul că formalismul descris poate "sări" uneori peste anumiţi paşi, dacă se utilizează în mod adecvat cunoaşterea lingvistică şi matematică; acest lucru se întâmplă atunci când punem anumite restricţii asupra textului ce trebuie pronunţat, sau impunem vorbirii sintetizate o inteligibilitate şi o naturaleţe moderate. Cu alte cuvinte, proiectarea sistemului TTS se poate simplifica dacă se impun sistemului sarcini precise, corespunzătoare unor aplicaţii concrete.
Colectivul nostru de cercetare a început acum câţiva ani dezvoltarea unui sistem complet TTS în limba română, bazat pe concatenare de difoneme. Arhitectura acestui sistem este prezentată în Figura 2. Sistemul cuprinde o parte importantă de prelucrare lingvistică şi un modul de generare a semnalului de vorbire având la bază un algoritm de tip PSOLA [4]. După realizarea unei prime variante a sistemului, se depun în continuare eforturi pentru creşterea naturaleţii vorbirii sintetizate, prin îmbunătăţirea performanţelor la diferite nivele de prelucrare.
Modulul de prelucrare a limbajului într-un sistem TTS are ca sarcină transformarea textului de intrare într-o reprezentare fonetică şi prozodică, care trebuie să descrie cât mai fidel posibil pronunţia sa. Acest lucru poate fi realizat parcurgând mai multe etape succesive, puse în evidenţă şi în figura anterioară. Vom discuta în cele ce urmează modalităţile de rezolvare a părţii de prelucrare iniţială (preprocesare) a textului în cadrul sistemului nostru de sinteză în limba română.
V Vorbire
Figura 1. Diagramă funcţională pentru un sistem TTS
366
367
Reguli de normalizare
Text
Preprocesare lingvistică
Dicţionar de conversii în format lexical
Analiză morfo-sintactică
Dicţionar de excepţii
T
Conversie litere - foneme
	Analiză	
	prozodică	
Reguli prozodice
Transcriere fonetică şi markeri prozodici
i
Algoritm de concatenare difoneme
Bază de segmente acustice
Sintetizor vocal
A	
Criterii de selecţie ^-—\_/	
Vorbire
Figura 2. Arhitectura sistemului TTS în limba română
4. Preprocesarea textului de intrare în cadrul sistemului TTS îi limba română
in
4.1 Probleme generale
«ktpm* d,ntr? dificu3ile mai°re ale sistemelor TTS constă în faptul că aceste sisteme trebuie sa poată prelucra practic orice text, plecând de la propoziţii simple
izolate şi mergând până la paragrafe complexe, care pot cuprinde un număr mare de propoziţii, cu posibile structuri negramaticale şi simboluri speciale. Ca atare, partea de preprocesare lingvistică a textului are un rol extrem de important, deoarece detectarea corectă şi interpretarea şirurilor de caractere de intrare influenţează acurateţea întregului sistem de sinteză şi contribuie la conversia unui text fără restricţii în vorbire sintetică.
Uzual, un text scris se prezintă sub forma unei secvenţe de caractere ASCII; el este alcătuit din cuvinte compuse cu ajutorul literelor alfabetului, dar şi din alte tipuri de caractere: spaţii albe, semne de punctuaţie, şiruri de numere, sau alte simboluri speciale (de exemplu operatori matematici). Textul poate conţine numerale (12, 12.450, 1,245), abrevieri (prof., dr, ing.), sau acronime (IBM, S.R.L., TTS). Aceste secvenţe sunt de obicei "anormale" din punct de vedere lingvistic faţă de majoritatea cuvintelor din text şi trebuie mai întâi transformate într-un format ce poate fi recunoscut de partea de analiză lingvistică. Această sarcină revine modulului de preprocesare, care trebuie de asemenea să realizeze o segmentare a textului de intrare (detectarea cuvintelor şi a sfârşitului frazelor) şi o prelucrare a semnelor de punctuaţie şi a simbolurilor speciale [5, 6, 7, 8].
La prima vedere, preprocesarea unui text pentru un sistem TTS poate părea banală; în realitate însă, lucrurile sunt destul de complicate. Spre exemplu, nu este totdeauna posibilă determinarea marginilor unei fraze pe baza semnelor de punctuaţie. Astfel, punctul ( . ) poate apare şi la sfârşitul unei fraze, dar şi în multe alte situaţii, ca de exemplu în abrevieri (ing.), acronime (S.R.L.), indicaţia că se omite un anumit fragment de text (...), sau numerale (12.450 - douăsprezece mii patru sute cincizeci), situaţii care trebuie diferenţiate prin procedee adecvate [9]. De asemenea, cratima creează dificultăţi în operaţia de segmentare; ea poate fi folosită pentru despărţirea în silabe, pentru scrierea cuvintelor compuse, pentru delimitarea unui nou paragraf, sau în enumerări.
O sarcină dificilă este şi conversia anumitor secvenţe de simboluri în cuvinte care să poată fi analizate lingvistic. Dacă unele abrevieri uzuale pot fi "expandate" imediat, cu ajutorul unui tabel de echivalenţe, există multe situaţii în care secvenţe de simboluri care nu se pot distinge pe baza ortografierii lor, cer tipuri diferite de conversii; de exemplu, numărul format din şapte cifre 6123456 poate reprezenta un număr întreg sau un număr de telefon şi va trebui citit diferit în cele două situaţii. în general, prezenţa şirurilor de numere în text ridică numeroase dificultăţi, deoarece ele pot apare în diferite contexte: ore, date, numere de telefon, expresii aritmetice etc.
Trebuie observat că aceste ambiguităţi create de natura multifuncţională a semnelor de punctuaţie sau de modul diferit de citire a aceloraşi secvenţe de simboluri, pot avea implicaţii majore asupra acurateţii întregului proces de prelucrare lingvistică şi în final asupra pronunţiei corecte a textului de către sistemul de sinteză.
76
368
Evident, numărul secvenţelor de caractere neuzuale dintr-un text ce se doreşte a fi transformat în vorbire depinde mult de tipul şi subiectul textului. Spre exemplu, textele literare dintr-un volum de proză sau comentariile politice dintr-un • ziar au mult mai puţine situaţii dificile decât comentariile economice, sportive, sau prezentările de spectacole. în ultimele situaţii menţionate, construcţiile neuzuale, criptice sau chiar negramaticale, abrevierile uneori ambigui, pot fi atât de numeroase, încât se poate spune chiar că astfel de texte nici nu sunt potrivite pentru o sinteză automată pornind de la text; singura soluţie rezonabilă este, probabil, o reeditare a lor pentru a le face mai accesibile unui sistem de sinteză.
Problema enunţată anterior este de fapt mult mai generală. Părerea autorului acestei lucrări este că în orice aplicaţie TTS trebuie făcut un compromis între calitatea vorbirii sintetizate, dimensiunile vocabularului şi complexitatea sistemului de sinteză. Cu alte cuvinte, nu trebuie încercat cu orice preţ, prin orice mijloace, obţinerea unei vorbiri "perfecte", cel puţin în acest moment.
4.2 Algoritm de preprocesare a textului
Pentru preprocesarea textului de intrare în cadrul sistemului TTS proiectat, am propus un set de definiţii, reguli şi proceduri, bazate pe o analiză detaliată a situaţiilor cele mai întâlnite în limba română.
Definiţiile propuse sunt prezentate în continuare.
Definiţia 4.1 Vom denumi expresii "secvenţele de caractere care cuprind una sau mai multe din următoarele categorii: secvenţe de litere dintre care cel puţin una este majusculă, secvenţe de cifre, semne de punctuaţie, alte simboluri speciale".
Definiţia 4.2   Vom denumi caractere extra-textuale "acele semne de punctuaţie
care îndeplinesc în text o funcţie de punctuaţie propriu-zisă". Definiţia 4.3   Vom denumi caractere intra-textuale "acele semne de punctuaţie
care fac parte integrantă din expresii şi ajută la pronunţia lor". Definiţia 4.4   Vom denuni expandare "procesul de conversie a unor expresii în
format lexical (secvenţe de litere alcătuind cuvinte uzuale, ce pot fi
analizate lingvistic)".
Definiţia 4.5 Vom denumi o secvenţă de caractere ambiguă "dacă ea poate fi îricadrată, având în vedere forma sa, în mai multe clase lingvistice".
Pornind de la aceste definiţii, am proiectat un algoritm de preprocesare a textului, ce constă în principiu din trei etape de bază:
369
I. Segmentarea textului
Textul se segmentează de la stânga spre dreapta, în grupuri de caractere. Se obţin astfel secvenţe de caractere ASCII delimitate de spaţii albe (blanc); semnele de punctuaţie se includ temporar în aceste grupe.
II. Conversia şirurilor de caractere de tip expresie în caractere ortografice
Se parcurg pe rând grupurile de caractere rezultate în urma segmentării şi se realizează expandarea lor (acolo unde este cazul) sub forma unor cuvinte uzuale, pe baza unei analize contextuale simple la nivel de cuvânt sau segment de cuvânt şi a unor dicţionare de conversie în format lexical (pentru abrevieri şi unele tipuri de acronime).
III. Interpretarea unor semne de punctuaţie
Se detectează şi se memorează poziţiile unor caractere extra-textuale şi a sfârşitului frazelor, pentru a fi folosite ulterior de modulele de analiză sintactică şi prozodică. Detaliind etapa I prezentată anterior şi utilizând şi definiţia 4.1, putem
observa că grupurile de caractere rezultate în urma segmentării textului de intrare
pot fi de următoarele tipuri [10, 11, 12]:
a. Secvenţe de litere alfabetice, scrise cu minuscule a1. Cuvinte uzuale;
a2. Abrevieri scrise fără punct (de exemplu unităţi de măsură: m, km, ms).
b. Expresii
b1. Cuvinte scrise cu o singură literă, majusculă: abrevieri (puncte cardinale: E - est, V - vest; simboluri chimice: C - carbon, O -oxigen; unităţi de măsură: A - amper, V -volt); cifre romane: V -cinci, / - unu etc.
b2. Abrevieri scrise cu minuscule şi puncte {tel. - telefon, a.c. - anul curent)
b3. Secvenţe de mai multe litere, scrise cu minuscule şi iniţială majusculă
b3.1. Cuvinte la început de frază; b3.2. Nume proprii;
b3.3. Abrevieri scrise fără punct (de exemplu unităţi de măsură: Hz, Mw).
b4. Secvenţe de mai multe litere, scrise cu minuscule şi o majusculă, pe altă poziţie decât prima (unităţi de măsură: mA, kV etc.)
370
b5. Secvenţe de litere scrise cu mai mult de două majuscule, cu sau fără punct
b5.1. Acronime (NATO, S.R.L.);
b5.2. Abrevieri (P.S. - post scriptum);
b5.3. Unităţi de măsură (MHz, MByte);
b5.4. Cifre romane (VI, IX). b6. Secvenţe de cifre, scrise cu sau fără semne de punctuaţie
b6.1. Numere întregi;
b6.2. Numere zecimale;
b6.3. Numerale ordinale (al 2-lea)]
b6.4. Ore şi date;
b6.5. Numere de telefon. b7. Semne de punctuaţie: .?!:;...,-/'"()[]{} bS. Simboluri speciale
b8.1. Simboluri matematice uzuale: + - *(saux) : (sau /) = < > % ~
b8.2. Alte simboluri speciale: @ $ &
Deoarece semnele de punctuaţie ridică cele mai serioase probleme, vom analiza în primul rând situaţiile cele mai uzuale de apariţie a lor (pe grupe de importanţă), precum şi soluţiile posible de rezolvare a acestor situaţii. Vom discuta apoi câteva aspecte fundamentale legate de grupurile de cifre, abrevieri şi acronime.
1. Punctul
Punctul ( . ) poate apare în abrevieri, acronime, numerale, sau poate semnifica sfârşitul unei fraze. Ambiguităţile create de punct sunt o problemă majoră pentru operaţia de preprocesare, datorită faptului că el poate reprezenta fie un caracter intra-textual, fie extra-textual, fie ambele în acelaşi timp; de exemplu, punctul după abreviere poate marca în acelaşi timp şi sfârşitul frazei.
Este deosebit de utilă punerea în evidenţă a câtorva situaţii de utilizare corectă a punctului în limba română:
• Punctul se foloseşte în abrevierile provenite din cuvinte simple sau compuse în care nu apare litera finală a cuvântului; exemple: id. (idem), etc. (etcetera), tel. (telefon), a.c. (anul curent), a.m. (ante
371
meridian), d.a. (după-amiaza), P.S. (post scriptum) - deci categorile b2, b5.2 puse în evidenţă anterior.
• Dacă în abreviere apare litera finală a cuvântului, nu se pune punct după abreviere; exemple: cea (circa), dna (doamna), dl (domnul), dnei (doamnei), jr (junior) - categoria a2.
• Nu se pune punct după simbolurile unor termeni de specialitate: C (carbon), L (lungime), V (vest sau volt), mA (miliamperi), MHz (mega hertzi) - categoriile a2, b1, b3.3, b4, b5.3.
• în acronime (abrevieri provenite din iniţialele unor substantive compuse formate din mai mulţi termeni), punctul este facultativ; sunt corecte atât formele O.N.U., S.U.A., cât şi ONU, SUA (categoria b5.1).
• Nu se foloseşte punctul în abrevierile ce reprezintă indicative de state (RO - România), sau de judeţe (CT - Constanţa) şi în situaţiile când abrevierea s-a transformat într-un cuvânt sudat, caracterizat prin lectură cursivă (TAROM) - categoria b5.2.
• Punctul se foloseşte de asemenea în scrierea unor numere şi a datelor: numere întregi sau zecimale (1.234, 1.234,567), date (15.04.2002) - categoriile b6.1, b6.2.
Consideraţiile anterioare sugerează următoarea procedură: atunci când este detectat punctul într-un grup de caractere, se cercetează contextul în care apare şi apoi se ia decizia corespunzătoare, astfel:
- Dacă există cifre la stânga şi la dreapta, el este declarat caracter intra-textual şi:
dacă mai există un punct în secvenţa de cifre, secvenţa reprezintă o dată şi se expandează folosind un set de reguli (de exemplu: 15.04.2002 va deveni cincisprezece aprilie două mii doi))
dacă nu mai există un alt punct, secvenţa reprezintă un număr şi se expandează folosind de asemenea reguli (de exemplu: 1234 va deveni o mie două sute treizeci şi patru).
- Dacă punctul este în poziţie finală şi este precedat de alte două puncte (...), această secvenţă se declară caracter extra-textual, fiind identificată cu semnul de punctuaţie corespunzător; acest caz îl vom discuta separat.
- Dacă punctul este precedat de o secvenţă de litere (minuscule sau majuscule) şi eventual de alte puncte, se caută într-un dicţionar de abrevieri şi acronime şi:
372
373
- dacă grupul de caractere este găsit în dicţionar, punctul este declarat caracter intra-textual şi secvenţa se expandează conform echivalenţei din dicţionar;
' - dacă grupul de caractere nu este găsit în dicţionar, dar conţine majuscule, este un acronim - această situaţie o vom discuta separat;
dacă grupul de caractere nu este găsit în dicţionar şi nu conţine majuscule şi alte puncte, punctul (care este sigur în poziţie finală) este declarat caracter extra-textual şi va reprezenta sfârşitul unei fraze, poziţia sa fiind memorată pentru modulele de analiză sintactică şi prozodică.
Ultimele reguli prezentate nu pot însă elimina ambiguitatea situaţiei în care punctul după o abreviere poate reprezenta în acelaşi timp şi sfârşitul frazei (cazul lui etc. este tipic, dar există şi numeroase alte exemple).
O soluţie ar putea fi cercetarea grupului de caractere ce urmează după blanc, ţinând cont de faptul că la începutul unei noi fraze se află de regulă un cuvânt cu iniţială majusculă. Această situaţie nu este însă complet edificatoare, deoarece în limba română majuscula apare ca iniţială în multe cazuri: substantive nume proprii de persoană, nume de localităţi sau denumiri geografice, nume de planete şi constelaţii, nume de instituţii, nume de lucrări, nume de evenimente istorice sau de manifestări artistice şi ştiinţifice, nume de sărbători, ca semn de respect etc.
Este clar că această ambiguitate nu va putea fi rezolvată numai de către preprocesor. Soluţia pe care o propunem este următoarea:
- Dacă în urma cercetării contextului din dreapta rezultă că punctul din finalul unei abrevieri ar putea fi în acelaşi timp şi sfârşitul frazei, punctul rămâne caracter intra-textual (şi ajută la expandarea abrevierii), dar se adaugă un simbol special pentru marcarea provizorie a sfârşitului frazei, urmând ca acesta să fie validat sau nu de analiza sintactică ulterioară.
2. Semnele de punctuaţie ? ! : ; ...
Situaţiile cele mai frecvente de apariţie a lor sunt următoarele: • Semnul întrebării (?) şi semnul exclamării ( /) se folosesc uzual în limba română la sfârşitul frazei. Ele apar foarte rar în interiorul frazelor, când pot reprezenta, de exemplu, consideraţii personale introduse în text, acestea fiind de obicei puse între paranteze; ca atare, cercetarea caracterului din dreapta lor (blanc sau paranteză) poate diferenţia simplu cele două situaţii.
# • Semnele : şi ; marchează şi ele, de cele mai multe ori, finalul unui |- enunţ. Deşi nu constituie un sfârşit de frază propriu-zis, pot fi li considerate în acest fel în contextul sintezei TTS, deoarece textele din % partea stângă şi din partea dreaptă se pot pronunţa ca şi cum ar fi £ izolate, fără să fie afectată naturaleţea pronunţiei.
;| Prin urmare, cele patru semne menţionate sunt importante în primul
rând pentru modulul de analiză prozodică, deci locul lor trebuie
# detectat şi memorat de către preprocesor, iar poziţia în frază (finală *. • sau intermediară) este utilă doar pentru a uşura analiza sintactică t ulterioară a textului.
f, •   Semnul ... semnifică faptul că se omite un anumit fragment de text
l (de exemplu finalul neprecizat al unei enumerări); el apare în mod
obişnuit la sfârşitul unei fraze, dar poate apare şi în poziţie intermediară. Putem deci aplica aceeaşi regulă ca şi pentru punctul final al unei abrevieri: cercetarea contextului din dreapta şi, dacă este ~ cazul, marcarea provizorie ca final de frază, până la o analiză
sintactică mai aprofundată; altfel, el nu modifică prozodia textului, în toate situaţiile menţionate, semnele de punctuaţie vor fi interpretate drept   caractere   extra-textuale.   Există   însă   şi   trei   excepţii,   în care semnele / şi : au altă semnificaţie decât cea uzuală; aceste situaţii pot fi descrise de următoarele reguli:
- Dacă simbolul / se găseşte la finalul unei secvenţe de numere, el ~ semnifică cu mare probabilitate un "factorial" şi va fi transcris ca atare.
- Dacă simbolul : se găseşte în interiorul unei secvenţe de numere, este considerat caracter intra-textual; secvenţa reprezintă o oră şi se expandează folosind un set de reguli (de exemplu: 14:30 va deveni ora paisprezece şi treizeci de minute).
- Dacă simbolul: este înconjurat de blancuri, face parte dintr-o expresie matematică şi va fi transcris conform dicţionarului (împărţit la).
3. Virgula
Virgula ( , ) apare în mod uzual într-o frază în poziţie intermediară, la finalul unui cuvânt, dar poate apare şi în scrierea numerelor zecimale. Regula aplicată în cadrul algoritmului propus este următoarea:
-   Se cercetează contextul în care apare virgula şi:
dacă este înconjurată de cifre, se consideră caracter intra-textual; secvenţa reprezintă un număr zecimal şi se expandează folosind un set de reguli (de exemplu: 1,234 va deveni unu virgulă două sute treizeci şi patru).
374
375
dacă la stânga sa se găseşte o literă sau un alt semn de punctuaţie (de exemplu punct după o abreviere), se consideră caracter extra-textual şi poziţia sa va fi memorată pentru modulul de analiză prozodică.
4. Cratima
Cratima ( -) este un semn ortografic ce are în limba română două valori principale:
• gramaticală, atunci când serveşte la scrierea unor cuvinte compuse (bună-cuviinţă, nord-vest, prim-plan, pare-mi-se, propriu-zis etc.)\
• fonetică, atunci când serveşte la marcarea pronunţării într-o singură silabă a două sunete din două cuvinte diferite, dar care se găsesc alăturate în vorbirea curentă (de-a).
în fapt, deoarece simbolurile uzuale folosite de calculator nu cuprind linii mediane de lungimi diferite, cratima devine practic un semn de punctuaţie şi poate fi folosită atât pentru scrierea cuvintelor compuse sau a unor numerale ordinale, cât şi pentru despărţirea în silabe, pentru delimitarea unui nou paragraf, sau în enumerări.
Determinarea caracterului intra sau extra-textual se poate face prin cercetarea contextului în care apare; ea este mărginită de obicei fie de litere, fie de blancuri, dar această informaţie este utilă doar pentru analiza sintactică, deoarece în mod uzual nu se citeşte (este suprimată de către preprocesor) şi nu modifică prozodia textului. în numeralele ordinale, expandarea se face simplu, pe bază de reguli (al 2-lea - al doilea).
5. Bara oblică
Bara oblică (/ ) are sensul prepoziţiei "pe" în abrevierile ştiinţifice (km/h -kilometru pe oră, m/s - metru pe secundă) şi în exprimarea unei proporţ/7 (2/3 - doi pe trei), sau sensul conjuncţiei "sau" în textele uzuale (c(e/i) - ce sau ci)\ în ambele situaţii reprezintă un caracter intra-textual. De asemenea, poate semnifica o împărţire în expresiile matematice.
Regulile pe care le propunem pentru simbolul / sunt următoarele:
-   Dacă este înconjurat de litere, grupul de caractere din care face parte se caută în dicţionarul de abrevieri şi:
dacă se găseşte în dicţionar, se transcrie pe şi se foloseşte expresia completă găsită (metru pe secundă);
dacă nu este găsit în dicţionar, se transcrie sau.
f -   Dacă este înconjurat de numere izolate, se transcrie pe.
ţ ~ Dacă este înconjurat de secvenţe de cifre şi alte caractere matematice 1 ( 2x3/4x5 ), sau de paranteze şi secvenţe de cifre ( (2+3)/(4+5) ), se
i transcrie împărţit la.
6. Apostroful
Apostroful (') este folosit în limba română în mai multe situaţii:
• pentru a reproduce în scris rostiri în care un sunet sau mai multe nu sunt pronunţate; aceste rostiri sunt însă rare, fiind practic neliterare, populare (pân'deseară)',
• în nume proprii străine sau în neologismele neadaptate (O'Neill, five o'clock)',
• în scrierea anilor, fără prima sau primele cifre ('907, '99). Regulile pe care le propunem pentru simbolul ' sunt următoarele:
- Dacă se găseşte într-o secvenţă de litere, el este eliminat (nu reprezintă propriu-zis un caracter intra-textual şi nu ajută la pronunţia cuvântului).
- Dacă în dreapta se găseşte o secvenţă de cifre, în funcţie de numărul acestor cifre, grupul de caractere se expandează folosind un set de reguli (de exemplu: '99 va deveni o mie nouă sute nouăzeci şi nouă).
7. Alte semne de punctuaţie: "()[]{}
Alte semne de punctuaţie ce pot fi utilizate în textele obişnuite sunt ghilimelele (sau semnele citării) şi parantezele rotunde; ele semnifică de obicei un citat, reprezintă porţiuni de text cărora li se dă un sens (stilistic) special sau asupra • cărora autorul vrea să insiste, constituie traducerea ori sensul unui cuvânt, sau delimitează consideraţii personale introduse în text. Apar de obicei în perechi şi vor fi declarate caractere extra-textuale, servind modulului de analiză prozodică pentru obţinerea unei vorbiri sintetizate cât mai naturale.
Parantezele drepte şi acoladele apar extrem de rar în textele româneşti uzuale; ele pot apare însă (ca şi parantezele rotunde) în expresii matematice. Se identifică simplu, deoarece sunt alăturate unor secvenţe de cifre şi se expandează de obicei prin utilizarea cuvintelor corespunzătoare semnificaţiei lor, cu ajutorul dicţionarului de conversii în format lexical.
8. Secvenţele de cifre
Secvenţe de cifre pot apare şi în texte obişnuite, dar mai ales în expresii matematice, împreună cu semne de punctuaţie sau simboluri matematice; evident,
376
deoarece numărul lor posibil este practic infinit, ele trebuie expandate pe bază de regului de conversie, în funcţie de context.
Am propus anterior o serie de regului pentru cazurile cele mai frecvente (numere întregi sau zecimale, numerale ordinale, ore, date). O situaţie specială (pe care de asemenea am menţionat-o anterior), o reprezintă cazul în care o secvenţă de cifre, scrisă fără semne de punctuaţie, poate reprezenta fie un număr întreg, fie un număr de telefon. în acest caz, dacă din cercetarea contextului nu se poate elimina ambiguitatea (de exemplu prezenţa abrevierii tel.), această problemă rămâne în sarcina modului de analiză sintactică, care poate realiza o cercetare contextuală mai amplă.
9. Simbolurile matematice uzuale: + - *(sau x); (sau /) = <>% ~
Simbolurile matematice au o situaţie oarecum privilegiată, deoarece ele sunt încadrate de obicei de blancuri în expresiile matematice uzuale şi ca atare pot fi imediat identificate şi expandate pe baza dicţionarului de conversii în format lexical (de exemplu plus, minus, înmulţit cu, împărţit la etc.) Dacă totuşi în scrierea expresiei nu apar blancuri, contextul secvenţelor de cifre şi al celorlalte simboluri duc practic la aceeaşi rezolvare.
j |lî 10. Abrevierile
O serie de consideraţii privind abrevierile au fost expuse anterior la regulile ce privesc punctul. Situaţia lor este dificilă datorită faptului că în limba română abrevierile se pot scrie în multe feluri: cu majuscule şi/sau minuscule, cu sau fără semne de punctuaţie (uzual punct).
Regula principală ce poate fi aplicată este evidentă:
- Dacă în grupul de caractere apare cel puţin un punct şi/sau cel puţin o majusculă, se caută în dicţionarul de abrevieri; dacă secvenţa este găsită, abrevierea se expandează punând-o în corespondenţă cu cuvântul corespunzător din dicţionar.
Pot rămâne însă ambiguităţi, în special pentru abrevierile scurte (de exemplu V - unitatea de măsură "volt", dar şi cifra romană "cinci" şi punctul cardinal "vest"), sau pentru abrevierile scrise cu minuscule şi fără punct {km, cea, dl), acestea din urmă nefiind căutate în dicţionar (după regula expusă). Singurele soluţii practice pentru rezolvarea unor astfel de cazuri ambigui este ca ele să fie preluate mai departe de analiza sintactică sau să fie recunoscute la etapa de conversie fonetică, prin căutarea într-un dicţionar limitat de excepţii.
11. Acronimele
Spre deosebire de abrevieri, cea mai mare parte a acronimelor nu trebuie stocate în dicţionar, deoarece pronunţia lor nu necesită informaţii textuale suplimentare. De obicei, pronunţia lor se reduce la citirea secvenţială a caracterelor ce compun acronimul, individual (ca pentru S.R.L.), sau la citirea normală a cuvintelor, atunci când pronunţia lor s-a generalizat în limbaj într-o formă compactă {NATO, TAROM)', pentru citirea secvenţială a acronimelor, este nesesar doar un set de reguli simple de transcriere a literelor rostite separat (de exemplu S.R.L. - serele).
Regula propusă pentru acronime este deci următoarea: -   Dacă secvenţa de caractere cuprinde cel puţin două majuscule şi nu este găsită în dicţionarul de abrevieri, se caută în dicţionarul de acronime:
-    dacă  este  găsită  aici,  secvenţa  se  expandează conform echivalenţei din dicţionar;
dacă nu este găsită în dicţionarul de acronime şi nu cuprinde puncte, majusculele sunt (eventual) înlocuite cu minuscule şi secvenţa nu va suferi altă prelucrare (se va citi ca atare); dacă nu este găsită în dicţionar, dar cuprinde puncte, secvenţa este expandată secvenţial, utilizând un set minim de reguli de transcriere a literelor rostite separat. Pentru toate situaţiile menţionate, preprocesorul va semnala acronimul modulelor ulterioare, pentru o corectă analiză sintactică şi prozodică a textului.
5. Concluzii
Am discutat în această lucrare câteva aspecte fundamentale legate de sinteza automată a vorbirii, ca şi un număr important de reguli şi principiile generale pe baza cărora a fost proiectat preprocesorul de text pentru sistemul TTS în limba română. Nu am urmărit totuşi să descriem complet şi în detaliu funcţionarea şi implementarea acestuia; o serie de consideraţii suplimentare şi totodată modalitatea concretă de implementare (pentru o variantă preliminară) au fost prezentate de autor în [13] şi [14].
în varianta actuală, preprocesorul de text a fost îmbunătăţit pentru a rezolva unele situaţii dificile legate de abrevieri, numerale urmate de unităţi de măsură etc. De asemenea, un mecanism de automat de corecţie permite preprocesorului să fie "tolerant" cu anumite erori tipice de sintaxă, cum ar fi de exemplu fraze ce nu încep cu minuscule, sau un format "uşor" incorect pentru date sau numerale.
76
5824^25254
Putem spune, ca o concluzie a celor discutate anterior, că un preprocesor de complexitate medie, cum este şi cel propus pentru sistemul TTS în limba română, poate rezolva cu succes (împreună cu analiza lingvistică ulterioară) o mare parte din problemele întâlnite într-un text obişnuit; el nu poate realiza însă normalizarea completă a oricărui text şi nu poate soluţiona toate ambiguităţile care se pot ivi, datorate în special numărului extrem de mare al abrevierilor, acronimelor - în general a secvenţelor neuzuale care pot apare într-un text scris. De asemenea, nu poate face faţă unor construcţii negramaticale (deşi, de exemplu, unele simboluri speciale neaşteptate sunt ignorate).
Desigur că un set mai mare de reguli şi un dicţionar de conversii în format lexical mai cuprinzător ar spori eficienţa preprocesorului, dar este posibil ca el să devină atât de complicat, încât să fie practic neoperaţional pentru un sistem TTS. Singura soluţie practică pentru tratarea cazurilor ambigui este folosirea unui set minim de reguli, păstrarea în dicţionar a celor mai uzuale situaţii (cu posibila adaptare a dicţionarului la tipul textului ce se citeşte) şi examinarea cazurilor rămase la un nivel superior, pe baza plauzibilităţii sintactice, semantice sau pragmatice a frazelor obţinute după preprocesare.
Referinţe bibliografice
[1] R. Boite, H. Bourlard, T. Dutoit, J. Hancq, H. Leich (2000). Traitement de la parole. Presses Poliyechniques et Universitaires Romandes, 2000.
[2] G. Bailly (1996). Pistes de recherches en synthese de la parole - în "Fondements et perspectives en traitement automatique de la parole" (H. Meloni - Coord.), Aupelf-Uref, pp. 109-120, 1996.
[3] D. Burileanu (1999). Contribuţii privind sinteza automată a vorbirii pornind de la text în limba română - Teză de doctorat. Universitatea "POLITEHNICA" Bucureşti, 1999.
[4] D. Burileanu (2002). Basic Research and Implementation Decisions for a Text-to-Speech Synthesis System in Romanian Language - Lucrare în curs de publicare în "International Journal of Speech Technology", Kluwer Academic Publishers, 2002.
[5] G. Fries, A. Wirth (1997). FELIX -A TTS System with Improved Preprocessing and Source Signal Generation - Comunicare la "EUROSPEECH'97", Rodos, pp. 589-592, 1997.
[6] E. Lewis, M. Tatham (1993). A Generic Front-End for Text-to-Speech Synthesis Systems - Comunicare la "EUROSPEECH'93", Berlin, voi. 2, pp. 913-916, 1993.
[7]  M.Y. Liberman, K.W. Church (1992). Text Analysis and Word Pronunciation in
Text-to-Speech Synthesis - în "Advances in Speech Signal Processing" (S.
Furui, M. Sondhi - Coord.), Dekker, pp. 791-832, 1992. [8] A. Lindstrom, M. Ljungqvist (1994). Text Processing within a Speech
Synthesis System - Comunicare la "International Conference on Spoken
language Processing", Yokohama, pp. 139-142, 1994. [9]  M. McAllister (1989). The Probiems of Punctuation Ambiguity in Full Automatic
Text-to-Speech Conversion - Comunicare la "EUROSPEECH'89", Paris, pp.
538-541, 1989.
. [10] G. Beldescu (1984). Ortografia actuală a limbii române. Ed. Ştiinţifică şi
Enciclopedică, Bucureşti, 1984. [11] T. Dutoit (1997). An Introduction to Text-to-Speech Synthesis. Kluwer
Academic Publishers, 1997. [12] F. Şuteu, E. Şoşa (1993). Dicţionar Ortografic al Limbii Române. Ed. ATOS,
Bucureşti, 1993.
[13] D. Burileanu (1999). Natural Language Processing for Speech Synthesis in Romanian Language -Comunicare la "The 12th International Conference on Control System and Computer Science", Bucureşti, voi. II, pp. 1-6, 1999.
[14] D. Burileanu, C. Dan, M. Sima, C. Burileanu (1999). A Parser-Based Text Preprocessor for Romanian Language TTS Synthesis - Comunicare la "EUROSPEECH'99", Budapesta, voi. 5, pp. 2063-2066, 1999.
30
381
Utilizarea tehnicilor nuanţate (fuzzy) şi de dinamică neliniară pentru sinteza adaptivă a
vorbirii
Horia-Nicolai L. TEODORESCU
Academia Română, Secţia Ştiinţa şi Tehnologia Informaţiei, Calea Victoriei 125, Bucureşti E-mail: hteodor@etc.tuiasi.ro
1. Introducere
în timp ce maşina realizează tipic transmisie de date, omul comunică. Diferenţa constă în participarea intelectuală şi afectivă a persoanei la actul comunicării, participare reflectată atât la nivelul limbajelor neverbale (gestică, mimică etc), cât şi la nivelul vocal. Această participare afectivă dă varietate, coloratură şi sensuri suplimentare, nu neapărat pe plan semantic, semnalului vocal. Sinteza vocii, în prezent, este limitată de lipsa afectului, varietăţii şi sensurilor suprapuse în planuri multiple. Vocea maşinii rămâne astfel cantonată într-o regiune "moartă" a comunicării, este monotonă şi obositoare pe termen lung.
în această lucrare, reluând unele idei din [1-12], precum şi în contextul unor dezvoltări recente [13-27], în special legate de e-Voice şi VXML, prezentăm şi dezvoltăm unele concepte şi tehnici care ar putea permite maşinii atingerea dezideratelor mai sus menţionate. Realizarea unor maşini capabile să mimeze calităţile vocii umane şi să dialogheze cu oamenii, sau măcar să comunice într-o manieră similară cu cea în care omul o face, este un deziderat în numeroase domenii, de la dialogul om-calculator, la sistemele auto şi la sistemele de învăţare asistată de calculator [13-15]. Rezolvarea acestei probleme are implicaţii semnificative pentru acceptarea sintezei vocii într-o varietate de aplicaţii, de la robotică la realitate virtuală, la industria de jocuri electronice şi la protezare.
Prozodia, adică structura acustică ce se extinde pe mai multe segmente de semnal vocal, chiar peste mai multe cuvinte sau propoziţii, implică ritm, accent, intonaţie, timbru, afect şi alte caracteristici ale vocii încă insuficient înţelese, sau vag definite în literatură. Informaţia paralingvistică ce este conţinută de prozodie nu este nicăieri regăsită la nivelul "spus" prin cuvinte, dar - aşa cum am subliniat în [2] - această informaţie poate fi chiar mai importantă pentru ascultător decât informaţia lingvistică propriu-zisă. Incapacitatea sistemelor actuale de sinteză
382
383
ll
ui I
Iii! II
vocală de a reda prozodia naturală este evidenţiată chiar de marii producători de aplicaţii [25] şi este bine cunoscută în mediul cercetătorilor în domeniul sintezei vorbirii: "One of the most difficult problems in speech to date is prosodic modeling" [25].
2. Soluţii pentru sinteza adaptivă şi varietală
Cele două calităţi ale vocii naturale, adaptivitatea - în sens larg - şi variabilitatea se pot realiza, cu costuri nu neapărat mari, la nivelul sintetizoarelor actuale, cu adaptări minimale (sau deloc) la nivel hardware şi cu îmbunătăţiri ale programelor de control. Sinteza adaptivă se referă la adaptarea la:
• Condiţiile sonore ambientale [1, 4];
• Contextul semantic-afectiv al cuvintelor şi frazelor sintetizate [2, 3];
• Interlocutorul sistemului de sinteză automată, atunci când acesta este recunoscut [2].
Sinteza varietală se referă la modificările inter-pronunţie, la repetarea unor fraze, chiar şi în cazul în care condiţiile ambientale şi contextul (şi interlocutorul) rămân neschimbate. Această variabilitate elimină monotonia şi personalizează vocea (naturală sau sintetizată), în măsura în care variabilitatea se face după reguli adesea proprii individului (cum este cazul în realitate) - şi nu doar aleatoare.
Variabilitatea intrinsecă a vorbirii derivă din mecanismele fizice de producere a semnalului vocal (curgere turbulentă a aerului prin organul fonator), precum şi din mecanismele neurologice de control al producerii semnalului vocal (controlul neuronal este cunoscut ca având o dinamică cu o importantă componentă neliniară). Aceste caracteristici au fost documentate de mai multe grupuri de cercetare, inclusiv de noi şi colaboratorii [5-9].
Adaptabilitatea şi variabilitatea în sensurile de mai sus vor fi prezentate sumar în secţiunile următoare, sintetizând lucrările citate şi unele cercetări mai noi, nepublicate încă.
3. Adaptabilitate la mediu
Una dintre cele mai elementare adaptări ale semnalului vocal generat de om este cea de adaptare la condiţiile de mediu. Adaptarea la un mediu real, cu fond de zgomot, se realizează pe patru căi principale: prin modificarea amplitudinii semnalului (mai mare în mediul cu zgomot ridicat), prin modificarea spectrului (creşte contribuţia frecvenţelor înalte), prin modificarea ritmului (scăderea ritmului, creşterea duratei vocalelor), şi prin creşterea duratei dintre cuvinte, care devin
•
separate, segmentate în timp. Adaptările realizate - instinctiv de un vorbitor uman - se operează deci la un nivel relativ elementar, cu modificări de prozodie minimale.
Realizarea acestei adaptări este esenţială în multe aplicaţii de sinteză a vocii, incluzând sinteza vocală pentru aplicaţii în medii industriale şi în mijloace de transport, sau sinteza vocală pentru proteze laringiene. Este remarcabil că această adaptare se poate realiza, la pretenţii reduse, cu foarte puţin hard suplimentar şi/sau cu un soft minimal, aducând însă o îmbunătăţire esenţială în utilizare. în privinţa hardului, este necesar un canal de culegere a semnalului de zgomot (semnal sonor ambiental).
Procesarea semnalului de zgomot, în vederea realizării controlului sistemului de sinteză automată, presupune determinarea puterii zgomotului ambiental într-o fereastră temporală şi determinarea componenţei spectrale a semnalului ambiental. Primul parametru de caracterizare a zgomotului se obţine ca medie aritmetică a pătratului semnalului s, într-o fereastră dată, de lărgime de W eşantioane şi caracterizată de momentul actual de timp, n:
w
k=0
(1)
Caracterizarea spectrală se poate realiza sumar prin raportul HL dintre puterea la frecvenţe "înalte" (frecvenţele înalte corespunzând, în mare, benzii de frecventă ce include formanţii nr. 2, 3, 4 şi 5 din spectrul vocal) şi puterea la frecvenţele "joase" (până la aproximativ al doilea formant, deci până la frecvenţa de cea. 400 -500 Hz, ţinând cont şi de vorbitorii feminini):
500
/10000
HL= j52(co)^co/ Js2(©)-da>
(2)
500
Deoarece parametrii respectivi sunt relaţionaţi cu impactul pe care îl au asupra inteligibilităţii vorbirii, deci sunt daţi de calităţi subiective, este natural să abordăm o definire probabilistă sau fuzzy a lor. Dată fiind simplitatea controlului nuanţat1 (fuzzy), vom prefera a doua variantă. Un exemplu de definire2 a funcţiilor de apartenenţă respective este prezentat în Figura 1. Este de presupus că această definire să constituie doar un punct de plecare, îmbunătăţirea calităţii sintezei realizându-se şi prin modificarea funcţiilor de apartenenţă.
1 Deşi nu este larg acceptat şi are o traducere mai dificilă în alte limbi, vom utiliza aici termenul "nuanţat", propus de Grigore C. Moisil, în locul englezescului "fuzzy".
2 Pentru a nu încărca prezentarea, ecuaţiile funcţiilor respective sunt date în Anexa 1.
384
385
i^(p) putere		
medie		
\ /		1
putere; \ /	\/	putere
mică : Y	x	mare
A	A	nivel p [dB]
40 dB
55 dB (a)
70 dB
	mediu		
mic	V	y	mare
i	A	A	q raport H/L
0.5
1
(b)
1.5
Figura 1. Funcţiile de apartenenţă ale premiselor regulilor folosite pentru determinarea modificărilor parametrilor de control ai sintetizorului
După cum s-a precizat deja, ca rezultat al aprecierii condiţiilor de mediu, se controlează patru parametri ai semnalului sintetizat:
• creşterea amplitudinii (parametru notat Al)
• creşterea conţinutului în frecvenţe înalte (HFCI)
• creşterea duratei vocalelor (VLI)
• creşterea duratei dintre cuvinte (accentuarea segmentării pe cuvinte a frazei), notat IDBBW.
Controlul se realizează pe bază de reguli şi este rezumat în Tabelele 1-4 de mai jos.
Tabelul 1
Creşterea amplitudinii (Al - Amplitude Increase)
HL/P	mic	mediu	mare
mic	0,0	0,1	0,4
mediu	0,1	0,3	0,5
mare	0,4	0,5	0,6
Creşterea conţinutului de frecvenţe înalte (HFCI - High Frequency Content Increase - F3 increase)
Tabelul 2
HL/P	mic	mediu	mare
mic	0,0	0,1	0,4
mediu	0,1	0,3	0,5
mare	0,4	0,5	0,6
Tabelul 3
Creşterea duratei vocalelor (Vowel Length Increase - VLH)
HL/P	mic	mediu	mare
mic	0,0	0,1	0,4
mediu	0,1	0,3	0,5
mare	0,4	0,5	0,6
Tabelul 4
Creşterea duratei dintre cuvinte (increase of the Duration of the Break Between Words - DBBW)
HL/P	mic	mediu	mare
mic	0,1	0,1	0..4
mediu	0,1	0,3	0,5
mare	0,4	0,5	0,6
Tabelele sunt interpretate în sensul uzual pentru sistemele nuanţate. Preferăm sistemele de tip Sugeno de ordin 0 (vezi Anexa 1), deoarece furnizează ca rezultat, direct, valori numerice, care vor fi interpretate ca şi coeficienţi de multiplicare a valorilor nominale ale sintezei. De exemplu, prima linie şi prima coloană din Tabelul 1 spun că:
DACĂ   Puterea (zgomotului) este medie şi parametrul LH este mediu
ATUNCI Amplitudinea creşte de 0,3 ori.
Toate regulile din Tabelul 1 şi toate celelalte tabele se interpretează într-un mod similar.
Rezultatul final se obţine prin agregarea rezultatelor parţiale, date de regulile respective. De exemplu, dacă valoarea intensităţii sonore este de 45 dB, iar raportul HL este de 0,7, prin aplicarea fuzzificării3 se obţine gradul de adevăr al premisei (combinate) din regula respectivă, prin
Hlin(nputere^mica {PQ\^LH=mic (LH0 ))
putere-mica 1
unde P0 =45, iar LH0 =0,7 . Folosind expresiile funcţiilor (v. Anexa 1), se obţin valorile \i puier€smica{P0h 0967, ^L//=m/c(^0)=0,6, deci valoarea minimă este 0,6 şi reprezintă gradul de încredere în faptul că amplitudinea creşte de 1,1 ori. Aceasta este valoarea de adevăr pentru singletonul (de la ieşirea sistemului) ce corespunde regulii respective, oc^. în total, sunt 9 reguli per tabel, deci există 9 valori de singletoni. într-adevăr, în acelaşi timp, valorile de intrare corespund funcţiilor de apartenenţă „mediu" pentru „putere" şi LH, deci regulei:
3 Termenul echivalent românesc ar fi "nuanţare".
iii;)
386
DACA Puterea (zgomotului) este mică şi parametrul LH este mic
ATUNCI Amplitudinea creşte de 0,0 ori.
cu gradul de încredere în rezultat:
Puterea (zgomotului) este mică şi parametrul LH este mediu Amplitudinea creşte de 0,1 ori.
Puterea (zgomotului) este medie şi parametrul LH este mic Amplitudinea creşte de 0,1 ori.
* putere
precum şi regulilor:
DACĂ
ATUNCI respectiv:
DACĂ
ATUNCI cu gradele de încredere
^(^putere^micaMv
şi respectiv
min{vputere=medie(Po\V>
Celelalte cinci reguli din Tabelul 1 au gradele de încredere în rezultat nule, deoarece valorile funcţiilor de apartenenţă „mare" ale premiselor („puterea este mare" şi „LH este mare") sunt nule, pentru valorile date, P0 = 57 şi LH0 = 0,7 .
Prin agregare (defuzzificare), considerată aici conform formulei uzuale:
9
£a^(*o)
LH-medie
LH-mic
(Mo))
(3)
5XW
se obţine valoarea de ieşire (amplitudinea, creşterea conţinutului de frecvenţe înalte, creşterea lungimii vocalelor, respectiv creşterea duratei pauzei dintre cuvinte). în relaţia de mai sus, reprezintă abscisele singletonilor de ieşire din sistemele tip Sugeno respective, ju^Q reprezintă gradele de încredere în concluziile regulilor respective, iar y reprezintă valoarea agregată (defuzzificată) de ieşire a sistemului Sugeno. Sumarea se face pentru toţi singletonii de ieşire (notaţi de la 1 la 9). Indicele "A" arată că ne referim la parametrul controlat „amplitudine", controlui fiind desigur diferenţiat pentru cei patru parametri discutaţi.
_ 387
Valorile astfel obţinute sunt folosite, cum s-a precizat, ca factori de multiplicare a parametrilor nominali4. De exemplu, dacă amplitudinea nominală este Aq , atunci, prin aplicarea controlului, amplitudinea efectivă a semnalului va fi:
(    9 ^
A = A>
1 +
k=\
k=\
(4)
Sistemul de control este instantaneu, în sensul că nu ţine cont decât de valorile recente (din fereastra prezentă, de lărgime W) ale zgomotului, nu şi de valorile anterioare. Controlul de amplitudine şi frecvenţă se poate exercita în afara sintetizorului propriu-zis, asupra unui amplificator şi a unui filtru plasate la ieşirea sintetizorului. Aceste două controale se pot prevedea de altfel şi în alte aplicaţii, precum sisteme de sonorizare mari (eventual distribuite, ca în cazul sonorizării unor spaţii mari, gen pieţe sau stadioane), sau sisteme de sonorizare locale (de exemplu, sisteme de interfonie). Controlul pauzelor dintre cuvinte şi un control fin al spectrului vocalelor necesită comanda directă a sintetizorului.
.-/_ Filtru	
	
/	
Figura 2. Schema bloc a unui sistem audio adaptiv la zgomotul ambiental
în cazul în care se utilizează doar primele două tipuri de adaptare, în amplitudine şi spectral, adaptarea se poate realiza şi cu mijloace hardware externe sintetizorului, putând, de altfel, fi utilizată în orice aplicaţie audio (de sonorizare etc). Schema unui asemenea sistem de adaptare este cea prezentată în Figura 2, o variantă fiind iniţial propusă în [4].
4 Nominali, în sensul că sunt valorile standard pentru sistemul de sinteză automată respectiv şi pentru sunetul respectiv produs în condiţiile contextuale date.
79
388
389
4. Adaptare şi variabilitate contextual-interpretativă
Interlocutorul uman răspunde cu afect, după cum consideră anormală, nepotrivită, sau oricum în alt fel "departe de aşteptări" întrebarea sau afirmaţia făcută de partenerul la dialog. De asemenea, răspunsul este diferit atunci când vorbitorul uman este nesigur de răspuns, are un interes special în răspuns sau în topica discuţiei, sau, din contra, este dezinteresat. în plus, situarea interlocutorului faţă de partenerul sau partenerii de dialog, în context social sau afectiv, tonalizează discursul verbal şi îi imprimă specificitate relativă. Toate aceste caracteristici participative, precum şi altele asemenea, dau comportamentul verbal al omului, sunt traduse în mare măsură la nivelul semnalului vocal prin prozodie, dar în prezent nu se regăsesc la nivelul maşinii. Privitor la elementele de bază privind prozodia, vezi [26].
Pentru a implementa un comportament verbal, maşina trebuie să dispună de o bază de cunoştinţe minimală prin care să genereze acest comportament. De exemplu, este necesar să se interpreteze "departe de normal" într-o aserţiune sau întrebare a interlocutorului uman. Deci, vom presupune că există o bază de cunoştinţe care permite o asemenea interpretare. Construcţia acestei baze de cunoştinţe depinde de domeniul în care se poartă dialogul. în aceste condiţii, accentul va fi mai puternic pe anumite părţi ale frazei, sau răspunsul va depinde de aserţiune sau întrebare. Modul de răspuns va fi dirijat de asemenea de o bază de cunoştinţe, care include regulile necesare modificării sintezei (vezi Figura 3).
Bază de		Bază de		
cunoştinţe -		cunoştinţe -		Sintetizor
interpretor		controler	-►	
Figura 3. Schema de principiu a controlului contextual-interpretativ
Baza de cunoştinţe-controler poate de asemenea fi implementată cu reguli Dacă... Atunci, de exemplu, de forma:
DACĂ oferta / răspunsul interlocutorului este neaşteptat (negăsit
în baza de cunoştinţe - baza de aşteptare/ baza de cazuri), A TUNCI afectul sintezei este mirare / neîncredere/.../ etc.
ori
DACĂ oferta / răspunsul interlocutorului este neaşteptat negativ
(conform bazei de cunoştinţe),
A TUNCI afectul sintezei este mirare şi/sau furie.
(Folosind rezultatele regulilor de acest fel, se pot seta parametrii ierarhic inferiori, de tonalitate, ai vocii sintetizate, pe baza acestora generându-se parametrii efectivi de control ai sintezei (amplitudine, frecvenţe formanţi etc). Deşi acest gen de control poate părea complicat, sunt situaţii destul de I   generale în care el se poate implementa cu un efort relativ redus. De exemplu, I   atunci când se determină (printr-o măsurătoare relativ simplă, de frecvenţă medie Li— -n Spectru| vocal, sau de fundamentală) că interlocutorul este un copil sau o persoană de gen feminin, se poate selecta una sau ambele dintre alternativele:
• sistemul de sinteză automată se setează pe o voce de acelaşi tip i (copil/feminin)
• sistemul de sinteză automată se setează pe voce "caldă" şi "vorbire clară".
1 Utilitatea şi modalitatea de realizare a primei setări nu necesită explicaţii. A
" doua setare (care poate fi simultană cu prima) se justifică - în cazul interlocutorului • copil - prin necesitatea de a îi crea un mediu afectiv propice şi liniştit de dialog (voce "caldă") şi prin necesitatea unei comunicări cât mai informative, uşor de urmărit. Pentru a obţine o voce "caldă", se pot folosi trasee melodice cu variaţii lente precum şi frecvenţe mai joase ale formanţilor şi lărgimi mai mari (în zona spre frecvenţe joase) ale spectrelor formanţilor. "Claritatea" vocii se poate traduce prin segmentarea mai pronunţată pe cuvinte, precum şi vocale mai lungi (cu sau fară accentuări ale spectrelor formanţilor). Utilizarea unor asemenea adaptări - ce rămân în mare măsură să fie concepute în detaliu, implementate şi testate - este neîndoielnic mare la sinteza pentru procese educative [15, 26], în aplicaţii medicale (răspuns sintetic destinat pacienţilor), precum şi în numeroase aplicaţii generale (de exemplu, sintetizoare utilizate în muzee, pentru prezentarea exponatelor).
i Alte modalităţi de personalizare afectivă sunt colorarea frecvenţială şi în
I      amplitudine a anumitor părţi din frază sau în cadrul unui cuvânt, aceste modificări !      locale fiind larg documentate în literatură, de ex. [16-18] şi fiind relativ uşor de implementat.
5. Variabilitate prin metoda modulării de către un sistem dinamic neliniar
Variabilitatea semnalului vocal uman este bine cunoscută [5-9], [19-26]. Variabilitatea de tip natural a semnalului vocal sintetizat se poate obţine prin modularea diverselor controale (al amplitudinii, lungimii vocalelor, accentului, pitch-ului etc) cu semnale lent variable, generate de sisteme care prezintă dinamică neliniară (haos). Parametrii sistemului haotic respectiv pot modela un anume subiect; considerăm aici că aceşti parametri reprezintă individul vorbitor şi
390
"personalitatea" lui. Această metodă, propusă de noi iniţial în 1992 ([28] ş.a ) dar nepublicată în forma extinsă, credem că reprezintă o' metodă promiţătoare de "personalizare" a vocii. '
Considerăm un sistem dinamic neliniar, dependent de parametri; semnalul în timp generat de acesta este de forma x(t)= x^X^,...^), unde ^reprezintă parametrii sistemului haotic şi permit modelarea specificităţii vorbitorului Semnalul x poate fi folosit în modularea amplitudinii, frecventei fundamentale sau specţrulu. semnalului vocal sintetizat. De exemplu, spectrul poate fi modificat folosind o lege de variaţie a frecvenţei centrale a formanţilor, de forma-
fjtfH + xM-fjoi')
(5)
unde fj(t) este frecvenţa formantului numărul j la momentul t, x(t) este semnalul haotic respectiv (x,(0«l), iar fJQ(t) este frecvenţa "nominală" a formantului respectiv.
Un exemplu simplu de sistem haotic ce poate fi folosit în acest scop aste dat de ecuaţiile:
rn+l = X3 • u\ + X2 ■ u\
(6)
unde setul de coeficienţi (xo>A1,...)X5)e R6se alege în domeniul de valori ce corespunde unui comportament haotic al sistemului (vezi Anexa 2). Setul de coeficienţi (^0,X„...,A,5) se poate seta specific pentru fiecare sistem de sinteză automată, "personalizând" sistemul. Valorile de ieşire ale generatorului se scaleaza corespunzător şi se folosesc la modularea unuia dintre parametrii de sinteza. Pentru exemplul din secţiunea 3, amplitudinea semnalului sonor devine, prin utilizarea modulaţiei haotice:
1 + 1=L-
■(1 + ktJ
(7)
unde k este un coeficient de scalare a seriei de timp rn. Coeficientul k se alege astfel  încât  contribuţia  termenului   K-rn   să  fie  de  ordinul procentelor
(KT„ <0,1 V/l).
391
Desigur, scara de timp a procesului de generare de eşantioane de semnal vocal diferă de scara de timp a proceselor haotice folosite în modulaţie, ceasul celui de al doilea proces fiind mult mai lent (de ordinul 1/100) decât al primului proces. Pentru evitarea tranziţiilor bruşte ale parametrului controlat, valorile generate pot fi interpolate şi se poate realiza o variaţie lentă între două valori succesive. Considerând că un eşantion al seriei haotice rn este generat la fiecare Q eşantioane de semnal vocal, seria rn se poate înlocui cu seria (mai "fină", după ceasul de generare a esantioanelor semnalului vocal):
'/i-i
Q
* = 0,1,...,Q
(8)
în scopul modulării haotice a mai multor parametri de sinteză (amplitudine, frecvenţa centrală a formanţilor, lărgimea formanţilor, elemente prozodice etc), sunt necesare mai multe generatoare haotice, câte unul pentru fiecare parametru controlat. Alternativ, se poate folosi un sistem nuanţat (fuzzy) haotic, aceste sisteme generând simultan un număr mare de ieşiri necorelate sau slab corelate [28].
6. Concluzii si discuţii
Adaptabilitatea şi variabilitatea sistemelor de sinteză a vocii şi ale celor audio, în general, se pot asigura prin modificări relativ simple hard şi soft ale sistemelor actuale. Adaptabilitatea se poate manifesta atât în raport cu mediul sonor, cât şi în raport cu contextul sau cu interlocutorul. Ideea de adaptabilitate şi metodele respective au fost introduse de noi în urmă cu peste 20 de ani şi dezvoltate continuu în lucrările citate, atât pentru aplicaţii de uz general, cât şi pentru aplicaţii medicale.
O aplicaţie de interes medical-educaţional este utilizarea unor sisteme de învăţare a unei limbi pentru copii de vârste mici (1 lună - 3 ani), care suferă de deficienţe de auz. Utilizarea unor sintetizoare cu spectru şi amplitudine controlate, astfel încât să fie optim adaptate auzului (curbei de sensibilitate audiometrică) a fiecărui copil în parte ar ajuta asemenea copii să înveţe limba la această vârstă. Este, într-adevăr, demonstrat că învăţarea primelor elemente ale unei limbi la aceste vârste asigură o şansă mult mai mare de învăţare a limbii ulterior şi de inserare socială [24].
Lucrarea prezentă se situează într-un context mai larg, în cadrul cercetărilor realizate de diverse colective care caută soluţii pentru a face vocea sintetică purtătoare de informaţie emoţională. Astfel, în [31] se descrie o metodă de sinteză a "vocii emoţionale", capabilă să transmită trei emoţii (supărare-furie, bucurie, tristeţe) folosind elemente de prozodie şi segmente de tip vocală-
392
consoană-vocală (specifice limbii japoneze). în [32], starea ("mood") şi personalitatea sunt văzute ca elemente esenţiale apărând în subsidiar în voce şi necesar a fi introduse şi în vocea sintetizată. Alţi autori [33] vorbesc de "nivelul de plăcere al audiţiei" (pleasantness) - dincolo de inteligibilitate - şi văd naturaleţea vocii sintetizate prin această prismă, a utilizării, la un nivel semnificativ, a prozodiei ("...we need to know more about how prosody could be utilized in human-computer interaction. We believe that we could borrow a lot from professional human speakers. Furthermore, speech applications should be built in a way that makes it possible to use prosodic feâtures efficiently.").
Credem că, în viitor, o metodă comodă de a genera automat prozodia, pentru o voce artificială dată şi pentru o anumită stare, ar putea fi constituită de o procedură inversă celei descrise în [34].
încheiem cu un citat din [35]: "... in spiţe of the long history of speech synthesis, no one speech synthesis system available today is able to produce speech that could be characterized as natural or completely pleasant. In order to improve the speech quality of current text-to-speech (TTS) systems in terms of naturalness, three areas must be addressed5: 1) improved linguistic analyses, 2) improved prosody modeling, and 3) improved speech synthesis models."
Mulţumiri. Această lucrare a fost realizată cu sprijinul material al Academiei Române - Institutul de Informatică Teoretică laşi - precum şi cu sprijinul material parţial al Societăţii "Tehnici şi Tehnologii" s.r.l. laşi. Autorul mulţumeşte colegilor Dragoş Burileanu, Bogdan Branzilă şi Oana Geman pentru sugestii şi corecţii la o formă preliminară a lucrării.
Referinţe bibliografice
[1] Teodorescu H.N., Chelaru M., Sofron E., Adăscăliţei A.: Adaptive speech synthesis. în voi. Digitale Sprach-verarbeitung - Prinzipien und Anwendungen. VDE Verlag, Berlin (W), pp. 183-188, 1988
[2] Teodorescu H.N.: Interrelationship, Communication, Semiotics, and Artificial Consciousness. în: Kitamura, T. (Ed.): What Should be Computed to Understand and Model Brain Functions? FLSI Book Series, voi. 3, World Scientific, 2000
[3] Teodorescu H.N.: Computer semiotics: understanding meanings and parallel languages (Refereed invited paper), Proc. Int. Conf. IIZUKA'98, Japan, 1998
393
[4]  Teodorescu H.N.: Making speech synthesisers noise-adaptabile. Electronic
Engineering (UK), July 1987, p. 23 [5]  Rodriguez, W., Teodorescu H.N., Grigoras FI., Kandel A., Bunke H.: A Fuzzy
information space approach to speech signal nonlinear analysis. J. of
Intelligent Systems (Wiley), Dec. 1999 [6]  Grigoras FI., Teodorescu H.N., Apopei V.: Nonlinear Analysis and Synthesis
of Speech. Studies in Informatics and Control, voi. 7, no. 1, March 1998, pp.
57-72
[7] Teodorescu H.N., Grigoras FI., Apopei V.: Nonlinear processes in speech production. Int. J. Chaos Theory and Applications, voi. 2, no. 2 (1997), pp. 35-52
[8]  Teodorescu H.N., Grigoras FI.: Nonlinear Techniques in Speech Signal Analysis. Proc. International Conference on Intelligent Technologies in Human-Related Sciences, ITHURS'96. July 5-7, Leon, Spain. Voi. 2, pp. 293-298,1996 [9]  Grigoras FI., Teodorescu H.N., Apopei V.: Analysis of nonlinear and nonstationary processes in speech production, IEEE 1997 Workshop on Applications of Processing to Audio and Acoustics. Mohonk Mountain House New Paltz, New York, October 19-22,1997 (IEEE Catalog # 97TH8278) [10].Burlui V., Teodorescu H.N., Moraraşu C.S.: La fonction phonatoire chez l'edente total. Analyse en frequence. Les Cahiers de Prothese (France), No. 88, Decembre 1994, pp. 63-68 1994 [11] Teodorescu H.N. et al.: Fuzzy models in speech analysis and medical application, în Book of Summaries Int. Conf Modelling and Simulation, Istanbul, Turkey, July 1988, voi. 1, p. 162 (Summary) [12] Teodorescu H.N., L. Buchholtzer, Chelaru M., Teodorescu L.: A laryngeal prosthesis based on perilaryngean reflexes, Proc. 9th Int. EMBS Conf. IEEE, Boston. Voi. 4, IEEE, pp. 2114-2115, 1987 [13] Anonymous Automotive Industry OEM/Supplier: Talking to computers vs. talking to humans 7/12/2000. http://www-nrd.nhtsa.dot.gov/departments/nrd-13/driver-distraction/Topics013040293.htm#A293 [14] Anne-Marie Derouault, The Future of Speech Recognition. Evolving speech recognition technology is driving transparent computing, making it easier for people to  interact with  computers. http://www.advisor.com/Articles.nsf/ ID/OA000107.DERO01 [15] House D., Bell L., Gustafson K. & Johansson L. Child-directed speech synthesis: evaluation of prosodic variation for an educaţional computer program. Proc of Eurospeech'99, pp. 1843-1846, 1999
Aici, autorul citat face referire la L R. Rabiner, "Applications of Voice Processing to Telecommunications,"'Proc. IEEE, voi. 82, pp. 199-228, February 1994.
17583803
[16] Heldner M., Strangert E. & Deschamps T.: Focus detection using overall intensity and high frequency emphasis. In: Andersson R, Abelin Â, Allwood J & Lindblad P, eds. Proc of Fonetik 99; pp. 73-76,1999.
[17] Heldner M., Strangert E. & Deschamps T.: A focus detector using overgll intensity and high frequency emphasis. Proc. of ICPhS-99, pp. 1491-1494, 1999.
[18] Heldner M.: On the non-linear lengthening of focally accented Swedish words.
In: W. yan Dommelen & T Fretheim, eds. Nordic Prosody: Proc of the Vlllth
Conference, Trondheim 2000 . Frankfurt am Main: Peter Lang. 2001 [19] Karlsson I., Banziger T., Dankovicovâ J., Johnstone T., Lindberg J., Melin H.,
Noian F. & Scherer K.: Within-speaker variability due to speaking mannfcrs.
Mannell RH & Robert-Ribes J, eds. Proc. of ICSLP98, 2379-2382.1998 [20] Karlsson I.: Within-speaker variability in the VeriVox database. In: Andersson
R, Abelin Â, Allwood J & Lindblad P, eds. Proc. of Fonetik 99, pp. 93-96,
1999.
[21] Karlsson I, Banziger T, Dankovicovâ J, Johnstone T, Lindberg J, Melin H, Noian F, Scherer K (1998), Within speaker variation due to induced stress, Proc Fonetik-98, 150-153. www.ling.su.se/fon/publications/fonetik98/
[22] Gustafson-Gapkova S & Megyesi B.: A Comparative Study of Pauses in Dialogues and Read Speech. Proc. of Eurospeech 2001, pp. 931-935, 2001
[23] Beskow J.: A tool for teaching and development of parametric speech synthesis. In: Branderud P & Traunmuller H (eds). Proc. of Fonetik -98, pp. 162-165.1-98,1998
[24] Rachel I. Mayberry, Elizabeth Lock, Hena Kazmi: Linguistic ability and early language exposure. NATURE, Voi. 417, 2 May 2002, p. 38, 2002
[25] Mircrosoft Co.: Platform SDK: Agent. Characters. http://msdn.microsoft. com/library/default.asp?url=/library/en-us/msagent/deschar__8nn6.asp
[26] Mauricio Lumbreras, Gustavo Rossi: Metaphor for the Visually Impaired: Browsing Information in a 3D Auditory Environment. CHT95 Proc, www.acm.org/sigchi/chi95/proceedings/shortppr/mLbdy.htm
[27] Christophe d'Alessandro & Jean-Sylvain Lienard: 5.2 Synthetic Speech Generation. In: Survey of the State of the Art in Human Language Technology. http://cslu.cse.ogi.edU/HLTsurvey/ch5node4.html#SECTION52
[28] Teodorescu H.N.: Chaos in fuzzy systems and signals. Voi. Proceedings of the 2nd Int. Conf. on Fuzzy Logic and Neural Networks. Voi. 1, pp. 21-50 (Jono Printing Co., 1992, lizuka, Japan)
I[29] Teodorescu H.N., Kandel A., Jain L. C. (Eds.), Fuzzy and Neuro-Fuzzy Systems in Medicine (International Series on Computaţional Intelligence). CRC Press, Boca Raton, USA, 1998. [30] Teodorescu H.N., Mlynek D., Kandel A. (Eds.): Intelligent Systems and Interfaces (The Kluwer International Series In Intelligent Systems). Kluwer %       Publ., Boston, 2000.
_ [31] Yasuhisa Niimi, Masanori Kasamatu, Takuya Nishimoto and Masahiro Araki: ■v,v       Synthesis of Emoţional Speech Using Prosodically Balanced VCV Segments.
http://www.ssw4.org/papers/133.pdf. [32] Nick Campbell: WHERE IS THE INFORMATION IN SPEECH? (and to what
extent can it be modelled in synthesis?) www.slt.atr.co.jp/cocosda/jenolan/
Proc/r82/r82.pdf.
[33] Hakulinen J., Turunen, M.: Prosodic Feâtures for Speech User Interfaces. www.cs.uta.fi/hci/spi/reports/Prosodi^ .pdf.
[34] Ansgar Rinscheid: Voice Conversion Based On Topological Feature Maps and Time-Variant Filtering. www.asel.udel.edu/icslp/cdrom/vol3/235/a235.pdf.
[35] Syrdal A., Stylianou Y., Garrison L.+, Conkie A. Schroeter J.: Td-Psola Vs. Harmonic Plus Noise model in Diphone Based Speech Synthesis. www.research.att.com/projects/tts/papers/1998__ICASSP/paperSYN.ps.
Anexa 1: Sisteme nuanţate de tip Sugeno, de ordin 0. Funcţii de apartenenţă
Reamintim că o mulţime (clasică) A c X, unde X notează universul de discurs, este definită de o funcţie caracteristică, de forma:
%A():X-+{0,l}
, .   [l  daca  xe A [0  daca   x£ A
Prin generalizarea conceptelor de mulţime şi de funcţie caracteristică, se definesc mulţimile nuanţate (fuzzy) şi funcţiile de apartenenţă corespunzătoare
396
astfel: o mulţime nuanţată, notată a, peste universul de discurs X, este caracterizată unic de o funcţie de apartenenţă:
\iA( ):X->[0,1]
în particular, funcţia de apartenenţă poate fi de forma:
[ 1 pentru x = a € X [0   pentru x^a
caz în care se numeşte singleton.
Un sistem de tip Sugeno, de ordin 0, este descris de reguli de forma:
DACĂ intrarea (premisa) # 1 Şl premisa #2 Şl... Şi premisa # n ATUNCI concluzia
unde premisele sunt de forma: x, este Ătj , iar Ăy sunt valoari nuanţate (fuzzy), de
exemplu Ăn = "mare", Ăi2 = "mediu", atributelor lingvistice "mare", "mic" etc. fiindu-le ataşate câte o funcţie de apartenenţă. Specific sistemelor Sugeno este faptul ca în concluzie apar valori numerice si nu valori nuanţate, concluzia fiind deci de forma "y= 0,3" (singleton).
1.a sunt:
l^
Definiţiile funcţiilor de apartenenţă pentru intensitatea sonoră din Figura
Putere-mica
ica(p)z
pentru   p < 40 dB
l-P  ^   pentru 40<p<55dB
15
0
pentru   p > 55 dB
M' Putere-medie
3 pentru p<40dB
P"40      pentru 40<p<55dB
15
utere-mare
(p)=
l-p~55   pentru   55 < p<10dB 15
0 pentru p>10dB
0 pentru p < 55 dB
p~55 pentru 55 <p<10dB 15
1 pentru p>10dB
Definiţiile funcţiilor de apartenenţă pentru raportul HL (Figura 1b) sunt:
1
pentru   q ^ 0.5
Vhl-^MA1-^  Pmtm °-5<<}<L
^HL=medie
0 pentru p>\.
0 pentru   q < 0.5
q~0'5      pentru 0.5<?<1.0
0.5
\-q~ '   pentru l.<?<1.5 0.5
0 pentru p>l.5
0 pentru q<\.
^Zll pentru 1.0<q<1.5 0.5
1 pentru q>l.5
398
399
Pentru detalii asupra manipulării funcţiilor de apartenenţă şi a regulilor în sistemele nunaţate, a se vedea orice manual în domeniul sistemelor fuzzy, sau volume precum [29, 30] în care se pot găsi şi aplicaţii specifice legate de înţelegerea vorbirii, sau alte aplicaţii medicale.
Anexa 2: Procesul haotic
Procesul reprezentat de ecuaţiile (7) are o dinamică haotică doar pentru
anumite subintervale relativ înguste din R6. în restul spaţiului, comportamentul
este asimptotic instabil (peste tot pentru valori ale coeficienţilor lui r3 mai mari ca 1, în modul, dacă şi coeficientul lui u este mai mare ca 1 în modul);
comportamentul este stabil sau periodic pentru alte zone, relativ reduse din R6.
Diagrama de bifurcaţie a procesului, aşa cum apare în Figura A1, este obţinută pentru: valorile coeficienţilor [Q]={.1, -.17, -.18, .1}; coeff__4 = 1.1; coeff__5= -.15; condiţie iniţială r[0]= 0.3; număr total de puncte în diagrama de bufurcaţie: 500 (punctele de la 500 la 1000); regimul tranzitoriu eliminat: primele 500 puncte; precizia tuturor coeficienţilor şi variabilelor: double.
Figura A2-1. Diagrama de bifurcaţie a procesului Legile folosite (conform codului, scris în limbajul C) sunt:
u[n]= (coefL4)*r[n]+coefL5 -0.005*(float)k; x=u[n]; r[n+1]=poly(x, Q, coeff);
(Q este numărul de valori în vectorul coeficienţilor, Q=4)
Figura A2-2
Semnalul în domeniul amplitudine-timp din Figura A2-2 a fost obţinut pentru ecuaţiile (cod C):
u[n]= coeff_4*r[n]+coefL5-0.05*21.; x=u[n]; r[n+1]=poly(x, Q, coeff); Semnalul obţinut pentru valoarea u[n]= coeff_4*r[n]+coeff_5-0.05*21. (restul programului fiind identic ca pentru cazul anterior) este ilustrat în Figura A2-3.
--1
Figura A2-3
Semnalul obţinut cu u[n]= coeff_4*r[n]+coeff_5-0.05*20.7, precum şi la o scară dublă de timp, este ilustrat în Figura A2-4:
Figura A2-4
592370277009862110317099313632114406^^8^333^^^759635019137^47
6628
400
Regiunile spaţiului parametrilor în care sistemul este stabil, după cum s-a spus deja, sunt relativ înguste. Pentru parametrii coeffJ-coeff_4 fixaţi si coeficientul coeff_5 variabil între -25.15 şi + 4.85 (600 de pasi, cu pas 0 05) doar zona îngustă din Figura A2-5 este stabilă, oscilantă sau haotică, în rest sistemul fund asimptotic instabil. Pentru uşurinţa urmăririi scării, linia din partea de jos a figuri, reprezintă intervalul menţionat, [-25.15, + 4.85]), în care s-a testat sistemul
Figura A2-5
în figură, se poate remarca diagrama de bifurcaţie a sistemului, cu zonele de stabilitate, oscilaţie şi haos. Pentru restul intervalului, prin program calculele sunt abandonate, deoarece valorile de ieşire ale sistemului depăşesc, în valoare absoluta, 10000. '
Dumitru TODOROI, Diana MICUSA, Zinaida TODOROI, Ion LINGĂ, Ion
COVALENCO, Nicolae OBJELEANU, Ştefan SPĂTARU, Stela LUNGU,
Virginia  ŢURCANU,   Elana   COZLOV,   Nadejda  AMBROZII, Victor
SLOBODEANU, Igor COŞERU, Cătălina SURUCEANU
Academia de studii economice din Moldova, Str. Banulescu-Bodoni, 59-
61/503»B», Chişinău MD 2005, Republica Moldova,
E-mail: todoroi@ase.md
Lucrarea actuală realizată în cadrul achiziţionării Marelui Dicţionar al Limbii Române (MDLR) în format electronic a fost medodologic înfluenţată de ideile subliniate în [1-3] şi este o continuare a cercetărilor [4-7,10-11], efectuate în cadrul procesării limbajului natural. Au fost elaborate un şir de proiecte [8-9,12] de informatizare a Limbii Române. Experimentările cu elaborarea sistemelor computerizate de nivelul unu, orientate pe diferite sub-dicţionare ale MDLR structurat pe următoarele caracteristici: TEXT, AUDIO, IMAGINI şi VIDEO, au început recent în Academia de studii economice din Moldova (ASEM) în colaborare cu ONG-ul ECO-INFO-MOLD. Unele rezultatele ale cercetării şi experimentării în cadrul platformei alcătuite din aceste 4 subsisteme, sunt expuse în lucrarea de faţă. Sunt prezentate diferite scenarii [19] şi metodologii de utilizare a sub-dicţionarelor informatizate ale limbii române. Clarificarea mijloacelor Hardware-ului şi Software-ului modern, care pot suporta MDLR informatizat [18], constituie o problemă importantă pentru etapa creării Societăţii Informaţionale -Societate a Cunoaşterii [20].
I. Componenta TEXT a dicţionarului economic MULTIMEDIA al limbii Române [23].
Scopul acestui compartiment computerizat al MDLR constă în crearea subsistemului TEXT de nivelul unu a unei părţi introductive a dicţionarului economic al limbii române şi experimentarea cu acest sistem. Acest dicţionar economic constă din 35.000 - 40.000 cuvinte. Cuvintele conţinute în Dicţionarul Enciclopedic Ilustrat (DEI) [21] vor fi definite în-totalitate. Experimentarea cu subsistemul TEXT al MDLR computerizat este efectuată la momentul actual cu circa 200 articole din DEI.
Baza de date TEXT (BDT) a dicţionarului economic constă dintr-o culegere de texte-articole, alcătuită din cuvinte, fraze, paragrafe, capitole etc. ale DEI. Documentele în BDT includ nu numai informaţii textuale (definiţii de cuvinte), dar pot conţine şi informaţii de alt tip, de exemplu, prin extindere, imagini. Prin urmare BDT în sistemul computerizat al MDLR conţine nu numai materialul textual, dar şi ilustrativ: diagrame, grafice, fotografii etc.
Prin crearea subsistemului TEXT de nivel unu, utilizatorul obţine un mijloc important, prin intermediul căruia informaţia poate fi introdusă şi utilizată în mod complementar pe cale electronică.
1.1. Capacităţile necesare ale unui sistem de gestiune a bazei de
date MULTIMEDIA
MDLR este o bază de date MULTIMEDIA. Sistemul de gestiune al MDLR este un sistem de gestiune a bazei de date MULTIMEDIA (SGBDMM) şi constituie un mecanism care operează cu diferite tipuri de date, reprezentate într-o diversitate de formate pe un set larg de mijloace şi surse. Pentru a funcţiona efectiv e necesar ca SGBDMM să posede următoarele capacităţi:
(a) Capacitatea de a interoga uniform datele reprezentate în diferite formate;
(b) Capacitatea de a interoga datele, reprezentate în diferite media;
(c) Capacitatea de a transmite subiectele media din dispozitivele de stocare locale într-un mod efectiv;
(d) Capacitatea de a primi răspunsul la o interogare şi de a realiza prezentarea acestui răspuns pe baza componentei audiovizuale;
(e) Capacitatea de a furniza această prezentare pe o cale adecvată, care ar satisface calităţile diferitor cerinţe ale serviciului.
1.2. Structura bazei de date TEXT (BDT) a dicţionarului economic
MULTIMEDIA
Dicţionarul economic, care este pe cale de a fi pus pe calculator, este o BDT cu posibilitatea de a fi extinsă cu diferite componente ale MULTIMEDIA. Subsistemul TEXT a dicţionarului economic MULTIMEDIA este un subsistem al SGBDMM, care aprovizionează acesta posibilitate împreună cu utilizarea complimentară a BDT.
Structura BDT e compusă din:
(1) Indice cu caracteristica "număr";
(2) Termen principal (cuvânt, articol) cu caracteristica "text";
(3) Variantă(e), derivate, abreviere (concretizare) cu caracteristica "text";
1(4) Categorie gramaticală cu caracteristica "text"; (5) Domeniu cu caracteristica "text"; (6) Definiţii pentru termenul principal (şi concretizări) cu caracteristica "text";' (7) Sinonim(e) cu caracteristica "text"; (8) Antonim(e) cu caracteristica "text" şi altele.
De asemenea BDT are posibilitatea de a fi extisă cu următoarele 1 subdiviziuni MULTIMEDIA:
(9) Audio cu caracteristica „OLE";
(10) Imagini cu caracteristica „OLE";
(11) Video cu caracteristica „OLE" şi altele.
-■■      1.3. Scenarii de utilizări şi interogări ale subsistemului TEXT al
MDLR informatizat
Interogarea este o formă de interacţiune care ajută utilizatorul să prezinte o informaţie anumită într-o structură anumită, definită de utilizator. Spre exemplu, utilizatorul doreşte să obţină informaţii din arhive, articole, sau alte documente, care conţin informaţia despre Uniunea Europeană. Interogarea poate avea ^ următoarea formă: "Găseşte toate dosarele, legate de investiţiile străine, făcute de 4- UE în domeniul educaţiei". Un simplu cuvânt-cheie al acestui dosar nu va permite găsirea răspunsului corect, chiar şi dacă indicile acestui document deja există. Totuşi, sistemul ne va prezenta unele cuvinte, legate de această interogare, dar este posibil ca acestea să nu poată fi direct asociate la tema dorită. De aceea textul trebuie să fie indexat nu numai pe cuvintele cheie, dar şi pe conţinutul semantic şi/sau pragmatic al cuvintelor (în cazul BDT, de exemplu, concretizarea).
Soluţionarea problemei utilizatorului, care doreşte să afle definiţia cuvântului "Academie", de exemplu, cere introducerea polisemiei în BDT, care conţine concepte ca precizia şi rechemarea. întrebarea, propusă de către utilizator în acest context, este: "Cum să aflu din baza de cunoştinţe a MDLR sensul cuvântului "Academie - ca instituţie de învăţământ economic". Pentru aceasta BDT va fi completată cu o nouă coloană "concretizare", care va preciza şi va face posibilă afişarea pe monitor a acelei definiţii a cuvântului, de care utilizatorul este interesat (de exemplu: Academia de Studii Economice).
Un fragment de structură schematică a BDT.
1 Indece 1 Cuvânt    1   Concretizare 1 cuvânt 1	.... I   Definiţie |	. I Traducere
1 03342 1 Academia 1 de studii economice 1	I Nume dat şcolii de ...l	I
1 14269 I Banii      I EURO i I	I Denumire a princip...!	I
J 14271  I Banca    I de economii        I     |                          , ,		
SGBDMM, ca o extindere a SGBD Ms ACCESS-2000, în baza căruia este creată componenta TEXT a MDLR informatizat, gestionează BDT, utilizând limbajul SQL. în exemplele următoare utilizatorul este interesat de sfera finanţelor. Accesul BDT a MDLR este efectuat prin intermediul următoarelor interogări din SQL (care, în general, constituie comenzile SUMMARING, JOIN, PROJECTION, DIVISION, SELECT şi altele):
Ex.1. SELECT  Banii (termen principal, nume de interes)
FROM    Ambrozii-Godzina      (nume de fişier) WHERE  Concretizare = EURO (concretizare pentru termenul principal)
Ex.2.   SELECT Academia
FROM Ambrozii-Godzina WHERE    Concretizare = de studii economice
Ex.3. SELECT Banca
FROM Ambrozii-Godzina WHERE    Concretizare = de economii.
II. AUDIO-dicţionarul explicativ economic al limbii Române [24]
Dicţionarul explicativ economic MULTIMADIA al limbii române, ca o parte componentă al DEI, include circa 35000-40000 de cuvinte şi este divizat în compartimentele: Text, Audio, Video şi Imagini. Aceste componente MULTIMEDIA ale MDLR informatizat satisfac cerinţele de bază ale unui dicţionar informatizat: prezintă formele exacte ale cuvintelor, accentul, etimologia, definiţia-text, definiţia-sunet (audio), definiţia-video (film), definiţia-imagine (grafic, schema, poza etc.) şi corespunde cerinţelor unor categorii foarte largi de utilizatori, nu numai elevi şi studenţi, dar şi funcţionari şi profesionişti, contribuind la ridicarea nivelului de j| cultură.
I Compartimentul AUDIO al MDLR informatizat furnizează informaţii
f m necesare ale articolului respectiv (cuvântul, definiţia lui) în forma AUDIO.
| Subsistemul AUDIO de nivelul unu al SGBDMM oferă posibilitatea de AUDIO-utilizare a dicţionarului. Acest AUDIO-dicţionar va contribui din plin la ridicarea pe o
l treaptă superioară a societăţii noastre în utilizarea corectă a limbajului economic, atât la nivel oral cât şi scris. Conţinutul de date AUDIO poate fi caracterizat prin două metode: (a) folosind metadata prin explicarea conţinutului unui fişier AUDIO
|   sau (b) prin extragerea tipului potrivit de date AUDIO, folosind procesorul tehnic.
I 2.1. Componenta AUDIO a metadatelor
îr; Cu un fişier AUDIO se procedează la fel ca în cazul unei date VIDEO:
|T acestui fişier i se asociază un set (grup) de segmente, toate referindu-se la o perioa-
f dă de timp. Fiecărui segment i se atribuie un set de activităţi, care au decurs în acea
I perioadă de timp, subliniate prin aceste segmente. în general, jnetadata utilizează
5 reprezentarea AUDIO, care este sesizată ca un set de obiecte marcate în timp.
f Utilizarea componentei AUDIO a metadatei din MDLR informatizat este
;     recomandabilă mai ales ca o modalitate de creare şi de modificare a acestei metadate şi, îndeosebi, la interogarea AUDIO - dicţionarului de către utilizatorii '•K    care necesită această formă de comunicare om-maşină.
Crearea componentei AUDIO a metadatei este mai complexă decât crearea altor forme de dicţionare informatizate, deoarece identitatea indivizilor ce vorbesc nu poate fi uşor cunoscută; de asemenea conţinutul discursului poate fi neclar.
Conceptul despre conţinut este descris în termeni de metadată a procesului. Ca rezultat, data AUDIO este considerată ca un semnal DELTA(x) în timpul x. Trăsăturile de utilizare ale acestui semnal DELTA(x) sunt: (a) extragerea, (b) indicarea şi (c) depozitarea.
O undă constă dintr-un set de vârfuri (creste) şi adâncituri (văi). Perioada vibraţiei T este definită ca timpul în care o parte a undei revine la poziţia iniţială.
406
Alte caracteristici utilizate de componenta AUDIO în crearea metadatei sunt: (1) frecvenţa, (2) viteza şi (3) amplitudinea.
Baza de date AUDIO (BDA) poate fi interacţionată şi gestionată, utilizând sunetul auditiv prin intermediul secvenţei de prelucrări: segmentare, memorizare şi extragere a informaţiei.
2.2.2. Segmentarea
Segmentarea e o procedură de separare a semnalului audio în câteva ferestre egale. Această procedură poate fi utilizată conform următoarelor două metode:
(a) Utilizatorul specifică dimensiunile ferestrei, presupunând că proprietăţile undei şi ale ferestrei se vor obţine prin medie;
(b) Utilizatorul segmentează sunetul în acelaşi mod ca şi imaginile, folosind predicatul de omogenitate H.
2.2.2. Extragerea
La .extragere cel mai des utilizate sunt facilităţile de indicare a intensităţii, zgomotului, înălţimii şi clarităţii.
2.2. Unele sisteme de utilizare a BDA
Din punct de vedere a MULTIMEDIA, AUDIO - baza de date (BDA) poate fi interpretată ca o sursă auditivă, ca un fişier cu o fereastră auditivă şi cu trăsăturile respective, asociate aceastei ferestre.
Scenariile de utilizare a BDA cuprind toate formele MULTIMEDIA, care pot fi utilizate în diferite domenii. în sistemele comerciale, de exemplu, Bazele de date Informix includ bazele de date a sistemului managerial, care permit utilizatorului să acceseze baza de date, bazându-se pe nesiguranţa conţinutului.
Baza de date DB2, un alt exemplu, utilizată cu calculatorul de tip IBM, necesită cuplarea cu un sistem auxiliar, care permite lăsarea mesajelor vocale pe robot. DB2 poate importa şi menţine clipurile, care pot fi căutate printr-un nume sau descriere.
Putem reasculta mesajele lăsate pe robot, prin intermediului Internetului. Un exemplu în plus îl constituie o utilizare a unui cuvânt din AUDIO-dicţionarul economic al limbii române prin intermediul AUDIO-VIDEO-robotului, care este un sistem autorizat şi care acţionează pe baza unui program de lucru stabilit sau care reacţionează la anumite influenţe exteriore.
Un exemplu de interogare a componentei AUDIO a subdicţionarului economic al MDLR, prin indermediul limbagului SQL şi al subsitemului AUDIO de nivel unu al SGBDMM, poate avea forma:
SELECT Robot FROM Ţurcan-Mutruc
WHERE Attribute IS Definiţie AND Attribute IS Audio
Ca rezultat al acestei interogări utilizatorul prin intermediul răspunsului prietenos, obţine pe ecran definiţia TEXT a cuvântului Robot şi, paralel acest subsistem AUDIO al SGBDMM, difuzează acesta definiţie cu voce feminină sau masculină (la dorinţa utilizatorului).
III. Subsistemul IMAGINI de nivel unu al dicţionarului economic informatizat al limbii române [25]
Scopul acestui capitol constă în descrierea posibilităţilor de introducere a imaginilor în baza de date a MDLR informatizat şi de utilizare a acestora în viaţa cotidiană. Baza de date IMAGINI (BDI) a subdicţionarului economic al MDLR informatizat constituie o componentă, care oferă posibilitatea de extindere a procesului de înţelegere a sensului cuvântului dat. Din cele aproximativ 35000-40000 de articole ale dicţionarului economic din MDLR doar 50-60%, pot fi prezentate în forma de imagini, după părerea noastră.
Experienţa, obţinută pe baza câtorva zeci de articole din DEI în cadrul evaluării subsistemului IMAGINI al SGBDMM, ne confirmă întru totul conţinutul zicalei: «Mai bine odată să vezi decât să auzi de o sută ori» şi al zicalei «O imagine este mai mult decât o mie de cuvinte». Aceste facilităţi de utilizare din evoluţia procesului de creare şi utilizare a MDLR informatizat sunt confirmate şi de lucrările din [22] precum şi prin intermediul următorului Tabel 3.1, prezentat în original
Table 13.1.
Data rates and storage requirements per hour, day, and lifetime fora person to record all the text they've read, all the speech they've heard, and all the
Data type	data rate (bytes per second)	storage needed per hour and day	storage needed in a lifetime
Read text, few pictures	50	200 KB; 2-10 MB	60-300 GB
speech text @ 120 wpm	12	43 K; 0.5 MB	15GB
speech (compressed)	1,000	3.6 MB; 40 MB	1.2TB
video (compressed)	500,000	2 GB; 20 GB	1 PB
3.1. Baza de date IMAGINI (BDI)
Imaginea poate transmite mai multe informaţii despre un obiect decât câteva pagini (Vezi Tabelul 3.1) de descrieri textuale. Pentru un chirurg este cu mult mai uşor să-şi găsească un pacient potenţial prin investigarea diferitor imagini. Imaginile pot fi combinate cu corpusuri, text-definiţii, sunet-definiţii, traduceri etc.
în afară de datele IMAGINI ale dicţionarului economic MULTIMEDIA în MDLR informatizat vor fi prezente video, audio, document, manuscrise şi altele. Datele VIDEO sunt des folosite în domeniul învăţământului. Datele AUDIO sunt importante în domeniul criminalisticii, de exemplu, în identificarea vocilor celor suspectaţi. Datele documentare diferă de datele TEXT prin aceea că pot conţine nu numai informaţii textuale, dar şi imagini încadrate. Datele manuscrise se presupune că în viitorul apropiat vor prevala înregistrările electronice.
Sunt cunoscute diferite formate electronice, care dau posibilitatea de a vizualiza imaginea (fişierele de tip GIF, TIFF, PCX, de exemplu). Subsistemul IMAGINI a SGBDMM are anumite trăsături specifice necesităţii de utilizare a imaginilor ca o componentă vitală a MDLR informatizat.
3.2. Subsistemul IMAGINI
Baza de date IMAGINI diferă de bazele de date TEXT şi AUDIO prin complexitatea imaginilor, necesitatea de a diviza, combina şi utiliza diferite părţi componente ale imaginii, care deseori la interogare se complică şi prin utilizarea incorectă şi analiza neprecizată a tehnicilor de manipulare a imaginilor. Aceasta se complică şi prin faptul că diferite organizaţii adună date fotografice, hărţi, scheme şi alte imagini de tip universal sau specializat (cum ar fi, de exemplu, NASA). Interogările datelor de tip IMAGINI sunt efectuate în baza datelor de tip TEXT, căutate în baza de date de tip IMAGINI şi vizualizate în formă de text şi imagini. în final imaginile pot fi transferate în baza de date specializate, cum ar fi, de exemplu, încadrarea lor în baza de date MULTIMEDIA comerciale. în subsistemul IMAGINI al SGBDMM este prevăzut un set larg de proceduri cu imaginile.
3.2.1. Plasa imaginii Conţinutul imaginii constă din toate obiectele acestei imagini şi caracteristicile lor, care reprezintă interes din punctul de vedere al programului aplicativ. Imaginea poate avea o mulţime de proprietăţi, precum descrierea formei, prezentarea vectorului subdiviziunilor, prezentarea vectorului ordinii de . descompunere şi compunere a imaginii şi altele. Fiecare imagine "I" are o pereche asociată schimbătoare de numere pozitive (m,n), care se numeşte plasa imaginii. Ea este compusă din m*n celule de măsuri egale.
3.2.2. Transformări de imagini
Imaginea se împarte în părţi omogene, care se numesc segmente. Schemele de compresare a imaginii sunt invertibile, deoarece unele scheme de compresare pot conduce la pierderea informaţiei sau la pierderea perfecţiunii. Există două abordări a problemei căutării similarii imaginilor: abordarea metrică şi abordarea de transformare.
Abordarea de transformare este mai generală decât abordarea metrică. Această abordare utilizează operaţiuni ca: transformarea, transferarea, rotaţia, scalarea, simetrizarea ş.a.
3.3. Utilizarea imaginii
în prezent multe instituţii de învăţămînt oferă programe de studii individuale. Unele persoane doresc să se specializeze în diferite domenii, independent de o anumită formă instituţionalizată de învăţământ. Astfel de cursuri pot fi reprezentate sub formă de imagini speciale.
Imaginile pot fi utilizate în industria filmelor. Specialiştii au posibilitatea de a vizualiza imaginile alese de ei, lucrând la calculator.
Imaginile sunt importante şi în industria turismului. Pentru informaţii despre imaginile necesare se poate de asemenea apela la sistemul de tip IMAGINE al SGBDMM.
Interogările de imagini în dicţionarul economic al MDLR informatizat pot fi efectuate la fel ca în subsistemele, de acelaşi nivel unu, de tip TEXT şi AUDIO prin intermediul limbajului SQL al SGBD. Rezultatul în forma textuală a articolului şi imaginea într-o formă complementară este prezentată utilizatorului în formă de Soft-copy sau Hard-copy.
Obţinerea imaginii cuvântului «bancă», de exemplu, în subsistemul IMAGINI al SGBDMM al MDLR informatizat se efectuează prin intermediul următoarelor acţiuni. Se deschide baza de date IMAGINI a dicţionarului economic al limbii române (în care sunt acumulate la data experimentării cu SGBDMM al MDLR informatizat doar 25 de cuvinte cu imaginile respective). Se alege cuvântul «bancă». în înregistrarea respectivă a băncii în compartimentul imagini se găseşte OLE al imaginii cuvântului ales. Se efectuează clic pe ea şi vizualizăm pe ecran imaginea respectivă. Analog se procedează şi cu alte cuvinte din BDI.
IV. VTDEO-dicţionarul economic al limbii române[26]
în ultimii ani a crescut imens necesitatea de a putea chestiona şi procesa cantităţi mari de date, care nu sunt întotdeauna uşor de reprezentat prin intermediul simbolurilor. Exemple de astfel de date sunt: informaţia în formă de
410
411
imagini, informaţia-video, datele-audio, informaţia textuală, notiţe şi altele. în continuare vor fi examinate unele probleme de realizare a dicţionarului economic informatizat cu VIDEO clipuri. A fost iniţiată baza de date VIDEO (BDV) a dicţionarului economic MULTIMEDIA- o subdiviziune a MDLR informatizat - prin crearea subsistemului VIDEO de nivel unu al SGBDMM. Se va demonstra viabilitatea acestui subsistem.
4.1. Problemele creării subsistemului VIDEO al SGBDMM.
Pentru a opera o bază de date MULTIMEDIA (BDMM), un SGBDMM trebuie să posede următoarele abilităţi:
(a) Capacitatea de a chestiona uniform datele reprezentate în diferite formate;
(b) Capacitatea de a chestiona uniform datele reprezentate în diferite surse media;
(c) Capacitatea de a aporta unităţile media dintr-o diviziune locală de depozitare, asigurând continuitatea acestui proces;
(d) SGBDMM trebuie să primească răspunsul, generat de o chestionare şi să poată genera o prezentare a acelui răspuns utilizând audiovizualul;
(e) Capacitatea de a oferi prezentarea într-un mod care ar satisface diferite cerinţe ale utilizatorului.
Tehnologiile, legate de bazele de date, au dezvoltat în ultimii 40 de ani baza pe care ar trebui să fie creată o BDMM. în prezent sunt create limbaje de chestionare, tehnicile de aranjare, algoritmii de aportare pentru o mulţime de baze de date de tip relaţional, spaţial, temporal şi altele. Fiecare din aceste mijloace extind posibilităţile limbajelor şi algoritmii precedenţi pentru a face faţă noilor tipuri de date sau pentru a dezvolta paradigmele respective.
în acest capitol se va analiza informaţia de tip VIDEO. Necesitatea de a accesa o bază de date VIDEO (BDV) poate apărea în numeroase aplicaţii, şi de obicei modelul de acces variază considerabil de la o aplicaţie la alta.
în procesul reprezentării conţinutului unui film în BDV este necesar să se răspundă la un set de întrebări de tipul:
(A) Ce aspecte posibilele ale filmului pot interesa utilizatorii BDV?
(B) Cum pot fi aceste aspecte ale filmului eficient depozitate, astfel încât să minimalizeze timpul necesar subsistemului VIDEO al SGBDMM pentru a răspunde interogărilor utilizatorilor?
(C) Cum ar trebui să fie limbajul de interogare a datelor VIDEO şi cum ar trebui schimbat modelul relaţional pentru a corespunde informaţiei VIDEO?
i
I 1
(D) Poate fi oare automatizat procesul de extragere a informaţiei în baza contextului?
Aceste probleme au fost abordate în procesul creării şi experimentării cu BDV şi subsistemul VIDEO de nivel unu al SGBDMM.
4.2. Definiţiile datelor de tip VIDEO
De obicei un film este caracterizat prin personajele sale, atributele acestora şi activităţile în care sunt angajate aceste personaje. Principalele surse de interes într-un film includ: (a) oameni, (b) obiecte neînsufleţite, (c) fiinţe însufleţite şi (d) activităţi.
De observat că tema generală, care se repetă în fiecare cadru, constă în existenţa un grup de obiecte şi activităţi asociate. Astfel vom încerca să definim o bază de date VIDEO printr-un şir de definiţii.
Definiţie 1: O proprietate VIDEO este o pereche {pname, Values), unde pname este numele proprietăţii şi Values este o mulţime. O instanţă a proprietăţii (pname, Values), este o expresie de forma pname-v, unde vc Values.
Definiţie 2: O schemă obiect este o pereche (fd, fi), unde:
fd este o mulţime de proprietăţi cadru-dependente,
fi este o mulţime de proprietăţi cadru-independente (fi şi fd sînt mulţimi
disjunctive).
Definiţie 3: O instanţă obiect este un triplet (oid, os, ip), unde: o/of este o frază numită identitatea obiectului, os= (fd, fi) este o schemă obiect şi ip este o mulţime de afirmaţii de tip:
(a) pentru fiecare proprietate (pname, Values), în fi, ip conţine cel mult o instanţă a proprietăţii (pname, Values),
(b) pentru fiecare proprietate (pname, Values) în fd şi pentru fiecare cadru f al filmului, ip conţine cel mult o proprietate instanţă (pname, Values). Această proprietate instanţă este notată prin pname = v IN f.
Definiţie 4: O schemă activitate ACT_SCH este o mulţime finită de proprietăţi astfel încât, dacă (pname, Valuesl) şi (pname, Values2) aparţin ACT_SCH, atunci Values^ Valuesl.
Definiţie 5: O activitate este o pereche, care constă din
(a) AcID, indicele schemei activitate ACT_SCH şi
(b) pentru fiecare pereche (pname, Values) c ACT_SCH este valabilă ecuaţia de forma pname= v, unde v c Values. Oricărei activităţi i se asociază o schemă de activitate şi fiecărei proprietăţi i se asociază o valoare din mulţimea valorilor posibile.
Fiind dată o singură dată VIDEO v, putem defini "conţinutul" filmului v. Definiţie 6: Fie că framenum(v) specifică numărul total de cadre din filmul v. Conţinutul lui v constă dintr-un triplet (OBJ,AC,Ă), unde:
1. 08J={oid1,...,oidn} este o mulţime finită de instanţe ale obiectului,
2. i4C={AclDi,...,AclDk} este o mulţime finită de activităţi/evenimente şi
3. A este o hartă de la {1,...,framename(v)} până la 2 0BJUAC-
Intuitiv, conţinutul unei date VIDEO v este teoretic descris de tripletul (OBJ,AC,Ă), unde:
1. OBJ reprezintă mulţimea obiectelor de interes în film,
2. AC reprezintă mulţimea activităţilor de interes din film şi
3. A reprezintă obiectele şi activităţile, care sunt asociate cu fiecare cadru f al filmului.
4.3. VIDEO biblioteca
O persoană interesată de obţinerea unei lecţii imprimate pe o casetă video ar dori să chestioneze o VIDEO bibliotecă, care găzduieşte o colecţie de casete video, referitoare la un anumit subiect. De exemplu, Universitatea Maryland oferă cursuri, utilizând contactul prin satelit. în viitor casetele video, create în acest fel, vor putea fi accesate cu ajutorul unui calculator, oferind astfel studenţilor prelegeri pentru mai multe obiecte de studiu adunate de-a lungul anilor şi ţinute de diferiţi lectori. Chestionarea bazei de date VIDEO de un student individual ar presupune accesarea unui număr foarte mare de casete video.
O bibliotecă VIDEO este o colecţie, care specifică: (a) totalitatea filmelor din bibliotecă, (b) conţinutul fiecărui film şi (c) memorizarea fizică a filmelor. Definiţie 7: O VIDEO bibliotecă VidLib constă dintr-o mulţime finită de cuvinte de tip (VidContent, Vidjd, framenum, R, plm), unde:
(a) VidContent este conţinutul filmului,
(b) Vidjd, este numele filmului,
(c) Framenum este numărul de cadre în film,
(d) Plm este amplasarea, care specifică adresele diferitor părţi ale filmului şi
(e) R este mulţimea relaţiilor despre filme în întregime.
4.3.1. Chestionarea bibliotecii VIDEO Chestionarea unei VIDEO biblioteci conţine următoarele tipuri de interogări: (a) aportarea segmentelor (Găseşte toate segmentele care corespund unei anumite cerinţe), (b) aportarea obiectelor, (c) aportarea activităţilor şi (d) aportarea proprietăţilor de bază (Care VIDEO-date sunt în bibliotecă, care este conţinutul fiecărei VIDEO-date selectate, unde sunt localizate fizic VIDEO-datele).
4.3.2. Funcţiile VIDEO-datei
Cu bibliotecile VIDEO pot fi definite o serie de funcţii: FindVideoWithObject(o): fiind dat numele obiectului o, această funcţie ne oferă tripletul (Videold, StartFrame, EndFrame), FindVideoWithActivity (a) FindVideoWithActivityandProp(a,p,z) FindVideoWithObjectandProp(o,p,z) FindObjectslnVideo(\/,s,e) FindActivitiesInVideo (v,s,e) FindActivitiesAndPropsinVideo (v,s,e) FindObjectAndPropsInVideo (v,s,e)
O chestionare standard a VIDEO-bibliotecii, utilizînd SQL are forma:
SELECT câmp!,..., câmpn
FROM    relaţia^RV), relaţia2(f?2),..., relaţiak (Rk)
WHERE condiţie.
4.3.3. Ordonarea datelor VIDEO
O problemă importantă este crearea structurilor informaţionale, care ar organiza bazele de date VIDEO în aşa fel încât să optimizeze procesarea celor opt . funcţii enumerate mai sus. Este imposibil de a se depozita conţinuturi al VIDEO-datelor cadru cu cadru, deoarece un singur film de 90 minute conţine 162,000 cadre. Astfel, este necesar să se creeze reprezentări compacte ale conceptului de conţinut video. în acest sens vom prezenta două astfel de structuri: (a) arborii segment cadru, şi (b) arborii R-segment.
4.3.4. Arborii segment cadru Ideea de bază a arborelui segment cadru este foarte simplă. La început se creează două tabele unidimensionale: OBJECTARRAY şi ACTIVITYARRAY. în acest context arborele poate fi creat în 2 etape:
414
415
La prima etapă presupunem că [s^e!),..., [sw,ew) sunt toate intervalele în coloana "Segment" a tabelei segment. Fie qi,...,qz o enumeraţie ascendentă a tuturor membrelor {Sj.es 11< i < w}. Dacă z nu este o putere a numărului 2, atunci se procedează astfel: fie r cel mai mic număr întreg astfel încât 2r>z şi 2r>framenum(v). Se adaugă noi elemente q2+i,...,q2r astfel încât q2r = framenum(v)+î şi qz+j= qz+j (j>0, z+j<2r).
La a doua etapă arborele este unul binar format după cum urmează:
1. în fiecare nod arborele segment cadru reprezintă o secvenţă de cadru [x,y).
2. Fiecare frunză este la nivelul r. Prima frunză din stânga marchează intervalul [z-i z2), a doua [z2,z3) şi aşa mai departe.
3. Numărul din interiorul fiecărui nod este adresa acelui nod.
4. Mulţimea de numere de lângă nod marchează numărul de identitate al VIDEO-obiectelor şi al VIDEO-activităţilor, care apar în întreaga secvenţă de cadru asociată cu nodul dat.
Definiţie 8: O secvenţă de cadru este o pereche [i,j), unde 1< i < n şi [ij) reprezintă
mulţimea tuturor cadrelor între i (inclusiv) şi j. Definiţie 9: O ordonare parţială c asupra mulţimii tuturor secvenţelor de cadru
este definită ca [i-iji) c [i2j2) cu condiţia, că ii<ji=i2<j2. Definiţie 10: O mulţime X de secvenţe de cadru este bine aranjată dacă:
1. X este finită (adică X= {[iiji),..., [ir2,jr2)}, pentru oricare r2)şi
2. [iiji)c[i2,j2) c...c [ir2,jr2)
Definiţie 11:0 mulţime X de secvenţe de cadru este solidă dacă:
1. X este bine ordonată şi
2. Nu există nici o pereche de secvenţe de cadru în X de forma [h,i2) şi P2J3)
4.3.5. Operaţii cu arborii segment cadru. Fiecare film v este o structură de VIDEO-date, care constă dintr-un arbore segment cadru, un tablou obiect şi un tablou activitate. în particular, dacă biblioteca VidLib conţine filmele v^..., vn> atunci este suficient să asociem următoarele:
1. O singură tabelă   numită INTOBJECTARRAY cu schema (VID.ID, OBJ, PTR),
2. O tabelă numită INACTIVITYARRAY cu schema (VID.ID, ACT, PTR) şi
3. Pentru fiecare arbore segment cadru Vj, fst(vf) este asociat cu filmul Vj.
De asemenea pot fi exprimate cele 8 funcţii, în SQL, introduse mai sus. De exemplu, una din aceste funcţii FindVideoWithObject(o), poate fi implementată cu arborii segment cadru printr-o operaţie de selecţie, efectuată asupra INTOBJECTARRAY DE TIP:
SELECT VIDEOJD
FROM INTOBJECTARRAY
WHERE OBJ = o.
4.3.6. Arborii R-segment (RS-arbori) Arborii R-segment sunt foarte asemănători cu arborii segment cadru, cu o singură deosebire. Deşi conceptele de OBJECTARRAY şi ACTIVITYARRAY rămân aceleaşi, în locul utilizării unui arbore segment cadru, pentru a reprezenta secvenţa de cadru, profităm de faptul că o secvenţă [s,e) este un dreptunghi cu lungimea laturii (e-s) şi lăţimea 0. Fiecare nod va avea o structură specială pentru a specifica, pentru fiecare dreptunghi, care obiect sau activitate este asociată acestuia.
4.4. Operaţii cu VIDEO-clipuri
Un film este creat prin filmarea unor secvenţe şi combinarea lor, utilizând un operator de combinare. O secvenţă este de obicei filmată de mai multe camere, fiecare având o viteză relativă de rotaţie constantă. în general o secvenţă poate avea mai multe atribute asociate precum durata filmării, tipul de cameră utilizat şi altele.
Un operator de combinare a filmărilor, deseori numit edit effect, este o operaţie care în baza a două filmări Si şi S2, şi a unui interval de timp t efectuează o secvenţă compusă în timpul t. Aşadar un film este creat prin combinarea unei mulţimi de secvenţe filmate, utilizând un şir finit de operaţii de compunere. Exemple de astfel de operaţii de compunere a filmelor includ:
1. Concatenarea filmărilor,
2. Compoziţia spaţială şi
3. Compoziţia cromatică.
4.5. Standardele video
Deşi în general standardele industriale nu sunt parte componentă a nucleului cadrului MULTIMEDIA, este important să explicăm în linii generale ideea de bază a standardelor MPEG.
Toate standardele de comprimare a informaţiei VIDEO încearcă să comprime filmele prin executarea unei analize intra-cadru: fiecare cadru este
416
417
divizat în blocuri, diferite cadre sunt comparate, pentru a vedea dacă informaţia conţinută de acestea nu se repetă în două cadre. Calitatea tehnicii de compresie este măsurată conform următorilor trei parametri de bază:
(a) Fidelitatea hărţii color: cât de multe culori ale filmului original sunt prezente după comprimare?
(b) Rezoluţia pixel pe cadru: câţi pixeli au fost abandonaţi?
(c) Numărul de cadre pe secundă: câte cadre au fost abandonate?
4.6. Scenarii de utilizare a VIDEO-dictionarului
Dicţionarul MULTIMEDIA al limbii române cuprinde peste 70000 de cuvinte din cele mai diverse domenii. Dicţionarul este conceput atât pentru studenţi, cât şi pentru cercul larg al vorbitorilor limbii române, care doresc să cunoască sensul propriu care trebuie conferit cuvintelor. Dicţionarul MULTIMEDIA satisface cerinţele de bază: dă definiţia exactă a cuvântului şi, dacă e cazul, genul, numărul, sinonimele, antonimele, imagini, secvenţe VIDEO şi AUDIO, care exprimă sensul exact şi limpede, deplin accesibil, ceea ce constituie partea cea mai importantă de utilizare. Acest dicţionar este una din pietrele de temelie ale culturii tineretului, care va contribui la opera de culturalizare a maselor prin iniţierea în folosirea limbii române în mod corect, exact şi unitar.
Compartimentul VIDEO al acestui dicţionar MULTIMEDIA al limbii române conţine, după pronosticurile noastre, peste 12000 cuvinte. Acest compartiment furnizează informaţii necesare referitoare la cuvintele căutate, secvenţe video ce oferă posibilitatea de a percepe mai bine esenţa cuvintelor. Diviziunea video face dicţionarul mult mai accesibil şi atractiv pentru utilizatori de toate vârstele şi preocupările.
Necesitatea utilizării VIDEO-dicţionarului poate apărea în cele mai diverse situaţii. Să considerăm situaţia în care un student este nevoit să scrie un referat la merceologia şi tehnologia produselor alimentare. Studentul trebuie să analizeze procesul tehnologic de producere a pâinii. în acest sens, apelarea la VIDEO-dicţionarul limbii române îi va uşura lucrul; acesta îi va furniza secvenţe VIDEO, ce prezintă procesul de fabricare a pâinii, ingredientele utilizate, utilajul necesar.
4.6.2. Chestionarea Video dicţionarului Dicţionarul VIDEO este organizat ca o mini-bibliotecă VIDEO. După cum am subliniat mai sus, în procesul de chestionare cele mai importante aspecte sunt: (a) Aportarea segmentelor: utilizatorul poate cere bazei de date VIDEO să-i ofere toate secvenţele, care conţin informaţii despre procesul tehnologic de producere a pâinii. O astfel de chestionare ar fi: "Găseşte toate secvenţele unde se combină ingredientele", sau "Găseşte toate secvenţele unde se frământă pâinea".
(b) Aportarea obiectelor: în acest caz, utilizatorul poate solicita toate segmentele, în care este prezent cuptorul, banda rulantă etc. Formularea întrebării ar fi: "Găseşte toate secvenţele, în care apare cuptorul", "Găseşte toate secvenţele, în care apare banda rulantă" etc.
(c) Aportarea activităţilor: se solicită prezentarea tuturor segmentelor, în care pot fi urmărite diferite operaţiuni de producere. întrebarea poate fi: "Găseşte toate secvenţele, în care se desfăşoară operaţiunile de producere".
4.6.2. Utilizarea bazelor de date VIDEO în diferite domenii După cum am menţionat anterior, scopul baze de date VIDEO este de a satisface cele mai diverse cerinţe. Astfel, aceste BDV îşi găsesc aplicarea în cele mai diverse domenii.
4.6.2.1. Educaţie. Bazele de datele VIDEO au o aplicare largă în educaţie şi cercetare. Universităţile pot acorda servicii precum studii la distanţă prin satelit, sau utilizând Internetul. Acestea pot pune la dispoziţia studenţilor un set de casete VIDEO cu înregistrări ale cursurilor. Dicţionarul VIDEO, fiind şi el o bază de date VIDEO, pune la dispoziţia utilizatorilor secvenţe VIDEO care pot fi utilizate în cadrul comunicărilor, pentru pregătirea unor prezentări, lecţii deschise, rapoarte.
4.6.2.2. Sport. Sălile de Sănătate oferă baze de date, în care sunt înregistrate casete VIDEO ce conţin diferite programe de antrenament, utilizatorului oferindu-i-se posibilitatea de a alege între programe de slăbire, fortificare sau menţinere a condiţiei fizice.
4.6.2.3. Agricultură. Institutele de cercetări ştiinţifice în domeniul agriculturii din ţară ar putea utiliza VIDEO-dicţionarul pentru a studia mai aprofundat procesul de plantare, condiţiile de creştere şi dezvoltare a plantelor, specificul dezvoltării plantelor în diferite regiuni sau ţări, aclimatizarea plantelor la condiţiile ţării în cauză.
4.6.2.4. Economie. VIDEO-dicţionarul poate fi utilizat în foarte multe domenii ale economiei: finanţe, contabilitate, management, marketing, statistică, turism. Vocabularul economic cuprinde destul de mulţi termeni, care pot fi redaţi printr-un limbaj VIDEO mai accesibil, atât specialiştilor, cât şi utilizatorilor obişnuiţi.
V. Concluzii
5.1. Compartimentul TEXT. Dicţionarul economic TEXT al limbii române în forma sa de BDT, ca o subdiviziune a MDLR, are posibilitatea de a fi extins cu caracteristicile respective ale MULTIMEDIA: Imagine, Audio, Video etc. Această BDT va ocupa aproximativ 18 MB memorie. La conferinţa tinerilor savanţi ai ASEM din 4-5 aprilie 2002, pe baza câtorva sute de articole din DEI au fost demonstrate
418
419
caracteristicele de utilizare prietenoasă a subsistemului TEXT al SGBDMM, utilizând sistemele Ms ACCESS - 2000, Ms WORD - 2000 şi Ms PowerPoint -2000 în calitate de componente ale Software-ului Ms OFFICE -2000 şi WINDOWS - 2000, exploatate în baza hardware-ului de tip PC Pentiun II, conectat la reţelele Intranet, Externet şi Internet.
5.2. Subsistemul AUDIO. Subsistemul AUDIO interacţionează cu celelalte subsisteme de nivel unu (TEXT, IMAGINI, VIDEO) ale SGBDMM, care susţine evaluarea Marelui Dicţionar al Limbii Române informatizat cu MULTIMEDIA. Acest subsistem AUDIO susţine toate definiţiile celor 61635 de articole din DEI de comun acord cu subsistemul TEXT al SGBDM. Cele 2320 de ilustraţii din DEI sunt susţinute de componenta IMAGINI a SGBDMM, dar cu ele poate fi extinsă componenta TEXT şi/sau componenta AUDIO. Exemplele, enumerate mai sus, de utilizare a AUDIO componentei a MDLR informatizat, au un aspect comun, abstract vorbind formează corpul unei date, fiind individual executate în diferite probleme prin intermediul diferitor suporturi ale Software-ului şi Hardware-ului modern. Baza de date BDA a compartimentului AUDIO-dicţionarului economic al MDLR informatizat va ocupa un volum de memorie de circa 60 GB memorie.
5.3. Subsistemul IMAGINI. BDI al subsistemului IMAGINI al MDLR informatizat recent a fost expusă pentru analizare şi discuţii la Conferinţa tinerelor cercetători ai ASEM din 4-5 aprilie 2002 în baza câtorva zeci de articole din DEI. Mijloacele Software-ului şi Hardware-ului de tip Ms ACCESS-2000, Ms WORD-2000 şi Ms PowerPoint-2000 cu dispozitivele respective al PC-ului Pentium II au fost suficiente la etapa iniţială pentru a demonstra eficienţa şi eficacitatea mijloacelor şi metodelor alese pentru realizarea Proiectului "Limba Română -Limba a Comunităţii Europene" de către grupul de cercetători - autori ai acestei lucrări. Volumul BDI de prezentare în Ms ACCESS-2000 fără comprimare a 50 articole din DEI ocupă circa 550 MB memorie.
5.4. Subsistemul VIDEO. După cele menţionate mai sus ţinem să subliniem, că subdicţionarul VIDEO are o utilitate mare pentru persoanele ce operează în diferite domenii ca: economia, educaţia, sport, agricultură, industrie etc. Avantajul acestui dicţionar este uşurinţa în folosire şi accesibilitatea. Dicţionarul VIDEO este o bază de date, cu care putem opera oricând avem nevoie şi oferă posibilitatea de a percepe o informaţie în formă de videoclipuri. în acest mod, persoanele ce se folosesc de acest dicţionar înţeleg mai uşor sensul cuvântului, care este reprezentat în formă VIDEO, fiindcă se formează o imagine amplă despre cuvântul dat şi este uşor de memorizat.
5.5. Lucrări paralele şi perspective. Paralel cu sistemele de nivel unu, • sunt elaborate sistemele de nivelul doi, care suportă subdiviziunile MDLR în
planurile: TEXT&AUDIO, TEXT&IMAGINI şi TEXT&VIDEO.
Elaborarea sistemului, care suportă toate compartimente MULTIMEDIA ale MDLR informatizat, constituie a treia platformă, mai complexă, de experimentări şi implementări ale dicţionarelor computerizate în cadrul elaborării MDLR informatizat [17].
Rezultatele evaluării preliminare ale primelor elemente ale acestor trei platforme: sistemele unare TEXT, AUDIO, IMAGINI şi VIDEO au creat posibilitatea de a transforma unele concluzii ale evaluării MDLR informatizat ca o parte componentă a cercetărilor în cadrul Proiectului «Limba română - limbă a Comunităţii Europene», care se desfăşoară în perioada 2000-2006. Acest Proiect a fost iniţiat [10-11] de către Forumul Internaţional din Chişinău,14-15 aprilie anul 2000. Proiectul constituie unul dintre subiectele de cercetare, experimentare şi evaluare, efectuate în cadrul Consorţiului Uniunii Latine «Pentru limba română», a Consorţiului «Pentru informatizarea limbii române» şi a Comisiei Academiei Române «Pentru informatizarea limbii române».
O serie de aplicaţii a MDLR computerizat este evidenţiată în [13-16].
Referinţe bibliografice
[1] V. S. Subrahmanian. Principles of Multimedia Database Systems. // Morgan Kaufman Publishers, Inc., San-Francisco, California, USA, 1998, -pp. 442.
[2] D. Todoroi, S. Nazem, T. Jucan, D. Micusha. Transition To A Full Information Society: Stage Development. // Working Paper No. 98-2, UNO, Omaha, USA, March 1998.-38 p.
[3] D. Todoroi, D. Micuşa, V. Clocotici, I. Lingă, V.Tapcov, N. Drucioc, A. Calcatin, M. Morari. Data Bases and Communications Tools. Ms ACCESS - 200. // Ed. ASEM, Chişinău 2002, 337 pages. (Eng.)
[4] Dumitru N. Todoroi, Zinaida Todoroi, Diana Micusa. Romanian Computerized Language - One of the European Community Languages. // Proceedings of the 26th Annual Congress of the American Romanian Academy of Arts and Sciences (ARA), Montreal, Quebec, Canada, July 25-29, 2001, pp. 133-137. (Rom)
[5] Diana D. Micusha, Dumitru Todoroi. Natural language processing at the transition to a full information society iniţial development phase. Part 1. // Studii şi cercetări economice. Voi. XXX. Lucrări prezentate la Sesiunea jubiliară de comunicări ştiinţifice: «Creştere economică, dezvoltare, progres», Cluj-Napoca, 2001, pp. 1396-1413.'
[6] Diana D. Micusha, Dumitru Todoroi. Natural language processing at the transition to a full information society iniţial development phase. Part 2. // Studii şi cercetări economice. Voi. XXX. Lucrări prezentate la Sesiunea jubiliară de comunicări ştiinţifice: «Creştere economică, dezvoltare, progres», Cluj-Napoca, 2001, pp. 1414-1427.'
420
[7]
[8]
[9]
[10]
Sabin-Corneliu Buraga, Dumitru Todoroi. Adaptabilitatea informaţională şi operaţională. // Studii şi cercetări economice. Voi. XXX. Lucrări prezentate la Sesiunea jubiliară de comunicări ştiinţifice : «Creştere economică, dezvoltare, progres», Cluj-Napoca, 2001, pp. 1447-1457.
Dumitru TODOROI. The Computerized Romanian Natural Language Processing Development-Projects-Perspectives. //INFORMATION SOCIETY. The Proceedings of the 5th International Symposium on Economic Informatics, May 2001, Ed ECONOMICA, Bucharest 10-13 May 2001, pp. 927-935.
Dumitru N. TODOROI. IEE-2000 PROJECT: Natural Language Processing Initialization.   //   EUROPEAN   EXCELENCE   IN   BUSINESS STUDIES STUDENTS'  EDUCATION.  Internetional Symposium.  Edited  by IOAN ANDONE, Bucureşti, Editure Economica, 2000, pp. 328-334. Dumitru Todoroi. Project: Romanian Language - One of the European Community Languages. // Proc. of the VI Conf. « Application Sciences», 18-19 May 2000, USAM, Chişinău, pp. 12-15. [11] Dan Crisrea, Dumitru Todoroi, Dan Tufiş. Computaţional Linguistic: Romanian Language - One of the European Community Languages. // Proc. of the Intern. Sc. Seminar "Strategies and Modalities for România and Moldova' European Integration", 28-29 Sept. 2000, V.2, ASEM, Chişinău, pp.276-280. [12] D. Todoroi, D. Micusa, V. Clocotici, S. Pereteatcu, V. Bordeianu, C. Grigoras, S. Cretu, I. Lingă, S. Spataru.   Natural Language Processing: IEE-2000 Project. // Proc. of the Intern. Sc. Seminar "Strategies and Modalities for România and Moldova' European Integration", 28-29 Sept. 2000, V.2, ASEM, Chişinău, pp.281-285. [13] Ştefan Spataru, Dumitru Todoroi. Distance Education Via Internet, Multimedia and modern System Environment. // Proc. of the Intern. Sc. Seminar "Strategies and Modalities for România and Moldova' European Integration", 28-29 Sept. 2000, V.2, ASEM, Chişinău, pp. 307-312. Ion  LINGĂ.  IMPACTUL  IMPLEMENTĂRII  COMPUTERULUI ASUPRA PROCESULUI DE ASIMILARE A CUNOŞTINŢELOR. // Proc. Of the 27th ARA Congress, May 29 - Lune 2, 2002, Oradea, România.(To be published). [15] Ion COVALENCO. Metode adaptabile de evaluare a cuniştinţelor asistată de calculator. // Proc. Of the 27th ARA Congress, May 29    Lune 2, 2002, Oradea, România. (To be published). [16] Nicolae OBJELEAN.The Metod for Error Corection in String with Applications in Speach Recognition. // Proc. Of the 27th ARA Congress, May 29 -   June 2, 2002, Oradea, Romanja.(To be published). [17] Dumitru N. TODOROI, ASEM, Chişinău, Nicolae MARGINEANU, L'Ecole Politechnique, Montreal, Canada.THE ROMANIAN LANGUAGE'MULTIMEDIA - DICTIONARIES   IMPLEMENTATION ENVIRONMENT AT THE FULL INFORMATION SOCIETY INIŢIAL DEVELOPMENT PERIOD. // Proc. Of the 27th ARA Congress, May 29 - Lune 2, 2002, Oradea, Romania.(To be published).
[14]
[19]
[20]
[18] Diana MICUSHA. Mijloace adaptabile ale sistemelor de procesare a limbajului natural computerizat. // Proc. Of the 27th ARA Congress, May 29 - Lune 2, 2002, Oradea, România.(To be published).
Zinaida TODOROI, ULIM, Chişinău, Eugenia MARGINEANU, L'Ecole Politechnique, Montreal, Canada. MULTIMEDIA - dictionaries for Romanian Language. Usage Scenarios on the EAPEC Base. // Proc. Of the 27th ARA Congress, May 29 - Lune 2, 2002, Oradea, România.(To be published). Societatea informaţională - Societatea cunoaşterii. Concepte, soluţii şi strategii pentru România. // ACADEMIA ROMÂNĂ, Editura EXPERT, Bucureşti, decembrie 2001. - 541 pages. [21] Dicţionar Enciclopedic Ilustrat (DEI). // Editura CARTIER SRL, Chişinău,
Editura CODEX SRL, Bucureşti, 1999, 1808 pages. [22] Beyond Calculation : The Next Fifty Years of Computing. // Edited by Peter J. Denning and Bob Metcalfe, Copernicus, 1997 Springer-Verlad New York, Inc., 350 pages.
Comunicări la Conferinţa tinerilor cercetători ASEM, 4-5 aprilie 2002,
Chişinău.
Coordonator: Dumitru TODOROI, Prof. Univ., doctor habilitatus.
[23]. AMBROZII Nadejda, GODZINA Irina. Componenta Text a Audio Dicţionarului
Economic al Limbii Române. [24]. TURCANU Virginia, MUTRUC Carolina. AUDIO-DICTIONARUL EXPLICATIV
ECONOMIC AL LIMBII ROMÂNE [25]. COZLOV Elena, BABANU Irina.    Subsistemul IMAGE al dicţionarului
economic informatizat al limbii române. [26]. LUNGU Stela,CIOBANU Diana, GUZUN Oxana. VIDEO-dicţionarul economic
al limbii române.
423
Mediu pentru editarea transcrierilor fonetice în limba română. Realizarea atlasului lingvistic român pe regiuni
Silviu BEJINARIU, Vasile APOPEI, Mariana ROMAN
Academia Română, Institutul de Informatică Teoretică, laşi, B-dul Carol nr. 8
silviub@academie.is.edu.ro, vapopei@academie.is.edu.ro
Abstract
The goal of our work is to create an Electronic Linguistic Atlas of România. The Electronic Linguistic Atlas has feâtures of a multimedia application allowing the user to consult and/or prinţ the linguistic maps and to listen audio recordings or synthesized speech.
In order to show all the spelling variations, the phonetically transcription is used in the linguistic atlases. For the Romanian Language, the graphic symbols have been hand-written.
The editing process is too difficult using a standard text editor as consequence of the great number of fonts used. In this paper we propose an editing interface for the phonetic transcription of the Romanian Language. This interface can be used to edit dictionaries of the Linguistic Atlas and as editing tool for the phonetic transcriptions in stand-alone mode or as server for other text editors.
Keywords: dictionary, phonetically transcription, multimedia, linguistic
atlas
1. Clasificarea simbolurilor grafice pentru editarea transcrierilor fonetice
Pentru a putea arăta toate nuanţele de rostire, în lingvistică se recurge (după practica internaţională) la transcrierea fonetică. Pe lângă transcrierea fonetică internaţională realizată cu Alfabetul Fonetic Internaţional (IPA), fiecare ţară îşi are propriile simboluri grafice [1], [2]. La realizarea atlaselor lingvistice româneşti, aceste simboluri sunt scrise doar manual. în lucrarea [3] este
424
prezentată o primă abordare a realizării simbolurilor grafice pentru transcrierea fonetică din perspectiva realizării variantei computerizate a atlaselor lingvistice româneşti.
în această primă parte vom prezenta principiile care au stat la baza modului în care au fost organizate simbolurile grafice folosite în transcrierea fonetică a limbii române.
Pentru claritatea prezentării introducem următoarele noţiuni:
• sunete primare1:
- vocale, consoane - existente în alfabetul latin care au corespondent pe tastatură;
- diacritice - vocale, consoane - care nu au corespondent pe tastatură dar pot fi obţinute prin combinaţii de taste;
• sunete marcate cu unul sau mai multe fenomene fonetice.
De aici a rezultat necesitatea realizării unui font de bază (ALRJBaza) care să cuprindă simbolurile grafice pentru toate sunetele primare. Poziţia în "font" a simbolurilor grafice pentru diacritice, a fost stabilită urmărind păstrarea poziţiei implicite din familiile de fonturi uzuale (Arial, Times New Roman). Pentru realizarea sunetelor marcate cu unul sau mai multe fenomene fonetice am proiectat familii de fonturi ale căror denumiri le-am format folosind denumirea fenomenelor fonetice aplicate (ex. ALRJSemivocale, ALRJNazalizate, ALRJSeminazalizate, ALRJScurteNazalizate, ALR_ .... etc). Această organizare a fonturilor a fost făcută cu scopul de a permite scrierea textelor cu transcrieri fonetice cu orice editor de text (Microsoft Word), iar textul scris cu aceste fonturi să poată fi citit chiar dacă fonturile proiectate de noi nu sunt instalate (în acest context se vor pierde numai fenomenele fonetice aplicate sunetelor primare).
Pentru generarea acestor fonturi am folosit programul FontLab 3.1 care permite definirea de simboluri grafice compuse, pornind de la o familie de fonturi TrueType existentă în sistemul de operare Windows. Pentru familiile de fonturi pe care le-am realizat am convenit să folosim ca model de plecare fontul ARIAL.
Facem precizarea că fenomenele fonetice şi modul lor de aplicare este diferit pentru cele două tipuri de sunete: vocale şi consoane.
simple			diacritice			
a	â	ă	â	a1	â	-
e	e	e				—
i			î			î
o	6	6				
u	o I		u	]-		
Cu ajutorul acestor "vocale primare" şi al celor trei variante accentuate (a - â â â) a|e fiecăreia dintre ele se obţine seria completă de sunete vocalice care se regăsesc în fontul de bază ALRJBaza (17*4=68 grafeme).
Fenomenele fonetice care pot modifica cele 17 vocale de bază (68 împreună cu variantele lor accentuate), sunt clasificate în următoarele grupe de fenomene disjuncte3:
Grupe
[Durată
Nazalizare
Ocluzie glotală
Deschidere
Poziţionare
Aşezat cel mai sus
Aşezat deasupra vocalei, dar stih fenomenele (a)-(c)
aşezat "în umăr", în faţa
Aşezat imediat sub vocală
Notaţie
.(a)
(b)
Fenomen
[Scurtime
Semilungime
(c).
(d)
|Lungime_m
iSeminazalizare
(e)
(9)
[Nazalizare Coup de glotte
închidere
(h)
Semideschidere
Afonizare
Aşezat sub vocală dar şi sub fenomenele (g)-Q)
(!)
Deschidere
(I)
(k) (I)
Deschidere mare
Semiafonizare
[Afonizare
Exemplu
eeee
eele
~    £    A »
eeee
?e 'e, ie 'â
eâe e
e??e f f f f
eeee eeee
Din punct de vedere lingvistic sunt impuse următoarele reguh.
Formularea "sunete primare", inexactă din punct de vedere fonetic, este folosită cu înţelesul "sunete a căror imagine grafică pe calculator are corespondent pe tastatură, sau este obţinută prin combinaţii de taste ".
426
427
Regula [1]
• vocalele a ă â - deschise prin natura lor (cu cel mai mare grad de apertură) - nu pot contacta fenomenele fonetice h (semideschidere), / (deschidere) şi j (deschidere mare);
• vocalele i T î u u Q - închise prin natura lor (cu cel mai mic grad de apertură) - nu pot contacta fenomenul fonetic g (închidere).
Prin asocierea vocalelor primare cu câte un fenomen (a)-(l) rezultă 756 imagini grafice repartizate în 12 fonturi grupate convenţional după criteriul poziţiei semnului faţă de vocală.
Regula [2]
Sunt excluse orice combinaţii dintre două nuanţe fonetice din aceiaşi grupă de transformări vocalice. Astfel, o vocală nu poate fi în acelaşi timp „scurtă, semilungă şi lungă" sau „seminazală şi nazală" sau „închisă, semideschisă, deschisă şi foarte deschisă" sau „semiafonizată şi afonizată". în aceste condiţii combinaţiile de câte două sau mai multe fenomene sunt posibile doar cu fenomene din grupe diferite.
în plus, cele 15*4=60 grafeme excluse ca urmare a restricţiei formulate sub Regula 1, nu pot participa la combinaţiile de două, trei, patru fenomene.
1.2. Fenomene fonetice aplicate consoanelor primare
Consoanele primare folosite în transcrierea fonetică sunt:
b,   c,c,€A6,c,   d.cţdA   f,   g,Mg,ă, h,h,x>Y>  j,   K tt m,m,   n,n,n,n,   p,   r,r,f,p,   s,s,s,ş,a,   U,ţ,   v, w,   z,z,z, y
Fenomenele fonetice care pot fi asociate consoanelor primare sunt:
Grupe	Notaţie	Fenomen
Durată	d)'	Semilungime
	(2)	Lungime
Palatalizare	(3)	Semipalatalizare
	(4)	Palatalizare
	(5)	Palatalizare mare
Explozie	(6)	Explozie
Caracter silabic	(7)	Caracter silabic
Afonizare	(8)	Semiafonizare
	(9)	Afonizare
Spre deosebire de vocale, unde s-au putut defini reguli generale pentru realizarea combinaţiilor de fenomene fonetice, în cazul consoanelor primare,
transformările fonetice se aplică numai unor consoane specifice. în plus, consoanelor primare le pot fi aplicate numai cel mult două transformări şi numai în anumite combinaţii. în tabelul următor sunt prezentate combinaţiile posibile de fenomene şi consoanele pe care acestea le pot însoţi.
1.2.1. Consoane cu un singur fenomen fonetic:
semilungime	6î fi5xyjlT*/pnoi}i)f^&sSlşsv»22ly
lungime	5? hf)xyJîtmmnnnf3fFfpsiâş^vwzz2y
semipalatalizare	dVfixKjvlvfifştv
palatalizare	
palatalizare mare	t"cf'
explozie	cc pc tc
caracter silabic	jmnrşm
semiafonizare	
afonizare	
1.2.2.	Consoane cu două fenomene fonetice:
semilungime +	
semipalatalizare	
semilungime +	Rjfînfş
palatalizare	
semilungime +	
caracter silabic	
semilungime +	* r t % * + *■   t   ,"î:£i-,-,-,-S»-»-   i- i- »- v
semiafonizare	
semilungime +	
afonizare	
lungime +	
semipalatalizare	
lungime + palatalizare	njTrtf$
lungime +	j m m n f ş
caracter silabic	
lungime +	5i}yjrtmffinnnnfFrpvWz2fy
semiafonizare	
lungime + afonizare	
semipalatalizare +	
semiafonizare	
semipalatalizare +	
afonizare	
428
429
palatalizare +	
semiafonizare	
palatalizare + afonizare	
palatalizare mare +	d'
semiafonizare	
palatalizare mare +	d'
afonizare	
explozie +	bctfgc
semiafonizare	
explozie + afonizare	
caracter silabic +	1 m m n r î- l   i l v
semiafonizare	
caracter silabic +	1 m m n r ii  t î i
afonizare	
2. Mediu pentru editarea transcrierilor fonetice
Interfaţa realizată pentru editarea transcrierilor fonetice poate fi folosită în mai multe moduri:
- editarea dicţionarelor Atlasului Lingvistic;
- editor stand-alone sau ca aplicaţie de tip server pentru inserarea de obiecte de tip "transcriere fonetică" în alte editoare de text.
Funcţionalitatea acestei interfeţe va fi exemplificată pentru situaţia Atlasului Lingvistic, ale cărui componente sunt prezentate pe scurt în continuare.
Dicţionarele ALR sunt componente care realizează colectarea informaţiilor primare despre titlul hărţilor (cuvinte de bază), punctele de anchetă, speech (colecţie audio), transcrieri fonetice şi notele asociate transcrierilor fonetice (Figura 1).
Dicţionar Cuvinte de bază
Descriere Puncte de anchetă
Colecţie Audio
Dicţionar Transcrieri fonetice + Sunet
Figura 1. Dicţionarele ALR
Dicţionarul "Cuvinte de bază" conţine fondul de cuvinte (titlul hărţilor) din atlasul lingvistic electronic, întrebările care au fost puse la anchetă, note, observaţii, şi eventual imagini. Pentru fiecare cuvânt este indicată şi întrebarea corespunzătoare care este pusă în momentul interviului.
în momentul completării acestui dicţionar, utilizatorul poate vedea lista completă a cuvintelor de bază introduse, le poate sorta după diferite criterii, poate modifica articolele introduse anterior, după cum este prezentat în figura 2.
Dicţionarul "Puncte de anchetă" conţine informaţii (cod, nume, observaţii) despre punctele de anchetă prezentate în cadrul atlasului lingvistic. La fel ca la dicţionarul anterior, şi aici, utilizatorul poate vedea lista completă a punctelor de anchetă introduse, le poate sorta după diferite criterii, poate modifica articolele introduse anterior.
2.1. Dicţionar transcrieri fonetice
Dicţionarul de transcrieri fonetice conţine transcrierea fonetică a răspunsului la întrebarea pusă în etapa de interviu pentru fiecare cuvânt din Dicţionarul Cuvinte de bază în fiecare din Punctele de anchetă, iar acolo unde este posibil şi înregistrarea audio corespunzătoare din Colecţia Audio.
Pentru claritatea hărţilor lingvistice, răspunsurile din punctele de anchetă sunt însoţite de note şi comentarii (figura 3).
jl Atlas Lingvistic Românesc - [Dic}  î • ' ^>
X5 Fişier   Editare   Articole   Vizualizare   Unelte   Fereastră Ajutor
<  > »
Cuvinte de bază | Puncte anchetă ] Dicţionar | Taste asociate | Nou      |        Cuvânt: | OBADĂ, pl. "jante"
'2/5
Nr.întrebare: | (820]     întrebare: | (întrebare indirectă]. INDIC. (Figura, detaliul a). | Imagine    |   Observaţii I: | ALF 1602; AIS 1230*; ALG 363; ALL 175; ALMC 862; ALFCo 363; Bl 413; Br675; NALR: Olt. lll r
Observaţii lll:
Nr.     | Cuvânt	| Nr întrebare	| întrebare	| Observaţii 1	| Observaţii 3 |
1         CAR. pl. "char"	(818]	(întrebare indirectă] Cum îi sp...	ALR II s.n. 1340...	
|2         OBADÂ, pi "jante"	[8201	(întrebare indirectă!. INDIC. (F...	ALF 1602: AIS ...	
3 LOITRA, pl. "ridelle" 4 COVILTIR, pl. "couve... 5 CRUCE "traverse de I...	(829] (831] (835]	(|ntrebare indirectă]. Cum îl zi... (întrebare indirectă.] Cum nu... (întrebare indirectă.] Cum se ...	ALR II s.n. II 34... NALR: Olt.II MN... ALR II s.n. 358; ...	
Figura 2. Fereastra de editare a listei cuvintelor de bază
430
431
Pentru transcrierea fonetică a cuvintelor din Atlasul Lingvistic Român este folosit un număr mare de fonturi, rezultat din numărul de combinaţii posibile ale fenomenelor fonetice prezentate în capitolul 1. Aceste fonturi au fost definite astfel încât, toate "variantele fonetice" ale unui anumit caracter să fie obţinute prin selectarea caracterului respectiv într-un anumit font.
Deoarece un fişier text normal nu păstrează informaţii despre fonturile folosite, şi în plus transcrierile fonetice sunt realizate prin diferite poziţionări ale caracterelor, s-a folosit un mod propriu de codificare a acestora.
Transcrierile fonetice sunt codificate cu ajutorul unor obiecte de tip CAIrString. Acestea sunt de fapt şiruri de obiecte de tip CAIrChar, care au următoarea descriere:
• caracterul corespunzător sunetului primar (pe 16 biti, codificare UNICODE);
• atribute:
- poziţionare: normal, deasupra sau „în umăr"";
- mod subliniere: linie sau zigzag;
- cursiv;
- aldin;
• fenomene:
- tip sunet: vocală sau consoană;
- fenomene specifice aplicate (codificate pe biţi).
Fontul folosit pentru desenarea caracterului din transcrierea fonetică este ales dinamic din lista de fonturi a aplicaţiei, în momentul afişării.
în momentul deschiderii dicţionarului de transcrieri fonetice, se fac două tipuri de verificări:
- se verifică corespondenţa dintre fonturile folosite la ultima editare a dicţionarului şi lista curentă recunoscută de program.
- se verifică dacă toate fonturile folosite sunt instalate în Windows.
Datorită cantităţii mari de informaţie care trebuie stocată pentru Atlasul Lingvistic Român, descrierea fiecărui cuvânt este compresată folosind un algoritm de compresie LZW. 4_a selecţia unui cuvânt de bază, descrierea sa este decompresată în memorie. Dacă se fac modificări ale transcrierilor fonetice, aceasta este compresată şi rescrisă în fişier la selectarea unui alt cuvânt, sau la închiderea dicţionarului.
Pentru scrierea informaţiilor în dicţionar am proiectat o interfaţă utilizator prietenoasă. Operatorul trebuie sa parcurgă următorii paşi:
• selectează cuvântul titlu;
• selectează punctul de anchetă;
• editează transcrierea fonetică, nota şi comentariul asociat cuvântului pentru punctul de anchetă respectiv.
La editarea transcrierilor fonetice trebuie avute în vedere două aspecte:
• selectarea sunetului primar;
• selectarea fenomenelor asociate.
Selectarea sunetului primar se face prin apăsarea tastei corespunzătoare, dacă sunetul are un corespondent pe tastatură, sau prin apăsarea unei combinaţii de taste, dacă sunetul nu are corespondent pe tastatură. Combinaţiile de taste sunt prestabilite în aplicaţie (la stabilirea combinaţiilor de taste au fost păstrate convenţiile din Microsoft Word), şi cel puţin deocamdată nu pot fi modificate de utilizator. Pentru a veni în ajutorul celui care editează dicţionarul, aplicaţia dispune de o fereastră în care sunt afişate combinaţiile prestabilite de taste.
£0 Fjşjer Editare Articole Vizualizare Unelte Fe/eastră Ajutor
d & d g? y ; ia • §= %
B    I   U U
Cuvinte de bază ] Puncte anchetă   Dicţionar | Taste asociate ]
Cuvânt:
IOBADA, pl. "jante" Punct anchetă:
Transcriere: <*
Sunet
465 - Brodina
Moţă: r TjjlJ Comentariu: C
â6lân;P§i[e]âuolâni!e+
g
Punct anchetă 1 Nume punct anchetă | Transcriere
Notă
Comentariu ±.
466
467
468
469
470
471
472
473
474
475
Straja Argel Deluţ
Ciocăneşti Argestru Şaru Dornei Cartinari Pojorita
Vatra Moldoviţei Suceviţa
uobied[pl.];uobâdâ+ uobieţlt [pl. ]; uobâdă obâdă;uobeţ colân;-lâni+
suolâne[pl.];-lân pcolân;colani <5olân;-lâni;[ii]i5olâni+;-lăn obâdă;uobed uobâdăi-bed uobezi[pl.];-bâdâ uobâdâ;-b6z uobâdâ; uobed ,[r]colâni uobâdâ+;-bied; cuolân colâni[pl.j;-lân
nu se zice] [djsolâni.
"sfnt cinci-şapte ciolane".
ai Frjkedicâl la   "cînd o faci [roat..
Disponibil.,.
Semiafonizare
Figura 3. Editarea Dicţionarului de transcrieri fonetice
432
433
Pentru selectarea fenomenelor asociate sunetelor, operatorul are la dispoziţie 2 grupe de butoane cu imaginile tuturor fenomenelor posibile pentru vocale respectiv consoane. Prin apăsarea pe unul din aceste butoane se va selecta simbolul grafic corespunzător în transcrierea fonetică. Cele 2 grupe de butoane sunt împărţite în subgrupe corespunzătoare grupelor de fenomene (vezi capitolul 1). Pot fi selectate mai multe fenomene, dar, cel mult câte unul din fiecare subgrupă. Selectarea unui fenomen, produce dezactivarea selecţiei anterioare din subgrupa respectivă.
După selectarea caracterului dorit, utilizatorul va specifica şi poziţionarea acestuia (deasupra, în umăr) prin folosirea comenzilor PgUp/PgDown.
Fereastra de editare a transcrierilor fonetice este prezentată în figura 3.
Dicţionarul cu transcrieri fonetice permite stocarea înregistrărilor audio (în format WAV) realizate în timpul anchetei.
3. Realizarea Atlasului Lingvistic Român pe Regiuni
Sistemul software care modelează atlasul lingvistic electronic, conţine module care realizează gestionarea următoarelor grupe de informaţii:
- simboluri pentru editarea transcrierilor fonetice;
- dicţionarele atlasului lingvistic (cuvinte de bază, puncte de anchetă, transcrieri fonetice).
- informaţii grafice pentru descrierea hărţilor, organizate în fişiere DXF,
- hărţile atlasului lingvistic, care pot fi consultate şi/sau tipărite;
Din punct de vedere funcţional, atlasul lingvistic electronic este structurat în două componente principale:
- Proceduri pentru pregătirea datelor primare;
- Interfaţa multimedia;
Aceste componente sunt prezentate în figura 4.
Pregătirea datelor
Simboli pentru editarea transcrierilor fonetice
Picţionare: Transcrieri fonetice + Sunet
Informaţii grafice Zone geografice şi Puncte de anchetă
Interfaţa multimedia
Proceduri de generare şi editare
Hărţi lingvistice
Consultare dicţionar Sinteză vocală
Tipărire hărţi lingvistice
Figura 4. Componentele Atlasului Lingvistic Electronic
în continuare sunt prezentate funcţiile îndeplinite de componenta "Interfaţa multimedia":
• generarea unei hărţi noi pe baza informaţiilor din dicţionarele ALR şi a informaţiilor grafice primare cuprinse în fişiere DXF;
• editarea: aranjarea în pagină, selectarea informaţiilor care vor fi vizibile implicit;
• salvarea într-un fişier numit "hartă lingvistica" a selecţiilor şi modificărilor din faza de editare;
• consultarea atlasului electronic:
- vizualizarea hărţilor şi ascultarea înregistrărilor din punctele de anchetă;
- tipărirea hărţilor lingvistice.
3.1. Modulul pentru generarea şi editarea hărţilor lingvistice
Acest modul permite crearea descrierilor pentru hărţile lingvistice. în acest scop au fost proiectate structuri de date bazate pe obiecte, suficient de flexibile, ce permit dezvoltări ulterioare. Prezentăm în continuare structurile de date folosite pentru stocarea informaţiilor grafice şi a hărţilor lingvistice.
3.1.1. Informaţii grafice primare
La organizarea informaţiilor grafice primare, s-a ţinut cont de cerinţele impuse de tehnologia de realizare a atlaselor lingvistice. S-a realizat fişierul NALRB.DXF care conţine obiectele grafice predefinite organizate pe următoarele "straturi DXF":
434
435
chenare frontiere mijloc municipii puncte anchetă
transcriere fonetică note
zone
limitele paginii şi chenarele harţii;
conturul zonei studiate (Moldova şi Bucovina);
locul de pliere al hărţii, la legarea în volum;
localităţile importante afişate pe hartă;
dreptunghiurile în care se scriu codurile punctelor de anchetă;
dreptunghiuri pentru încadrarea transcrierilor fonetice;
dreptunghiuri cu poziţiile predefinite pentru Titlu, Nota I, Nota II, Nota lll;
delimitări zonale în jurul punctelor de anchetă.
3.1.2. Hărţile lingvistice
Pentru editarea şi salvarea hărţilor lingvistice din ALR, s-a creat o structură de date care să permită în viitor, extinderea editării asistate de calculator a Atlaselor Lingvistice Româneşti Regionale la nivel naţional. Astfel, a rezultat o structură de date numită "hartă lingvistică" de forma următoare:
- header fişier;
- lista cu descrieri obiecte;
Descrierile de obiecte au un antet care este comun pentru toate tipurile de obiecte şi un corp obiect specific fiecărui tip în parte. Obiectele pot fi simple sau compuse. Un obiect compus conţine la rândul lui alte obiecte simple sau compuse.
Au fost definite următoarele tipuri de obiecte:
- Text;
- AlrString (obiect folosit la editarea dicţionarului cu transcrieri fonetice);
- Dreptunghi;
- Hartă cu transcrierile fonetice;
- Hartă sintetică (lingvistică sau fonetică);
- Notă referitoare la continuarea transcrierilor fonetice (vezi Nota II din N.A.L.R. Moldova şi Bucovina);
- Notă sintetică referitoare la cuvântul titlu (vezi Nota lll din N.A.L.R. Moldova şi Bucovina);
- Legendă pentru harta sintetică;
- Simbol pe harta sintetică;
- Zonă haşurată pe harta sintetică;
- Imagine de tip bitmap;
-   Strat DXF.
La activarea modulului de generare, este prezentată harta regiunii cu punctele de anchetă şi numele localităţilor pe care acestea le reprezintă. Generarea hărţilor lingvistice se face automat, într-un format predefinit, în momentul în care operatorul selectează un cuvânt de bază. Operatorul poate modifica formatul hărţii, şi poate adăuga informaţii suplimentare. Modificările realizate trebuie salvate în fişier.
3.2. Modulul pentru consultarea atlasului electronic
Componenta pentru consultarea atlasului, permite încărcarea unei hărţi lingvistice generate / editate în etapa anterioară. Sistemul va afişa harta regiunii respective (în situaţia studiată este vorba de Moldova şi Bucovina), pe care va plasa transcrierea fonetică a răspunsurilor din punctele de anchetă împreună cu notele şi observaţiile introduse anterior (figura 5).
După ce harta lingvistică a fost încărcată, prin selecţia unui punct de anchetă este posibilă şi redarea înregistrării audio corespunzătoare transcrierii fonetice asociate acestuia (înregistrarea audio sau cuvântul sintetizat).
Tot cu ajutorul acestei componente se realizează tipărirea automată a hărţilor Atlasului Lingvistic Român, în vederea includerii lor în volum (figura 6).
Pentru tipărirea hărţilor au fost prevăzute următoarele facilităţi:
- posibilitatea de selectare a informaţiilor ce se vor tipări;
- tipărirea pe o pagină sau tipărirea pe două pagini cu respectarea locului de pliere al hărţii, indicat prin linia "mijloc".
Dacă utilizatorul doreşte tipărirea transcrierilor fonetice într-un mod sintetic (fără hartă), modulul poate asigura crearea paginilor de tip MN (Material Necartografiat). Folosind această opţiune, va fi tipărită numai lista cu transcrierile fonetice, ordonate după criterii de similaritate.
4. Concluzii
Organizarea prezentată pentru simbolurile grafice permite editarea de texte cu transcrieri fonetice folosind şi alte editoare de text.
Modul de selectare a fonturilor folosit la editarea transcrierilor fonetice poate fi extins pentru crearea unei aplicaţii de tip client-server sau la realizarea unui editor simplu, de tip WordPad.
Realizarea acestui sistem de editare a transcrierilor fonetice este în curs de testare şi finalizare. în continuare, ne propunem adăugarea de noi opţiuni şi
436
437
facilităţi, care să permită transformarea sistemului într-un instrument util cercetătorilor lingvişti.
546S0ianiipi.j;-ian... u0Daaa';-Dez 5515olân;-lâni sau uDbâdâ;-bâz4
539
Solân;-iâni,...uobâdâ+;-bez
dî;-bed
ll Atlas Lingvistic Românesc - [GBAD& pl.;ţ'ja;nt£*'
|DJ Fişier Vizualizare Strat DXF  Text strat DXF Fereastra Ajutor
d & q g? y % '& m !e p p □ B B f
JţŞjxJ
Solân;-lâni,^obâd1F";-b6z
55ouobez[pl.];-bâdâ,[blsolân;-lâni+
538Solâni[pl.];-lân,uob6z![pl.]+;uobâdâ
i;-lâni,uobâdâ+;-bez 549
569
iâdâ;-bez
» ,A  ,A - n _A Solân;-lâni,...uobâdâ+;-b6z
Solân;-lâni ,uobâdâ+;-b6z
solân;-lân!,uobâdâ+;-b6dS47
537
uobâdâ;-bâz,...solân![pl.];-lân+ d 548 solân;-lâni,uobârJî+;-b6z uobâdâ;-bed,Solân+;-lâni
533 uobâdî;-b6z
uobez[pl.];-bâdî
uob6z[pl.];-bâdî
591
5980bâdî;-b6z,solâni[pl.];-lân+     608 Solân;-lânl
' 609 621
uobâdâ;-b6d?Iolân;-lâni+ Solân;-.âni1...obâda[a.]+;-b6z 5olân;-lânl;oK
Solân;-lâni,obâdi+607 Solân;-lâni;uobâdî+;-b6z62o eoo uobâdâ;-b6z 610 Suolâni[pl.];-lân,obâdă+;uob6
Disponibil..
Figura 5. Fereastra de editare / consultare a Atlasului Lingvistic
Bibliografie
[1]   Academia Română, Atlasul Lingvistic Român pe Regiuni, 1987, 1997. [2]    Instituto dell'Atlante Linguistico Italiano, Atlante Linguistico Italiano, Roma, 1995.
[3]   S. Bejinariu, M. Roman, V. Apopei, F. Olariu, "Sistem pentru editarea transcrierii fonetice în ALR", Zilele Academice Ieşene, laşi, 6 oct. 2000.
NOUL ATLAS LINGVISTIC AL ROMANEI MOLDOVA Şl BUCOVINA
OBAOA, pl. "Janfc"
Figura 6. Imaginea unei pagini tipărite din modulul de consultare
934
Secţiunea IV
■
Dezbateri şi discuţii
441
Asupra a doi vectori funcţionali ai societăţii cunoaşterii: managementul cunoaşterii si învăţarea electronică.
9
Cultura si societatea cunoaşterii
Mihai DRĂGĂNESCU Institutul de Inteligenţă Artificială Academia Română
Introducere generală
Acest material, care constituie o contribuţie la dezbaterea problemelor enunţate în primul volum Societatea informaţională-Societatea cunoaşterii, Concepte, soluţii şi strategii pentru România, coord. Filip Gh. Florin, editat de Academia Română-Secţia de ştiinţa şi tehnologia informaţiei (Institutul de inteligenţă artificială al Academiei Române - denumire prescurtată) şi ICI-INFOSOC, Editura Expert (coordonare editorială, Valeriu loan-Franc), Bucureşti 2002, are următorul cuprins:
I. Managementul cunoaşterii, vector funcţional al societăţii cunoaşterii, comunicare (Mihai Drăgănescu) prezentată la "The Sixth International Conference on Information and Communications Technology in Public Administration, Sinaia, 29 oct.2001".
II. învăţământul electronic şi societatea cunoaşterii, comunicare (Mihai Drăgănescu) la simpozionul "E-learning (E-învăţământ)", Academia Română, 28 martie 2002.
III. Cultura şi Societatea cunoaşterii (Mihai Drăgănescu, studiu elaborat în mai 2002).
Societatea cunoaşterii, asupra căreia se insistă cu prioritate în aceste studii şi lucrări, va fi o perioadă intermediară între Societatea informaţională şi Societatea conştiinţei (un studiu privind Societatea conştiinţei este în elaborarea autorului). După cum am mai remarcat în alte lucrări, esenţială pentru Societatea cunoaşterii va fi inteligenţa artificială (IA), atât ca vector tehnologic, cât şi prin utilizarea ei în vectorii funcţionali ai societăţii cunoaşterii.
Această primă perioadă interimară va dura până cândva după momentul în care inteligenţa artificială va egala inteligenţa naturală (IN) structurală a omului,
442
443
respectiv a părţii (IN)structurai care nu poate poseda intuiţie, creativitate şi spiritualitate. După concepţia mea ontologică, nu este posibil pentru orice fel de inteligenţă artificială (electronică şi în viitor nanoelectronică) să aibă intuiţie, creativitate şi spiritualitate fără a recurge şi la alte elemente ale naturii decât cele structurale şi a căror realitate devine din ce în ce mai plauzibilă. Egalitatea IA = (IN)structurai se va petrece, după o serie de autori (Moravec, Kurzweil, Buttuzzo, Broderick ş.a.), între 2019-2035. Unii dintre aceştia cred că atunci când se va atinge IA =(IN)structurai automat un asemenea creier electronic va avea şi proprietăţile fenomenologice aie intuiţiei, creativităţii şi spiritualităţii. Ceea ce nu credem.
Din momentul" în care IA > (IN)structurai este evident însă că se intră într-o nouă etapă, care va produce multe consecinţe pe plan social, datorită relaţiilor omului cu asemenea inteligenţe, unele software, altele sub forma de specii de roboţi inteligenţi. Aceasta va fi a doua perioadă intermediară între Societatea cunoaşterii şi Societatea conştiinţei, până în momentul în care va apărea o inteligenţă artificială cu conştiinţă veritabilă, adică o conştiinţă artificială (CA). Din momentul în care CA > IN, se va intra în zona societăţii conştiinţei, urmând ca societatea să fie bazată pe relaţiile dintre IN (care şi ea este de presupus că va fi amplificată prin auto-transformări ale codului genetic şi probabil prin cuplaje cu sisteme informatice microelectronice şi nanoelectronice, chiar şi cu reţele internet) şi CA software sau robotice. Va trebui cu siguranţă să gândim de pe acum şi asupra societăţii conştiinţei pentru a pregăti societatea pentru o asemenea perspectivă, care nu mai apare, surprinzător, atât de îndepărtată, deoarece se poate manifesta chiar în acest secol. Societatea cunoaşterii trebuie să înceapă să fie gândită şi dezvoltată şi cu gândul la această viitoare societate.
I. MANAGEMENTUL CUNOAŞTERII
Ll Introduction
In the past XXth century a new era began in the history of humanity: the information era [1]. This era comprises the information society that will be followed naturally by the knowledge society and finally, somewhere more or less later in this century, the society of consciousness. Knowledge is a form of information [2], and consciousness is another form of information [3]. All the forms of information are intermingled with the physical and energetic realities; still they have a relative independence and can influence these realities.
To pass from the first form of information society (based essentially on Internet and Internet economy) to the second stage, the knowledge society, I considered in a previous work [1], two types of vectors: technological and funcţional.
Technological vectors are the extended Internet, the e-book and e-document technology, artificial intelligence (with intelligent agents and future Networked Systems of Embedded Computers), nanotechnology and others.
Among the funcţional vectors of the Knowledge Society, a group of vectors is related to knowledge management:
• knowledge management for corporations and enterprises, organizations and institutions, local and naţional administrations;
• the management of the moral use of scientific knowledge at the global level;
• e-learning management;
• development of a culture of knowledge andinnovation;
• management of the scientific and technological knowledge for every main domain ofactivity as health care, sustainable society and others.
1.2 Knowledge management
The problem of management with respect to knowledge is regarded in two
ways:
I. As the management of the organization busy with the use and integration of various types of knowledge;
II. As the management of knowledge itself, for generation of new knowledge, for discovering existing knowledge (tacit or very local, or externai to the organization), for combining available knowledge.
Perhaps, what is really needed is a general vision, in a unity, on the management of the organization and the management of knowledge.
Knowledge management for enterprises, organizations, institutions, local and naţional administrations
In the western literature, in the last years, were elaborated a series of works dedicated to the problems of enterprises and knowledge. In România we do not have yet specialists in knowledge management in the context of the knowledge society. We do not have either a knowledge society, but we need experts in knowledge management for building the future knowledge society. A group of members of the Romanian Academy and other wellknown specialists in information technology from România and colleagues from USA decided to constitute a Romanian-American Foundation for the Knowledge Society, one of the main aims being to educate in USA a number of young Romanian specialists in the new domain of knowledge management. All is ready for such a Foundation, the contributions of the individual founders are also ready, but no institution or
444
445
organization sponsored such an exotic objective for The Knowledge Society, with some amount of money asked by the Romanian laws for a Foundation to begin its activity. But let us return to the theory of knowledge management. One definition [4] is the following:
"Knowledge Management is the conceptualizing of an organization as an integrated knowledge system, and the management of the organization for effective use of that knowledge. Where knowledge refers to human cognitive and innovative processes and the artifacts that support them."
This definition insists on the management of the organization, even if it recognizes the knowledge system of the organization. This definition, as it is recognized by its authors, disguise knowledge management because of the delicate problem of knowledge measurement [4]:
The recent attractiveness of the term knowledge management appears to have been prompted by three major forces:
1. Increasing dominance of knowledge as a basis for organizational effectiveness.
2. The failure of financial models to represent the dynamics of knowledge.
3. The failure of information technology by itself to achieve substanţial benefits for organizations.'
The second point, of the above quotation, is answered by many studies and books concerning the characteristics of the new economy based on knowledge (see for instance section 6 of [1]: The Economy of the knowledge society. The new economy. About the role of information in the new economy. The intangible goods).
The rapidity of the transformation of the information society into a knowledge society determines a reasoning on the new economy that takes into account not only:
a) the Internet market and the effects of Internet information on all economical and administrative agents, but also
b) the effect of knowledge as an economical and organizational factor that imposes the recognition of the intangible goods, in general, in the creation of economical value and organizational efficiency, and
c) the necessity of a sustainable society, an important objective for naţional arid even local administrations, that predictably is possible only in the frame of the knowledge society, that will demand new industries, challenges the classical economical thinking (for instance, productivity of the resources, of the energy, of materials to be more important than work productivity [8]).
The third point of the above quotation concerns the importance of the contents of information, especially of knowledge, but these would not be efficient without information technology. The technological vectors of the Knowledge Society are equally important as the funcţional vectors.
1.3 Points of view for practicai knowledge management
Knowledge management is both the management of the organization to use knowledge and the management of all knowledge possible, from inside and outside the organization, to attain the objectives of that organization. Because knowledge is a special form of information, information technology has to play an essential role in knowledge management. Knowledge and IT are, without any doubt, going hand in hand and have a synergetic effect on the efficiency of organizations.
Lucy Marshall [6] considers that knowledge management refers to the control and utilization of the intellectual capital in an organization. For Lucy Marshall, not the information, but knowledge is the most important asset of an institution. This author recommends a Chief Knowledge Officer for an institution, who based on the Intranet of the institution, has to assure the discovery and creation of knowledge in the institution.
Rooney and Mandeville consider, the knowledge management at the naţional level. The abstract of their paper is quoted [7] below:
'As the global economy becomes more knowledge intensive and the wealth of nations more dependent on their knowledge assets being harnessed, it is essential for policy makers of having frameworks for the development and the utilization of naţional knowledge assets. This article argues that a policy framework can be developed through which policy initiatives in a range of policy areas can be filtered in order to meet the challenges of the knowledge economy. We have developed an approach that has previously been applied to managing intellectual capital in firms and adapted it to the public policy arena. In doing so we question policy orthodoxies such at the assumption that free trade automatically facilitates internaţional knowledge flows, that participation in a global knowledge economy necessarily challenges naţional sovereignty, and that online delivery of education is necessarily a progressive strategy'.
Peter Drucker (a wellknown professor of social science at Claremont Graduate School and the author of more than thirty books, his most recent book is Management Challenges for the 21 st Century, 1999) writes [8] about the knowledge worker:
'I am convinced that a drastic change in the social mind-set is required -just as leadership in the industrial economy after the railroad required the drastic change from "tradesman" to "technologist" or "engineer."
446
447
What we call the Information Revolution is actually a Knowledge Revolution. What has made it possible to routinize processes is not machinery; the computer is only the trigger. Software is the reorganization of tradiţional work, based on centuries of experience, through the application of knowledge and especially of systematic, logical analysis. The key is not electronics; it is cognitive science. This means that the key to maintaining leadership in the economy and the technology that are about to emerge is likely to be the social position of knowledge professionals and social acceptance of their values. For them to remain tradiţional "employees" and be treated as such would be tantamount to England's treating its technologists as tradesmen - and likely to have similar consequences.'
1.4 Cognitive Science
The knowledege of organizations is a form of knowledge that is more and more recognized. The ways and forms of this knowledge have to be carefully studied. Cognitive science might be, indeed, the tool for this study. The cognitive science is today understood in two ways [2]:
1. As a science of human mind cognition, even if it uses models of electronic computers and electronic neural networks.
2. As a general science of cognition, that has to study cognition processes not only of the human mind, but also of animals, of artificial-intelligence systems, of the ensembles man-computer-lnternet, of social organizations at the levels of institutions, enterprises, corporations, local and naţional administrative bodies, even at the global level.
The second way of dealing with the processes of cognition presents today the greatest interest. Such a science does not yet exist. Perhaps it is on the way. The most complex realities are the social organizations because they combine all sorts of cognitive elements, natural and artificial, but they have something more, a social body, with its own social intelligence, cognition and knowledge. To obtain new theories for such large and difficult problems, it is necessary to have talented and interested specialists in knowledge management. But it is also necessary some practice of those charged with knowledge management and knowledge work in organizations. The idea of Lucy Marshall, mentioned before, about a Chief Knowledge Officer seems to be very useful.
1.5 Final remarks
The Knowledge society is paving the way for a Consciousness society. For this we need more fundamental knowledge [9] on physical reality down to the frontier of the quantum world with the deepest reality of existence, on life, mind and consciousness, on cognition, but also on self-organization and organization of
social bodies and their behavior. We need also more technological knowledge. For science and society, knowledge management will become the most important administration.
References
[1] Mihai Drăgănescu, Societatea Informaţională si a Cunoaşterii. Vectorii Societăţii Cunoaşterii (Information Society and Knowledge Society.Vectors of the Knowledge Society), Romanian Academy, July 2001. On the Web, http.7/www. academiaromana.ro/pro__pri/
[2] Mihai Drăgănescu, Cunoaşterea în secolul XXI (Knowledge in the XXI century), communication at the Annual Conference of the Romanian Committee for the History and Philosophy of Science, Romanian Academy, Bucharest, 15 October 2001, to be published.
[3] Mihai Drăgănescu, The Interdisciplinary Science of Consciousness (Chapter 5) pp. 46-59, in Science and the Primacy of Consciousness, Intimation of a 21 stCentury Revolution, Richard L. Amoroso a.o, (eds.), Orinda, California: The Noetic Press, 2000.
[4] See http://www.uts.edu.aU/fac/hss/Departments/DIS/km/introduct.htm#Char
[5] Ernst Ulrich von Weiszăcker, Amory B. Lovins, L.Hunter Lovins, Factor patru. Dublarea prosperităţii prin înjumătăţirea consumului de resurse, Raport pentru Clubul de la Roma, traducere din limba germană (FAKTOR VIER.Doppelter Wohlstand - halbierter Verbrauch, Munchen, 1995), Bucureşti, Editura tehnică, 1998.
[6] Lucy Marshall, Facilitating knowledge management and knowledge sharing: New opportunities for information professionals, Online. 21(5): 92-98. 1997 Sep/Oct.
[7] David Rooney and Thomas Mandeville, The Knowing Nation: A Framework for Public Policy in a Post-industrial Knowledge Economy, Prometheus 16 (4) pp. 453-467, 1998.
[8] Peter F. Drucker, Beyond the Information Revolution, The Atlantic Monthly, Digital Edition, 1999, http://www.theatlantic.com/issues/99oct/9910drucker3.htm
[9] Menas Kafatos, Mihai Drăgănescu, Preliminaries to the philosophy of integrative science, e-book, MSReader format, Academy of Scientists -România, Bucharest, 2001, (available free by e-mail: dragam@racai.ro).
448
449
II. ÎNVĂŢĂMÂNTUL ELECTRONIC ŞI SOCIETATEA CUNOAŞTERII
ILI Introducere. Sintagma Societăţii cunoaşterii.
în societatea cunoaşterii doi vectori, strâns legaţi între ei, unul tehnologic -cartea electronică - şi altul funcţional - învăţământul electronic - sunt chemaţi să joace un rol important în desfăşurarea acesteia.
Problematica societăţii cunoaşterii a fost abordată în ţara noastră începând din anul 2001 la Academia Română [1], la Academia de studii economice [2] şi de revista Diplomat-Club [3]. Primul politician român care a folosit sintagma societăţii cunoaşterii (din anul 2001) a fost preşedintele României şi protectorul de fapt al Academiei Române, Ion lliescu.
Este poate interesant de amintit că în anul 1986, în lucrarea Tendencies of becoming' [4] (Tendinţele devenirii, republicată în volumul [5]) se justifică şi foloseşte sintagma 'societatea cunoaşterii':
"Cine nu face legătura dintre revoluţia microelectronică şi informaţională şi tendinţa devenirii istorice nu înţelege vremurile. Cine se opune acestei revoluţii părăseşte linia devenirii istorice. Şi totuşi nici această revoluţie nu trebuie absolutizată întrucât trebuie să fie însoţită şi de alte schimbări. Atunci nu ne putem fixa numai asupra ei, ci asupra unui context mai larg în cadrul căruia ea poate juca rolul principal o anumită perioadă istorică. Tendinţa devenirii istorice se conturează a fi tendinţa către o societate a cunoaşterii, a creaţiei şi a civilizaţiei, către o societate globală şi către o societate interastrală în univers, apoi către un act cosmic în conformitate cu tendinţa existenţială a universului. Mai aproape de noi, ca urmare a revoluţiei microelectronice şi informatice, a unei noi revoluţii industriale, se deschid perspectivele unei societăţi orientate informaţional...".
Era o viziune, în acel moment, legată de o anumită filosofie pe care am dezvoltat-o în anii 1980, viziune ancorată şi în realitatea electronică şi informatică a ceea ce se va numi era informaţiei.
IL2 Cartea electronică
Cartea electronică este un vector tehnologic. La Academia Română în anul 2001 s-a desfăşurat un simpozion referitor la cartea electronică şi s-a publicat un volum de referinţă sub coordonarea prof. Doina Banciu [7]. Atunci am descoperit firma de software SOFTWIN condusă de Florin Talpeş care lucrase în domeniu şi avea un prestigiu internaţional în producerea de cărţi electronice. Softwin este
participantă la elaborarea specificaţiilor internaţionale OPEN E-BOOK care au stabilit formatul ediţiilor de cărţi electronice de interes public.Ca urmare a simpozionului a fost înfiinţată şi o librărie de software, cărţi şi documente electronice la Institutul Naţional de Cercetare-Dezvoltare în Informatică (http:// www.e-librarie.ro).
Despre cartea electronică şi rolul ei pentru societatea cunoaşterii în România, am expus consideraţiile mele în lucrări anterioare [1b], [7] şi nu voi reveni asupra lor. în schimb, voi cita doi autori, unul care a exprimat opinii înainte de apariţia cărţii electronice propriu-zise, altul care a participat la lansarea cărţii electronice. Primul este Paul Saffo, directorul unui elevat Institut al Viitorului din California, care lucrează, foarte scump, numai pentru marile companii americane şi care în anul 1988 prevedea că o carte electronică va fi mai mult decât o carte tipărită datorită posibilităţilor de a introduce elemente audio, video, conexiuni la informaţii pe reţea. El scria [8]:
'The term "electronic book" is misleading because these products are not books at all, but something new. We are living in a moment between two revolutions: one of prinţ, four centuries old and not quite spent and another of electronics, two decades young, and just getting underway. Today's products amount to a bridge between these two revolutions.
Al doilea este Dick Brass, Vicepreşedinte Microsoft pentru dezvoltare tehnologică, care în anul 2000, an în care cartea electronică propriu-zisă decola, scria [9]:
'If you don't think eBooks will take off, remember that electronic encyclopedias have already outsold all paper encyclopedias. [...] They cost less than $100, instead of the $2,000 or more for fine paper encyclopedias. [...] Similarly, after the triumph of eBooks, paper books will no longer be the principal means of distributing information. But, like horses they will continue to exist for pleasure...[...] Like ăll transitions, the move from pBooks to eBooks will be a little painful and tentative at first. Then, in less than 20 years, eBooks will be so pervasive that we won't be able to remember living without them. [...] We are on the verge of the most exciting change to the printed word since movable type...'.
Cartea electronică a decolat. Firme precum Amazon şi Barnes and Noble din SUA sunt cunoscute în întreaga lume pentru modul în care au promovat-o. Ele sunt o adevărată şcoală pentru toţi cei care conduc şi vor conduce librării de cărţi electronice şi software, şcoală accesibilă gratuit prin simpla experimentare prin Internet pe web-site-urile acestor firme.
IL3 Procesul de învăţare
în anul 1988 scriam despre procesul de învăţare [10]: •înţelegerea profundă a procesului de învăţare depinde de explicarea funcţionării creierului şi a minţii omului, în ultimă instanţă de înţelegerea naturi»
r
450
451
materiei vii. Cu alte cuvinte, natura intimă a procesului de învăţare nu va putea fi elucidată într-o măsură într-adevăr mulţumitoare decât atunci când ştiinţa va face un nou mare pas în cunoaşterea materiei. Cercetările din domeniile fizicii şi biologiei, esenţiale pentru elucidarea naturii materiei vii, se vor îmbina cu cele din domeniul ştiinţei informaţiei. Activitatea creierului este în principal o activitate informaţională, iar procesul de învăţare este un proces informaţional.'
în acea perioadă ştiinţa cognitivă se găsea, este adevărat, în perioada post-behavioristă şi se baza pe modelarea simbolică de tip calculator electronic, ceea ce s-a dovedit insuficient pentru înţelegerea mulţumitoare a proceselor cognitive mentale [11]. De aceea procesul de învăţare nu era de fapt explicat şi înţeles din punct de vedere ştiinţific. în anii 1990, modelarea proceselor cognitive a cunoscut aportul adus de utilizarea modelelor bazate pe reţele neuronice (de tip natural ca în creierul omului) şi neural (artificiale, electronice), dar nici acestea nu au dus încă la o ştiinţă cognitivă bine constituită [11]:
COGNITIA:
Anii 1970 şi 1980
(modelare simbolică tip calculator)
Anii 1990
(efectul conectivismului, reţele neuronice şi neurale)
Anii 2000. Ce va urma?
Efectul ştiinţei integrative
O speranţă este aceea ca în sec. XXI ştiinţa cognitivă să fie consolidată prin luarea în considerare atât a proceselor fenomenologice (qualia, experienţiale) ale minţii, cât şi a rolului proceselor sociale în procesele cognitive (socialul referindu-se nu numai la persoane umane, ci şi la grupuri de inteligenţe artificiale sau la grupuri mixte). Un asemenea mod de abordare se încadrează în viziunea unei ştiinţe numite integrative [12]. Tot în anul 1988 remarcam [10]:
'Un interes deosebit prezintă cercetările din domeniul inteligenţei artificiale, domeniu care este studiat în ultimii ani şi din punctul de vedere al capacităţii de a învăţa. Studiul procesului de învăţare de către inteligenţa artificială ar putea oferi multe elemente utile pentru înţelegerea procesului de învăţare al inteligenţei naturale a omului. [...] Inteligenţa presupune şi capacitatea de a învăţa. [...] Gh. Tecuci, într-o lucrare originală în care se prezintă un sistem expert la care asociază un sistem de învăţare automată [13], deşi constată că "învăţarea este un proces cognitiv în cea mai mare măsură necunoscut" [13], arată şi demonstrează prin sistemul său că "forme efective de învăţare automată sunt posibile". Dintre aceste forme de învăţare automată pot fi amintite [13]: •   învăţarea pe de rost şi implantare directă de noi cunoştinţe (când este mai eficient să se regăsească o cunoştinţă în memorie decât să se producă acea cunoştinţă).
• învăţare prin instruire (sistemul primeşte cunoştinţe de la un profesor şi le integrează cu cunoştinţele anterioare).
• învăţarea prin analogie.
• învăţarea din exemple prin detecţie de similarităţi, proces esenţial-mente inductiv (fără a exclude şi procese deductive) prin generalizarea exemplelor pozitive, generalizare care evită exemplele negative.
• învăţarea prin observare şi descoperire (spre exemplu a unor regularităţi în structurări de date).
Gh. Tecuci înclină către o îmbinare de metode de învăţare. Fără îndoială câteva lucruri credem că se susţin pentru procesul uman de învăţare:
• Necesitatea unei varietăţi de metode, şi nu o monometodă, lucru deosebit de important când ar putea apare tendinţa de a ne baza, în viitor, mai mult pe tehnologie în procesul educaţional.
• Obţinerea unui sistem de cunoştinţe sub forma unui model intern de bază (unor modele interne) la care să se poată racorda uşor cunoştinţe de detaliu provenite din exterior eventual prin metode informatice.
• Obţinerea sensurilor cunoaşterii, a sensului 'fizic', al intuiţiei lucrurilor şi chiar a unui răspuns creativ în procesul învăţării, lucru de care automatele nu sunt capabile, adică a pune umanul în starea lui firească.
• O deschidere firească spre creativitate şi creaţie, spre inovare în vederea rezolvării de probleme care nu sunt structurate după tipul sistemului de cunoştinţe existent în modelul intern disponibil la un moment dat.'
Odată cu apariţia e-învăţării se deschid perspective noi şi pentru studierea experimentală a procesului de învăţare şi confruntarea acestui tip important de proces cognitiv cu teoriile ştiinţei cognitive care se vor baza pe progresele pe care le va realiza, ceea ce numim, ştiinţa integrativă. Consideraţii privind procesul de învăţare şi sisteme de e-educaţie, inclusiv prin folosirea metodelor inteligenţei artificiale sunt prezentate într-un grup de trei lucrări recente ale unor cercetători ştiinţifici de la Centrul pentru Cercetări Avansate în învăţarea Automată, Prelucrarea Limbajului Natural şi Modelare Conceptuală şi Institutul de Psihologie 'Mihai Ralea' al Academiei Române [14], [15], [16].
National Research Council de pe lângă Academia Naţională de Ştiinţe din SUA a prezentat, în februarie 2002, un raport [17] privind cercetarea ştiinţifică a educaţiei în care despre studiul ştiinţific al procesului de învăţare se arată:
'Much of the controversy about education research relates to its perceived lack of quality. [...] Is scientific education research the same as research in social and behavioral science generally or the same as research in the physical sciences? [...] A key finding of this nrc committee is that at a fundamental level,
452
453
scientific inquiry in education is no different from scientific inquiry in other fields and disciplines. A set of basic principles is common to all scientific endeavors: these principles include concepts like linking empirical data to theoretical models, using appropriate methods, applying rigorous reasoning, striving toward generalization.'
Consideraţiile de mai înainte, inclusiv ale informaticienilor români, arată cât de deschis este în continuare câmpul cercetărilor privind procesul de învăţare, în special al omului.
IL4 învăţământul electronic (e-learning)
E-learning este un vector funcţional al societăţii cunoaşterii. învăţarea electronică înseamnă a învăţa folosind mijloace electronice, ceea ce se poate face în mai multe moduri:
• Individual - folosind resursele existente pe Internet şi CD-uri.
• Instituţionalizat - în şcoli şi universităţi sau organizat în întreprinderi sau de către fundaţii. Cursurile prin televiziune vor ceda locul cursurilor prin Internet, dar acest procedeu se va desfăşura sub supravegherea şi îndrumarea cadrelor didactice calificate.
• în cursul activităţii practice, din orice domeniu, care se va desfăşura şi într-un mediu informaţional şi de cunoaştere.
Cei care învaţă sunt persoane, dar şi agenţi inteligenţi. în viitorul imediat, agenţii inteligenţi vor deveni nu numai studenţi, ci şi profesori, dar rolul lor cel mai promiţător este acela de colaborator cu persoane. învăţarea implicând agenţii inteligenţi va deveni o etapă esenţială în societatea cunoaşterii, deoarece în regim de croazieră societatea cunoaşterii se va baza în cele mai multe activităţi pe agenţi inteligenţi. Inteligenţa artificială va fi esenţa tehnologică a societăţii cunoaşterii. Ea va antrena internetul, nanotehnologiile, dar şi vectorii funcţionali ai societăţii cunoaşterii [1b]. Inteligenţa Artificială în primii 20 de ani ai sec. XXI va depăşi inteligenţa omului (numai pentru aspectele structurale, fără intuiţie şi creativitate).
E-învăţământul se găseşte astăzi în plină dezvoltare [18], [19], [20], [21], [22]. Din experienţa relatată în asemenea studii rezultă:
• Studenţii găsesc, chiar în cazul lipsei unei interacţiuni faţă în faţă între profesor şi student, că descărcarea notelor de curs prin Internet, corespondenţă prin e-mail cu profesori şi instructori, examene prin răspunsuri date pe calculator, acasă sau la şcoală, acest e-învăţământ este foarte agreabil. Iar performanţele studenţilor şi elevilor sunt
similare (evaluare pentru anul 2000) cu cele ale învăţământului în clase de elevi şi studenţi.
• Corporaţiile industriale recurg masiv la e-educaţie, iar această tendinţă nu mai poate fi ignorată. Unele corporaţii au lansat e-universităţi pentru personalul propriu, de ex. Dell Computer Corp. şi Sun Microsystems.
• Universităţile au început să introducă nu un e-învăţământ complet, ci constituirea treptată a acestuia prin unele e-cursuri. Spre exemplu University of California, Berkeley, în domeniul ştiinţei şi tehnologiei informaţiei a început (anii 1999-2000) cu patru e-cursuri: sisteme informatice, telecomunicaţii digitale, e-comerţ, sisteme informaţionale geografice.
• O serie de firme şi-au dedicat activitatea sau o parte din activitate producerii unor 'e-learning software packages'. Se constituie un segment al pieţii software specializat în e-learning. (Astfel se şi explică prezenţa firmelor SOFTWIN şi SIVECO la acest simpozion devenite principalele firme româneşti de software educaţional). Dar asemenea pachete e-software pentru învăţământ sunt de aşteptat şi din partea Programului e-şcoală al Ministeului Educaţiei şi Cercetării care urmăreşte o reformă educaţională în România.
• Nu se constată deosebiri între rezultatele învăţării on-line şi învăţarea într-un campus universitar sau o şcoală. învăţarea electronică cere mai multă disciplină şi maturitate decât învăţarea convenţională [18].
• Pentru experimente de laborator şi pentru viaţă socială este nevoie totuşi de perioade de lucru în instituţiile de învăţământ.
• Odată cu creşterea utilizării metodelor de e-învăţământ, construcţia de clădiri pentru învăţământ se va diminua. în schimb apar cheltuieli pentru noua infrastructură a e-învăţământului.
• Modul asincron de acces la cursuri permite e-educaţia în orice moment şi în orice loc.
• E-învăţământul încurajează studenţii să-şi asume o mai mare responsabilitate pentru definirea şi organizarea a ceea ce urmăresc să înveţe. Studenţii sunt mai bine serviţi având un acces asistat electronic on-line la cei mai buni instructori decât un contact faţă în faţă cu instructori mediocri [19]. In orice caz, nu se neagă rolul instructorilor.
• Discipline ca filosofia şi istoria presupun discuţii, iar discipline tehnice presupun proiecte. în aceste cazuri trebuie încă să se găsească soluţii mixte de învăţământ clasic şi electronic.
• E-învăţământul oferă cele mai bune perspective pentru învăţarea în întreaga viaţă (învăţarea continuă).
454
• 'Educaţia bazată pe Internet resuscită probleme fundamentale ale educaţiei care sunt importante pentru conceperea activităţilor educaţionale'. [19]
• Gradul în care instructorii vii pot fi înlocuiţi cu agenţi inteligenţi specializaţi nu este încă clarificat.
• în mod diferit se pun problemele e-învăţământului în şcoli elementare şi licee în raport cu învăţământul superior. Pentru şcoli şi chiar licee, într-o primă etapă se dezvoltă clase conectate la Internet, cu calculatoare personale, dotate cu e-books, e-learning books, discuri compacte şi acces la reţele specializate, eventual servere de clasă sau şcoală.
• Şcolile, ca şi companiile, ca şi guvernul, trebuie să se regândească în lumina noilor tehnologii ale societăţii cunoaşterii.
• Se preconizează şi se experimentează atât pentru şcoli, cât şi pentru alte forme de învăţământ, utilizarea Internetului prin comunicaţii fără fir (wireless Internet) care oferă posibilităţi şi opţiuni noi.
Acestea sunt principalele consideraţii şi constatări la începutul anului 2002. Valabilitatea unora dintre ele se va confirma, alte constatări vor fi, poate, infirmate, dar vor apare cu siguranţă multe alte aspecte noi.
II.5 Viata intelectuală
în timp sunt prevăzute multe schimbări datorită învăţământului electronic [23]. în primul rând, apariţia unor colegii şi universităţi nelocalizate, extinse uneori la scară globală. Siturile acestora pot fi mari sau mici, structurarea socială având loc sub forma unor comunităţi (villages) având facilităţi comune pentru cercetare, proiecte de grup, dar şi pentru activităţi comunitare culturale, sportive etc. O persoană admisă într-o asemenea universitate îi va rămâne ataşată pentru toată viaţa, deoarece educaţia se va extinde pe întreaga viaţă prin perioade discrete (adică necontinue) şi intensive de învăţare. Viaţa intelectuală se va schimba foarte mult, reflectând modificările în cunoaştere:
'An epistemic change is the abandonment of the notion that any single human mind can bear any significant fraction of what is knowable...Even the renaissance notion of an 'educated person' has been discarded - there is no longer a canonica! body of basic knowledge that defines this notion' [23].
Agenţii inteligenţi de căutare a informaţiei, bibliotecile electronice, vizualizarea informaţiei, pătrunderea în medii virtuale, toate acestea vor constitui un software care devine literatură [23]. 'Tehnologia va fi văzută ca cea mai bogată dezvoltare în cultura umană' [23]. Rădăcinile intelectuale se vor baza pe inginerie şi tehnologie: Difuzia umanităţilor în tehnologie şi invers, vor duce la o reorganizare radicală a disciplinelor intelectuale [23].
455
IL6 Perspective
Cum vor evolua lucrurile în viitor? Ray Kurzweil [24] face următoarele previziuni privind educaţia pentru anii 2009, 2019 şi 2029:
Pentru anul 2009 [24, p. 191-192]:
'...most effective learning from computers taking place in the home. [...] The profound importance of the computer as a knowledge tool is widely recognized. Computers play a central role in all facets of education, as they do in other spheres of life. The majority of reading is done on displays, although the 'installed base' of paper documents is still formidable. The generation of paper documents is dwindling, however, as the books and other papers of largely twentieh century vintage are being rapidly scanned and stored. Documents circa 2009 rotinely include embedded moving images and sounds. Students of all ages typically have a computer of their own, which a thin tabletlike device weighing under a pound with a very high resolution display suitably for reading. Students interact with their computers primarily by voice and by pointing with a device that looks like a pencil. Keyboards still exist, but most textual language is created by speaking. [...]
Intelligent courseware has emerged as a common means of learning. [...] The tradiţional mode of a human teacher instructing a group of children is still prevalent, but schools are increasingly relying on sofware approaches, leaving human teachers to attend primarily to issues of motivation, psychological well-being, and socialization.'
Pentru anul 2019 [24, p.204):
'Paper books and documents are rarely used or accessed. Most twentieth-century papers of interest have been scanned and are available through wireless network. Most learning is accomplished using intelligent software-based simulated teachers.[...] The teachers are viewed more as mentors and counselors than as sources of learning and knowledge. Students continue to gather together to exchange ideas and to socialize, although even this gathering is often physically and geographically remote. [...] Most adult human workers spend the majority of their time acquiring new skills and knowledge.'
Pentru anul 2029 [24, p. 221]:
'Human learning is primarily accomplished using virtual teachers and is enhanced by the widely available neural implants. The implants improve memory and perception, but it is not possible to download knowledge directly. Although enhanced through virtual experiences, intelligent interactive instruction, and neural implants, learning still requires time-
456
consuming human experience and study. This activity comprises the primary focus of the human species.
Automated agents are learning on their own without human spoon-feeding of information and knowledge. Computers have read all available human and machine generated-literature and multimedia material ...Significantly new knowledge is created by machines with little or no human intervention. Unlike humans, machines easily share knowledge structures with one another.'
Dacă în societatea cunoaşterii previziunile de mai înainte se bazează pe o continuare a ştiinţei structurale, ce se va întâmpla dacă ştiinţa, cu bazele ei noi, integrative, va conduce şi la apariţia inteligenţei artificiale conştiente, adică a conştiinţei artificiale? Acest lucru nu se va întâmpla probabil în primii 30 de ani ai acestui secol, dar dacă se va întâmpla cum vom privi şi acţiona în activitatea educaţională?
II.7 încheiere. Propuneri
Roger Bohn defineşte, într-un mod specific pentru societatea cunoaşterii, învăţarea drept evoluţia cunoaşterii în timp [25].
Studiul procesului de învăţare scoate în relief importanţa ştiinţei cognitive şi a învăţării ca proces cognitiv fundamental. Această ştiinţă trebuie nu numai cunoscută, atât cât este ea astăzi, ci mai ales dezvoltată de către psihologi, neu-robiologi, sociologi şi specialişti în inteligenţa artificială.
Este necesară o direcţie de cercetare bine susţinută pentru a stimula contribuţii româneşti în acest domeniu. Am propus şi propun în continuare ca în cadrul programului INFOSOC (Programul naţional de cercetare-dezvoltare pentru societatea informaţională) să se stimuleze cercetări în domeniul ştiinţei cognitive care să contribuie la depăşirea limitelor actuale ale acestui domeniu.
Este, de asemenea, necesară o dinamizare nu numai a cercetărilor, dar mai ales a dezvoltărilor şi realizărilor concrete în domeniul inteligenţei artificiale. Există un sistem românesc, sistemul DISCIPOL, creat de acad. Gh. Tecuci [13], [26] la ICI şi apoi la George Mason University din SUA. Ar trebui examinat şi utilizat şi la noi. Ar trebui să cunoaştem ce posibilităţi şi ce potenţial avem în domeniul utilizării agenţilor inteligenţi şi să existe o coordonare şi autocoordonare a eforturilor. Utilizarea agenţilor inteligenţi pentru toţi vectorii societăţii cunoaştşrii, inclusiv pentru e-învăţământ va deveni determinantă pentru calitatea şi eficienţa acestei societăţi. Recenta propunere pentru transformarea Centrului pentru Cercetări Avansate în învăţarea Automată, Prelucrarea Limbajului Natural şi Modelare Conceptuală al Academiei Române într-un Centru de cercetări pentru Inteligenţa Artificială şi Societatea Cunoaşterii sprijinită de Directorul general ICI,
457
Doina Banciu şi de Ministrul Comunicaţiilor şi Tehnologiei Informaţiei, Dan Nica, ar putea să satisfacă aceste cerinţe actuale şi de viitor. Sperăm ca şi Academia Română să sprijine această solicitare pentru a putea fi înaintată Guvernului României spre a fi aprobată.
Tot la Academie, Comitetul Român pentru Istoria şi Filosofia Ştiinţei şi Tehnicii va acorda o anumită importanţă muzeelor virtuale, nu numai pentru istoria ştiinţei şi tehnicii, dar şi pentru cunoaştere şi învăţare. Ar trebui realizat un web-site de sinteză a tuturor muzeelor virtuale din lume, inclusiv ai web-site-urilor unor mari muzee de mare tradiţie şi importanţă, cu adresele lor pe Internet. Acest web-site ar trebui să fie cunoscut şi accesibil tuturor în România.
Apreciez în mod deosebit eforturile care se fac pentru informatizarea învăţământului românesc de către Guvernul României, Ministerul Educaţiei şi Cercetării, firmele SIVECO şi SOFTWIN, ca şi de toate instituţiile reprezentate la acest simpozion dedicat învăţământului electronic.
Doresc să mulţumesc tuturor celor care au prezentat comunicări la acest simpozion şi celor care au participat la organizarea lui.
Referinţe bibliografice
[1] Mihai Drăgănescu, Cunoaşterea şi societatea cunoaşterii, comunicare la seziunea de lansare a programului strategic SI-SC, Academia Română, 10 aprilie 2001; 1b. Mihai Drăgănescu, Societatea informaţională şi a cunoaşterii. Vectorii societăţii ct//?oaşfer/7,studiu, Academia Română, 7 iulie 2001, publicat pe Internet şi în voi. coord. Florin Gh. Filip, Societatea informaţională-Societatea cunoaşterii. Concepte, soluţii şi strategii pentru Români, Academia Română, 2002, p.43 -112. [2]  Gabriela S. Sabău, Societatea cunoaşterii. O perspectivă românească, Editura economică, Bucureşti, 2001; Ion Gh. Roşea, Viorel Petrescu, Beniamin Cotigaru, Gabriela Sabău, Vasilica Ciucă, Oscar Hoffman, Wilheim Kappel, Cercetarea pentru dezvoltarea în reconstrucţia durabilă a economiei din perspectiva societăţii cunoaşterii, Economistul, 4 februarie 2002, nr.270, p. I-III. [3]  Mihai Drăgănescu, Societatea cunoaşterii, Diplomat Club, 2001, Nr. 6, p1-2; Mihai Drăgănescu , Knowledge management, a funcţional vector of the knowledge society, Diplomat Club, Nr. 10-11, 2001, p.4; Mihai Drăgănescu, Factori  noi  în   viaţa   cultural-ştiinţifică-politică  globală:   terorismul şi antiterorismul, Diplomat Club, 2002, Nr.1, p.7. [4]  Mihai Drăgănescu, Tendencies of becoming, Romanian Review, 1986, Nr. 11, p.55-59.
458
459
[5] Mihai Drăgănescu, Spiritualitate, Informaţie, Materie, p.23-28, Ed. Academiei R.S.R., 1988.
[6]  coord. Doina Banciu, Cartea Electronică, Editura AGER, Bucureşti, 2001.
[7] Mihai Drăgănescu, Societatea cunoaşterii şi cartea electronică, în voi. coord. Doina Banciu, Cartea Electronică, Editura AGER, Bucureşti, 2001, p. 26-42.
[8] Paul Saffo, Institute for the Future, Electronic books, http://www. saffo.org/sflibrarv.html. 1988.
[9] Dick Brass, Vicepreşedinte Microsoft pentru dezvoltare tehnologică, E-books, în voi. Inside/Out, Microsoft- in our own words, Penguin Books, New York 2000, p.262-263.
[10] Mihai Drăgănescu, Microelectronica şi învăţământul în domeniul electronicii (I), Forum, anul XXX, noiembrie 1988, p. 36-48.
[11] Mihai Drăgănescu, Ştiinţa cognitivă, ştiinţă structurală sau ştiinţă integra-f/Vă?Comunicare la seziunea ştiinţifică de toamnă AOS-R, Bucureşti, 9 noiembrie 2001, E-PREPRINT, MSReader format, november 2001.
[12] Menas Kafatos, Mihai Drăgănescu, Preliminaries to the Philosophy of IntegrativeScience, MSReader e-book, Editura ICI, Bucureşti, 2001, ISBN 973-10-02510-X.
[13] Gheorghe Tecuci, Mediu de dezvoltare a sistemelor expert instruibile pentru proiectarea asistată de calculator, Teză de doctorat, Institutul Politehnic, Bucureşti, 1988.
[14] Ştefan Trăuşan-Matu, Achiziţia, gestiunea, partajarea şi prelucrarea cunoştinţelor pe web: elemente esenţiale în societatea cunoaşterii, în voi. coord. Florin Gh. Filip, Societatea informaţională-Societatea cunoaşterii. Concepte, soluţii şi strategii pentru Români, Academia Română, 2002, p.'l 95-207.
[15] Cristina V. Niculescu, Noi tipuri de sisteme educaţionale pentru SI-SC, în voi. coord. Florin Gh. Filip, Societatea informaţională-Societatea cunoaşterii. Concepte, soluţii şi strategii pentru Români, Academia Română, 2002, p.209-223.
[16] Gheorghe losif, Ana Măria Marhan, Ion Juvină, Strategii de creştere a utizabilităţii şi de dezvoltare a competenţelor de bază ale populaţiei României pentru utilizarea tehnologiei informaţiei, în voi. coord. Florin Gh. Filip, Societatea informaţională-Societatea cunoaşterii. Concepte, soluţii si strategii pentru Români, Academia Română, 2002, p. 225-235.
[17] Lisa Towne, Study Director, Committee on Scientific Principles in Education Research National Research Council/National Academy of Sciences, Statement before the Subcommittee on Education Reform Committee on
Education and the Workforce United States House of Representatives, February 28, 2002.
[18] Robert Ubell, Engineers turn to e-learning, IEEE Spectrum, October 2000, p.59-63.
[19] Peter Wiesner, Distance Education: Rebottling or a New Brew? Proceedings
of the IEEE, July 2000, p.1124-1130. [20] Ralph B. Ginsberg, Kenneth R. Foster, The Wired Classroom, IEEE Spectrum,
August 1998, p.44-51. [21] Paul G. Shotsberger, Ron Vetter, Teaching and Learning in the Wireless
Classroom, Computer, march 2001, p.110-111. [22] http://www.microsoft.com-education
[23] Edward A. Lee, David G. Messerschmitt, A higher education in the year 2049,
Proceedings I.E.E.E., September 1999, p.1685 -1691. [24] Raz Kurzweil, The Age of Spiritual Machines, Penguin Books, New York,
1999.
[25] Roger E. Bohn, Measuring and Managing Techological Knowledge, p.295-314, în voi. Eds. Dale Neef a.o., The Economic Impact of Knowledge, Butterworth-Heinemann, Boston, 1998.
[26] Gh. Tecuci, Building Intelligent Agents, Academic Press, San Diego, 1998.
III. CULTURA ŞI SOCIETATEA CUNOAŞTERII
Societatea Cunoaşterii
Am prefigurat că va sosi un moment al societăţii cunoaşterii (chiar cu această sintagmă, Mihai Drăgănescu, 1976, 1986), dar abia în ultimul deceniu al secolului XX conceptul s-a impus în SUA datorită lucrărilor sociologului Peter Drucker şi ale altora, în ultimii 4-5 ani societatea cunoaşterii devenind recunoscută ca o etapă nouă a erei informaţiei, respectiv a societăţii informaţionale. Academia Română a lansat acest concept în România în anul 2001 ca urmare a poziţiei şi comunicării lui Mihai Drăgănescu, Cunoaşterea şi Societatea cunoaşterii, la sesiunea de lansare a programului SI-SC, Academia Română, 10 aprilie 2001 şi a elaborării studiului lui Mihai Drăgănescu, Societatea Informaţională şi a Cunoaşterii. Vectorii Societăţii Cunoaşterii, Academia Română, Bucureşti, 9 iulie 2001, publicat apoi în voi. coord. Florin Gh. Filip, Societatea informaţională-Societatea cunoaşterii. Concepte, soluţii şi strategii pentru România, Academia Română, 2002, p.43-112.
Spre deosebire de unele puncte de vedere care privesc numai economicul (economia digitală, piaţa internet) societatea cunoaşterii nu este numai economia
460
461
bazată pe cunoaştere. Aceasta este foarte importantă, decisivă, esenţială şi cuprinde utilizarea şi managementul cunoaşterii existente sub forma cunoaşterii tehnologice şi organizaţionale, producerea de cunoaştere tehnologică nouă prin inovare, o nouă economie în care procesul de inovare este determinant, în care bunurile intangibile devin mai importante decât cele tangibile.
Societatea cunoaşterii reprezintă mult mai mult deoarece asigură o diseminare fără precedent a cunoaşterii către toţi cetăţenii prin mijloace noi, folosind cu prioritate Internetul şi cartea electronică şi metodele de învăţare prin procedee electronice (e-learning), urmăreşte extinderea şi aprofundarea cunoaşterii ştiinţifice şi a adevărului despre existenţă, este singurul mod prin care se va asigura o societate sustenabilă din punct de vedere ecologic şi va fi o nouă etapă în cultură (bazată pe cultura cunoaşterii care implică toate formele de cunoaştere, inclusiv cunoaşterea artistică, literară etc).
în fine, societatea cunoaşterii asigură bazele unei viitoare societăţi a conştiinţei, a adevărului, moralităţii, creativităţii şi spiritului.
Pentru realizarea societăţii cunoaşterii am definit, în studiul amintit mai înainte, o serie de vectori (tehnologici şi funcţionali) care ar trebui introduşi în acţiune într-o succesiune firească pentru posibilităţile ţării noastre.
Categoriile culturii
Dintre lucrările pe care le-am publicat anterior în problemele culturii [1] două se referă la teoria culturii. în Perspectiva informaţională a culturii (1983) găseam un anumit sprijin pentru o viziune informaţională a culturii în teoria semiotică a culturii elaborată de Umberto Eco în Tratatul său de semiotică generală. Umberto Eco propunea o ipoteză radicală prin care întreaga cultură este considerată un fenomen semiotic şi o ipoteză moderată prin care orice aspect al culturii este o entitate semantică. Semiotica se referă la semne cu conţinut semantic astfel încât cele două ipoteze nu sunt prea deosebite. De aceea, consideram, prin generalizare firească, deoarece semnul şi semanticul (de semnificaţie şi de sens) sunt informaţie, o posibilă perspectivă informaţională a culturii. Acest lucru, faptul că esenţa culturii este informaţională, chiar dacă ea se manifestă prin comportamente socio-umane, obiecte materiale şi informaţionale, a devenit tot mai evident. Nu trebuie să surprindă această esenţă informaţională a culturii, astăzi fiind ştiut că şi inteligenţa şi conştiinţa sunt informaţie.
în legătură cu perspectiva informaţională a culturii poate fi menţionat ca precursor al acestei abordări, Ernst Cassirer [2] care considera că expresia culturală a omului şi societăţii este caracterizată de activitatea de creare a simbolurilor (activitatea simbolizatoare) generate de imagini mentale. Pentru
Cassirer, simbolul este o cheie pentru înţelegerea naturii omului, iar, omul nu trăieşte numai într-un univers material, ci mai ales într-unui simbolic [3].
într-o a doua lucrare [1a], Cultura şi marile tehnologii (1996) am urmărit linia clasică de definire a culturii ţinând însă seamă de obiectele informaţionale noi aduse de societatea informaţională. în teoria clasică cultura este definită ca un fenomen social care cuprinde comportamentul socio-uman cu obiectele materiale şi informaţionale integrate acestui comportament. Obiectele informaţionale au fost introduse în această definiţie la sfârşitul secolului XX.
Pare a fi posibilă o încadrare a teoriei culturii într-o viziune categorială (termenul este utilizat în raport cu teoria categoriilor şi functorilor din matematică, extinsă recent de la domeniul structural la domeniul structural-fenomenologic [4]).
Privind comportamentul socio-uman cultural ca o categorie, această categorie este o subcategorie majoră a categoriei comportamentului socio-uman general. Ultima mai cuprinde şi o subcategorie a comportamentului determinat strict biologic, atât la nivel individual, cât şi social. într-adevăr, pe lângă comportamente individuale strict biologice există şi comportamente sociale . determinate biologic, puse în evidenţă, în cazul omului, de Gr.T. Popa [5]. Acesta demonstrează cum creierul vechi (primitiv, reptilian, thalamus-hipothalamus) determină comportamente necontrolate cultural care duc mase de oameni la comportamente sălbatice, iar în cazul societăţilor mai avansate duc la manifestări de semicivilizaţie, în care impulsivitatea biologică devine colectivă şi sălbatică.
Cultura
O subcategorie a unei categorii este o categorie. Categoria cultură este subcategorie a comportamentului socio-uman general, dar este aceea care deosebeşte specia umană de toate celelalte specii animale, chiar dacă unele dintre acestea pot avea şi rudimente de cultură. Categoria cultură reprezintă comportamentul socio-uman cultural, spre deosebire de cel biologic, cu tot ceea construieşte, dar nu se dezvoltă decât datorită, totuşi, anumitor proprietăţi biologice remarcabile ale omului, în special ale creierului său care are o mare disponibilitate informaţională. De aceea, dacă originea biologică a comportamentului cultural nu poate fi pusă la îndoială, cultura este o construcţie care se ridică mult deasupra biologicului, atât cât va putea faţă de limitele biologice ale omului la un moment dat în istorie.
Poate că alături de cele două subcategorii menţionate mai înainte ar trebui să mai adăugăm comportamentului socio-uman încă una, aceea a spiritualităţii (comportamentul spiritual), pe care nu o tratăm în această lucrare. A privi spiritualitatea ca o a treia subcategorie a comportamentului socio-uman general este o chestiune care trebuie aprofundată, având în vedere că mulţi oameni de cultură consideră spiritualitatea a fi un comportament numai cultural. Ţinând seama de cercetările şi studiile de filozofie a ştiinţei din ultimii 15 ani privind mintea
462
463
şi conştiinţa, vom considera, până la argumente contrarii convingătoare, spiritualitatea ca fiind o subategorie separată şi nu una înglobată (total) în cultură.
Schematic, vom rezuma cele de mai înainte, astfel:
CATEGORIA COMPORTAMENTULUI SOCIO-UMAN	Subcategoria comportamentului strict biologic	Notă: există şi comportament social determinat strict biologic
	Subcategoria comportamentului cultural.	CULTURA
	Subcategoria comportamentului spiritual.	SPIRITUALITATEA
Sferele mari ale culturii
Pornind de la definiţia din [1b] şi diferenţa pe care o face UNESCO între cultura intangibilă şi cultura tangibilă, marile sfere (categorii) ale culturii pot fi considerate următoarele:
I. Cultura intangibilă. 'Moştenirea intangibilă poate fi definită ca îmbrăţişând toate formele de cultură tradiţională şi populară sau cultura folk, adică producţiile colective originate de o comunitate dată şi bazate pe tradiţie. Aceste creaţii sunt transmise oral sau prin gesturi şi sunt modificate într-o perioadă de timp printr-un proces de re-creare colectivă. Ele includ tradiţiile orale, obiceiurile, limbajele, muzica, dansul, ritualurile, festivităţile, medicina tradiţională şi farmacopeeai artele culinare şi tot felul de îndemânări speciale legate de aspectele materiale ale culturii, cum sunt uneltele şi habitatul [6]\ Fără îndoială, noţiunea de cultură intangibilă a fost introdusă sub influenţa noţiunii de valoare intangibilă din economie care a căpătat o mare importanţă pentru societatea cunoaşterii (economia bazată pe cunoaştere). Se mai adaugă aici valori, credinţe, cunoaştere tacită.
II. Cultura umanistă. Am preluat în acest studiu denumirea tradiţională. Cultura umanistă cuprinde limbajele naturale, literatura, arta, istoria, filosofia, sportul. Cultura umanistă este o cultură tangibilă, ca şi ştiinţa şi tehnologia.
III. Cultura ştiinţifică: Ştiinţa, tehnologia şi cunoaşterea. Această categorie a culturii conţine două subcategorii:
lll.a Ştiinţa, cunoaşterea ştiinţifică şi tehnologică, cunoaşterea tehnologică pentru fabricaţia de produse, dar şi pentru utilizarea acestora, precum şi cunoaşterea organizaţională şi economică, chiar dacă unele obiecte ale cunoaşterii surit tacite sau fac parte şi din cultura intangibilă. în categoria mare
a culturii, anumite obiecte pot aparţine la două sau mai multe subcategorii, acestea nu sunt neapărat disjuncte.
Ill.b Uneltele fizice şi informaţionale, obiectele fizice şi informaţionale produse sau fabricate, utilizarea lor, instituţiile şi organizaţiile, care sunt consecinţe, în cea mai mare măsură, a cunoaşterii ştiinţifice, tehnologice, economice şi organizaţionale, poate chiar şi a culturii intangibile.
Nu numai că unele obiecte culturale pot face parte din mai multe subcategorii ale culturii, dar vor exista şi zone de interferenţă între obiecte ale acestor subcategorii. De exemplu, filosofia ştiinţei, care este un obiect al filosofiei, nu se poate dezvolta decât în strânsă legătură cu ştiinţa. în teoria categoriilor asemenea legături se numesc morfisme (morphisms sau maps, în limba engleză). Mai mult, pe lângă legăturile dintre obiectele subcategoriilor culturii, din orice sferă a culturii ar proveni, există relaţii între aceste sfere în totalitatea lor. Acestea se numesc functori. Cei mai importanţi functori sunt aceia dintre categoria II şi categoria lll de mai sus. Aceşti functori,
F1 : Categoria lll (Cultura ştiinţifică) + Categoria II (Cultura umanistă) F2 : Categoria II (Cultura umanistă)   Categoria lll (Cultura ştiinţifică)
reprezintă relaţia şi influenţa reciprocă dintre, în esenţă, cultura umanistă şi ştiinţă (cultura ştiinţifică). Importanţa lor pentru societate şi om nu poate fi subestimată.
Care este mai importantă dintre cele două categorii? Ambele sunt importante, dar motorul dezvoltării provine din sânul categoriei lll. Acest lucru a devenit tot mai evident odată cu formularea conceptelor societăţii cunoaşterii [7].
Este adevărat că o altă resursă importantă este viaţa spirituală, ea având şi componenta de creaţie implicând puternic atât cultura umanistă, cât şi cultura ştiinţifică.
Odată cu era informaţiei vor apare desigur multe elemente noi ale culturii datorită tehnologiei informaţiei, cărţii şi documentelor electronice, internetului, tehnologiilor vorbirii, tehnologiilor bioelectronice şi bioinformatice, inteligenţei artificiale şi agenţilor inteligenţi informatici, mediului ambiant inteligent, apariţiei conştiinţei artificiale. Vor apare schimbări în viaţa intelectuală, socială şi politică.
Ce se va mai petrece în cultură ?
în secolul XXI sunt posibile câteva evenimente majore care vor schimba viaţa omenirii:
- Prăbuşirea ecologică a societăţii şi a speciei umane, datorită deteriorării grave a mediului înconjurător, ceea ce s-ar putea întâmpla la mijlocul sec. XXI (să spunem, anul 2050) dacă nu se trece din timp,
464
465
repectiv de pe acum, la efortul de asigurare a unor societăţi sustenabile. Salvarea este posibilă chiar cu cunoaşterea ştiinţifică şi tehnologică de astăzi dacă se trece la un management adecvat al cunoaşterii [7] şi la noi concepte economice adaptate sustenabilităţii. în această problemă au apărut şi alte noi perspective care vor rezulta dintr-o serie de evenimente descrise în continuare.
- Dezvoltarea inteligenţei artificiale până la depăşirea inteligenţei umane, ceea se va putea petrece între anii 2019-2035 sau chiar mai devreme [8], [9], [10], [11], [12].
- Apariţia conştiinţei artificiale, tot în cursul sec. XXI, după ce inteligenţa artificială vâ depăşi inteligenţa umană, dar fără a putea preciza perioada.
Aceste două ultime evenimente presupun apariţia unor noi specii inteligente, dar şi noi specii conştiente, unele nebiologice (roboţi umanoizi în topul unor specii de roboţi mai puţin inteligenţi care simulează animale (insecte, pisici, câini) şi roboţi construiţi pentru anumite funcţiuni care să înlocuiască omul [8][13].
Speciile de roboţi umanoizi inteligenţi şi de agenţi software inteligenţi, ambele egal de inteligente sau mai inteligente decât omul sunt uneori numite robo sapiens [13]. într-o primă etapă, aceste specii nu vor avea conştiinţă, astfel cum are omul, datorită faptului că au numai o organizare structurală şi nu una structural-fenomenologică [14]. Dar aceste specii vor interacţiona puternic cu omul şi societatea şi se pune întrebare în ce măsură ele vor fi şi artefacte culturale, nu numai prin faptul că fac parte din cultura omului, ci şi prin participarea lor activă la cultură. Vor dezvolta cultura lor (într-o anumită măsură, da) sau vor intra în jocul marii culturi, participând la cultura totală devenită din fenomen socio-uman, unul socio-uman- inteligenţă/conştiinţă artificială
întrucât robo sapiens va avea cunoaştere şi va participa la dezvoltarea ştiinţei şi tehnologiei, chiar la dezvoltarea sa ca obiect tehnologic, el va participa cu siguranţă la cultura ştiinţifică, poate chiar la anumite forme de cultură umanistă sau numai robotică. El poate fi implicat, prin cunoaşterea culturii umaniste, să participe ceva mai pronunţat la această cultură. Când va trece de la inteligenţă la conştiinţă, o asemenea activitate ar putea fi mult mai pronunţată.
Probabil, între homo sapiens şi robo sapiens vor exista relaţii de competiţie şi cooperare, dar acestea se vor dezvolta într-o societate comună, cel puţin până la o segregare care nu ar fi de dorit, în care spiritualitatea şi creativitatea lui homo sapiens îi va conferi acestuia din urmă poziţii inabordabile lui robo sapiens. Din momentul în care vor apare specii de robo sapiens-conştient, lucrurile se vor schimba din nou, cu efecte poate şi mai dramatice pentru om şi societate. încerc să mă conving că ideile unei societăţi a conştiinţei ar putea fi benefice pentru un asemenea viitor care probabil nu va putea fi prohibit. Probabil, înspre un asemenea viitor şi într-un asemenea viitor să fie rezolvată şi sustenabilitatea unei societăţi a conştiinţei.
Este interesant de reluat aici câteva previziuni ale lui Kurzweil [10] privind starea societăţii în anii 2019 şi 2029.
Pentru anul 2019, în domeniul afacerilor şi al economiei, prevede tranzacţii care în majoritate vor folosi persoane simulate, oamenii de afaceri vor avea asistenţi software care vor conduce tranzacţiile în numele lor. Locuinţele vor dispune de roboţi de întreţinere. Cu aceste artefacte comunicarea se va face prin voce, deoarece vor dispune de o tehnologie a limbajului natural şi a vocii de foarte înaltă calitate. Oamenii vor avea relaţii cu persoane automate inteligente în calitatea acestora de profesori, îngrijitori medicali, persoane de companie etc. Aceste persoane automate au şi calităţi superioare omului în privinţa memoriei, dar, afirmă Kurzweil, 'ele nu sunt încă privite ca fiind egale cu oamenii în toată subtilitatea personalităţii acestora'. Inteligenţa artificială este însă prezentă şi împletită cu toate aspectele societăţii. Responsabilitatea omului va rămâne totuşi pe primul plan şi nu a persoanelor (agenţilor) care îl ajută. Operele de artă se vor realiza prin colaborarea dintre artişti umani şi inteligenţe artificiale. Principalul pericol în societate îl vor constitui micile grupuri de oameni şi inteligenţe artificiale folosind comunicaţii criptate care nu pot fi descifrate. Acestea vor folosi virusuri informatice şi agenţi de îmbolnăvire obţinuţi prin bioinginerie. Pe de altă parte descifrarea relaţiilor dintre genele genomului uman va permite o medicină utilizând inteligenţa artifcială pentru tratamentul şi chiar eradicarea multor boli, inclusiv pentru prelungirea considerabilă a vieţii omului natural.
Pentru anul 2029, Kurzweil prognozează: în domeniul comunicaţiilor va predomina, ca volum, comunicaţia dintre oameni şi maşini. Populaţia umană se va plafona la 12 miliarde de persoane reale, cărora li se asigură toate condiţiile normale de viaţă. Populaţia umană şi a inteligenţelor artificaiale va fi preocupată, în primul rînd, pentru crearea de cunoaştere, într-o puzderie de forme. Va fi greu să fie menţionate capacităţi ale omului care să nu fie preluate de maşini, de fapt o deosebire netă nu mai există între lumea oamenilor şi lumea maşinilor. Cogniţia umană a fost transferată maşinilor şi multe maşini au personalitate, îndemânări şi baze de cunoaştere preluând şi cunoaşterea umană. Implanturile neurale cognitive bazate pe inteligenţă artificială vor amplifica funcţiile cognitive ale omului. Kurzweil afirmă: 'A defini ceea ce înseamnă o fiinţă umană devine o chestiune semnificativă politică şi de legislaţie. Creşterea rapidă a posibilităţilor maşinilor este controversată, dar nu există nici o rezistenţă faţă de ea. Deoarece la început maşinile au fost proiectate pentru a fi supuse controlului uman, ele nu au prezentat o forţă ameninţătoare faţă de populaţia umană. Oamenii realizează că nu mai este posibilă dezangajarea civilizaţiei devenită om-maşină de dependenţa de inteligenţa maşinilor. Creşte discuţia despre drepturile legale ale maşinilor, în special ale acelor maşini care sunt independente de oameni (care nu sunt introduse într-un creier uman). Cu toate că nu se recunoaşte deplin, prin lege, influenţa evidentă a maşinilor la toate nivelele de decizie asigură o protecţie importantă a maşinilor'.
466
467
Kurzweil consideră calităţi ale maşinilor inteligente, care încă din anul 2029 pot fi persoane de artă în toate domeniile artei ('Mulţi dintre artiştii de frunte sunt maşini'). Observăm însă că acest lucru ar presupune o stare de conştiinţă similară omului şi prin manifestarea fenomenelor de qualia. Implicit, Kurzweil consideră că maşini inteligente complexe, structurale, pot avea asemenea stări şi pot chiar participa la discuţii filosofice pe baza experienţei proprii. Vorbind de experienţa subiectivă a unor astfel de maşini, aceasta ar însemna că asemenea maşini să fi trecut pragul de la inteligenţă la conştiinţă numai pe baze structurale încă din anul 2029. Ceea ce nu credem, în principiu, a fi posibil.
într-adevăr, previziunile pe care oamenii de ştiinţă le fac privind dezvoltarea inteligenţei artificiale spre conştiinţă artificială se bazează pe extrapolări ale ştiinţei structurale (complexitatea structurală de la un anumit grad în sus generează conştiinţă, acest lucru fiind considerat valabil începând cu creierul animalelor). Odată cu creşterea complexităţii artefactelor creiere electronice sau creierelor software se consideră că atunci când acestea ating complexitatea creierului uman se va produce de la sine conştiinţa artificială [8], [10], [11]. Uneori, unii dintre cei care susţin un asemenea punct de vedere au îndoieli asupra valabilităţii lui [12]. în viziunea unei filosofii integrative a ştiinţei [15],[16], conştiinţa nu se poate realiza numai din elemente structurale, fiind nevoie şi de elemente fenomenologice [17]. Conştiinţele artificiale vor pune probleme foarte mari speciei umane care cred că ar putea fi rezolvate în cadrul unei viitoare societăţi a conştiinţei. Aceasta va urma atunci societăţii cunoaşterii în cadrul erei informaţiei [18],'[19].
Ce va fi cultura în societatea conştiinţei, la care vor participa, dacă nu chiar vor predomina conştiinţele artificiale? Dacă lucrul cel mai important, în cele din urmă, este continuitatea conştiinţei create de omenire, atunci şi culturii create de ea trebuie să i se asigure o continuitate.
Aceste consideraţii arată, dacă mai era nevoie de subliniat, cât de importante vor fi în sec. XXI cultura ştiinţifică şi cultura umanistă, ambele având nevoie de o cultură filosofică adecvată.
Culturi, cultură pozitivă şi cultură negativă. Polarizarea culturii în jurul cunoaşterii
O cultură poate fi apreciată pozitiv sau negativ, în raport cu anumite criterii. Se pierde prea mult din vedere acest lucru. Există astăzi şi o cultură a teroriştilor (chiar şi o ştiinţă a terorismului) o cultură a corupţiei care ne pune nouă românilor atâtea probleme, o cultura a hoţilor etc. Desigur, acestea pot fi numite sub-culturi, dar tot culturi sunt. Cultura are multe faţete.
Cultura negativă este o cultură deformată în raport cu criteriile civilizaţiei socio-umane.
în ultimii 12 ani, în societatea româneasca, pe lângâ multe lucruri pozitive, s-au accentuat, din nefericire, şi fenomene negative îngrijorătoare: corupţie, imoralitate, injustiţie. Creşterea imoralităţii şi a injustiţiei, a influenţat până şi viaţa academică din ţara noastră. Avem nevoie şi de un efort cultural pentru a reduce aceste flageluri din societatea noastră, pe lângă efortul dezvoltării economice.
Un exemplu de cultură pozitivă este arta. A cunoaşte arta înseamnă cunoaştere dar a simţi arta, a trăi arta, a avea nevoie de ea, a fi o bucurie interioară, acestea înseamnă cultură umanistă adevărată.
Dar dacă cele de mai sus nu sunt însoţite de comportament civilizat, de civilizaţie socio-umană, cultura poate fi denaturată (rapturile de opere de artă în scopuri personale sau statale). Natura firească a culturii pozitive este aceea de a susţine civilizaţia socio-umană, spiritualitatea, cunoaşterea şi conştiinţa, în cele din urmă societatea cunoaşterii şi societatea conştiinţei.
în privinţa relaţiei dintre cultura umanistă şi cultura ştiinţifică, astăzi nu se mai poate vorbi de cultură, cu înţelesul de cultură - în general, dar de fapt cu gândul la cultura umanistă.
Cultura - în general, are o mult prea puternică componentă ştiinţifică (inclusiv tehnologică, economică, organizaţională, politică) pentru a mai accepta o asemenea simplificare, este adevărat, continuatoarea unei tradiţii care astăzi este complet depăşită. Cultura, respectiv cultura - în general, este cultura umanistă şi cultura ştiinţifică, împreună, ultima având, ca şi prima, un conţinut extrem de bogat
în spatele confuziei care se menţine astăzi atunci când vorbim de cultură se întreţine schisma dintre cele două culturi, datorită unor interese de grup. în etapa actuală a societăţii, cultura umanistă nu-şi mai poate erija numele general de cultură, de fapt nu ea, ci slujitorii ei care nu s-au adaptat la vremurile cunoaşterii. în societatea cunoaşterii, înainte de trecerea la societatea conştiinţei, cultura se va concentra în jurul cunoaşterii. Iar tehnologia va fi un factor cultural atât de covârşitor încât va reveni poate la poziţiile ei mitologice din antichitate. în [1a] remarcam:
în antichitate, la egipteni, zeul Ptah era privit ca patronul lucrătorilor de metal (metalurgişti şi fierari) şi al artizanilor. Ptah era însă unul dintre cei mai mari zei, creatorul pământului, părintele zeilor şi al începuturilor. Interesant acest "al începuturilor".
La grecii antici, echivalentul lui Ptah era Hefaistos, zeul focului şi meşteşugurilor, protectorul artizanilor. El nu mai era o divinitate primordială, dar divinitate, fiul lui Zeus şi al Herei, fiind căsătorit cu Afrodita. Se pare că de la egipteni la greci, tehnologia nu mai păstra poziţia începuturilor, dar avea totuşi un
468
469
reprezentant divin. La romani, echivalentul lui Hefaistos era Vulcan, considerat zeul focului.
Decăderea poziţiei tehnologiei în cultură începuse din antichitate. Ea a continuat până în secolul XX când într-adevăr avea să cunoască un reviriment. Astăzi vorbim despre marile tehnologii şi chiar despre o filosofie a tehnologiei, de care o serie de gânditori şi filosofi au scris lucrări deosebit de interesante: Ernst Kapp, Friedrich Desauer, Jose Ortega y Grasset, Martin Heidegger ş.a. Este adevărat că au apărut şi lucrări îndreptate împotriva tehnologiei (L.Mumford, J.EIIul ş.a.), declanşând ceea ce în secolul XX s-a numit dilema tehnologică.'
Revirimentul filosofic al tehnologiei în societatea cunoaşterii, în secolul XXI, va fi un factor important în gândire, în general. Tehnologia va continua biologicul, culturalul şi conştiinţa.
Ce va face omul? Marea lui înţelepciune va fi aceea de a pregăti în mod corespunzător viitorul [19]. Din ce în ce mai mult, gândirea filosofică va avea un rol hotărâtor în ştiinţă, politică, viaţa socială.
Există şi vor exista culturi ale profesiilor, ale domeniilor cunoaşterii, ale naţiunilor, etniilor, grupurilor, ale comunităţilor constituite pe Internet, ale instituţiilor şi localităţilor virtuale, ale maşinilor inteligente etc. Lumea devine tot mai pluriculturală. Probabil aceasta este trăsătura cea mai importantă a postmodernităţii [20].
Momentul actual ar trebui să fie acela al tendinţei spre cunoaştere şi cultură (cu înţelesul ei total) pentru întreaga populaţie a omenirii, fiecare zonă locală, geografică sau virtuală, trebuind să fie preocupată activ de realizarea concretă a acestei tendinţe.
Referinţe bibliografice
[1] Mihai Drăgănescu: Lucrări despre cultură:
a. Mihai Drăgănescu, Cultura şi marile tehnologii, conferinţă, Universitatea Populară de Vară "Nicolae lorga", Vălenii de Munte -30 august 1996.
b. Mihai Drăgănescu, Perspectiva informaţională a culturii, Contemporanul, 27 mai 1983.
c. Mihai Drăgănescu, Dimensiunile europene ale culturii române,
expunere, Vălenii de Munte, 1992, publicată în Academica, 1992.
d. Mihai Drăgănescu, Arta şi societatea, cuvânt, Ploieşti, 4 noiembrie 1991, publicat în Academica, 1991.
e. Mihai Drăgănescu, Criterii transpolitice si transmafiote în cultură, 18 mai 1997, Caiete Critice, 1997, nr.3-4, p. 145-147.
f. Mihai Drăgănescu, Spirit enciclopedic şi enciclopedism, conferinţă, Vălenii de Munte, 22 august 1993 (publicată în Academica şi în volumul autorului, Cariatidele gândului, Ed. Academiei Române, 1996, p. 163-168).
[2] Ernst Cassirer, Substanzbegriff und Funktionbegriff, 1910; D/e Philosophie
der Symbolischen Formen, 1923-1929 (3 voi). [3] Oltea Miscol, Elena Gheorghe, Repere istorice în filosofia culturii, Revista de
filosofie, XLVII, Nr. 5-6, 2000, p.449-459. [4] Mihai Drăgănescu, Categories and functors for the Structural
Phenomenological Modeling, Proceedings of the Romanian Academy,
Series A, Vol.1, No.2, 2000, p.111-115. [5] Grigore T. Popa, Reforma sp/r/fii/u/, volum în editare, conţinând lucrări ale
acestui autor prezentate şi publicate la Academia Română în anii 1940 (vezi
şi prefaţa: Mihai Drăgănescu, O gândire asupra conştiinţei, moralităţii şi
societăţii).
[6] UNESCO, definiţia culturii intangibile, web-site UNESCO.
[7] Mihai Drăgănescu, Societatea Informaţională şi a Cunoaşterii. Vectorii Societăţii Cunoaşterii, Academia Română, Bucureşti, 9 iulie 2001, publicat în voi. coord. Florin Gh. Filip, Societatea informaţională-Societatea cunoaşterii. Concepte, soluţii şi strategii pentru România, Academia Română, 2002, p.43-112).
[8] Moravec H., Rise of the Robots, Scientific American, December 1999, p. 86-93.
[9] Moravec H., Robot Mere Machines to Transcendent Mind, Oxford University
Press, Oxford, 1999. [10] Kurzweil R., The Age of Spiritual Machines, Penguin Books, 2000. [11] Broderick D.Jhe Spike, New York, 2002, paperback. [12] Buttazzo G., Artificial Consciousness. Utopia or Reral Possibility?
Computer (IEEE), July 2001, p.24-30. [13] Interviews of Menzel P. and D'Aluisio F., Robo Sapiens. Evolution of a new
species, MIT Press, Cambridge, Massachusetts, 2002. [14] Drăgănescu M., Din lucrările despre minte şi conştiinţă:
a. Mihai Drăgănescu, The Interdisciplinary Science of Consciousness, Noetic Journal, Vol.3, No.1, Jan.2000, p. 37-46; republicat in eds. Richard L. Amoroso et al, Science and the Primacy of Consciousness, Intimation of a 21st Century Revolution, Chapter 5, pp. 46-59, Orinda: The Noetic Press, 2000.
b. Mihai Drăgănescu, Theories of Brain, Mind and Consciousness: Still Great Divergences, Noetic Journal, vol.3, No. 2, Apr. 2000, p.125-139.
470
471
c. Mihai Drăgănescu, The Brain as an Information Processor, NOESIS, XXV, 2000, p. 9-20.
d. Mihai Drăgănescu, On the Structural-Phenomenological Theories of Consciousness , NOETIC JOURNAL, Vol.1, No.1, June 1997.
e. Mihai Drăgănescu, Continuities and Discontinuities in the realms of life and mind, Revue Roumaine de Philosophie, Tome 41,1997, Nos 1-2, p.3-9.
f. Mihai Drăgănescu, De la filosofia la ştiinţa mentalului, Revista română de filosofie, XLIV, Nr.5, sep-oct 1997, p. 457-464.
g. Mihai Drăgănescu, Procesarea mentală a informaţiei, Memoriile Sect. St. ale Acad. Române, SERIA IV, Tom. XX, 1997, p.263-284.
[15] Kafatos M., Drăgănescu M., Preliminaries to the Philosophy of Integrative Science, E-book (Microsoft Reader), ISBN 973-10-02510-X, Editura ICI, Bucharest, 2001.
[16] Drăgănescu M., Kafatos M., Generalized Foundational Principles in the Philosophy of Science, paper presented at the Conference on "Consciousness in Science and Philosophy" in Charleston, Illinois, 6-7 Nov 1998, published in The Noetic Journal, Vol.2, No.4, Oct. 1999, p. 341-350, republished in the voi. Science and the Primacy of Consciousness, Intimation ofa21st Century Revolution, Richard L. Amoroso and others (eds), Orinda: The Noetic Press, 2000, Chapter 9, pp. 86-98.
[17] Mihai Drăgănescu, Advancement in Neural Engineering and
Neuroelectronics Put Forward Artificial consciousness, Communication at the INGIMED II Conference, Bucharest, Dec. 13, 2001; E-PREPRINT, MSReader Format, 2002.
[18] Mihai Drăgănescu, Conştiinţa, frontieră a ştiinţei, frontieră a omenirii, Revista de Filosofie, XLVII, nr. 1-2, 2000, p.15-22.
[19] Mihai Drăgănescu, Societatea conştiinţei, o viitoare etapă a erei
informaţiei. Vectorii societăţii conştiinţei, studiu, Academia Română, în pregătire.
[20] După Alain Fienckielkrant, apud [3], p.458-459.
între lingvistica matematică şi cea computaţională
Solomon MARCUS
Secţia de Ştiinţe Matematice a Academiei Române solomon.marcus@imar.ro
Mă simt obligat să reacţionez la un anumit mod de prezentare a evoluţiei ideilor, în cea de a doua jumătate a secolului al XX-lea, în articolul [1] al d-lui Dan Tufiş (de aici mai departe DT), membru corespondent al Academiei Române. Precizez de la început că nu contest interesul şi utilitatea direcţiei de preocupări prezentate în [1]; am în vedere numai modul în care această direcţie este pusă în relaţie cu alte cercetări dedicate limbajului.
Cităm din [1: 133]:
"Desprinzându-se din lingvistica formală, "lingvistica matematică" a încercat dezvoltarea unor modele matematice de reprezentare a limbajelor naturale sau formale (în general al aspectului lor sintactic, gramatical), căutând soluţii abstracte de modelare generativă de tip universal a ceea ce se presupunea (la nivelul cunoaşterii ştiinţifice a anilor 1960) a fi facultatea limbajulur.
Nu ştiu ce înţelege DT prin "lingvistica formală", o sintagmă nu prea folosită în perioada de emergenţă a lingvisticii matematice; exista lingvistica structurală (altceva decât ceea ce ar putea fi lingvistica formală, adică bazată pe formalizare în sensul logicii matematice moderne), care desigur a constituit una din sursele lingvisticii matematice (de aici mai departe LM), aşa cum i se pot indica şi alte surse (biologice,, logice, matematice, psihologice etc), dar factorul determinant în naşterea LM, în a doua jumătate a anilor '50, a fost dezvoltarea calculatoarelor electronice şi, împreună cu ea, a primelor preocupări sistematice de LC (prescurtare a lingvisticii computaţionale), numite atunci traducere automată, documentare automată, prelucrarea automată a limbajului, cu diverse variante ale lor în engleză (de exemplu, "machine translation"), franceză, rusă, germană, italiană etc. Din aceste preocupări s-au inspirat primele modele care au constituit noua disciplină a LM.
Vorbesc despre lucruri trăite. Punctul meu de plecare s-a aflat în lucrările unor Kulagina şi Melciuk, puternic implicaţi în studiile de traducere automată rusă-franceză, Yves Lecerf, implicat în problemele de documentare automată, D. G. Hays, implicat în traducerea automată din rusă în engleză şi reciproc, B. Vauqois,
472
473
cu preocupări de informatică lingvistică la Grenoble. De la ei, ca şi de la alţi autori similari, am preluat în bună măsură ştafeta pe care am căutat s-o duc mai departe. Ceea ce afirm despre mine este valabil pentru cei mai mulţi cercetători din domeniul LM din anii 1950 şi 1960, cum ar fi Maurice Gross, Masami Ito, A. Trybulec şi mulţi alţii. Dubioasă mi se pare sintagma "soluţii abstracte", probabil efectul unui obicei binecunoscut de a diaboliza abstractul.
în ceea ce priveşte sintagma "lingvistică formală", ea a căpătat o anumită utilizare în anii târzii 1960 şi în anii următori, iar personal am folosit-o în unele lucrări, după cum se va vedea imediat, considerând-o oarecum echivalentă cu LM; dar chiar dacă nu acceptăm această echivalenţă, nu putem eluda faptul că lingvistica formală se află în imediata vecinătate a LM. DT pretinde ca LM "a încercat", sugerând astfel că ea a eşuat în tentativă de modelare a limbajului natural. Ceea ce este deocamdată numai o sugestie devine, după cum se va vedea, o certitudine pentru DT.
într-adevăr, iată ce scrie mai departe DT ([1]: 133):
"Curând metodele lingvisticii matematice şi-au atins limitele drept care, în anul 1966, la propunerea lui David Hays, domeniul de cercetare al limbajelor naturale, din perspectiva utilizării acestora în interacţiunea cu calculatoarele electronice, este individualizat sub numele de lingvistică computaţională".
Chestiunea cu atingerea limitelor ţine de domeniul umorului involuntar şi trecem peste ea, dar nu ne miră, după ce am văzut la ce se reduce LM pentru DT. Nu mi-am imaginat niciodată că între LM şi LC ar putea avea loc o competiţie, prima definindu-se prin metodă (căci ce altceva este LM decât studiul limbajului cu ajutorul matematicii ?) iar a doua prin obiectivul pe care şi-l propune. LM nu poate ignora problematica LC iar LC nu-şi poate realiza proiectele fără LM. Probabil însă că DT lucrează cu o definiţie specială a LM, pe care am dori s-o aflăm. Modul simplificator în care DT se referă la generativismul lingvistic, într-o logică binară care eludează faptul că în materie de modelare se lucrează cu grade de adecvare şi relevanţă, este însă simptomatic pentru viziunea sa limitativă în problema în discuţie.
Crede DT că gramaticile lui Joshi, atât de importante în LC, puteau fi concepute fără să fi fost precedate de cele ale lui Chomsky ? Da, Chomsky a fost tot timpul foarte controversat, dar fără stimulentul său nu ştiu ce ne-am fi făcut, inclusiv în LC şi în LM, în ciuda faptului că el nu s-a prea referit explicit nici la LC, nici la LM. Faptul că gramaticile context free se află din nou, începând cu anii '80, în centrul atenţiei îrr LC nu spune ceva ? Iar faptul că aceleaşi gramatici (cu extensiunile lor) au marcat, încă din anii "60, teoria limbajelor de programare, domeniu în care ţinta programării în limbaj natural se află în actualitate, nu este şi el semnificativ ? LC are mai multe părţi, mai multe orientări, mai multe niveluri de abstracţie, care comportă criterii diferite de evaluare. DT îl asociază pe D. Hays la ideea sa privind falimentul LM şi lansarea, drept consecinţă, a LC. Ca unul care a
cunoscut bine cercetările lui Hays (a se vedea frecvenţa citărilor numelui său în lucrările subsemnatului) şi l-a cunoscut şi personal foarte bine, fiind invitatul său ca "plenary speaker" la Institutul de lingvistică al Americii (SUNY, Buffalo, 1971), pot depune mărturie că acest autor vedea în LM şi LC două domenii solidare, două feţe ale aceleiaşi medalii, aşa cum se va vedea din citatul pe care-l vom da mai jos. Desigur, Hays a avut un rol important în anii de pionierat ai LM şi LC, dar ideea unei competiţii între ele i-a fost străină. Voi evoca aici intervenţia sa la cea de a treia Conferinţă Internaţională de LC (COLING, September 1971): "The field and scope of Computaţional Linguistics" [2]. Cităm ([2]:p.23):
"Solomon Marcus says that formal linguistics is a pilot science, emphasizing at the same time that the ordinary field of linguistics is not. But that is to say that linguistics as a branch of mathematics will supply methods to many fields of science, whereas linguistics as a descriptive field, a branch of natural history or natural science, does not. [ ... ] A four-way scheme can be arranged, with psychology, computation, formal linguistics, and descriptive linguistics at the poles. Psychology and computation are about performance, formal and descriptive linguistics are about competence, computation and formal linguistics are abstract, and psychology and descriptive linguistics are sciences. But two other fields have to find places in this scheme: psycholinguistics joins psychology with linguistics and seems at this time a most fruitful field, one in which great progress can be made with benefit to both parent fields. Correspondingly, on the abstract side, COMPUTAŢIONAL LINGUISTICS JOINS COMPUTATION WITH FORMAL LINGUISTICS (subl. mea, S. M.) and also seems a fruitful area, one in which RAPID PROGRESS CAN BE EXPECTED WITH BENEFIT TO BOTH PARENT FIELDS (subl. mea, S. M.) and with beneficiat application to psycholinguistics".
Referirea pe care o face Hays la subsemnatul are în vedere sloganul, pe care l-am folosit de mai multe ori, "formal linguistics as a pilot science", unde sintagma "formal linguistics" era folosită ca un echivalent al LM. lată deci că Hays vedea în LC o alianţă a LM cu computaţionalul, alianţă de natură să imprime un progres rapid atât în LM cât şi în domeniul computaţional. Cei 30 de ani scurşi de atunci au confirmat-o pe deplin. Denumirile folosite pentru preocupările la interferenţa limbajelor, informaticii şi matematicii au variat tot timpul şi nu cred că acest aspect merită prea multă atenţie. Lingvistica matematică? computaţională? inginerească? algebrică? cognitivă? aplicată? cantitativă? teoretică? statistică? probleme matematice ale semioticii? tehnologia limbajului? limbajul în inteligenţa artificială? inginerie lingvistică? procesarea limbajului natural? "information storage retrieval"? lingvistica cibernetică? pe fiecare dintre acestea am întâlnit-o şi propriile mele articole au fost publicate aproape sub fiecare dintre etichetele de mai sus. lată şi câteva detalii semnificative ale istoriei.
în 1962 s-a înfiinţat în USA "Association of Computaţional Linguistics".
474
475
în 1963 Ferenc Kiefer a demarat la Budapesta revista "Computaţional Linguistics", care a trăit peste zece ani. Conferinţa de la Grenoble de "traitement automatique des langues" din 1967 era a treia de acest fel, fiind precedată de o alta, la New York, în 1965 şi de una în Anglia, probabil în 1963, organizată de M. Masterman. între timp, la ruşi, numeroase conferinţe au avut loc pe tema "avtomaticeskaja obrabotka tekstov" iar "Sprachkunde und Informationsver-arbeitung" a fost uneori eticheta folosită de germani ş.a.m.d. Nu negăm rolul important pe care l-a avut David G. Hays în dezvoltarea CL, dar acest rol a fost altul decât cel afirmat de DT. Emergenţa LC s-a produs încă din anii '50, sintagma LC a devenit curentă încă de la începutul anilor '60. Şirul de conferinţe COLING nu a făcut decât să continue această tradiţie. Alţii au preferat folosirea sintagmei LM (a se vedea, de exemplu, "Prague Bulletin of Mathematical Linguistics", "Prague Studies of Mathematical Linguistics", revista japoneză "Mathematical Linguistics" (în echivalentul ei japonez) etc. în ceea ce priveşte însă profilul acestor reviste, nu am constatat o diferenţă faţă de cele de CL. Desigur, între timp au început să apară şi unele publicaţii mai specializate, cu referire la părţi determinate ale CL (cum ar fi cea relativă la corpusul lingvistic). Etichetele nu au avut importanţă şi nu ştiu să se fi desfăşurat vreo competiţie între ele. Chiar Hays a folosit diverse etichete, de exemplu cea din [3]. Dar DT merge mai departe pe ideea sa şi afirmă (în completă discordanţă cu viziunea lui Hays, de la care se reclamă) că "metodele LM şi-au atins limitele" (încă în urmă cu peste 30 de ani!), pentru ca numai două pagini după această afirmaţie (deci la pagina 135 din [1]) să afirme că e nevoie de "modele formale ale limbii la toate nivelurile ei (fonetică, morfologie, sintaxă, discurs) gramatici formale [... ]". Cum vede DT aceste modele formale altfel decât sub formă logico-matematică? Ştie oare că multe modele de acest fel există de câteva decenii? Indicaţii bibliografice asupra lor sunt date parţial în [4], [5], [6], [7] iar pentru cercetările româneşti în [8], [9]. Desigur, aceste modele sunt inegale ca valoare, au nevoie de continuări, modificări, ameliorări, dar ele nu pot fi ignorate. Fonetica, fonologia, vocabularul, morfologia, sintaxa, semantica lingvistică şi lingvistica istorică au beneficiat din plin de metodele matematice, aşa cum se poate vedea din impactul deosebit al lucrărilor respective în literatura de specialitate; DT indică, drept domeniu al LM, numai "aspectul sintactic, gramatical", despre celelalte nu a aflat. Nu a aflat nici că LM a abordat şi aspecte analitice, nu numai pe cele generative. DT defineşte "dimensiunea fundamentală" a LC prin "fezabilitatea instanţierii unei descrieri lingvistice cât mai complete, mentena-bilitatea acestei instanţieri şi, desigur, conformanţa cu realitatea uzului limbii". ([1]: 133). Cu un mic efort înţelegem despre ce este vorba. Desigur că problemele de complexitate, de cost, nu puteau fi încă abordate în anii '50 şi '60 cu mijloacele cu care ele au început a fi studiate în a doua jumătate a anilor 70, când instrumentele elaborate în informatica matematică deveniseră mult mai perfecţionate. Dar acest fapt nu ţine, cum crede DT, de alegerea între LM şi LC, ci de progresul general realizat în ştiinţă. Pentru a mă referi la propria noastră experienţă, atunci când, în
1969, prezentam la COLING-ul din Suedia gramaticile contextuale nu aveam cum să mă ocup de aspectul complexităţii acestor gramatiGi în maniera în care s-a putut face acest lucru ulterior (a se vedea, de exemplu, [10]). Dar acest fapt nu are nici o legătură cu eticheta folosită.
Anii '80 şi '90 au confirmat necesitatea unui orizont cât mai larg în domeniul computaţional. Nu m-am mirat atunci când "Encyclopedia of Microcomputers" şi "Encyclopedia of Computer Science and Technology" mi-au solicitat o contribuţie cu tema "Semiotics and Formal Artificial Languages" (a se vedea [11]) şi nici când "Handbook of Formal Languages" mi-a solicitat un capitol privind "Contextual Grammars and Natural Languages" [12] iar o lucrare preponderent teoretică a fost inserată în "Computaţional Linguistics in the Netherlands 2000"[13]. Nu m-am mirat nici când am văzut că o revistă cu titlul "Linguistics and Philosophy" publică articole excelente de LC. Interferenţele merg în toate direcţiile şi ele caracterizează cultura contemporană. în acest orizont trebuie să ne plasăm, cred, atunci când ne referim la disciplinele cognitive care se dezvoltă sub ochii noştri şi îşi pun amprenta pe modul nostru de gândire şi de comportare. Un tratat ca "Mathematical Methods in Linguistics" [14] include multe fapte de LC, deşi în titlul său nu figurează epitetul "computaţional". O revistă ca "Theoretical Linguistics" (1970-2000), publicată de Walter de Gruyter (Berlin-New York) a inclus multe articole vizând aspecte matematice şi/sau computaţionale, deşi numele revistei nu indică acest lucru. Chiar o revistă mai tradiţională, ca "Linguistics" a inclus de multe ori articole de LM şi nici "Foundations of Language" nu a procedat altfel. Multe fapte de LM şi de LC se plasează în mod natural în orizontul semioticii computaţionale. Era internetului impune desigur o problematică nouă, faţă de care abordările anterioare se pot dovedi insuficiente. Salutăm iniţiativa noii generaţii de cercetători de a se dedica noilor probleme. Dar trecerea de la ieri la azi şi de la azi la mâine nu poate fi decât una care ţine seama în mod critic de experienţa acumulată. Din tot ceea ce am prezentat mai sus rezultă clar că LM şi LC au fost mereu împreună şi că, în general, etichetele nu au contat prea mult. Unii au mers chiar mai departe; astfel, în capitolul 4, "Mathematical and Computaţional Linguistics", din [15], se afirmă pur şi simplu (p.86): "Mathematical linguistics has also been called theoretical linguistics and even computaţional linguistics". Iar mai departe, în acelaşi loc: "Computaţional Linguistics originated around 1950 with the initiation of research on automatic translation" (se trimite la o carte editată de D.G.Hays [3] şi la o alta avându-l ca autor pe acesta [16]).
Ca unul care crede în legătura naturală a lingvisticii cu matematica, am încercat o deosebită satisfacţie să trăiesc momentul în care această legătură a fost acceptată de ambii parteneri şi că de multe ori nici nu mai e nevoie de accentul retoric al epitetului "matematică"; LM este acceptată pur şi simplu ca lingvistică. Suntem convinşi că o traiectorie similară o urmează şi LC iar unele semne în această privinţă există de pe acum, aşa cum am arătat mai sus.
476
477
LC este de mai mulţi ani o secţiune la congresele internaţionale de lingvistică iar LM şi LC au secţiunea lor în reviste internaţionale de referate ca "Language and Language Behavior Abstracts". în România, minţi luminate ale anilor '60, ca profesorii Al. Rosetti, Grigore Moisil şi Tudor Vianu, au înţeles schimbările care se profilau şi au sprijinit proiectul înfiinţării unei secţiuni de "lingvistică aplicată" la Facultatea de Limbă şi Literatură Română a Universităţii din Bucureşti, dar s-au găsit alţii care să-l torpileze.
La Academia Română a funcţionat mulţi ani "Comisia de Lingvistică Matematică" iar revista "Cahiers de Linguistique Theorique et Appliquee", înfiinţată în 1962, a fost multă vreme expresia colaborării lingvisticii cu matematica şi cu informatica. în ciuda forţelor adverse, s-a reuşit în acei ani atragerea unor studenţi străluciţi ai unor facultăţi umaniste la cercetarea limbii şi literaturii cu mijloacele LM şi LC. Pentru a da numai două exemple de actuali profesori universitari care au susţinut teze de doctorat de acest tip, voi menţiona pe Pia Brinzeu, de la Catedra de Engleză a Universităţii din Timişoara şi pe Mihai Dinu, de la Facultatea de Litere a Universităţii din Bucureşti. Tot în acea perioadă şi-a susţinut teza de doctorat Sorin Cristian Niţă, pe o tema de critică textuală automată privind înlănţuirea (filiaţia) diferitelor variante ale "Istoriei Ţării Româneşti" (Şerban Cantacuzino).
lată însă că, în pofida realităţilor puse în evidenţă mai sus, în ([1]: 134) se scrie: "în România, cercetările în domeniul LC şi al prelucrării limbajului natural, precum şi primele rezultate practice au apărut la începutul anilor '80 [3, 4, 5, 6]".
La ce trimit numerele indicate în paranteze? La o bibliografie de 24 de titluri în care aproape toate (dar toate cele indicate între paranteze) încep cu DT (ignorându-se regula generală în lumea ştiinţifică, a aşezării numelor autorilor aceluiaşi articol în ordine alfabetică; dar nu acest fapt este cel care ne interesează în momentul de faţă). Să observăm că încă În1978, în articolul "Mathematical and Computaţional Linguistics" [9] de prezentare a activităţii din România în domeniul LM şi LC se face referire la peste 400 de articole publicate de 130 de autori români şi sunt menţionaţi peste 300 de autori străini (unii dintre ei, nume de vază ale LM şi LC din acea perioadă) care au citat şi continuat cercetările româneşti. Să mâi adăugăm că numeroşi lingvişti români dintre cei mai importanţi au citat şi folosit rezultatele şcolii româneşti de LM şi LC. lată că vine acum DT şi face (deliberat sau nu) din tot acest efort un teren viran care-l aştepta pe DT să tragă primele jaloane. Nu e cam mult?
Să fim bine înţeleşi. Nu noi avem nevoie de încă o citare pe lângă miile de citări deja acumulate, ci noile generaţii de studenţi şi de cercetători au dreptul la o informare corectă asupra dezvoltării LM şi LC în general şi, în particular, asupra LM şi LC în România. DT a mai publicat, în urmă cu câţiva ani, un articol în care se schiţa o privire istorică asupra LC în România, cu câteva citări la întâmplare, care trădau necunoaşterea situaţiei reale.
Mai este un aspect care cere o precizare. în conformitate cu specificul volumului în care apare articolul [1], DT face numeroase referiri la acte şi documente ale unor organisme europene şi internaţionale, cum este şi firesc, pentru a nu mai vorbi de aspectul financiar al colaborării cu organismele respective. Această situaţie a existat de la începutul LM şi LC (chiar dacă nu a avut amploarea de azi), datorită faptului că LM şi LC au apărut şi ca urmare a unor comandamente sociale, privind precaritatea mijloacelor de prelucrare a informaţiei, îmi amintesc de faimoasele Rapoarte CETIS care veneau de la EURATOM, Bruxelles, pe teme legate de analiză şi prelucrarea automată a limbajului, traducere automată şi documentare automată. în USA, diferite corporaţii (cum ar fi RAND Corporation, Santa Monica, Calif.) finanţau cercetări similare. O întâlnire semnificativă a fost aceea din 1962, organizată de "NATO Advanced Summer Institute", la Veneţia, Italia, privind traducerea automată. De numele acestui Institut este legat un document care a marcat evoluţia cercetărilor de traducere automată: seria de expuneri prezentate de Y. Bar-Hillel [17]. în legătură cu aceste activităţi dirijate şi finanţate de diferite organisme europene şi internaţionale, trebuie să observăm că cei implicaţi au avut înţelepciunea şi priceperea necesare pentru a nu reduce proiectele respective la dimensiunea lor exclusiv utilitară, ci de a o subordona pe aceasta unei perspective mai ample, care lua în considerare orizontul ştiinţific real al problemelor. Pentru a da un prim exemplu, mă voi referi la faptul că mai multe rapoarte CETIS au pus în discuţie un concept care, născut din experimentele de traducere automată, avea să se dovedească de o deosebită semnificaţie pentru teoria sintactică în toată generalitatea sa; este vorba de conceptul de proiectivitate sintactică, cu consecinţe bogate în studiul structurilor arborescente şi al gramaticilor de dependenţă. Azi putem spune că şi sintaxa limbajului natural şi teoria matematică a grafurilor au profitat esenţial de conceptul respectiv (folosit până şi de Rene Thom, în probleme de morfogeneză [17]). Această expansiune a unui concept sau rezultat dincolo de motivaţia sa iniţială este testul cel mai convingător al interesului său. Un al doilea exemplu se referă la titlul provocator folosit de Bar-Hillel pentru expunerile sale: "Patru conferinţe despre lingvistica algebrică şi traducerea automată".
Simpla alăturare a celor două sintagme, una foarte teoretică, cealaltă aparent tehnologică, avea menirea să-i avertizeze pe cei care presau să se obţină cât mai repede rezultate practice asupra faptului că proiectele de traducere automată nu se pot finaliza de azi pe mâine, ci au nevoie de un lung itinerar lingvistic, matematic şi computaţional. Acum ştim că acest itinerar continuă şi azi, cu tatonări şi reveniri, şi, chiar dacă nu a dus încă la rezultatele visate, a impulsionat în mod esenţial cercetările de Al, cu consecinţe benefice pentru aspectele logice şi semantice ale limbajului natural.
întrebarea pe care ne-o punem, dar o lăsăm deocamdată fără răspuns, deoarece nu suntem pregătiţi pentru a-l da, este următoarea: Nu cumva aspectele pe care le-am criticat mai sus sunt consecinţa unui fenomen mai general, acela al
478
479
unui orizont insuficient de cuprinzător, al unei prea mari dependenţe de factori utilitari imediaţi? Ştiinţa a oscilat mereu între cognitiv şi utilitar, dar istoria arăta că funcţia utilitară s-a manifestat în toată profunzimea ei atunci când ea a fost fructul unei evoluţii fireşti a funcţiei cognitive, evoluţie care poate fi de doi ani, de 20 de ani, de 200 sau de 2000 de ani. Cu un ochi îndreptat spre comisiile europene, suntem obligaţi totuşi să ţinem treaz şi celălalt ochi, îndreptat spre ceea ce se întâmplă pe scena cercetării ştiinţifice vii, aşa cum apare ea în revistele de specialitate şi la întâlnirile ştiinţifice de profil. Istoria generală a ştiinţei şi, în particular, scurta istorie a LM şi LC, sunt pline de învăţăminte în această privinţă.
Referinţe bibliografice:
[I] D. Tufiş. Promovarea limbii române în SI-SC. în Societatea Informaţională -
Societatea cunoaşterii (coord. F. Gh. Filip). Ed. Expert, Bucureşti, 2001, 131-142.
[2] D. G. Hays. The field and scope of computaţional linguistics. Papers in
Computaţional Linguistics (eds. F. Papp, G. Szepe). Proceedings of the Third
International Meeting of Computaţional Linguistics, held in Debrecen,
Hungary, 1971. Akademiai Kiado, Budapest, 1976, 21-26. [3] D. G. Hays (ed.). Readings in Automatic Language Processing, American
Elsevier, New York, 1967. [4] S. Marcus. Mathematical Linguistics in Europe. Current Trends in Linguistics
(Th. A. Sebeok, ed.), vol.9, Mouton, The Hague, 1972, 646-687. [5] S. Marcus. Mathematique et Linguistique. în Mathematique, Informatique et
Sciences Humaines, Paris, 26,1988, 103, 7-21. [6] S. Marcus. The status of research in the field of analytical algebraic models of
language. în Current Issues in Mathematical Linguistics (C. Martin-Vide, ed.).
Elsevier - North Holland, Amsterdam, 1994, 3-21. [7] S. Marcus. Lingvistica matematică, azi. în Matematica în lumea de azi şi de
mâine (C. lacob, coord.), Editura Academiei, Bucureşti, 1985, 182-186. [8] S. Marcus. Recent Romanian investigations in the field of mathematical and
computaţional linguistics. Avtomaticeskaja Obrabotka Tekstov, Matern. Fyz.
Fakulta, KL Praha, 1973,15-42. [9] S. Marcus. Mathematical and computaţional linguistics. în Current Trends in
Romanian Linguistics (A. Rosetti, S. Golopentia Eretescu, eds.). Revue
Roumaine de Linguistique 23, 1978, 1-4, 559-588. [10] S. Marcus, C. Martin-Vide, G. Paun. Contextual grammars as generative
models of natural languages. Computaţional Linguistics 24,1998, 2, 245-274.
[II] S. Marcus. Semiotics and formal artificial languages. în Encyclopedia of Computer Science and Technology (A. Kent, J.C.WiIliams, eds.) 29, Ed. Marcel Dekker, New York, 1994, 393-405; also in    Encyclopedia of
Microcomputers (A. Kent, J.C.WiIliams, eds.) 15, 1995, 299-312. [12] S. Marcus. Contextual grammars and natural languages, Handbook of Formal Languages (G. Rozenberg, A. Salomaa, eds.), 2, Springer, Berlin, New York, 1997,215-235.
[13] S. Marcus, C. Martin-Vide, G. Păun. A new-old class of linguistically motivated regulated grammars. Computaţional Linguistics in the Netherlands 2000 (W. Daelemans et al., eds.), Selected Papers from the Eleventh CLIN Meeting, Ed. Rodopi, Amsterdam, New York, 2001, 111-125.
[14] B. H. Partee, A. Ter Meulen, R. Wall. Mathematical Methods in Linguistics. Kluwer, Dordrecht et al, 1990.
[15] E. F. Beckenbach, Ch. B. Tompkins (eds.). Concepts of Communication: Interpersonal, Intrapersonal and Mathematical. John Wiley and Sons, New York, 1976.
[16] D. G. Hays. Introduction to Computaţional Linguistics. American Elsevier, New York, 1967.
[17] R. Thom. Stabilite Structurelle et Morphogenese. John Benjamins, New York, 1970.
[18] Y. Bar-Hillel. Four Lectures on Algebraic Linguistics and Machine Translation revised version of a series of lectures given in July 1962, before a NATO Advanced Summer Institute, Venezia, Italy.
481
între lingvistica matematică şi cea computaţională: o altă perspectivă
Dan TUFIŞ
Institutul de Cercetări pentru Inteligenţă Artificială, Str. 13 septembrie, nr. 13, 74311, sector 5, Bucureşti
tufis@racai.ro
1. în loc de introducere
Dat fiind că acest articol este un comentariu asupra filipicei de neînţeles "între lingvistica matematică şi cea computaţională" a domnului Solomon Marcus, membru titular al Academiei Române, mărturisesc că elaborarea sa fost o întreprindere asupra căreia am avut multe ezitări iscate din incertitudinea receptării sale corecte, constructive. Din păcate majoritatea afirmaţiilor şi implicaţiilor pe care domnia sa le face în articolul amintit, sunt inexacte şi umorale. Nu mai insist şi asupra decontextualizării citatelor din lucrarea mea [1], procedeu neelegant. Este binecunoscut din logica clasică faptul că dintr-o serie de premise false se poate demonstra orice. în ciuda ezitărilor amintite, violenta polemică lansată de domnul Solomon Marcus prin articolul menţionat îmi oferă posibilitatea de a aduce în discuţie elemente de istorie a domeniului care ar putea fi de interes, cu precădere pentru cititorii al căror domeniu de specialitate nu este prelucrarea automată a limbajului natural. Pentru specialiştii în domeniul prelucrării limbajului natural, majoritatea argumentelor pe care le voi aduce sunt bine cunoscute.
Ca modalitate de documentare, am optat pentru includerea integrală a materialului produs de domnul Academician Marcus, indentat şi redat cu caractere italice. De asemenea, am păstrat secţiunea domniei sale de referinţe bibliografice. Lucrările pe care le-am citat eu sunt documentate în cuprinsul textului, prin includerea referinţei complete între paranteze rotunde. Singura excepţie este lucrarea mea, sursa nemulţumirii domnului Marcus, care este referită de amândoi ca [1]. Cititorul va putea face astfel mai uşor distincţia între cele două categorii de referinţe. înainte de a proceda la analiza afirmaţiilor domnului Academician Marcus, aş dori să fac unele precizări:
-   contextul discuţiei în [1], ca şi în cele ce urmează, este cel al tehnologiei limbajului, al cercetărilor foarte intense în întreaga lume
483
pentru dezvoltarea de sisteme inteligente capabile să faciliteze comunicarea dintre doi sau mai mulţi conlocutori (oameni sau sisteme software), prin intermediul limbajului natural;
în raport cu lucrarea [1] domnul Academician Marcus se opreşte cu îndârjire asupra a doar trei fraze interpretate ca atac la persoana sau activitatea sa ştiinţifică şi se referă ironic (şi după cum se va vedea în continuare, în mod nejustificat) la alte două, făcând abstracţie de restul prezentării care nu are nici o contingenţă cu domnul Marcus. Domnul Academician are merite pe care nu i le poate lua nimeni, are contribuţii importante în mai multe domenii şi este creatorul şcolii româneşti de lingvistică matematică. Interesul domniei sale pentru aspectele legate de implementarea pe calculator a programelor de prelucrare a limbajului natural a fost minim. îmi reamintesc o discuţie pe care am avut-o în anul 1991 la câtva timp după ce mă întorsesem de la Conferinţa Europeană de Lingvistică Computaţională organizată la Berlin de profesorul Jurgen Kunze. Cu acea ocazie, domnul Academician Marcus mi-a mărturisit că îl cunoaşte de multă vreme pe profesorul Kunze şi că au şi colaborat o perioadă cât amândoi au avut ca domeniu de preocupări lingvistica matematică. La sfîrşitul anilor '60, mai spunea domnul Marcus atunci, drumurile celor doi s-au despărţit, profesorul Kunze optând pentru noua paradigmă a lingvisticii computaţionale.
Domnul Academician Marcus a scris enorm, în domenii extrem de variate, aici mă refer în special la cele legate de studiul limbii, şi prin urmare era inevitabil să nu atingă subiectul foarte actual al prelucrării automate a limbajului natural. A făcut-o însă detaşat de nivelul inerent perisabil al tehnologiei informatice. O teorie ştiinţifică, un model formal teoretic sau transpus într-o implementare a unui program software sunt inevitabil supuse „eroziunii" timpului, unele mai rapid altele mai lent. Lucrarea [1], despre care discutăm, ia în discuţie exact acest cadru al investigaţiei tehnologice şi a măsurilor ştiinţifice, tehnice, organizatorice şi chiar legislative pentru a crea o bază perenă a cercetării şi dezvoltării tehnologice privind prelucrarea automată a limbii noastre: resursele computaţionale fundamentale ale limbii române. Societatea Informaţională-Societatea Cunoşterii este caracterizată de vectori tehnologici şi funcţionali [M. Drăgănescu: „Societatea informaţională-societatea cunoaşterii. Vectorii societăţii cunoaşteri^ In Societatea Informaţională -Societatea cunoaşterii (coord. F. Gh. Filip). Ed. Expert, Bucureşti, 2001, 43-112.] a căror ignorare este nu numai neproductivă dar şi periculoasă, „în era electronică, este esenţial pentru supravieţuirea unei limbi ca ea să fie folosită în sistemele de informare electronică" afirmă fără echivoc Alain Danzin în influentul raport al Comisiei Europene „Towards a European Language Infrastructure" întocmit în 1992 prin consultarea a
182 de specialişti din cercetare şi industrie. Promovarea limbii române în contextul informaţional al societăţii cunoşterii este un obiectiv actual şi de viitor şi nu poate fi subiect de dispută în viaţa ştiinţifică românească;
- deşi este un truism, cred că pentru evitarea unor interpretări greşite este necesar să subliniez faptul că în dezvoltarea programelor de inteligenţă artificială, de prelucrare a limbajului natural sau în general în ingineria software, o mulţime de discipline matematice (teoria algoritmilor, teoria complexităţii, teoria limbajelor formale, teoria categoriilor, statistica matematică şi multe, multe altele) sunt fundamente indispensabile în avansul ştiinţific şi tehnologic al acestor discipline (şi desigur nu numai al lor). Programarea (ca şi matematica elementară) sau utilizarea de produse informatice sunt activităţi la îndemâna tuturor (de altfel reflectate şi în programele şcolare de învăţământ), dar proiectarea şi realizarea de programe software inteligente necesită o pregătire teoretică solidă, talent şi multă muncă. Diferenţa între două programe care produc aceleaşi rezultate dar unul în câteva secunde şi altul în câteva ore, apare tocmai din diferenţa de pregătire teoretică şi talent a autorilor lor.
- domeniul ştiinţei şi tehnologiei informaţiei este poate cel mai dinamic sector al activităţii creative: Biil Gates spunea că dacă de pildă industria automobilelor ar fi avut aceeaşi dinamică cu cea a calculatoarelor, acum o maşină ar trebui să coste 1 dolar. Fantasticul ritm de dezvoltare al tehnologiei hardware (bazată pe importante descoperiri ştiinţifice obţinute în ultimii 50 de ani) nu a fost nici pe departe egalat de ritmul dezvoltării în domeniul software. în ciuda acestui decalaj, ştiinţa ingineriei software si-a reînnoit instrumentarul teoretic (modele şi/sau formalisme) cu o viteză neîntâlnită în alte domenii ştiinţifice. Dinamica fără precedent a cunoaşterii în ştiinţa şi tehnologia informaţiei obligă omul de ştiinţă din acest domeniu la o informare continuă, din ce în ce mai specializată şi mai selectivă. Se estimează că în acest domeniu se scriu în fiecare zi mai multe articole decât poate citi un om în întreaga sa activitate şi că informaţia mai veche de 15-20 ani este foarte probabil să fie perimată (desigur cu excepţiile ce întotdeaurta confirmă regula). Evoluţia terminologică în acest domeniu este încă o mărturie vie a dinamicii de care aminteam: în domeniul prelucrării limbajului natural se vorbeşte acum de ontologii lexicale, de gramatici lexicalizate susţinute de ontologii, de analiză (parsing) ontologică, de lingvistica WEB-ului şi WEB-ul semantic, de resurse lingvistice standardizate şi aşa mai departe.
- referitor la antinomia „lingvistică matematică-lingvistică computaţională" pe care domnul Academician Marcus mi-o atribuie, vreau să precizez că nicicând nu am afirmat că cele două domenii se exclud reciproc sau că
ar fi în competiţie; pur şi simplu ele sunt subsecvente din punctul de vedere al relevanţei faţă de problemele pe care le discutăm aici. Există fără îndoială o filiaţie între ele, în sensul că lingvistica computaţională a preluat o mare parte din instrumentarul lingvisticii matematice (nici nu se putea altfel) dar ce a adus nou lingvistica computaţională, pe lângă noi modele şi formalisme, este în primul rând de natură metodologică şi tehnologică: experimentul şi evaluarea. Ceea ce se numeşte astăzi lingvistică computaţională teoretică este în mare măsură asimilată cu lingvistica formală modernă. Acest segment al lingvisticii computaţionale a moştenit de la lingvistica matematică cel mai mult şi adecvându-şi metodele la realităţile tehnologice a produs şi este de aşteptat să producă noi rezultate validabile şi incorporabile în sisteme automate de prelucrare a limbajului natural. Teoriile şi formalismele lingvistice, azi în vogă în lingvistica computaţională (TAG, LFG, HPSG, CG, CUG), au fost produse de lingvistica formală şi prin validarea instanţierilor pe segmente de limbă netriviale, au devenit instrumente operaţionale ale prelucrării limbajului natural. Dezvoltarea de modele de limbă, analiza algoritmilor de prelucrare a limbajului (resursele de calcul necesare unei implementări funcţionale, viteza de răspuns), construcţia (achiziţia) resurselor lingvistice standardizate, gradul de acoperire lingvistică al unei formalizări lingvistice (cunoştinţe lingvistice=resurse lingvistice), sunt doar câteva direcţii definitorii ale metodologiei lingvisticii computaţionale, în sfârşit, în raport cu obiectivele finale urmărite de implementarea unui model de prelucrare a limbajului se remarcă în ultimii circa 10 ani o departajare şi chiar o competiţie (fără însă a fi o antinomie) între abordările introspective-principiale şi cele inductive, bazate pe date. Prima categorie de abordări este caracterizată   de dezvoltarea prin introspecţie ştiinţifică de teorii şi formalisme gramaticale computaţionale (imensa lor majoritate bazate pe restricţii şi unificare categorială cu accentuată lexicalizare) şi mai apoi instanţiate manual de experţi lingvişti. Cea de a doua abordare, ce câştigă foarte mult teren în ultima perioadă, este cea bazată pe tehnicile învăţării automate ce pornesc de la premiza că, într-un corpus lingvistic reprezentativ şi de dimensiuni mari, există suficientă informaţie privind regularităţile dintr-o limbă (cea în care sunt textele ce alcătuiesc corpusul lingvistic) astfel încât, tehnici adecvate de învăţare automată să fie capabile să construiască un model de limbă robust şi de mare acoperire lingvistică. Aş mai menţiona că, în fapt, de multe ori cele două abordări sunt combinate (cu preponderenţa uneia dintre ele). într-un anumit sens, acest dualism în abordările modelelor de prelucrare automată a limbajului natural continuă o celebră confruntare de idei între Chomsky şi Piaget susţinătorii teoriilor înăscu-tului (innate) şi respectiv al învăţării în explicarea facultăţii umane a limbajului.
Cu aceste lămuriri preliminare, voi analiza în continuare afirmaţiile domnului Academician Marcus cu sincera speranţă că cititorii acestui text, dar mai ales domnia sa, vor înţelege că preocupările mele şi ale distinsului profesor au alte obiective, motivaţii şi desigur modalităţi foarte diferite de finalizare. Acest lucru nu înseamnă că rezultatele fiecăruia dintre noi le anulează sau le diminuează pe ale celuilalt (cu atât mai mult cu cât recunoaştere internaţională există pentru amândoi). După cum la fel de bine diferenţele de perspectivă şi opinii, naturale în fond, nu înseamnă că nu avem a ne spune lucruri interesante unul altuia.
2. O analiză textuală
„Mă simt obligat să reacţionez la un anumit mod de prezentare a evoluţiei ideilor, în cea de a doua jumătate a secolului al XX-lea, în articolul [1] al d-lui Dan Tufiş (de aici mai departe DT), membru corespondent al Academiei Romane. Precizez de la început ca nu contest interesul şi utilitatea direcţiei de preocupări prezentate în [1]; am în vedere numai modul în care aceasta direcţie este pusă in relaţie cu alte cercetări dedicate limbajului." Aşa îşi începe domnul Academician Marcus articolul solicitat de mine pentru volumul „Limba Română în Societatea Informaţională-Societatea Cunoaşterii" rezultat al proiectului INFOSOC „SI-SC: Soluţii şi strategii în România". Să urmărim un prim citat incriminat (care în transcrierea dlui Academician este trunchiat si conţine nişte ghilimele ce nu-mi aparţin; redau mai jos varianta publicată):
[1: p.133]:
"Din acest punct de vedere (al folosirii calculatorului în prelucrarea limbajului natural - precizarea mea, DT), este semnificativ a arăta că însuşi numele domeniului de cercetare a prelucrării automate a limbajului natural a suferit modificări reflectând progresele ştiinţifice şi tehnologice: iniţial, desprinzându-se din lingvistica formală, lingvistica matematică a încercat dezvoltarea unor modele matematice de reprezentare a limbajelor naturale sau formale (în general al aspectului lor sintactic, gramatical), căutând soluţii abstracte de modelare generativă de tip universal a ceea ce se presupunea (la nivelul cunoaşterii ştiinţifice a anilor 1960) a fi facultatea limbajului."
Ce l-a supărat aici pe distinsul polemist? Ne spune chiar domnia sa: „Nu ştiu ce înţelege DT prin "lingvistica formală", o sintagmă nu prea folosită în perioada de emergenţă a lingvisticii matematice; există lingvistica structurală (altceva decât ceea ce ar putea fi lingvistica formală, adică bazată pe formalizare în sensul logicii matematice moderne), care desigur a constituit una din sursele lingvisticii matematice (de aici mai departe LM), aşa cum i se pot indica şi alte surse (biologice, logice, matematice, psihologice etc.)
486
487
Mă surprinde întrebarea retorică cu care începe „argumentaţia", şi căreia nu-i văd decât un gratuit rol derogativ. Eu nu-mi închipui că domnia sa nu a auzit de antinomia „gramatică descriptivă - gramatică formală" la limitele extreme ea fiind reprezentată de lucrările lui O. Jespersen (O. Jespersen: The philosophy of Grammar, Allen & Unwin, London,1924 şi Analytical Syntax. Hoit Rinehart & Winston, New York, 1937 (republicată în 1969)) şi respectiv lucrările timpurii ale lui Chomsky referitoare la lingvistica generativă.   Dacă însă mă înşel, o lectură lămuritoare, este influenta carte editată de Keith Brown şi Jim Miller în Pergamon Press, 1996 numită „Concise Encyclopedia of Syntactic Theories", cu precădere articolul „Descriptive Grammar and Formal Grammar" de F. Stuurman, al cărui prim capitol se numeşte chiar Descriptive and Formal Grammar: The Fundamental Opposition. La fel de utilă este şi lucrarea monumentală a lui David Crystal „The Cambridge Encyclopedia of Language", Cambridge University Press, 1987.
Pe de altă parte, o pagină mai încolo, domnul Academician mărturiseşte că şi domnia sa a folosit termenul de lingvistică formală:
în ceea ce priveşte sintagma "lingvistică formală", ea a căpătat o anumită utilizare în anii târzii 1960 şi în anii următori, iar personal am folosit-o în unele lucrări, după cum se va vedea imediat, considerând-o oarecum echivalentă cu LM (lingvistica matematică); Pentru lămurirea elementului istoric, furnizez în continuare un citat din recenzia lui R.B. Lees (Language, nr. 33, voi 3, '1957, pp. 375-408) la faimoasa carte a lui Chomsky (Syntactic Structures, Mouton, The Hague, 1957): „in a sense, transformational analysis is essentially a formalization of a iong-accepted, tradiţional approach...". Citatul apare la pagina 387. Chomsky se pare că ă apreciat termenul şi i-a adoptat, cel puţin în raport cu propria filozofie generativistă asupra limbajului.
„dar factorul determinant în naşterea LM, în a doua jumătate a anilor "50, a fost dezvoltarea calculatoarelor electronice şi, împreună cu ea, a primelor preocupări sistematice de LC (prescurtare a lingvisticii computaţionale), numite atunci traducere automată, documentare automată, prelucrarea automată a limbajului, cu diverse variante ale lor in engleza (de exemplu, "machine translation"), franceză, rusă, germană, italiană etc. Din aceste preocupări s-au inspirat primele ^ modele care au constituit noua disciplină a LM."
înainte de a face o serie de precizări istorice mai exacte, vreau să notez că de la începutul istoriei sale, domeniul traducerii automate a fost, şi în mare măsură a şi rămas, un domeniu distict de restul preocupărilor legate de prelucrarea limbajului natural. Aş mai observa că textul de mai sus, încearcă să sugereze că LM s-ar fi constituit ca disciplină ulterior LC. Ambiguitatea afirmaţiei de mai sus provine din punerea în relaţie de concordanţă temporală a primelor preocupări în domeniul LC cu apariţia domeniului în sine. Oricine ştie că un anumit domeniu ştiinţific se cristalizează în timp, pe baza unor rezultate ştiinţifice promiţătoare, a unor experimente convingătoare (în cazul domeniilor tehnologice). Până la
sedimentarea elementelor definitorii ale unui domeniu de cercetare, pot coexista sau se pot succeda mai multe direcţii de cercetare. Dintre acestea unele pot dispare sau îşi pot diminua foarte mult influenţa în raport cu motivaţia iniţială. Ele îşi pot continua însă existenţa prin noi motivaţii, prin alegerea de noi obiective.
Ca element istoric, aş preciza că în toate evocările pe care le-am citit eu, cel ce pentru prima dată a sugerat idea folosirii calculatorului şi a tehnicilor de decodificare pentru prelucrarea automată a limbajului natural a fost Waren Weaver în 1946. în 1949 el scrie lucrarea „Translation" considerată de toţi specialiştii în traducere automată ca primul document programatic al acestei discipline. în 1952 a avut loc la Universitatea Georgetown din SUA prima conferinţă dedicată exclusiv traducerii automate. în 1954, Peter Toma de la Universitatea Georgetown, împreună cu un grup de cercetători de la IBM, realiza primul experiment de traducere automată (engleza-rusa) folosind un dicţionar de 250 de cuvinte şi 6 reguli sintactice de rescriere. Acest sistem avea să constituie nucleul faimosului program de traducere automată Systran pe care Peter Toma îl finalizează în 1973. Punctul meu de plecare s-a aflat în lucrările unor Kulagina şi Melciuk, puternic implicaţi în studiile de traducere automată rusă-franceză, Yves Lecerf, implicat în problemele de documentare automată, D. G. Hays, implicat în traducerea automată din rusă în engleză şi reciproc, B. Vauqois, cu preocupări de informatică lingvistică la Grenoble. De la ei, ca şi de la alţi autori similari, am preluat în bună măsură ştafeta pe care am căutat s-o duc mai departe. Ceea ce afirm despre mine este valabil pentru cei mai mulţi cercetători din domeniul LM din anii 1950 şi 1960, cum ar fi Maurice Gross, Masami Ito, A. Trybulec şi mulţi alţii. Traducerea automată, dar mai ales eşecul primelor încercări de rezolvare a acestui obiectiv încă nerezolvat sau nerezolvat complet, a constituit fără îndoială o motivaţie a „emergenţei" LM. Aşa cum voi arăta pe larg mai departe, eşecul proiectelor de traducere automată au fost puse, prin interpretarea unilaterală şi tendenţioasă a raportului APLAC, exclusiv pe seama inadecvării teoriilor lingvistice folosite atunci şi a cantonării în fapticul unor limbi particulare. Teoria „facultăţii înnăscute a limbajului" lansată de Chomsky, opunându-se tradiţiei tipologice de studiu lingvistic prin diversitatea limbilor, a generat o prodigioasă cercetare în * direcţia determinării principiilor gramaticii universale, în speranţa că identificarea şi caracterizarea lor riguroasă le-ar putea operaţionaliza atât pentru explicarea comunicării umane prin limbaj cât şi (un derivat subsidiar al obiectivului lui Chomsky) pentru realizarea de sisteme de traducere automată apropiate de performanţa umană.
Dubioasă mi se pare sintagma "soluţii abstracte", probabil efectul unui obicei binecunoscut de a diaboliza abstractul. Remarca de mai sus mă surprinde de două ori: mai întâi pentru că nu este nimic reprobabil în expresia „o soluţie abstractă" (ba chiar dimpotrivă: "abstract = Care rezultă din separarea şi generalizarea însuşirilor caracteristice ale unui grup
488
de obiecte sau de fenomene care este considerat independent, detaşat de obiecte, de fenomene sau de relaţiile în care există în realitate" DEX'96) şi apoi referirea la un obicei binecunoscut (al cui?) de diabolizare a abstractului. Nu neagă nimeni că acele soluţii abstracte de care aminteam au generat idei valoroase şi cercetări computaţionale (mai ales în domeniul traducerii automate bazate pe conceptul „interlingua") dar rezultatele acestor idei şi cercetări nu sunt revendicate nici chiar de Chomsky.
în ceea ce priveşte sintagma "lingvistică formală", ea a căpătat o anumită utilizare în anii târzii 1960 şi în anii următori, iar personal am folosit-o în unele lucrări, după cum se va vedea imediat, considerând-o oarecum echivalentă cu LM; dar chiar dacă nu acceptăm această echivalenţă, nu putem eluda faptul că lingvistica formală se află în imediata vecinătate a LM. Cu amendamentele cronologice pe care le-am comentat mai devreme, apropierea între LM şi LF (lingvistica formală) este exact ceea ce am afirmat şi eu.
DT pretinde ca LM "a încercat", sugerând astfel ca ea a eşuat în
tentativa de modelare a limbajului natural. în primul rând este vorba de modelarea computaţională a limbajului. în al doilea rând nu eu pretind acest lucru, dar sunt perfect de acord cu el. lată câteva opinii ale unor mari specialişti, activi, din domeniul prelucrării automate a limbajului natural (sublinierile îmi aparţin):
- Cristopher Manning and Hinrich Shutze: Foundations of Statistical Natural Language Processing, The MIT Press, 1998:
.....the availability of large text corpora has changed the scientific approach
to language in linguistics and cognitive science. Phenomena that were not detectable or seemed uninteresting in studying toy domains and individual sentences have moved into the center field of what is considered important to explain."
- Susan Amstrong-Warwick (editor): Prefaţa la „Special Issue on Using Large Corpora", Computaţional Linguistics, Volume 19, no 1, 1993 p. 4:
„What is that has brought about this rapid grouth of interest in corpus-based NLP?...The technological advances in computer power has certainly favoured the approach, as has the growing availability of large-scale textual resources in machine readable form. More important, perhaps, is the growing frustration of trying to use standard rule-bâsed methods to account for more than a well-chosen fragment of text, regardless of the application. The data extracted from large corpora have demonstrated that language is more flexible and complex than that which most rule-based systems have up to present tried to account for. The relative lack of practicai results at a time when industrial concerns are looking to the CL community to demonstrate progress toward useful applications has also contributed to the growing interest in new methods.
489
And finally, the success rate demonstrated in the speech community offers hope for similar progress in NLP."
- Nancy Ide and Jean Veronis (editori) Computaţional Linguistics -Special Issue on Word Disambiguation, Voi. 24, No. 1 1998 p.15:
„Although quantitative methods were embraced in early MT work, in the mid-1960s interest in statistical treatment of language waned among linguists due to the trend toward the discovery of formal linguistic rules sparkled by the theories ofZellig Harris (1951) and bolstered most notably by the transformational theories of Noam Chomsky (1957). Instead, attention turned toward full linguistic analysis and hence to sentences rather than texts, and toward contrived examples and artificially limited domains instead of general language."
- Victor Yngve: From Grammar to Science:New Foundations for General Linguistics, John Benjamin Publishing Company, 1996:
„there seems to be no scientific way of deciding among the many contenders...We fiind positions and methods being promoted like a new movie or defended with withering polemics or taken up like the latest fad...We should abandon logical-domain theories entirely and move to the physical domain...Because this (notation) can be programmed on a computer it can be used to test large-scale models...Gone will be the babei ofarbitrary grammatical notations, each to be discarded in turn". Deşi nu împărtăşesc în întregime poziţia extrem de radicală a lui Yngve, ea
este simptomatică pentru insatisfacţia generală faţă de abordările tradiţionale ale
anilor '60-80.
- R.F. de Bruine (editor) „Synthesis of Proposal for an RTD Programme by Users, Industry and Research in Language and Technology", DGXIII, Commission of the European Cummunities, September 1992:
„There is a broad need to further understanding of linguistic phenomena in the context of computerising the analysis and generation of language. General research should be stimulated within the following three main topics:
- research on the linguistic meaning representation at the various level of description, ranging from the lower (e.g. phonetic, morphological and syntactic) and better understood ones to the higher, scientifically more difficult ones (e.g. semantic, pragmatic, contextual and communicative ones). It is forseen that the former must yield results in the short to medium term. Even if the latter are long-term enterprises, they must be organised in way that ensures availability of usable intermediate results.
- reasearch on more adequate and efficient computaţional schemes for natural language processing (e.g. constraints based computing and quantitative aspects) providing the base for robust
490
processing behaviour vz the applications of advanced computer science and statistical methods in close collaboration and synergy with related actions.
- research into the human factors related with the future spread of advanced language processing technologies taking into account the ergonomics aspects, economic and socio-cultural dimensions." Lista unor astfel de citate poate continua pe zeci de pagini, dar am să mă opresc aici nu înainte de a mai reaminti raportul comisiei prezidate de Alain Danzin „Towards a European Language Infrastructure". Acest document, o adevărată cartă albă a cercetării în domeniul tehnologiilor limbajului, a restructurat complet programele de cercetare şi priorităţile pe termen mediu şi lung. A o ignora (ba chiar mai mult a o critica fără a-i cunoşte conţinutul şi a o eticheta ca pe un document birocratic al celor de la Uniunea Europeană) poate fi desigur o opţiune personală, dar cu efectul izolării ştiinţifice şi mai accentuate.
Ceea ce este deocamdată numai o sugestie devine, după cum se va vedea, o certitudine pentru DT. într-adevăr, iată ce scrie mai departe DT([1]: 133):
"Curând metodele lingvisticii matematice şi-au atins limitele drept care, în anul 1966, la propunerea lui David Hays, domeniul de cercetare al limbajelor naturale, din perspectiva utilizării acestora în interacţiunea cu calculatoarele electronice, este individualizat sub numele de lingvistică computaţională".
Chestiunea cu atingerea limitelor ţine de domeniul umorului involuntar şi trecem peste ea, dar nu ne miră, dupa ce am văzut la ce se reduce LM pentru DT. în ciuda repetatelor mele clarificări, şi după cum se observă şi din citatul de mai sus, referirea mea era la utilizarea metodelor lingvisticii matematice în programele de prelucrare a limbajului şi nicidecum la domeniul în sine. Probabil că pentru cine nu a încercat să realizeze un sistem de prelucrare a limbajului natural şi nu s-a lovit de problemele implementării unui dicţionar şi a unei gramatici computaţionale e mai greu de înţeles remarca mea anterioară. Domnul Academician Marcus nu s-a apropiat niciodată de problemele unei implementări şi prin urmare nu mă surprinde lipsa de înţelegere a diferenţei între o definiţie formală a unei gramatici (de exemplu) care se explicitează în câteva, rânduri şi implementarea unei gramatici computaţionale care nu numai că nu încape în câteva sute sau mii de pagini dar reclamă o muncă exprimată convenţional în mii de oameni/an. Gramatica computaţională a limbii engleze, dezvoltată în cadrul proiectului Alvey, a fost rezultatul a 10 ani de muncă intensă a celor mai importante 12 colective de cercetare din Anglia,   fiecare dintre acestea fiind conduse de cercetători importanţi şi fiind suplimentate cu numeroşi studenţi doctoranzi. Gramatica GPSG dezvoltată este unul din exemplele standard de gramatică introspectivă de mari dimensiuni. Un astfel de efort uman şi financiar nu este la îndemâna multor societăţi. Şi experienţa a arătat că nici nu este necesar! Ralph Grishman, de la Universitatea din New York a demonstrat că programul său
de inducţie gramaticală, pe baza unui corpus de antrenare a generat o gramatică nucleu, a cărei „finisare" a durat mai puţin de două săptămâni şi, confruntată cu gramatica Alvey pe un text arbitrar a reuşit să analizeze mai multe fraze, cu alte cuvinte a demonstrat o mai mare acoperire lingvistică.
Nu mi-am imaginat niciodată că între LM şi LC ar putea avea loc o competiţie, prima definindu-se prin metoda (căci ce altceva este LM decât studiul limbajului cu ajutorul matematicii ?) iar a doua prin obiectivul pe care şi-l propune. LM nu poate ignora problematica LC iar LC nu-şi poate realiza proiectele fără LM. Probabil însă că DT lucrează cu o definiţie specială a LM, pe care am dori s-o aflăm. Nici nu există această competiţie decât în imaginaţia domnului Academician care sugerează mai sus că LC nu foloseşte matematica sau că atunci când o face, disciplina se numeşte LM. Ceea ce, aşa cum am arătat mai înainte, este fals. Elementele suplimentare, esenţiale şi definitorii sunt calculatorul, algoritmii eficienţi şi cunoştinţele cu care acesta trebuie „hrănit". O formalizare a procesului de înţelegere şi/sau producere a limbajului natural, de orice sorginte ar fi ea, nu este decât o ipoteză asupra unui fenomen încă neelucidat. Validarea acestei ipoteze este cheia care a diferenţiat LC de LM. în anexa acestei lucrări am furnizat două definiţii pentru LM şi LC. Prima definiţie (LM) aparţine lui Geoffrey K. Pullum şi Andras Kornai iar cea de a doua (LC) se află în pagina WEB a Asociaţiei de Lingvistică Computaţională (al cărui membru sunt din 1985). Aş mai face precizarea că lingvistica teoretică modernă (în sensul precizat mai înainte) studiază limbajul nu numai cu ajutorul matematicii. Alături de matematică, sociologia, psihologia, medicina şi ştiinţele cognitive constituie domenii ale cunoaşterii care sunt fundamental implicate în explicarea acestui miracol pe care îl reprezintă comunicarea inter-umană. Incapacitatea actuală de a realiza un procesor artificial de limbaj la nivelul performanţei şi competenţei umane se datorează nedescifrării (încă) a mecanismelor minţii şi creierului omului. Dihotomia structural-fenomenologic şi noile cercetări în direcţia unei ştiinţe integrative (reprezentată între alţii de lucrările de pionierat ale Academicianului Mihai Drăgănescu) sunt fără îndoială porţi deschise spre cunoaşterea, în viitor, mai exactă a minţii şi implicit a facultăţii limbajului. Până atunci, obiectivele LC (realizarea de sisteme automate capabile să prelucreze limbajul natural) apelează la modele aproximative, a căror acceptabilitate se probează prin implementarea şi evaluarea lor pe date reale. Cum între afirmarea unui obiectiv de LC şi realizarea sa operaţională este o distanţă mare, pe care uneori cercetătorii fără o bază în tehnologia programării fie că o ignoră, fie nu vor (şi de multe ori nici nu sunt interesaţi) să o parcurgă, confuzia ce duce la auto-acreditarea într-un domeniu conex este explicabilă.
Modul simplificator în care DT se referă la generativismul lingvistic, într-o logică binară care eludează faptul că în materie de modelare se lucrează cu grade de adecvare şi relevanţă, este însă simptomatic pentru viziunea sa limitativă în problema în discuţie.,
1
492
Crede DT că gramaticile lui Joshi, atât de importante în LC, puteau fi concepute fără să fi fost precedate de cele ale lui Chomsky? Da, Chomsky a fost tot timpul foarte controversat, dar fără stimulentul său nu ştiu ce ne-am fi făcut, inclusiv în LC şi în LM, în ciuda faptului că el nu s-a prea referit explicit nici la LC, nici la LM. Modul „simplificator" incriminat mai sus se referă la fraza „soluţii abstracte de modelare generativă de tip universal". Având în vedere că în articolul [1] aceasta este singura referire la generativism, bănuiesc că domnul Academician Marcus a vrut să spună „succint". Apoi, continuarea ce se referă la logica binară pe care o folosesc în interpretare şi simptomele viziunii mele limitative asupra problemei discutate desigur sunt efecte stilistice nereuşite, întrucât nu am abordat (şi nici nu mă interesează în mod deosebit) subiectul pe care îl invocă domnul Academician. Pentru că tot am ajuns aici, ţin să-i reamintesc domnului Academician Marcus că Noam Chomsky şi-a revizuit complet punctul de vedere care a dominat aproape 15 ani lingvistica mondială. într-adevăr Chomsky este un mare om de ştiinţă, chiar dacă foarte controversat, dar acest statut îi este conferit şi de onestitatea cu care s-a detaşat de creaţiile sale anterioare ce i-au adus notorietatea, dovedite (unele chiar de el însuşi) ca fiind depăşite, propunând soluţii şi teorii noi.
Formalismul TAG al lui Joshi este într-adevăr unul foarte important în LC ca şi HPSG, LFG, CG şi alte câteva. Dar dintre formalismele de lingvistică computaţională, TAG este cel mai departe de influenţa chomskyană. Dacă se poate face o asociere între TAG şi vreo teorie generativistă de tip chomskyan aceasta este doar de natură antinomică. Am colaborat cu profesorul Aravind Joshi în 1991 la Institutul Lingvistic de la Universitatea Santa Cruz din California, am fost apoi invitatul său la Universitatea din Pennsylvania, invitaţie motivată printre altele şi de o deosebită apreciere pentru o demonstraţie alternativă a mea, mai scurtă şi, considerată de profesorul Joshi, mai elegantă a unei teoreme a domniei sale referitoare la categoria de limbaje acoperite de LTAG. Cu acea ocazie, profesorul Joshi mi-a pus la dispoziţie trei volume consistente de lucrări asupra TAG tratând foarte amănunţit motivaţiile lingvistice, proprietăţile computaţionale şi caracterizarea matematică. Aceste volume i le-am pus la dispoziţie şi domnului Academician Marcus. Profesorul Joshi a fost in 1997 invitatul profesorului Dan Cristea şi al meu la Şcoala de Vară EUROLAN unde a susţinut o serie de prelegeri de înaltă ţinută ştiinţifică. Am evocat aceste lucruri pentru a-l lămuri pe domnul Academician Marcus că formalismul TAG şi varianta sa mai nouă LTAG îmi sunt familiare şi prin urmare mă surprinde afirmaţia dânsului implicând o filiaţie între teoriile tui Joshi şi Chomsky.
Faptul că gramaticile context free se află din nou, începând cu anii
"80, în centrul atenţiei în LC nu spune ceva ? Acest lucru este exact şi ilustrează foarte bine ceea ce spuneam înainte: contextul computaţional în care complexitatea algoritmică este primul mare judecător al adecvării unui model (inerent limitat, după cum arătam mai devreme) bazat pe o anumită teorie lingvistică. în anii de vârf ai lingvisticii matematice, şi în
493
cei de început ai lingvisticii computaţionale, pornindu-se de la o conjectură a lui Chomsky (limbajele naturale nu sunt limbaje independente de context) demontată în anii '80 de Gerald Gazdar (autorul teoriei GPSG), cercetarea a fost orientată pe identificarea de formalisme lingvistice cât mai puternice, cu puterea generativă cât mai apropiată de cea a gramaticilor universale (echivalente deci cu maşina Turing). Formalismul ATN (Augmented Transition Networks) al lui William Woods de la BBN a fost timp de peste 10 ani suportul standard al majorităţii sistemelor de prelucrare a limbajului natural. Eu însumi am dezvoltat în anii 1984 şi 1985 un mediu de programare lingvistică conţinând un editor de gramatici ATN şi un compilator ATN. Din punct de vedere formal ATN-ul este echivalent cu o maşină Turing şi tocmai această putere formală prea mare l-a scos din competiţia soluţiilor utile în lingvistica computaţională. La sfârşitul anilor '80 obiectivul major al LC (valabil şi astăzi) a devenit identificarea unui formalism de putere generativă cât mai mică dar care să acopere cât mai multe din problemele practice puse de prelucrarea automată a limbajului natural. Aşa au revenit în actualitate gramaticile independente de context şi s-au dezvoltat abordările lexicalizate. Cele din urmă au fost propuse tocmai pentru a rezolva, în cadrul scheletelor de gramatici independente de context, idiosincrasiile limbajului natural cel mai adesea localizate la nivelul lexical. Mai mult, după anii '90, odată cu resurecţia interesului faţă de abordările statistice, gramaticile regulate şi automatele finite au căpătat o utilizare foarte largă.
LC are mai multe părţi, mai multe orientări, mai multe niveluri de abstracţie, care comportă criterii diferite de evaluare. Este adevărat că actualmente în LC se regăsesc orientări, abordări sau • motivaţii diferite. Dar indiferent de sorginte, ele se plasează (cel puţin declarativ) în contextul computaţional prin raportarea la un mediu software de prelucrare. Considerând exemplul HPSG, probabil cea mai în vogă teorie lingvistică computaţională actuală, atunci când Ivan Sag analizează sau argumentează adecvarea teoriei sale în descrierea formală a unei limbii naturale (aşa cum a procedat în recentele sale conferinţe la Facultatea de Litere a Universităţii Bucureşti şi în Aula Academiei Române) el se plasează în sfera lingvisticii teoretice. Atunci când prezintă soluţiile de implementare a unui fragment major al limbii engleze şi discută rezultatele generate de analizorul HPSG dezvoltat de grupul sau de la Universitatea Stanford şi modalităţile algoritmice de rezolvare a ambiguităţilor (aşa cum a făcut în prelegerea susţinută la sediul RACAI, el se plasează în sfera LC.
DT îl asociază pe D. Hays la ideea sa privind falimentul LM şi lansarea, drept consecinţă, a LC. Afirmaţia de mai sus conţine două lucruri false:
a) nu am vorbit de falimentul LM ci de insuficienţa metodelor sale la momentul invocat (cred că citatele pe care le-am prezentat şi argumentele aduse până acum sunt lămuritoare).
494
495
b) Eu nu-l pot asocia pe David Hays la o idee pe care nu am exprimat-o.
în textul meu original scriam: „la propunerea lui David Hays, domeniul de cercetare al limbajelor naturale, din perspectiva utilizării acestora în interacţiunea cu calculatoarele electronice, este individualizat sub numele de lingvistică computaţională".
Propunerea lui Hays venea în sprijinul identificării unui nume comun pentru diversele preocupări asupra limbajului din perspectiva implementării de sisteme automate de prelucrare. Traducerea automată, un domeniu care se dezvoltase distinct de celelalte preocupări în domeniul prelucrării automate automate a limbajului natural, căzuse în disgraţie în urma raportului ALPAC (Languages and machines: computers in translation and linguistics. A report by the Automatic Language Processing Advisory Committee, Division of Behavioral Sciences, National Academy of Sciences, National Research Council. Washington, D.C.: National Academy of Sciences, National Research Council, 1966. (Publication 1416.) 124pp.). în raportul ALPAC, comandat în 1964 de Academia Naţională de Ştiinţe, în afara criticilor deosebit de dure la adresa realizărilor şi abordărilor de până atunci în domeniul traducerii automate existau şi o mulţime de recomandări care se refereau la noi metode de investigaţie ştiinţifică şi la abordarea unor obiective mai realiste. Istoria domeniului a reţinut (pe nedrept) doar apriga critică a lui Bar-Hillel care, considerată unilateral, a dus la stoparea pentru circa 15 ani a cercetării oficiale în domeniul traducerii automate în SUA şi mai apoi în majoritatea ţărilor dezvoltate (o incitantă prezentare a a ceea ce a însemnat proiectul ALPAC este „ALPAC: the (in)famous report", http://ourworld.compuserve.com/homepages/ WJHutchins/Alpac.htm, şi îi aparţine lui John Hutchins). Ceva trebuia făcut pentru a conserva câştigurile ştiinţifice obţinute până atunci şi a permite în noul context continuarea cercetărilor anterioare cu scopul declarat al realizării de programe cu obiective realiste. O serie de minţi luminate (John Pierce, David Hays, John Carroll) au văzut pericolul ca, asociate cu domeniul traducerii automate, toate celelalte preocupări privind prelucrarea automată a limbajului puteau fi periclitate, şi în acest sens în raport s-a inserat un capitol distinct numit „Automatic language processing and computaţional linguistics" ce arăta beneficiile aduse de cercetarea în domeniul traducerii automate în domeniile prelucrării automate a limbajului şi al lingvisticii computaţionale. Printre altele în capitolul respectiv se arată că „...(what is required is) basic developmental research in computer methods for handling language, as tools for the linguistic scientist to use as a help to discover and state his generalizations, and ... to state in detail the complex kinds of theories..., so that the theories can be checked in detail." (sublinierea mea, DT). Mai mult preşedintele comitetului de elaborare a raportului ALPAC, John Pierce, conştient de pericolul interpretării greşite sau al ignorării recomandărilor prezente în anexele raportului (aşa cum s-a şi întâmplat), a ţinut să insereze în raportul final adresat preşedintelui Academiei Naţionale de Ştiinţe o secţiune nouă care sublinia idea de a susţine lingvistica computaţională în mod distinct de traducerea automată („supporting computaţional linguistics, as distinct from
automatic language translation"). Dezvoltând ideile din capitolul raportului ALPAC referitor la prelucrarea limbajului natural (concept care şi atunci şi acum este diferit de cel al traducerii automate) Pierce considera că NSF (National Science Foundation) trebuia să asigure fonduri de cercetare pentru dezvoltarea de modele de limbă de dimensiuni mari „since small-scale experiments and work with miniature models of language have proved seriously deceptive in the past, and one can come to grips with real problems only above a certain scale of grammar size, dictionary size, and available corpus".
Acesta este contextul în care David Hays, activ cercetător la începutul anilor '60 în domeniul traducerii automate (de altfel unul din membrii comitetului ce au elaborat raportul ALPAC) a propus individualizarea preocupărilor legate de prelucrarea limbajului natural cu ajutorul calculatorului, dezvoltarea de modele de limbă realiste (nu miniaturi la îndemâna cercetării individuale) şi a aplicaţiilor „serioase" (în opoziţie cu experimentele la scară mică) sub numele de lingvistică computaţională.
Denumirile folosite pentru preocupările la interferenţa limbajelor, informaticii şi matematicii au variat tot timpul şi nu cred că acest aspect merită prea multă atenţie. Lingvistică matematică? computaţională? inginerească? algebrică? cognitivă? aplicată? cantitativă? teoretică? statistică? probleme matematice ale semioticii? tehnologia limbajului? limbajul în inteligenţa artificială? lingvistica inginerească? procesarea limbajului natural? "information storage retrieval"? lingvistica cibernetică?  pe fiecare dintre acestea am întâlnit-o şi propriile mele articole au fost publicate aproape sub fiecare dintre etichetele de mai sus. Citatul de mai sus mi se pare extrem de relevant pentru discuţia de faţă şi defineşte clar diferenţa de opinii. Dacă de pildă distincţia dintre medicină umană şi medicină veterinară sau (coborând în taxonomie) între cardiologie şi stomatologie „nu merită prea multă atenţie" atunci domnul Academician are dreptate.
Din punctul meu de vedere însă, este o mare diferenţă între unele denominări ale studiului limbii amintite mai sus (la care se mai poate adăuga o listă la fel de numeroasă), ele definind câteva domenii distincte definite prin propriile obiective, competenţe, metode şi modele.
în 1962 s-a înfiinţat în USA "Association of Computaţional Linguistics".
De fapt în 1962 s-a înfiinţat AMTCL, acronim pentru „Association for Machine Translation and Computaţional Linguistics", primul preşedinte al AMTCL fiind Victor Ingve (cel pe care l-am citat mai devreme), iar al doilea fiind David Hays. ACL (Association of Computaţional Linguistics) a apărut abia în 1968.
în   1963  Ferenc  Kiefer a  demarat  la   Budapesta revista "Computaţional Linguistics", care a trăit peste zece ani.
496
497
Este adevărat, dar conţinutul ei era foarte diferit de al revistei „Mechanical Translation and Computaţional Linguistics' apărută în 1965 ca revistă oficială a AMTCL. Şi tot ca un rezultat al diferenţierilor tot mai mari care apăruseră în domeniu, AMTCL îşi încetează activitatea la începutul anilor '70 fiind înlocuită de „American Journal of Computaţional Linguistics" care în 1984 devine „Computaţional Linguistics" (actuala denumire).
Conferinţa de la Grenoble de "traitement automatique des langues" din 1967 era a treia de acest fel, fiind precedată de o alta, la New York, în 7965 şi de una in Anglia, probabil în 1963, organizată de M. Masterman. între timp, la ruşi, numeroase conferinţe au avut loc pe tema "avtomaticeskaja obrabotka tekstov" iar "Sprachkunde und Informationsverarbeitung" a fost uneori eticheta folosită de germani •  s.a.m.d. Nu negăm rolul important pe care l-a avut David G. Hays în
dezvoltarea CL, dar acest rol a fost altul decât cel afirmat de DT. Nu am să reiau explicaţia faptului că nu i-am atribuit lui Hays nici un rol demolator, dar trebuie să subliniez faptul că iniţiativa lui David Hays, de care am discutat mai devreme, a avut un rol fundamental în evoluţia CL. Aşa cum am arătat mai sus, iniţiativa disocierii de traducerea automată, pentru a nu periclita restul preocupărilor privind prelucrarea automată a limbajului a fost o necesitate conjuncturală. In 1965, când la New York a avut loc prima conferinţă COLING, Hays anticipa desigur efectul de bumerang al raportului la elaborarea căruia participa, şi a propus chiar atunci, detaşarea oficială prin sintagma „computaţional linguistics" de domeniul traducerii automate (pe care îl părăsise de altfel şi Hays cel ce fusese unul dintre principalii specialişti în traducere automată ai RAND Corporation). Deci nu Hays a creat domeniul lingvisticii computaţionale, el este cel ce a „oficiat" botezul. Şi nu a făcut-o de pe orice poziţie ci de pe cea de fost membru al Comisiei Alpac şi de preşedinte al AMTCL.
Emergenţa LC s-a produs încă din anii "50, sintagma LC a devenit curentă încă de la începutul anilor "60. Şirul de conferinţe COLING nu a făcut decât să continue aceasta tradiţie. Alţii au preferat folosirea sintagmei LM (a se vedea, de exemplu, "Prague Bulletin of Mathematical Linguistics", "Prague Studies of Mathematical Linguistics", revista japoneza^ "Mathematical Linguistics" (in echivalentul ei japonez) etc. în ceea ce priveşte însă profilul acestor reviste, nu am constatat o diferenţă faţă de cele de CL. Desigur, între timp au început să apară şi unele publicaţii mai specializate, cu referire la părţi determinate ale CL (cum ar fi cea relativă la corpusul lingvistic). Etichetele nu au avut importanta si nu stiu sa se fi desfăşurat vreo competiţie intre ele. Chiar Hays a folosit diverse etichete, de exemplu cea din [3]. Persistenţa cu care domnul Academician pune semnul egalităţii între domeniul lingvisticii matematice, în care fără discuţie nu a avut sau nu are rival în
România, şi cel al lingvisticii computaţionale sau tehnologia limbajului este aparent foarte curioasă. Nu şi dacă observăm următoarele fapte:
- sintagma „lingvistică matematică" este din ce în ce mai puţin utilizată (o căutare pe internet a termenilor „mathematical linguistics", „computaţional linguistics", „natural language processing"şi „language technology" este foarte instructivă: numărul de documente ce îi referă este 4.630, 87.900,169.000 si respectiv 2.840.000);
- în domeniul strict computaţional, la care se referea [1], în România activează de câtva timp o serie de cercetători importanţi (majoritatea dintre ei membrii ai Comisiei de Informatizare pentru Limba Română pe care am onoarea să o conduc, şi din care de altfel face parte şi domnul Academician Marcus);
- domnul Academician Marcus fie nu cunoaşte, fie dezavuează rezultatele româneşti obţinute în domeniul prelucrării cu calculatorul a limbii române (cel puţin aşa poate fi considerată ignorarea completă a acestora în lucrările domniei sale); ori poate consideră că nu reprezintă domeniul său de interes.
Dar DT merge mai departe pe ideea sa şi afirmă (în completă discordanţă cu viziunea lui Hays, de la care se reclamă) că "metodele LM şi-au atins limitele" (încă în urmă cu peste 30 de ani!), pentru ca numai două pagini după această afirmaţie (deci la pagina 135 din [1]) să afirme că e nevoie de "modele formale ale limbii la toate nivelurile ei (fonetică, morfologie, sintaxă, discurs) gramatici formale [... ]". Cum vede DT aceste modele formale altfel decât sub forma logico-matematică? Asupra primei părţi a acestei fraze cred că am discutat suficient. Referitor la „contradicţia" pe care o semnalează în partea a doua a frazei de mai sus, nu pot decât să-i recomand domnului Marcus să citească încă de câteva ori articolul respectiv (sau să-l citească integral). Este vorba de NOI modele formale de limbă (în opoziţie cu cele vechi), resurse lingvistice computaţionale adecvate momentului actual. Dintre noile teorii care au apărut şi s-au şi impus aş putea să amintesc teoria optimalităţii în comunicare dezvoltată de Prince and Smolensky în 1993 (cu implementări în domeniul fonologiei şi  morfologiei computaţionale şi cu promiţătoare rezultate chiar în sintaxă), teoriile sintactice bazate pe unificare şi satisfacerea de restricţii, precum şi o întreagă pleiadă de teorii ale discursului. în domeniul prelucrării automate a limbajului natural există standarde, există tehnologii specifice, există organizaţii mondiale specializate, mai toate apărute în ultimii 10-15 ani. Dacă domnul Academician Marcus poate afirma că pentru limba română în domeniul resurselor lingvistice computaţionale s-a făcut (sau a făcut) ceva înainte de anii '80 înseamnă că domnia sa are o imagine complet diferită de a tuturor specialiştilor din lume.
498
499
Ştie oare că multe modele de acest fel există de câteva decenii? Indicaţii bibliografice asupra lor sunt date parţial in [4], [5], [6], [7] iar pentru cercetările româneşti in [8], [9]. Desigur, aceste modele sunt inegale ca valoare, au nevoie de continuări, modificări, ameliorări, dar ele nu pot fi ignorate. Fonetica, fonologia, vocabularul, morfologia, sintaxa, semantica lingvistica şi lingvistica istorică au beneficiat din plin de metodele matematice, aşa cum se poate vedea din impactul deosebit al lucrărilor respective în literatura de specialitate; Recursul la modelele anilor '60-70 descrise în lucrările menţionate ca argument pentru concepte ce au apărut la începutul anilor '90 mă scuteşte de comentarii. Pe de altă parte, avansul ştiinţific în orice domeniu se clădeşte pe cunoaşterea anterioară iar cazurile de „frângere cognitivă", când salturile ştiinţifice neagă cunoaşterea anterioară sunt rare şi ele de regulă definesc revoluţiile în ştiinţă. Filiaţia sau influenţele în dezvoltarea unui domeniu ştiinţific (atunci când ele pot fi depistate cu obiectivitate) constituie preocuparea istoricilor ştiinţei. Lucrările tehnice, de regulă se raportează la contemporaneitate, ceea ce în termeni temporali poate însemna, în funcţie de dinamica domeniului, câţiva ani, un deceniu, mai multe decenii sau perioade chiar mai mari. De pildă, puţine lucrări tehnice în domeniul lingvisticii teoretice, al fonologiei se referă la marele gânditor Panini, considerat de mulţi oameni de ştiinţă creatorul ştiinţei limbii. Lucrarea sa fundamentală Astaka, cunoscută şi sub numele de „gramatica lui Panini" conţine descrieri formale ale regulilor de producţie ale limbii sanscrite şi o clasificare cu peste 1700 de elemente constitutive ale limbajului. Aceste elemente sunt organizate în clase a căror agregare este descrisă prin intermediul unor reguli ordonate, într-o manieră apropiată de teoriile actuale. El poate fi considerat un precursor al teoriei limbajelor formale şi al lingvisticii matematice, dar puţine cărţi sau lucrări de referinţă în aceste domenii menţionează numele genialului savant ce a trăit cu mai bine de peste 2500 de ani în urmă. în schimb, numele său se regăseşte în orice lucrare serioasă de istorie a lingvisticii formale.
Obstinaţia cu care domnul Academician Marcus încearcă să sugereze că eu aş dezavua metodele matematice, sau rezultatele importante ale lingvisticii româneşti dovedeşte că domnia sa complet neinformat în ceea ce mă priveşte.
DT indică, drept domeniu al LM, numai "aspectul sintactic, gramatical", despre celelalte nu a aflat. Nu a aflat nici ca LM a abordat şi aspecte analitice, nu numai pe cele generative. Fals: „numai" este imaginaţia domnului Academician. Citatul corect este: „în general al aspectului lor sintactic, gramatical".
DT defineşte "dimensiunea fundamentală" a LC prin "fezabilitatea instanţierii unei descrieri lingvistice cât mai complete, mente-nabilitatea acestei instanţieri şi, desigur, conformanţa cu realitatea uzului limbii". ([1]: 133). Cu un mic efort înţelegem despre ce este vorba.
Desigur că problemele de complexitate, de cost, nu puteau fi încă abordate în anii '50 şi '60 cu mijloacele cu care ele au început a fi studiate în a doua jumătate a anilor 70, când instrumentele elaborate în informatica matematică deveniseră mult mai perfecţionate. Dar acest fapt nu ţine, cum crede DT, de alegerea între LM şi LC, ci de progresul general realizat în ştiinţă. Pentru a mă referi la propria noastră experienţă, atunci când, în 1969, prezentam la COLING-ul din Suedia gramaticile contextuale nu aveam cum să mă ocup de aspectul complexităţii acestor gramatici în maniera în care s-a putut face acest lucru ulterior (a se vedea, de exemplu, [10]). Dar acest fapt nu are nici o legătură cu eticheta folosită.
Efortul (chiar mic) este probabil generat de unii termeni de specialitate nefamiliari domnului Academician. Voi furniza lămuririle necesare mai jos.
Eu mă refer la perioada actuală când invoc ca dimensiune fundamentală fezabilitatea instanţierii unei descrieri lingvistice cât mai complete. Instanţierea unei descrieri lingvistice înseamnă altceva decât complexitatea formală, de care de altfel şi amintesc în secţiunea trunchiată a citatului folosit de domnul Academician Marcus mai sus. Este un termen tehnic care se referă la construcţia propriu-zisă, în baza unui formalism sau teorii lingvistice, a unei gramatici şi a dicţionarului aferent, care furnizate ca resurse unui program de prelucrare a limbajului natural, permit acestuia să analizeze sau să genereze un text arbitrar. O astfel de instanţiere este fezabilă dacă ea se poate realiza în condiţii de timp şi resurse umane rezonabile.
Nu m-am mirat atunci când "Encyclopedia of Microcomputers" şi "Encyclopedia of Computer Science and Technology" mi-au solicitat o contribuţie cu tema "Semiotics and Formal Artificial Languages" (a se vedea [11]) şi nici când "Handbook of Formal Languages" mi-a solicitat un capitol privind "Contextual Grammars and Natural Languages"[12] iar o lucrare preponderent teoretică a fost inserată în "Computaţional Linguistics in the Netherlands 2000"[13]. Nu văd rostul acestor lămuriri. Toată lumea îl ştie, îl recunoaşte şi nimeni dintre cercetătorii adevăraţi nu-l contestă pe omul de ştiinţă Marcus, important reprezentant român al lingvisticii matematice, creatorul acestei şcoli în România. în articolul [1] nu m-am referit nici direct nici indirect la domnia sa. Faptul că am evocat criticile pe care le-am comentat anterior la adresa metodelor lingvisticii matematice ale începutului deceniului şapte nu are nici o legătură cu realizările (încă o dată, deosebite) ale domnului profesor. însă probabil că identificându-se cu LM mondială, domnia sa a considerat critica asupra metodelor LM din anii '60 un atac la persoana sa, adevărat act de blasfemie.
în anii din urmă, domnul Academician încearcă să transfere în contextul noilor tendinţe şi tehnologii ale limbajului, ignorând o realitate existentă, tot
500
501
portofoliul de rezultate pe care le-a obţinut anterior creditându-le ca surse primare a tot ceea ce se întâmplă azi în tehnologia limbajului în România (şi nu numai). Şi cine nu este de acord cu acest lucru (parafrazându-l pe domnul Marcus) trebuie demonizat. Textul pe care îl comentez ca şi acţiunile recente declanşate de domnul Academician Marcus, pretinse a fi iscate de conţinutul articolului [1], nu fac decât să-mi întărească această impresie. Eu nu am nimic de împărţit cu domnul Academician.
Nu m-am mirat nici când am văzut că o revistă cu titlul "Linguistics and Philosophy" publică articole excelente de LC. Interferenţele merg în toate direcţiile şi ele caracterizează cultura contemporană, în acest orizont trebuie să ne plasăm, cred, atunci când ne referim la disciplinele cognitive care se dezvoltă sub ochii noştri şi îşi pun amprenta pe modul nostru de gândire şi de comportare. Un tratat ca "Mathematical Methods in Linguistics" [14] include multe fapte de LC, deşi în titlul său nu figurează epitetul "computaţional". O revistă ca "Theoretical Linguistics" (1970 2000), publicată de Walter de Gruyter (Berlin-New York) a inclus multe articole vizând aspecte matematice şi/sau computaţionale, deşi numele revistei nu indică acest lucru. Chiar o revista mai tradiţională, ca "Linguistics" a inclus de multe ori articole de LM şi nici "Foundations of Language" nu a procedat altfel. Multe fapte de LM şi de LC se plasează în mod natural în orizontul semioticii computaţionale. Faptul că tratatul amintit nu incorporează în titlu atributul computaţional nu mă surprinde, pentru că ar fi creat o confuzie pe care autorii au evitat-o deliberat. Cartea respectivă nu este o carte de lingvistică computaţională, conţinutul ei tratează exact ce anunţă în titlu: metode matematice folosite în studiul lingvistic. Lingvistica teoretică, puternic formalizată în ultimele decenii apelează inevitabil (ca de altfel marea majoritate a domeniilor ştiinţifice) la metode şi modele matematice.
Era internetului impune desigur o problematică nouă, faţă de care
abordările anterioare se pot dovedi insuficiente. Exact aceasta este esenţa celor 3 paragrafe din [1] incriminate şi combătute pe larg de domnul Academician Marcus: insuficenţa abordărilor anterioare. Conştientizarea acestei insuficienţe însă a precedat cu câţiva ani apariţia internetului.
Salutăm iniţiativa noii generaţii de cercetători de a se dedica noilor probleme.'
Nu putem ignora tonul paternalist privind noua generaţie de cercetători care se dedică problemelor ridicate de internet în prelucrarea automată a limbajului natural. INTERNET-ul este o revoluţie! Şi implicaţiile sale sunt atât de mari încât asigurarea accesului universal la Internet a devenit o problemă fundamentală chiar şi pentru o organizaţie de caliblul UNESCO. Am avut onoarea să fac parte din Comisia de Experţi creată de Secretarul General al UNESCO (comisie de cel mai
înalt nivel) pentru elaborarea documentului Recommendation on Multilingualism and Universal Access to Cyberspace. Sunt al doilea expert român (după dl. Ambasador Dan Hăulică, Membru Corespondent al Academiei) care a făcut parte dintr-o comisie de experţi UNESCO de acest nivel.
Ignorarea în cercetarea privind prelucrarea automată a limbajului natural a fenomenului INTERNET este de neconceput. Societatea cunoaşterii are ca una din premisele sale fundamentale accesul universal, neîngrădit de bariere lingvistice la cunoşterea stocată în internet. Alte comentarii sunt de prisos.
Dar trecerea de la ieri la azi şi de la azi la mâine nu poate fi decât una care ţine seama în mod critic de experienţa acumulată. Nimeni nu neagă acest lucru, şi faptul că l-am rugat insistent pe domnul Academician să facă parte din Comisia de Informatizare pentru Limba Română cred că arată buna mea credinţă şi speranţa pe care o nutream (şi care încă mai supravieţuieşte) că experienţa domniei sale va fi pusă în slujba obiectivelor pe care nici eu nici domnul Marcus nu le putem atinge singuri. în acelaşi spirit, i-am propus domnului Academician Marcus să scriem împreună o antologie a cercetărilor româneşti în domeniul lingvisticii formale şi computaţionale, de la începuturile pe care le evocă domnia sa şi pînă în zilele noastre. Din păcate propunerea a rămas fără răspuns.
Din tot ceea ce am prezentat mai sus rezultă clar ca LM şi LC au fost mereu împreună şi că, în general, etichetele nu au contat prea mult Unii au mers chiar mai departe; astfel, în capitolul 4, "Mathematical and Computaţional Linguistics", din [15], se afirma pur şi simplu (p.86): "Mathematical linguistics has also been called theoretical linguistics and even computaţional linguistics". Iar mai departe, în acelaşi loc: "Computaţional Linguistics originated around 1950 with the initiation of research on automatic translation" (se trimite la o carte editată de D.G.Hays [3] şi la o alta avându-l ca autor pe acesta [16]). Nu văd în pasajul pe care l-am citat mai sus nici un argument împotriva a ceea ce am susţinut în [1] şi în cele prezentate aici. Notez în treacăt adverbul „even" cu o valoare discursivă în completă consonanţă cu considerentele istorice pe care le-am invocat ale evoluţiei ştiinţifice şi tehnologice în domeniul prelucrării limbajului natural.
în România, minţi luminate ale anilor "60, ca profesorii Al. Rosetti, Grigore Moisil şi Tudor Vianu, au înţeles schimbările care se profilau şi au sprijinit proiectul înfiinţării unei secţiuni de "lingvistică aplicată" la Facultatea de Limba şi Literatura Română a Universităţii din Bucureşti, dar s-au găsit alţii care să-i torpileze. Aşa este, şi mă bucură elogiul adus acestor corifei ai ştiinţei româneşti. Poate şi pentru că alături de câţiva reprezentanţi importanţi ai lingvisticii româneşti actuale care au înţeles tendinţele şi imperativele momentului (Prof. Dan Mazilu-decanul Facultăţii de Litere, Prof. Alexandra Cornilescu, Conf. Emil lonescu) am
502
503
participat la reluarea acestei lucrări. Programul de Masterat în Lingvistică Formală şi Computaţională de la Facultatea de Litere a Universităţii din Bucureşti, funcţionează de mai bine de 2 ani şi nutresc speranţa că Ministerul Educaţiei şi Cercetării va aproba demersurile noastre privind chiar înfiinţarea unui departament cu acest profil.
în acelaşi sens, am participat alături de profesorul Cristea (având fără discuţie şi sprijinul altor minţi luminate ale Universităţii A.I.Cuza din laşi) la lansarea în 2001 a Masterat-ului în Lingvistică Computaţională al Facultăţii de Informatică. Nu este uşor să pendulezi între laşi şi Bucureşti, dar şi domnul profesor Cristea, şi doamna profesor Cornilescu şi eu o facem pentru ca cele două programe „surori" de maşter să-şi împlinească menirea de a pregăti câţi mai mulţi specialişti în folosul programelor de informatizare pentru limba română.
La Academia Română a funcţionat mulţi ani "Comisia de Lingvistică Matematică" iar revista "Cahiers de Linguistique Theorique et Appliquee", infiinţată în 1962, a fost multă vreme expresia colaborării lingvisticii cu matematica şi cu informatica. In ciuda forţelor adverse, s-a reuşit în acei ani atragerea unor studenţi străluciţi ai unor facultăţi umaniste la cercetarea limbii si literaturii cu mijloacele LM si LC.
Comisia de Informatizare pentru Limba Română de la Academia Română, înfiinţată în anul 2001, încearcă, ţinând cont de realităţile şi priorităţile actuale, să armonizeze eforturile celor ce lucrează în domeniul limbii române şi care cred în perspectiva înrolării ei în cadrul limbilor importante ale societăţii cunoşterii. Eu am convingerea că voi putea spune peste timp acelaşi lucru: „In ciuda forţelor adverse, s-a reuşit în acei ani atragerea unor studenţi străluciţi ai unor facultăţi umaniste la cercetarea limbii şi literaturii cu mijloacele" tehnologiei limbajului.
Pentru a da numai două exemple de actuali profesori universitari care au susţinut teze de doctorat de acest tip, voi menţiona pe Pia Brinzeu, de la Catedra de Engleză a Universităţii din Timişoara şi pe Mihai Dinu, de la Facultatea de Litere a Universităţii din Bucureşti. Tot în acea perioada şi-a susţinut teza de doctorat Sorin Cristian Niţă, pe o tema de critică textuală automată privind înlănţuirea (filiaţia) diferitelor variante ale "Istoriei Tării Româneşti" (Şerban Cantacuzino). Exemple de profesori şi cercetători români valoroşi, cu contribuţii substanţiale în domeniul limbii române se pot da foarte multe. Mulţi dintre ei sunt în străinătate şi fac o bună propagandă ştiinţei româneşti. Mi-e cunoscută cartea cu adevărat remarcabilă a domnului profesor Mihai Dinu „Personalitatea limbii române", de altfel premiată de Academia Română. Această lucrare este o solidă cercetare de lingvistică computaţională în spiritul actual tocmai pentru că a parcurs acea cale dificilă a instanţierii lingvistice (în cazul său la nivelul componentului lexical).
lată însă că, în pofida realităţilor puse in evidenţă mai sus, in ([1]: 134) se scrie: "în România, cercetările în domeniul LC şi al prelucrării limbajului natural, precum şi primele rezultate practice au apărut la începutul anilor "80 [3, 4, 5, 6]". La ce trimit numerele indicate in paranteze ? La o bibliografie de 24 de titluri în care aproape toate (dar toate cele indicate intre paranteze) încep cu DT (ignorandu-se regula generală în lumea ştiinţifică, a aşezării numelor autorilor aceluiaşi articol în ordine alfabetică; dar nu acest fapt este cel care ne interesează în momentul de faţă).
înainte de a comenta acest pasaj şi pe cel următor, nu pot să trec peste observaţia absurdă şi falsă pusă între parantezele ce trădează totuşi o ezitare a probităţii omului de ştiinţă în faţa unei răutăţi gratuite. Nu există nici o regulă generaiă de genul celei afirmate. Ordonarea alfabetică este o convenţie între autorii cu contribuţii egale în redactarea unei lucrări. Am deschis la întâmplare două volume de specialitate, conţinând contribuţii (S. Amstrong et al. (eds) „Natural Language Processing Using Very Large Corpora, Kluwer, 1999 şi T. Strzalkovski (ed) „Natural Language Information Retrieval", Kluwer, 1999). Din cele 19 lucrări cu mai mai mulţi autori, doar trei urmăresc (probabil din întâmplare) "regula generală în lumea ştiinţifică" pe care o invocă domnul Academician şi pe care probabil a impus-o şi o impune tuturor celor alături de care publică, indiferent de contribuţia fiecăruia.
Să observăm că încă în 1978, în articolul "Mathematical and Computaţional Linguistics" [9] de prezentare a activităţii din România în domeniul LM şi LC se face referire la peste 400 de articole publicate de 130 de autori români şi sunt menţionaţi peste 300 de autori străini (unii dintre ei, nume de vază ale LM şi LC din acea perioadă) care au citat şi continuat cercetările româneşti. Să mai adăugăm că numeroşi lingvişti români dintre cei mai importanţi au citat şi folosit rezultatele şcolii româneşti de LM şi LC. lată ca vine acum DT şi face (deliberat sau nu) din tot acest efort un teren viran care-l aştepta peDTsă tragă primele jaloane. Nu e cam mult? Deşi am repetat de nenumărate ori până în acest moment, o mai fac o dată,  precizând  că  discuţia din  [1] se  referea  la  resurse lingvistice computaţionale şi programe software de dialog în limbaj natural (în limba română). Acestea erau rezultatele practice pe care le menţionam în citatul comentat cu gratuită aciditate. Poate să-mi menţioneze domnul Academician vreun sistem de dialog în limba română implementat înaintea sistemelor pe care le-am realizat eu şi colaboratorii mei? lată câteva repere:
- Sistemul QA (1980) un sistem inferenţial de întrebare răspuns în limba română, susţinut de un demonstrator original de teoreme în calculul predicatelor de ordin 1;
504
505
- SDLR (1981) un sistem de dialog în limba română ce a extins capabilităţile lui QA cu operatorii lingvistici ai logicii fuzzy;
- IUREŞ (1983) sistem de generare automată a sistemelor de întrebare răspuns, independent de limbă, pe care l-am realizat împreună cu Dan Cristea, acum decanul facultăţii de informatică a Universităţii Cuza. Sistemul IUREŞ a fost omologat internaţional în 1988 şi a constituit primul produs de inteligenţă artificială exportat (în acelaşi an). Sistemele IUREŞ şi SDLR sunt referite printre altele în enciclopedia de lingvistică computaţională. Mai important este faptul că sistemele IUREŞ şi SDLR sunt amplu descrise în prestigioasa antologie "The Survey of the Current Status Research and Future Trends in Machine Translation and Natural Language Processing" realizat in 1992 de JEIDA (Japan Electronic Industry Development Association), fiind de altfel singurele sisteme de dialog în limbaj natural din întreaga zonă fost comunistă incluse în această carte.
Acestea erau referinţele incriminate de domnul Academician şi dacă domnia sa poate să-mi indice un singur sistem de prelucrare a limbajului natural realizat în România înaintea celor pe care le-am citat, eu am greşit. Dar mă îndoiesc. Nu cunosc conţinutul articolului menţionat (pe care i l-am solicitat de altfel domnului Academician, fără a-l primi însă), astfel încât nu pot afirma nimic despre cei 130 de autori români ce au realizat (conform afirmaţiei domnului Marcus) lucrări de lingvistică computaţională. Ce pot însă să afirm este că am citit multe din lucrările de lingvistică teoretică contemporană ale marilor noştri lingvişti şi ele au fost extrem de relevante ca material faptic în cercetările mele. Dar lucrările pe care le-am citit (şi citat) eu, nu erau din domeniul lingvisticii computaţionale. Lucrările domnului Marcus (în special cele din domeniul limbajelor formale) apăreau destul de frecvent între referinţele bibliografice ale lucrărilor mele de la începutul anilor '80. Eram la început de drum, sursele documentare erau puţine şi demersul era natural. Pe atunci, Chomsky era din nou foarte în vogă, noua sa teorie Government and Binding impulsionând o serie de cercetări în domeniul formalizării gramaticii universale. Tentaţia computaţională faţă de această teorie a fost enormă, şi chiar dacă actualmente nu există nici o gramatică computaţională efectivă a GB, idei fundamentale din GB se regăsesc în formalisme lingvistice computaţionale moderne (cum ar fi HPSG).
Să fim bine înţeleşi. Nu noi avem nevoie de încă o citare pe lângă miile de citări deja acumulate, ci noile generaţii de studenţi şi de cercetători au dreptul la o informare corectă asupra dezvoltării LM şi LC în general şi, în particular, asupra LM şi LC în România. DT a mai publicat, în urmă cu câţiva ani, un articol în care se schiţa o privire istorică asupra LC în România, cu câteva citări la întâmplare, care trădau necunoaşterea situaţiei reale.
Cu rezerve faţă de prima parte a paragrafului, mă opresc la grija domnului Academician pentru dreptul noilor generaţii de studenţi şi de cercetători asupra „informării corecte" asupra istoriei LM şi LC. Personal, cred că mult mai important pentre ei este să ştie prezentul şi tendinţele viitoare ale domeniului. Astfel de cunoştinţe le pot asigura un loc de muncă, o direcţie de specializare, o carieră viitoare. Noile generaţii de studenţi şi de cercetători sunt utilizatori pasionaţi ai Internetului. Acest uriaş ocean informaţional le asigură un imens volum de cunoştinţe, începând cu cursuri on-line (obligatorii pentru profesori la mai toate universităţile importante ale lumii), volume ale conferinţelor sau articole extrem de utile, recente şi mai puţin recente, cărţi electronice. Chiar şi relevante lucrări de istorie asupra diverselor domenii ştiinţifice. Sistemele moderne de regăsire documentară le asigură şi o ierarhizare a acestor surse de informare în raport cu relevanţa şi cu interesul manifestat de alţi cititori. Listele de discuţii sau arhivele de întrebări frecvente (FAQ) le pot oferi răspunsuri avizate şi obiective la întrebările ce-i preocupă. In anexă este furnizat un exemplu.
, în ultima parte a citatului de mai sus, domnul Academician Marcus aduce în discuţie o lucrare a mea din 1996 şi care arată că frustrările domniei sale sunt mai vechi. Articolul de care aminteşte domnul Academician mai sus, are titlul „Resurse lingvistice computaţionale: trecut, prezent şi viitor" şi a apărut în volumul „Limbaj şi Tehnologie", Ed. Academiei, 1996. Cei interesaţi, pot găsi articolul respectiv în pagina oficială a RACAI (http://www.racai.ro secţiunea publicaţii). Iar cele „câteva citări la întâmplare, care trădau necunoaşterea situaţiei reale" apar în capitolul 2. „Cercetări şi realizări româneşti în domeniul prelucrării automate a limbajului natural". Cred că titlul volumului, al articolului şi al capitolui sunt lămuritoare pentru ceea ce discutam acolo, dar probabil fraza, care trimitea la un volum editat de domnul Marcus, „abordările statistice, revenite acum în actualitate, au avut o tradiţie strălucită (în România, adăugarea mea DT)" a fost prea scurtă şi insuficient de laudativă.
Mai este un aspect care cere o precizare. în conformitate cu specificul volumului în care apare articolul [1], DT face numeroase referiri la acte şi documente ale unor organisme europene şi internaţionale, cum este şi firesc, pentru a nu mai vorbi de aspectul financiar al colaborării cu organismele respective. Această situaţie a existat de la începutul LM şi LC (chiar dacă nu a avut amploarea de azi), datorită faptului că LM şi LC au apărut şi ca urmare a unor comandamente sociale, privind precaritatea mijloacelor de prelucrare a informaţiei. îmi amintesc de faimoasele Rapoarte CETIS care veneau de la EURATOM, Bruxelles, pe teme legate de analiza şi prelucrarea automată a limbajului, traducere automată şi documentare automată. în USA, diferite corporaţii (cum ar fi RAND Corporation, Santa Monica, Calif.) finanţau cercetări similare. O întâlnire semnificativă a fost aceea din 1962, organizată
506
507
de "NATO Advanced Summer Institute", la Veneţia, Italia, privind traducerea automată. De numele acestui Institut este legat un document care a marcat evoluţia cercetărilor de traducere automată: seria de expuneri prezentate de Y. Bar-Hillel [17]. în legătură cu aceste activităţi dirijate şi finanţate de diferite organisme europene şi internaţionale, trebuie să observăm că cei implicaţi au avut înţelepciunea şi priceperea necesare pentru a nu reduce proiectele respective la dimensiunea lor exclusiv utilitară, ci de a o subordona pe aceasta unei perspective mai ample, care lua în considerare orizontul ştiinţific real al problemelor. Pentru a da un prim exemplu, mă voi referi la faptul că mai multe rapoarte CETIS au pus în discuţie un concept care, născut din experimentele de traducere automată, avea să se dovedească de o deosebită semnificaţie pentru teoria sintactică în toată generalitatea sa; este vorba de conceptul de proiectivitate sintactică, cu consecinţe bogate în studiul structurilor arborescente şi al gramaticilor de dependenţă. Azi putem spune că şi sintaxa limbajului natural şi teoria matematică a grafurilor au profitat esenţial de conceptul respectiv (folosit până şi de Rene Thom, în probleme de morfogeneză [17]). Această expansiune a unui concept sau rezultat dincolo de motivaţia sa iniţială este testul cel mai convingător al interesului său. Un al doilea exemplu se referă la titlul provocator folosit de Bar-Hillel pentru expunerile sale: "Patru conferinţe despre lingvistica algebrică si traducerea automată".
Simpla alăturare a celor două sintagme, una foarte teoretică, cealaltă aparent tehnologică, avea menirea să-i avertizeze pe cei care presau să se obţină cât mai repede rezultate practice asupra faptului că proiectele de traducere automată nu se pot finaliza de azi pe mâine, ci au nevoie de un lung itinerar lingvistic, matematic şi computaţional. Acum ştim că acest itinerar continuă şi azi, cu tatonări şi reveniri, şi, chiar dacă nu a dus încă la rezultatele visate, a impulsionat în mod esenţial cercetările de Al, cu consecinţe benefice pentru aspectele logice şi semantice ale limbajului natural, întrebarea pe care ne-o punem, dar o lăsăm deocamdată fără răspuns, deoarece nu suntem pregătiţi pentru a-l da, este următoarea: Nu cumva aspectele pe care le-am criticat mai sus sunt consecinţa unui fenomen mai general, acela al unui orizont insuficient de cuprinzător, al unei prea mari dependenţe de factori utilitari imediaţi? Ştiinţa a oscilat mereu între cognitiv şi utilitar, dar istoria arată că funcţia utilitară s-a manifestat în toată profunzimea ei atunci când ea a fost fructul unei evoluţii fireşti a funcţiei cognitive, evoluţie care poate fi de doi ani, de 20 de ani, de 200 sau de 2000 de ani. Cu un ochi îndreptat spre comisiile europene, suntem obligaţi totuşi să ţinem treaz şi celălalt ochi, îndreptat spre ceea ce se
întâmplă pe scena cercetării ştiinţifice vii, aşa cum apare ea în revistele de specialitate şi la întâlnirile ştiinţifice de profil. Remarcile de mai sus îmi sugerează celebra fabulă cu strugurii cei acri. Cercetarea instituţionalizată (în opoziţie cu cea „de dragul artei") are motivaţii întotdeauna justificabile. Organismele de finanţare a cercetării, naţionale sau internaţionale, nu fac desigur acte de caritate. Obţinerea unei finanţări pentru un proiect de cercetare nu este la îndemâna oricui şi el implică nu numai abordarea unei probleme importante, dar şi credibilitatea grupului de cercetare. Evaluarea propunerilor de proiecte se face de către experţi recunoscuţi în domeniul respectiv, angajaţi şi plătiţi de agenţiile de finanţare a cercetării. în condiţiile unei concurenţe internaţionale acerbe pentru fondurile (din păcate prea mici) destinate cercetării, a lua în derâdere, invocând caracterul utilitar, cercetările ce obţin concurenţial finanţarea arată o desprindere de realitate. în luna martie a.c. am participat la evaluarea propunerilor de proiecte europene din cadrul Programului Cadru 5 (apelul 8), şi în calitate de raportor al direcţiei „11.1.1 ■ Exploratory High Risk/Long Term Research", pot să afirm că propunerile de proiecte pe care le-am văzut erau foarte departe de a avea caracter utilitar. Domnul Academician Marcus lasă fără răspuns o întrebare cu răspuns sugerat, ridicând o problemă discutată cu ceva timp în urmă, anume a tipului de cunoaştere contemporană: enciclopedică (şi inerent generalistă) sau specializată. Cel puţin în domeniile tehnologice, viteza fără precedent a apariţiei de cunoştinţe noi face imposibilă cunoaşterea enciclopedică şi în acelaşi timp expertă pe toată lărgimea spectrului cunoaşterii actuale chiar şi într-un domeniu aparent îngust. Tehnologia limbajului este actualmente termenul ce subsuma toate preocupările legate de prelucrarea automată a limbajului natural. Cred că acest lucru spune totul!
3. în loc de concluzii
Ajungând în acest punct al răspunsului meu la atacul domnului Academician Marcus mărturisesc că mă încearcă un apăsător sentiment al deşertăciunii. Nu am dorit această polemică şi în nici un caz în acest context. Considerând că ea este nepotrivită faţă de obiectivele urmărite de proiectul „SI-SC: Soluţii şi strategii în România", în calitatea mea de director de proiect şi coeditor al volumului de faţă, am discutat cu membrii comitetului director al proiectului oportunitatea publicării polemicii domnului Academician Marcus (şi implicit a răspunsului meu) în volumul destinat unor probleme tehnice. Părerea a fost unanimă că nu este cazul să amestecăm obiectivele proiectului cu discuţia de faţă. Dar transmiţând domnului Academician această opinie şi făcându-i propunerea de a găzdui această polemică pe internet (în pagina oficială a RACAI) domnia sa s-a simţit cenzurat, insultat şi îndreptăţit să facă o serie de afirmaţii pe care mă abţin să le comentez. Decizia de includere a acestei secţiuni în volumul de faţă am luat-o fără plăcere pentru că pe de o parte, în ciuda părerii domnului Academician
508
509
Marcus (Articolul meu se încadrează perfect în obiectivul pe care pretindeţi că-/ urmăriţi şi în acest spirit a fost conceput Realizaţi gravitatea deciziei Dv? - de a nu-l include în volum, precizarea mea, D.T.) continui să cred că nici articolul domniei sale nici al meu nu îşi aveau rostul aici. Pe de altă parte, nu pot decât să deplâng supărarea pe care i-am provocat-o fără voie domnului Marcus şi risipa de energie pe care o depune într-o problemă care din punctul meu de vedere nu există. Drept care, sperând că includerea articolului ce se încadrează perfect în obiectivul...îi va da domnului Academician satisfacţia pe care şi-a dorit-o, las cititorii să aprecieze cât de grav ar fi fost pentru obiectivul tehnologiei limbii române în contextul „Societatea Informaţională - Societatea Cunoaşterii: Soluţii şi strategii în România" ca cele două articole să nu fi apărut aici.
Referinţe bibliografice (secţiune din lucrarea domnului Academician Marcus):
[1] D. Tufiş. Promovarea limbii române în SI-SC. în Societatea Informaţională - Societatea cunoaşterii (coord. F. Gh. Filip). Ed. Expert, Bucureşti, 2001,131-142. [2] D. G. Hays. The field and scope of computaţional linguistics. Papers in
Computaţional Linguistics (eds. F. Papp, G. Szepe). Proceedings of the Third
International Meeting of Computaţional Linguistics, held in Debrecen, Hungary,
1971. Akademiai Kiado, Budapest, 1976, 21-26. [3] D. G. Hays (ed.). Readings in Automatic Language Processing, American
Elsevier, New York, 1967. [4] S. Marcus. Mathematical Linguistics in Europe. Current Trends in Linguistics
(Th. A. Sebeok, ed.), vol.9, Mouton, The Hague, 1972, 646-687. [5] S. Marcus. Mathematique et Linguistique. în Mathematique, Informatique et
Sciences Humaines, Paris, 26, 1988,103, 7-21. [6] S. Marcus. The status of research in the field of analytical algebraic models of
language. în Current Issues in Mathematical Linguistics (C. Martin-Vide, ed.).
Elsevier-North Holland, Amsterdam, 1994, 3-21. [7] S. Marcus. Lingvistica matematică^ azi. în Matematica în lumea de azi şi de
mâine (C. lacob, coord.), Editura Academiei, Bucureşti, 1985, 182-186. [8] S. Marcus. Recent Romanian investigations in the field of mathematical and
computaţional linguistics. Avtomaticeskaja Obrabotka Tekstov, Matern. Fyz.
Fakulta, KL Praha, 1973,15-42. [9] S. Marcus. Mathematical and computaţional linguistics. în Current Trends in
Romanian Linguistics (A. Rosetti, S. Golopentia Eretescu, eds.). Revue
Roumaine de Linguistique 23, 1978, 1-4, 559-588. [10] S. Marcus, C. Martin-Vide, G. Paun. Contextual grammars as generative
models of natural languages. Computaţional Linguistics 24, 1998, 2, 245-274.
• [11] S. Marcus. Semiotics and formal artificial languages. în Encyclopedia of Computer Science and Technology (A. Kent, J.C.WiIliams, eds.) 29, Ed. Marcel Dekker, New York, 1994, 393-405; also in Encyclopedia of Microcomputers (A. Kent, J.C.WiIliams, eds.) 15, 1995, 299-312. [12] S. Marcus. Contextual grammars and natural languages. Handbook of Formal Languages (G. Rozenberg, A. Salomaa, eds.), 2, Springer, Berlin, New York, 1997,215-235.
[13] S. Marcus, G. Martin-Vide, G. Paun. A new-old class of linguistically motivated regulated grammars. Computaţional Linguistics in the Netherlands 2000 (W. Daelemans et al., eds.), Selected Papers from the Eleventh CLIN Meeting, Ed. Rodopi, Amsterdam, New York, 2001, 111-125.
[14] B. H. Partee, A. Ter Meulen, R. Wall. Mathematical Methods in Linguistics. Kluwer, Dordrecht, 1990.
[15] E. F. Beckenbach, Ch. B. Tompkins (eds.). Concepts of Communication: Interpersonal, Intrapersonal and Mathematical. John Wiley and Sons, New York, 1976.
[16] D. G. Hays. Introduction to Computaţional Linguistics. American Elsevier, New York, 1967.
[17] R. Thom. Stabilite Structurelle et Morphogenese. John Benjamins, New York, 1970.
[18] Y. Bar-Hillel. Four Lectures on Algebraic Linguistics and Machine Translation revised version of a series of lectures given in July 1962, before a NATO Advanced Summer Institute, Venezia, Italy.
510
511
ANEXAI: Exemple de căutare într-o arhivă de întrebări frecvente
(Usenet FAQ)
^~     ^     '                     J       j       ^ |^       _£j ^        Jj. j
B    Back _                         S>op    Refresh    Home Search Favorite»   Histoiy      ~Mail Prin» Dircuss
_^ ***** l« ht^/A^la^o^cfli^^aq^ych o>Go    Links ffl C^torrf» Unk,       Free Hotmail   Ş]^dowS Media
_ Search --   ' ~--—--—--
■ -inixi
EH
<3 Nev
Customjjje
Search trie Web for
["mathematical linguistic! Go
-   Found-mathematical linguistics"'
^ !ic i r» to   irv n«ii lut Urm <
Pa    f Dor»
£ M
The Usenet FAQ Archives Results for query "mathematical linguistics*
Sony... NO Matches were fouiid for query
"mathematical linguistics" Since MotMuc was found... you might want to be a bit less specific in your search phrase. Just a thought...
~3
I - ».ş.enetReferences - FAQ Search F.pfine
@ Cjywyg/tf 7*e Interna! FAQ Gonsormmi All rights rastrvad
MSUtl $>Sy«emSo.tC   j g NortonS^e   | y, ,nbox .QuMoa^C^NNTSF-U ^Ma,cW.ooc.... H^u.enet W...    83] • Microsoft lrt...| gJWork From H... | ^"j^t
f* Addrest [iEJhu£y^wwlaqs!o^^ ~ Search
-    <ţ tfew Customije
Search the Web for:
~    I'mathematical linguistict
* .88B.com jfo-
^g^ii' PiayNowl ...   Found -mathematical hnouistîcs—
i> t ni si s in M'tlidu nu il < Ş r, ii Kt M_jjrir_\i<l« s & Mor.-le.c.oiri
w mjy Irni'<j<1iictluii ui
• ^H'.M<. . Jjjşc-'ţiţ fh orour> un
m<).Ol£mi>-llil.ai I .iimimisih,*
> iriMiliA.t: ut Fur mal tind Atîpluni
»   jiirvpr-rlY »       spx   N mir il ! <]iMt.U4-'t>? I-toij^siih) t   Un (1 i iu    toj) iii , ol I irului^
a ; • csm/,
Jl{   f>Go    Links gJCwtomgeLinks   g]Free Hotmail       Windows Media
The Usenet FAQ Archives Results for query "computaţional linguistics"
Son date), and list ofmatched Iines
1. ittail/cDllrSr-^m?ily^l, ( ftrr ?o TOP?)
• Computaţional Linguistics: lcl.cntu.edu
2. ai-fap/gf neraLfrartri, l Apr S -XVW)
• The Association for Computaţional Linguistics homepage:
3- ai-feo/peneray1»*rtf>l ( Apr 3 2002)
• The Association for Computaţional Linguistics (ACL) has a Data
J*Stl| &SyrtemSo,tC... | g Norton S^c... I & .r^-PuHoc...! -JC:VW.NNTVP,...| BjMa,cus.doc ■... || g]U.enet W...    g] • Microsoft |n..J
^'^MDSk 16:06
ANEXA 2: Definiţii
What is Mathematical Linguistics?
MATHEMATICAL LINGUISTICS is the study of mathematical structures and methods that are of importance to linguistics. As in other branches of applied mathematics, the influence of the empirical subject matter is somewhat indirect: theorems are often proved more for their inherent mathematical value than for their applicability.
Both in phonology/morphology and in syntax/semantics the choice of linguistic formalism is to some extent influenced by considerations that go beyond the primary issue of descriptive adequacy. One important issue is Recognition Complexity. This concerns the complexity of the decision problem for membership in a language: it is assumed that a grammatical theory should have the property of guaranteeing that there is some reasonably rapid (polynomial in the lenght of the input) computation that will answer the question of whether a given sequence of words is a grammatical expression according to a given grammar. Human beings certainly do much more than this when they listen to an utterance and figure out the meaning of what was said, so a grammatical theory that cannot even guarantee reasonably rapid confirmation of well-formedness is probably not psycholinguistically realistic. Another one is Learnability, which concerns what sorts of mathematically definable procedures could in principie correctly guess the grammars for languages.
(Geoffrey K. Pullum and Andras Kornai)
What is Computaţional Linguistics?
Simply put, COMPUTAŢIONAL LINGUISTICS is the scientific study of language from a computaţional perspective. Computaţional linguists are interested in providing computaţional models of various kinds of linguistic phenomena. These models may be "knowledge-based" ("hand-crafted") or "data-driven" ("statistical" or "empirical"). Work in computaţional linguistics is in some cases motivated from a scientific perspective in that one is trying to provide a computaţional explanation for a particular linguistic or psycholinguistic phenomenon; and in other cases the motivation may be more purely technological in that one wants to provide a working component of a speech or natural language system. Indeed, the work of computaţional linguists is incorporated into many working systems today, including speech recognition systems, text-to-speech synthesizers, automated voice response systems, web search engines, text editors, language instruction materials, to name just a few.
(Copyright © 2000, The Association for Computaţional Linguistics)
LIMBA ROMANA
în
Societatea Informaţională Societatea Cunoaşterii
Acest volum este dedicat Academicianului Mihai Drăgănescu, Profesorul şi mentorul unei întregi generaţii de specialişti în ştiinţa şi tehnologia informaţiei în general şi al problemelor societăţii informaţionale şi a cunoaşterii în special. Marea majoritate a contribuţiilor din acest volum aparţin unor experţi ce fac parte din Comisia de Informatizare a Limbii Române, comisie a Academiei Române la a cărei naştere un rol esenţial 1-a avut Profesorul Drăgănescu, preşedintele Secţiei de Ştiinţa şi Tehnologia Informaţiei. Savantul Mihai Drăgănescu are numeroase contribuţii în ştiinţa contemporană, binecunoscute atât în ţară cât şi în străinătate. Pentru cine îl cunoaşte pare incredibilă puterea sa de muncă, debordanta creativitate şi neostoita căutare a noului. Profesorul Drăgănescu este indiscutabil port-drapelul conceptului de societate informaţională-socie-tate a cunoaşterii în România. în lucrările sale din urmă cu peste 25-30 de ani se regăsesc cu claritate multe concepte foarte actuale în zilele noastre, previziuni curajoase atunci, acum realităţi cotidiene. în lucrările domniei sale din ultima vreme, apare un nou concept ce avem convingerea că se va impune: Societatea Conştiinţei, o treaptă superioară a societăţii cunoaşterii. Nu este de mirare deci că în contextul societăţii informaţionale şi a cunoaşterii profesorul Drăgănescu a susţinut cu consecvenţă şi a afirmat cu claritate rolul Inteligenţei Artificiale în devenirea noilor societăţi ale cunoaşterii. între domeniile Inteligenţei Artificiale un loc de frunte în promovarea principiilor societăţii cunoaşterii îi revine Tehnologiei Limbajului Natural. Profesorul Drăgănescu a fost unul dintre puţinii oameni de ştiinţă români care au înţeles şi au sprijin total aceste direcţii. Cu aproape douăzeci de ani în urmă (1983), Profesorul Drăgănescu edita (împreună cu Adrian Davidoviciu şi Ioan Georgescu) volumul "Inteligenţa Artificială şi Robotica" pentru ca trei ani mai târziu (împreună cu Corneliu Burileanu) să editeze un alt volum de referinţă "Analiza şi sinteza semnalului vocal". Astăzi, cercetările mondiale în domeniul tehnologilor lingvistice au atins un nivel de maturitate ce permit sinergizarea eforturilor lingviştilor, informaticie-nilor, matematicienilor şi a altor specialişti din sectorul academic sau industrial, să abordeze proiecte mari, interdisciplinare având ca obiectiv prelucrarea automată, în mediile de comunicare electronică, a din ce în ce mai multe limbi naturale. Printre acestea, limba română îşi face loc încet dar sigur. Volumul de faţă este o mărturie în acest sens. în acelaşi timp, volumul se constituie într-o nouă confirmare a realităţilor pe care Profesorul Mihai Drăgănescu le prefigura cu mulţi ani în urmă.
ISBN 973-8177-83-9