Dan Tufiş, Florin Gh. Filip (coordonatori) Limba Română în Societatea Informaţională - Societatea Cunoaşterii ACADEMIA ROMÂNĂ Secţia de Ştiinţa şi Tehnologia Informaţiei Institutul de Cercetări pentru Inteligenţă Artificială Limba Română în Societatea Informaţională - Societatea Cunoaşterii Coordonatori: Dan TUFIŞ, Florin Gh. FILIP Colecţia Societatea Informaţională Coordonator: Prof. dr. ing. Doina BANCIU ACADEMIA ROMÂNĂ Secţia de Ştiinţa şi Tehnologia Informaţiei Institutul de Cercetări pentru Inteligenţă Artificială Limba Romana 111 Societatea Informaţională Societatea Cunoaşterii Coordonatori: Dan TUFIŞ, Florin Gh. FILIP Academia română Bucureşti, decembrie 2002 Volumul de faţă a fost produs de Institutul de Cercetări pentru Inteligenţă Artificială (RACAI) al Academiei Române în cadrul Proiectului "Strategii şi soluţii pentru Societatea Informaţională -Societatea Cunoaşterii în România" din Programul Naţional de Cercetare-Dezvoltare "INFOSOC", condus de Institutul Naţional pentru Cercetare-Dezvoltare în informatică (ICI), Bucureşti ^EDITURA f Coediţie Bucureşti, România Editor şi coordonare editorială: Valeriu IOAN-FRANC Redactori: Mircea FAŢĂ, Paula NEACŞU, Irina STĂNESCU Concepţia grafică, machetare şi tehnoredactare: Luminiţa LOGIN Coperta: Nicolae LOGIN Toate drepturile asupra acestei ediţii aparţin Academiei Române. Reproducerea fie şi parţială şi pe orice suport, este interzisă fără acordul prealabil al editorului,' fiind supusă prevederilor legii drepturilor de autor. ISBN 973-8177-83-9 Apărut 2002- DEDICAŢIE Acest volum este dedicat Academicianului Mihai Drăgănescu, Profesorul şi mentorul unei întregi generaţii de specialişti în ştiinţa şi tehnologia informaţiei în general şi al problemelor societăţii informaţionale şi a cunoaşterii în special. Marea majoritate a contribuţiilor din acest volum aparţin unor experţi ce fac parte din Comisia de Informatizare a Limbii Române, comisie a Academiei Române la a cărei naştere un rol esenţial l-a avut Profesorul Drăgănescu, preşedintele Secţiei de Ştiinţa şi Tehnologia Informaţiei. Savantul Mihai Drăgănescu are numeroase contribuţii în ştiinţa contemporană, binecunoscute atât în ţară cât şi în străinătate. Pentru cine îl cunoaşte pare incredibilă puterea sa de muncă, debordanta creativitate şi neostoita căutare a noului. Profesorul Drăgănescu este indiscutabil port-drapelul conceptului de societate informaţională-societate a cunoaşterii în România. în lucrările sale din urmă cu peste 25-30 de ani se regăsesc cu claritate multe concepte foarte actuale în zilele noastre, previziuni curajoase atunci, acum realităţi cotidiene. în lucrările domniei sale din ultima vreme, apare un nou concept ce avem convingerea că se va impune: Societatea Conştiinţei, o treaptă superioară a societăţii cunoaşterii. Nu este de mirare deci că în contextul societăţii informaţionale şi a cunoaşterii profesorul Drăgănescu a susţinut cu consecvenţă şi a afirmat cu claritate rolul Inteligenţei Artificiale în devenirea noilor societăţi ale cunoaşterii. între domeniile Inteligenţei Artificiale un loc de frunte în promovarea principiilor societăţii cunoaşterii îi revine Tehnologiei Limbajului Natural. Profesorul Drăgănescu a fost unul dintre puţinii oameni de ştiinţă români care au înţeles şi au sprijin total aceste direcţii. Cu aproape douăzeci de ani în urmă (1983), Profesorul Drăgănescu edita (împreună cu Adrian Davidoviciu şi loan Georgescu) volumul "Inteligenţa Artificială şi Robotica' pentru ca trei ani mai târziu (împreună cu Corneliu Burileanu) să editeze un alt volum de referinţă "Analiza şi sinteza semnalului vocal". Astăzi, cercetările mondiale în domeniul tehnologilor lingvistice au atins un nivel de maturitate ce permit sinergizarea eforturilor lingviştilor, informaticienilor, matematicienilor şi a altor specialişti din sectorul academic sau industrial, să abordeze proiecte mari, interdisciplinare având ca obiectiv prelucrarea automată, în mediile de comunicare electronică, a din ce în ce mai multe*limbi naturale. Printre acestea, limba română îşi face loc încet dar sigur. Volumul de faţă este o mărturie în acest sens. în acelaşi timp, volumul se constituie într-o nouă confirmare a realităţilor pe care Profesorul Mihai Drăgănescu le prefigura cu mulţi ani în urmă. Dr. Dan Tufiş, m.c.A.R, Acad. Florin Gh. Filip 7 CUPRINS INTRODUCERE..........................................................................................9 SECŢIUNEA I: LINGVISTICĂ TEORETICĂ Şl FORMALĂ; TERMINOLOGIE Resurse lingvistice pentru limba română elaborate la Institutul de Lingvistică "Iorgu Iordan" - Ioana Vintilă-Rădulescu..................19 Contribuţia lingvisticii la studiul terminologiilor ştiinţifice - Angela Bidu-Vrănceanu...................................................................33 Gramaticile generative nontransformaţionale - Emil lonescu....................... 39 Către o teorie X-bar funcţională - Neculai Curteanu....................................... 51 Teoria HPSG. Studiu de caz: acordul încrucişat - Ana-Maria Barbu............ 87 După 10 ani de experienţă terminografică: noul model de date terminologice al TermRom - Dan Matei.................................... 109 Probleme de reprezentare a datelor terminografice într-o bază de date relaţională - Sorin Gheţaru........................................................... 121 SECŢIUNEA II: _TEHNOLOGII ALE LIMBAJULUI SCRIS_ RO-BALKANET - ontologie lexicalizată, în context multilingv, pentru limba română - Dan Tufiş, Dan Cristea...........................137 Algoritmi de segmentare a textului în unităţi de tip clauzal - Dan Gălea, Neculai Curteanu, Cristian Linteş...............................165 O metodă automată pentru inserarea diacriticelor în texte în limba română- Rada F. Mihalcea, Vivi A. Năstase...................191 Contribuţii privind structura statistică de cuvinte în limba română scrisă -Adriana Vlad, Adrian Mitrea..........................................................207 Dezambiguizarea automată a cuvintelor din corpusuri paralele folosind echivalenţii de traducere - Dan Tufiş..........................................235 T _9 8 Referenţialitate şi cursivitate în relaţie cu structura de discurs - DanCristea......................................................................................269 DLIR - un sistem de căutare documentară multilingv - Amalia Todiraşcu.............................................................................303 Mediu hermenofor pentru asistarea învăţării unor concepte dintr-o limbă străină - Ştefan Trăuşan-Matu............................................317 SECŢIUNEA III: TEHNOLOGII ALE LIMBAJULUI VORBIT Experimente în vederea recunoaşterii vorbitorului - Corneliu Burileanu, Luigi Bojan.......................................................................................335 Prelucrarea iniţială a textului de intrare în cadrul unui sistem de sinteză a vorbirii pornind de la text în limba română -Dragoş Burileanu............................................................................ 359 Utilizarea tehnicilor nuanţate (fuzzy) şi de dinamică neliniară pentru sinteza adaptivă a vorbirii - Horia-Nicolai L. Teodorescu.......... 381 Dicţionarele multimedia ale limbii române. Secvenţe de implementări şi experimentări - Dumitru Todoroi, Diana Micusa, Zinaida Todoroi, Ion Lingă, Ion Covalenco, Nicolae Objeleanu, Ştefan Spătaru, Stela Lungu, Virginia Ţurcanu, Elena Cozlov, Nadejda Ambrozii, Victor Slobodeanu, Igor Coşeru, Cătălina Suruceanu............................... 401 Mediu pentru editarea transcrierilor fonetice în limba română. Realizarea atlasului lingvistic român pe regiuni - Silviu Bejinariu, Vasile Apopei, Mariana Roman...........................423 SECŢIUNEA IV: _DEZBATERI Şl DISCUŢII_ Asupra a doi vectori funcţionali ai societăţii cunoaşterii: managementul cunoaşterii şi învăţarea electronică. Cultura şi societatea cunoaşterii - Mihai Drăgănescu.....................................................441 între lingvistica matematică şi cea computaţională - Solomon Marcus............................................................................. 471 între lingvistica matematică şi cea computaţională: o altă perspectivă - Dan Tufiş...................................................... 481 INTRODUCERE Programul de cercetare aplicativă "Strategii şi soluţii pentru Societatea Informaţională - Societatea Cunoaşterii în România (SI-SC), din subprogramul A-strategic, al Programului Naţional INFOSOC a avut ca principale obiective stabilirea unui program de veghe conceptuală pentru menţinerea pe linia tendinţelor mondiale ale avansului SI-SC, sensibilizarea factorilor de decizie şi a publicului larg, crearea unui cadru de reflecţie prospectivă pe temele prioritare ale SI-SC: economice, sociale, culturale, tehnologice, ambientale, precum şi operaţionalizarea unor soluţii de interes prioritar pe plan naţional. în cadrul acestui proiect a fost elaborat volumul "Societatea Informaţională - Societatea Cunoaşterii. Concepte, soluţii şi strategii pentru România" (publicat la Ed. Expert in anul 2000), realizat sub coordonarea Academicianului Florin Gheorghe Filip. Acest volum avea ca scop construirea unei viziuni si conţinea o serie de studii şi cercetări care au aprofundat rezultatele programului prioritar al Academiei Române privind Societatea Informaţională -Societatea Cunoaşterii şi au identificat o serie de orientări strategice cerute de susţinerea unei dezvoltări de tip "salt" a SI-SC în România. Prin prisma obiectivelor proiectului, au fost analizate principalele aspecte conceptuale ale SI-SC, probleme legate de infrastructurile informatice şi de comunicaţii ale SI-SC, formarea profesională şi pregătirea generală a populaţiei în şi pentru SI-SC, rolul ştiinţei, cercetării şi inovării, aspecte sociale şi juridice, instituţiile statului şi relaţia lor cu cetăţeanul, dezvoltarea economiei şi afacerilor, dimensiunea culturală a SI-SC, actorii sociali ai creării şi difuzării tehnologiei informaţiei şi comunicaţiilor în contextul SI-SC. Studiile tematice, ancheta Delphi pentru consultarea opiniei experţilor privind tendinţele globale şi opţiunile posibile de raportare la ele, scenariile de evoluţie elaborate au susţinut funcţia prospectivă a proiectului. Funcţia operativă a acestui proiect, respectiv identificarea de soluţii tehnice privind rezolvarea principalelor priorităţi identificate în faza analizei prospective urma sa se manifeste în perioada imediat următoare, printr-o dintr-o serie de cercetări/dezvoltări tehnologice ce vor trata pe larg problematica specifică a fiecăruia dintre direcţiile amintite anterior. Această serie este deschisă prin prezentul volum ce înglobează contribuţii ale unor specialişti români reprezentativi în domeniul prelucrării automate a limbajului natural şi a resurselor lingvistice necesare utilizării limbii române în mediile de comunicare electronică. în [1] este definit conceptul de "Societate Informaţională - Societate a Cunoaşterii" (SI-SC) precum şi principalii săi vectori tehnologici şi funcţionali. în acest context "internetul dezvoltat" (ca vector tehnologic) şi "managementul 10 11 utilizării morale a cunoaşterii la nivel global" (ca vector funcţional) sunt prezentaţi ca factori motrici esenţiali ai Societăţii Cunoaşterii, şi în perspectivă, a Societăţii Conştiinţei. "Din momentul în care intervine Internetul cu marile avantaje pe care acesta le aduce (e-mail, comerţ electronic şi tranzacţii electronice, piaţa Internet, distribuţia de 'conţinut') prin cuprinderea în sfera informaţiei electronice a unui număr cât mai mare de cetăţeni se trece la societatea informaţională. Cunoaşterea este informaţie cu înţeles şi informaţie care acţionează. De aceea societatea cunoaşterii nu este posibilă decât grefată pe societatea informaţională şi nu poate fi separată de aceasta. în acelaşi timp, ea este mai mult decât societatea informaţională prin rolul major care revine informaţiei-cunoaştere în societate." [1] în 1984, William Gibson, un dizident cognitiv - după cum se autocaracterizează, publică volumul SF "Neuromancef (Ace Book, July 1984, ISBN: 0-441-56959-5), carte care pe lângă o mulţime de premii literare i-a adus notorietatea şi pentru crearea termenului "cyberspace": "the total interconnectedness of human beings through computers and telecommunication without regard to physical geography... A consensual hallucination experienced daily by billions of legitimate operators, in every nation, by children learning mathematical concepts...a graphical representation of data abstracted from the banks of every computer in the human system. Unthinkable complexity. Lines of light ranged in the nonspace of the mind. Clusters and constellations of data. Like city lights receding..." (op. cit). Termenul a făcut carieră, actualmente fiind o noţiune care din punct de vedere tehnic subsuma conceptul "lnternet"( scris cu majusculă): "cyberspace: The impression of space and community formed by computers, computer networks, and their users; the virtual "world" that Internet users inhabit when they are online The term internet (spelled with a lower case T) is distinguished from the Internet (spelled with the "I" capitalized). The Internet refers to a specific, historic, ubiquitous worldwide digital communication network." (cf. Glossary of Telecommunications, American National Standard T1.523-2001, www.atis.org/ ta2k/ cvberspace.html, 05.08.2002). Dimensiunea tehnică (evocată mai sus) a noţiunii de "ciberspaţiu" este complementată de dimensiunea socio-culturală şi din această perspectivă de problemele "satului global" previzionat de Societatea Informaţională - Societatea Cunoaşterii. Idea atenuării schismei dintre specialiştii din domeniul tehnic şi cei din zona ştiinţelor umaniste în contextul SI-SC este susţinută puternic şi de M. Derouzos [5] , cel care a propus conceptul de "piaţa informaţională", pe care îl consideră mai realist decât cel de "ciberspaţiu". De altfel, dimensiunile socio-culturale ale SI-SC au fost evocate în capitolele 2, 3, 4 şi 6 ale volumului "Societatea Informaţională -Societatea Cunoaşterii. Concepte, soluţii şi strategii pentru România" Printre componentele socio-culturale ale SI-SC, utilizarea limbii materne în mediile de lucru şi comunicare electronice a accesului universal la ciberspaţiu [2, 3, 4] constitue priorităţi absolute. în contextul actual, al comunicării mediate de tehnologia informaţiei şi de telecomunicaţii, limba devine obiect al investigaţiei tehnice. Tehnologia limbajului impune metodologii specifice de cercetare/dezvoltare, dezvoltarea sau adaptarea resurselor lingvistice fundamentale cum ar fi dicţionarele, tezaurele, corpusurile şi gramaticile computerizate, în conformitate cu standardele sau recomandările existente. în funcţie de resursele lingvistice disponibile, de volumul şi calitatea lor, de compatibilitatea codificării lor în raport cu recomandările şi standardele internaţionale etc, se poate vorbi de nivelul de tehnologizare al unei limbi naturale. Nivelul de tehnologizare al unei limbi naturale este în corespondenţă directă cu statutul de limbă de circulaţie electronică. Această sintagmă, o parafrază la expresia limbă de circulaţie internaţională, încearcă să elimine antinomia, pe cât de cunoscută pe atât de goală în conţinut spiritual şi cultural, "limbi mari/limbi mici". Conceptul de "limbă de circulaţie electronică", pe lângă semnificaţia lui directă, are profunde implicaţii culturale, sociale şi nu în ultimul rând economice implicând dreptul fiecărui cetăţean de a avea acces în propria limbă la cunoştinţele, informaţiile şi serviciile ciberspaţiului. Promovarea limbii române în SI-SC presupune informatizarea limbii române ca factor infrastructural fundamental (vector funcţional) precum şi stimularea utilizării curente (prin vectori tehnologici) a limbii române în utilizarea tehnologiilor şi a serviciilor informatice. Acest obiectiv presupune eforturi umane şi materiale substanţiale şi de dimensionarea lor se leagă orizontul de timp al realizării sale. Volumul de faţă reuneşte lucrări ce tratează aspecte specifice prelucrării limbajului natural, în marea lor majoritate cu aplecare directă asupra limbii române. Inerent, volumul de faţă nu poate acoperi întreaga arie problematică a domeniului după cum nici reprezentarea specialiştilor români în domeniul tehnologiei limbajului nu este completă, dar cititorul va găsi un larg evantai de direcţii de cercetare, în care specialiştii români au obţinut rezultate importante. Volumul este structurat în patru părţi (aspecte teoretice şi probleme de terminologie, prelucrarea limbajului scris, prelucrarea limbajului vorbit, dezbateri şi discuţii) care pot fi citite în mod independent, în funcţie de interesul specific al cititorului. Prima parte "Lingvistică teoretică şi formală; terminologie" cuprinde 7 lucrări din domeniul lexicografiei, sintaxei şi terminologiei. în lucrarea "Resurse lingvistice elaborate la Institutul de Lingvistică «lorgu Iordan»" Ioana Vintilă Rădulescu face o trecere în revistă a celor mai importante resurse lingvistice realizate în cei peste 50 de ani de activitate la Institutul de Lingvistică «lorgu Iordan». Angela Bidu-Vrânceanu prezintă în lucrarea "Contribuţia lingvisticii la studiul terminologiilor ştiinţifice" concluziile a trei contracte de cercetare ştiinţifică 12 13 având ca obiect studiul terminologic al limbajului folosit în diverse domenii (matematică, filozofie, mineralogie, arte plastice). Articolul "Gramaticile nontransformaţionale" al lui Emil lonescu face o prezentare generală a gramaticilor bazate pe unificare şi constrângeri precum şi a principalelor realizări, în contextul acestei paradigme, în cercetarea lingvistică din România. Neculai Curteanu propune în lucrarea "Către o teorie X-bar funcţională" o reconsiderare a teoriei clasice X-bar prin perspectiva modelului propriu SCD (Segmentare-Coeziune-Dependenţă). Ana-Maria Barbu prezintă în lucrarea sa "Teoria HPSG: studiu de caz: acordul încrucişat" principalei caracteristice ale teoriei HPSG şi discută în acest context un caz de dependenţă încrucişată specific limbii române, respectiv clauzele relative în care pronumele relativ este precedat de articolul genitival. O serie de probleme legate de terminologia computaţională sunt prezentate în ultimele două lucrări ale primei secţiuni. în articolul" După 10 ani de experienţă terminologică: noul model de date terminologice al TERMROM" Dan Matei prezintă modelul dezvoltat în conformitate cu noile tendinţe şi standarde în domeniu şi adoptat de Asociaţia Română de Terminologie - TERMROM. Lucrarea lui Sorin Geţaru "Probleme de reprezentare a datelor terminografice într-o bază de date relaţională" aduce în discuţie aspecte specifice reprezentărilor standardizate necesare realizării dezideratului de interschimb şi interoperabilitate între diverse tezaure terminologice şi discută elementele distinctive ale standardului ISO-12200 MARTIF (Machine-Readable Terminology Interchange Format). Secţiunea a doua a volumului ("Tehnologii ale limbajului scris") este deschisă de lucrarea lui Dan Tufiş şi Dan Cristea "RO-BALKANET - ontologie lexicalizată în context multilingv pentru limba română" care descrie stadiul dezvoltării unui dicţionar, pentru limba română, structurat ca o reţea semantică, de tip EuroWordNet, rezultat al unui program european ce-şi propune extensia EuroWordnet (în prezent implementat pentru 10 limbi europene) cu încă 5 limbi. Articolul lui Dan Gâlea, Neculai Curteanu şi Cristian Linteş "Algoritmi de segmentare a textului în unităţi de tip clauzal" tratează o problemă delicată a prelucrării limbajului natural, respectiv cea a identificării, în raport cu un anumit criteriu funcţional, a structurilor "clauzale" şi prezintă contrastiv doi algoritmi diferiţi (unul dintre ei aparţinând autorilor), atât prin prisma modelării lingvistice cât şi al performanţei computaţionale. Rada Mihalcea şi Vivi Năstase prezintă în articolul lor o metodă de inserare automată a caracterelor diacritice în texte scrise (cu studiu de caz pentru limba română) fără diacritice şi comentează rezultatele proprii în comparaţie cu cele ale altor metode dezvoltate pentru rezolvarea aceleiaşi probleme. Adriana Vlad şi Adrian Mitrea prezintă în lucrarea lor "Contribuţii privind structura statistică de cuvinte în limba română scrisă" rezultate recente în caracterizarea statistică a limbii române scrise, prin aproximarea ei ca un lanţ Markov ergotic multiplu cu ordin de multiplicitate mai mare decât 30, rezultate obţinute prin analiza riguroasă a unui corpus foarte mare de texte. Articolul "Dezambiguizarea semantică automată în corpusuri paralele" al lui Dan Tufiş prezintă o alternativă la spinoasa problemă a dezambiguizării cuvintelor polisemantice, bazâdu-se pe extragerea cunoştinţele implicite existente într-un corpus multilingv (creat de traducători profesionişti) şi apelând la tehnici şi euristici ale lingvisticii corpusului. Dan Cristea prezintă în articolul "Referenţialitate şi cursivitate în structura discursului" elementele definitorii ale teoriei sale asupra structurii discursive a textelor (teoria nervurilor) şi îşi exemplifică argumentaţia prin analiza dihotomiilor structură-referenţialitate şi structură-coerenţă. în lucrarea "DLIR - un sistem de căutare documentară multilingv" Amalia Todiraşcu prezintă o abordare bazată pe logici terminologice, ontologii şi tehnici de prelucrare a corpusurilor în implementarea unui sistem de regăsire documentară bilingv (română şi franceză). Partea a doua a volumului se încheie cu articolul lui Ştefan Trăuşan-Matu "Mediu hermenofor pentru asistarea învăţării unor concepte într-o limbă străină" care după o prezentare a noţiunilor cu care operează în lucrare, descrie un modul de prelucrare a metaforelor utilizate în limbaje specializate (studiu de caz: limbajul financiar) incorporat într-un sistem de instruire inteligentă în învăţarea conceptelor într-o limbă străină, sistem distribuit dezvoltat în cadrul unui proiect european. Secţiunea a treia a volumului este dedicată problemelor de prelucrare a vorbirii. Corneliu Burileanu şi Luigi Bojan se opresc asupra tehnicilor de recunoaştere a vorbitorului ca etapă distinctă şi strict necesară pentru recunoaşterea automată a vorbirii şi prezintă o parte a rezultatelor obţinute de către autori. Lucrarea lui Dragoş Burileanu "Prelucrarea iniţială a textului de intrare în cadrul unui sistem de sinteză a vorbirii pornind de la text în limba română" abordează problemele sintezei limbajului vorbit pornind de la un text în format electronic şi detaliază etapa de preprocesare a textului ca etapă primară în procesul transformării sale în semnal vocal inteligibil şi coerent. Tot în domeniul sintezei vorbirii se plasează şi lucrarea lui Horia Nicolai Teodorescu "Utilizarea tehnicilor nuanţate (fuzzy) şi de dinamică neliniară pentru 14 15 sinteza adaptivă a vorbirii" ce subliniază rolul esenţial al prozodiei şi al modelării sale algoritmice în realizarea unor sinteze vocale de calitate, purtătoare de informaţie emoţională. Un proiect de anvergură, este prezentat de Dumitru Todoroi, Diana Micusa, Zinaida Todoroi, Ion Lingă, Ion Covalenco, Nicolae Objeleanu, Ştefan Spătaru, Stela Lungu, Virginia Turcanu, Elana Cozlov, Nadejda Ambrozii, Victor Slobodeanu, Igor Coşeru şi Cătălina Suruceanu în lucrarea "Dicţionarele multimedia ale limbii române. Secvenţe de implementări şi experimentări". Secţiunea a treia a volumului se încheie cu lucrarea elaborată de Silviu Bejinariu, Vasile Apopei şi Mariana Roman "Mediu pentru editarea transcrierilor fonetice în Limba Română. Realizarea Atlasului Lingvistic Român pe Regiuni" ce prezintă un instrument ce permite realizarea facilă a transcrierilor fonetice într-un limbaj standardizat (IPA), oferă extensii specifice de adnotare fonetică (realizate până acum manual) şi prefigurează realizarea variantei computerizate a atlaselor lingvistice româneşti. Ultima secţiune a volumului (Dezbateri şi discuţii) conţine trei contribuţii. Prima dintre ele, elaborată de Mihai Drăgănescu, "Asupra a doi vectori funcţionali ai Societăţii Cunoaşterii: Managementul Cunoaşterii şi învăţarea Electronică. Cultura şi Societatea Cunoaşterii" reprezintă liantul dintre volumul precedent (Societatea Informaţională - Societatea Cunoaşterii. Concepte, soluţii şi strategii pentru România, coordonator FI. Gh. Filip) şi volumul de faţă, rafinând clasificarea din lucrarea anterioară şi adâncind o serie de probleme ridicate în [1]. Ultimele două contribuţii reprezintă două puncte de vedere asupra problematicii prelucrării limbajului natural, prima poziţie "între lingvistica matematică şi cea computaţională" fiind susţinută de Solomon Marcus, iar cea de a doua "între lingvistica matematică şi cea computaţională: o altă perspectivă" fiind prezentată de Dan Tufiş. Referinţe bibliografice [1] M. Drăgănescu "Societatea informaţională şi a cunoaşterii. Vectorii societăţii cunoaşterii" în F.G. Filip (coord.) Societatea Informaţională - Societatea Cunoaşterii. Concepte, soluţii şi strategii pentru România. Academia Română, Editura Expert, ISBN 973-8177-42-1, 2001, pp. 43-112 [2] *** The Multilingual Information Society, Report of Commission of the European Communities, COM(95) 486/final, Brusseîs, November 1995. [3] *** Multilingualism in an Information Society, International Symposium organized by EC/DGXIII, UNESCO and Ministry of Foreign Affairs of the French Government, Paris 4-6 December 1997. [4] *** Promotion and Use of Multilingualism and Universal Access to Cyberspace, UNESCO 31st session, November 2001. [5] M. Dertouzos. "What It will Be". Harper Edge. New York,1997 (trad. în Ib. română "Ce va fi", Ed. Tehnică, Bucureşti, 2000). Mulţumiri Coordonatorii acestui volum, mulţumesc tuturor celor care au participat la realizarea proiectului "Strategii şi soluţii pentru societatea informaţională-societatea cunoaşterii în România" derulat cadrul programului naţional INFOSOC. Mulţumiri speciale se cuvin directorului programului INFOSOC, Profesor Doina Banciu, care a susţinut şi a manifestat un interes deosebit faţă de desfăşurarea acestui proiect. Secţiunea I LINGVISTICA TEORETICA SI FORMALĂ; TERMINOLOGIE 19 Resurse lingvistice pentru limba română elaborate la Institutul de Lingvistică "lorgu Iordan" Ioana VINTILĂ-RĂDULESCU Institutul de Lingvistică "lorgu Iordan - Al. Rosetti" Bucureşti, Calea 13 Septembrie 13 e-mail: ioanar@fx.ro 1. Consideraţii generale Numind resursă în general o "rezervă sau sursă de mijloace (materiale sau spirituale) susceptibile de a fi valorificate într-o împrejurare dată"1, înţelegem prin resurse lingvistice pentru limba română izvoarele fundamentale de informaţii cu privire la aceasta, stocate convenabil (chiar dacă încă preponderent în manieră tradiţională) şi care, în calitate de componente ale culturii în sensul cel mai larg, sunt susceptibile de a fi valorificate pentru studierea limbii române, precum şi în diverse scopuri conexe, inclusiv aplicative, în cadrul societăţii informatice actuale. Cât priveşte Institutul de Lingvistică "lorgu Iordan"2, acesta nu mai există formal ca atare, deoarece la începutul anului 2002, printr-o hotărâre de guvern adoptată la propunerea conducerii Academiei Române, s-a produs re-unirea sa şi a Institutului de Fonetică şi Dialectologie "Al. Rosetti". (Spunem reunire întrucât cercetările de fonetică şi de dialectologie formaseră iniţial obiectul unui sector, respectiv al unei secţii a Institutului de Lingvistică din Bucureşti al Academiei Române (înfiinţat în 1949), devenită din 1961 centru şi apoi institut independent.) întrucât în 1998 fusese oficializată, tot prin hotărâre de guvern, propunerea celor două institute, aprobată de Prezidiul Academiei, de a-şi adăuga fiecare în titulatură numele fostului său director, institutul în cadrul căruia cele două nuclee care au fuzionat acum îşi continuă de fapt activitatea poartă numele dublu de Institutul de Lingvistică "lorgu Iordan - Al. Rosetti". Fără îndoială, cele mai numeroase şi mai importante resurse lingvistice pentru limba română s-au realizat la acum fostul Institut de Lingvistică "lorgu *** (1975). Dicţionarul limbii române (DLR). Serie nouă. Tomul IX, Litera R, Bucureşti, s.v. 2 Pentru o imagine de ansamblu asupra activităţii acestui institut şi a istoriei sale v. Mioara Avram, Marius Sala, Ioana Vintilă-Rădulescu (coordonatori) (1999). Institutul de Lingvistică "lorgu Iordan". 50 de ani de existenţă (1949-1999), Bucureşti. 20 21 Iordan", înglobând, până în 1961 direct şi apoi numai indirect, şi contribuţia colegilor foneticieni şi dialectologi3, precum şi, în unele cazuri, în colaborare cu alte institute de specialitate din ţară ale Academiei - Institutul de Lingvistică şi Istorie Literară "Sextil Puşcariu" din Cluj şi Institutul de Filologie Română "Alexandru Philippide" din laşi - şi cu cadre didactice de la facultăţile de profil mai ales ale Universităţii din Bucureşti. Această activitate este continuată şi în noul cadru organizatoric de sectoarele fostului institut, pe care în cele ce urmează îl vom numi, pe scurt, Institutul. 2. Resurse lexicografice Dintre resursele lingvistice tradiţionale dezvoltate până în prezent de Institut, cele mai importante din punctul de vedere care interesează aici sunt cele lexicografice - dicţionarele (mono- şi bilingve) -, activitatea lexicografică din Institut, începută încă de la înfiinţarea sa, desfăşurându-se din 1959 în cadrul unui sector specializat cu acest profil, condus până în 1985 de Mircea Seche, iar de atunci încoace de Ion Dănăilă4. 2.1. Dicţionare monolingve 2.1.1. Dintre dicţionarele româneşti monolingve se distinge, prin anumite trăsături ale sale, dicţionarul "explicativ general academic" intitulat pur şi simplu Dicţionarul limbii române - dar mai cunoscut ca "Dicţionarul Academiei" a cărui realizare se apropie de sfârşit şi care va cuprinde o mare parte a "tezaurului" lexical al limbii române - fără a putea şi nici a intenţiona să includă însă ansamblul cuvintelor româneşti folosite în toate epocile, în toate regiunile şi în toate domeniile5. în ciuda marilor sale calităţi, care sunt bine cunoscute şi asupra cărora nu credem deci că mai este nevoie să insistăm aici, acest dicţionar prezintă un dezavantaj major din punctul de vedere al utilizării sale ca resursă de bază (pe lângă faptul că nu se prezintă şi sub forma unei variante electronice, care nici nu putea fi imaginată până nu de mult) şi anume caracterul său fatalmente neunitar, 3 Aceştia au produs mai ales "resurse" de un tip specializat, concretizate în principal în atlase lingvistice şi în arhiva fonogramică a limbii române, de care nu ne vom ocupa în mod direct aici, dar care, ca şi contribuţiile similare ale altor institute, au avut şi un aport indirect la resursele fundamentale despre care vorbim, printre izvoarele cărora s-au numărat 4 Pentru detalii cu privire la lucrările acestuia v. Ion Dănăilă (1999). Sectorul de lexicologie şi lexicografie, în Mioara Avram, Marius Sala, Ioana Vintilă-Rădulescu, op. cit, p. 98-113. 5 Ideea, relativ utopică şi controversată, a înregistrării şi chiar a descrierii semantice a întregului inventar lexical al limbii române (ILEX) din toate timpurile, incluzând atât numele comune, cât şi cele proprii (v. Ion Dănăilă (1993). Pentru un inventar general al limbii române, în "Limba română" XLII, nr. 2, p. 61-68), nici nu a început a fi pusă în practică. datorat faptului că a fost elaborat pe parcursul a aproape un secol6, de unde marile deosebiri dintre cele două părţi ale sale: cea publicată între 1907 şi 1949 sub conducerea marelui lingvist Sextil Puşcariu şi cea care a început să apară din 1965 şi a cărei publicare se apropie, în fine, de sfârşit. "Seria veche" a dicţionarului academic, desemnat de aceea prin sigla DA, cuprinde literele A-C (inclusiv puţinele neologisme scrise acum cu k-, iar în DA cu c/?-) şi F-J complet, iar literele D şi L parţial (până la cuvântul de, respectiv lojniţă), totalizând 3.142 de pagini de tipar, format mare, dintre ele lipsind în întregime, după cum se observă, litera E. Această primă jumătate a dicţionarului se distinge prin lista de cuvinte, bogată mai ales sub aspectul fondului tradiţional, prin tratarea amănunţită a semantismului, bazată pe numeroase citate, prin dimensiunile şi valoarea comentariului etimologic, precum şi prin traducerea sensurilor în limba franceză7. Desigur, nu aveau cum figura în aceste prime volume numeroasele neologisme încetăţenite în româneşte după elaborarea lor, ilustrarea sensurilor prin utilizarea lor de către autori mai noi şi în general toate aspectele care sunt rodul evoluţiei ulterioare a limbii române, al cercetărilor dialectale, etimologice, filologice etc. mai recente şi al dezvoltării lingvisticii şi metodelor ei, în general. Din 1965 dicţionarul şi-a reînceput apariţia, în format asemănător, ca Serie nouă (de data aceasta sub o siglă diferită, menţionată în titlu, DLR), cu litera M, sub conducerea, la început, a lui lorgu Iordan, Alexandru Graur şi Ion Coteanu, iar actualmente a lui Gh. Mihăilă şi Marius Sala. Noua serie păstrează, în mare, principiile lui Sextil Puşcariu, dar beneficiază de toate avantajele elaborării sale mai aproape de zilele noastre: ea include modificări şi amplificări reflectând evoluţia limbii române, a lexicografiei româneşti şi a studiului limbii române în ansamblu, precum şi a lingvisticii în general, dar nu mai cuprinde, în schimb, traducerea sensurilor (în anii '60 nefiind considerat oportun acest lucru, deşi era util mai ales pentru cunoaşterea limbii române de către străini, fără a fi, este drept, uzual într-un dicţionar monolingv explicativ), iar secţiunea etimologică a fost redusă, dicţionarul păstrându-şi însă caracterul istoric (sensurile sunt date în ordinea atestării lor în texte şi în alte surse)8. Institutul bucureştean a redactat literele M, N, P, S şi Z9 şi este pe cale de a încheia V., printre altele, Marius Sala (1999). Institutul de Lingvistică "lorgu Iordan" la 50 de ani, în Mioara Avram, Marius Sala, Ioana Vintilă-Rădulescu, op. cit, p. 35-37. 7 Pentru o descriere amănunţită a DA v. Mircea Seche (1969). Activitatea lexicografică a lui Sextil Puşcariu, în Schiţă de istorie a lexicografiei române, voi. II, De la 1880 până astăzi, Bucureşti, p. 42-72. 8 V. şi Mircea Seche (1969). Seria nouă a Dicţionarului academic general în Schiţă de istorie a lexicografiei române, voi. II, De la 1880 până astăzi, Bucureşti, p. 72-79. lorgu Iordan, Al. Graur, I. Coteanu (red. resp.) et al. (1965-2000). Dicţionarul limbii române (DLR). Serie nouă, Bucureşti: T. VI, Litera Mt 1965-1968 (apărut iniţial în fascicule); VII, Partea 1, Litera N, 1971; Partea a 2-a, Litera O, 1969] VIII, Litera P.' Partea 1, P-PĂZUI, 1972; Partea a 2-a, PE-PÎNAR, 1974; Partea a 3-a, PÎNĂ-POGRIBANIE, 1977; Partea a 4-a, POGRIJENIE-PRESIMŢIRE, 1980; Partea a 5-a, PRESIN-PUZZOLANĂ, 1984; IX, Litera R, 1975; X. Litera S. Partea 1, S-SCLĂBUC, 1986; Partea a 2-a, SCLADĂ-SEMÎNŢĂRIE, 1987; Partea a 3-a, SEMN-SÎVEICĂ, 1990; Partea a 4-a,% SLAB- 22 23 reluarea şi terminarea literei D absentă din prima parte (trei volume); numai primele patru litere elaborate la Bucureşti însumează 51.847 de cuvinte şi variante, totalizând 5.839 p. Institutului din Cluj i-au revenit literele O, R, T, Ţ (totalizând 2.044 de pagini de tipar), U (aflată sub tipar) şi, din prima parte, reluarea şi terminarea unei părţi din litera L, iar celui din laşi - literele Ş, V (Ş şi prima parte din cele trei ale literei V - singura dintre acestea apărută până acum - totalizând 599 de pagini de tipar), l/V, X, Y, precum şi, din prima parte, elaborarea literei lipsă £ şi reluarea şi terminarea unei părţi din litera L\ pentru etimologii au fost consultaţi specialişti din mai multe centre universitare. Majoritatea literelor au apărut, unele pe sărite (M între 1965 şi 1968, N în 1971, O în 1969, P între 1972 şi 1984, R în 1975, S între 1986 şi 1994, Ş în 1978, T în 1983, Tîn 1994, prima parte din V (până la a veni) în 1997 şi Zîn 2000) - în total 20 de volume -, cu excepţia literelor D, E, K, L, U, a puţinelor cuvinte începând cu litera Q şi a ultimelor părţi ale literei V (începând cu venin), la care se adaugă literele W, X şi Y Deosebirea cea mai importantă constă în tipurile de cuvinte reprezentate în cele două serii: la majoritatea primelor litere ale alfabetului (cu excepţia celor care s-au redactat abia acum), neologismele sunt slab reprezentate, nu numai din cauza faptului că foarte multe nici nu se încetăţeniseră încă în limba română la vremea elaborării volumelor respective, dar şi din cauza reticenţei lui Puşcariu cu privire la acest sector al vocabularului; într-o situaţie asemănătoare se află termenii regionali, deoarece cercetările dialectale se aflau în acea vreme abia la început. Prima parte prezintă în schimb avantajul de a putea servi ca bază pentru o prelucrare bilingvă, întrucât includea şi traducerea sensurilor în limba franceză, la care a trebuit să se renunţe în perioada comunistă. Reluarea şi completarea acestui dicţionar, absolut necesară, nu ni se mai pare astăzi recomiandabil şi nici posibil de realizat prin mijloace tradiţionale (fişe etc), ci exclusiv pe baze informatizate. Ea ar trebui să valorifice, printre altele, şi banca de texte şi cea de inovaţii a limbii române, despre care va fi vorba mai departe. Ar fi necesar ca partea publicată înainte de 1949 să fie reluată şi adusă la zi, cu atât mai mult cu cât puţine persoane şi chiar biblioteci posedă dicţionarul în întregime (chiar în cazul seriei noi, tirajele diverselor litere au fost diferite şi în continuă scădere), iar îmbătrânirea hârtiei în cazul seriei vechi o face fragilă şi greu de consultat. Având în vedere că pentru noua serie a dicţionarului s-au adunat, manual, peste şase milioane de fişe cu extrase şi atestări (dintre acestea, în DLR au fost incluse cea 3.200.000 de citate10, reprezentând aproximativ 88% din totalul textului), este de sperat că la reluarea, într-un viitor mai mult sau mai puţin apropiat, a primei serii se va putea uza de SPONGHIOS, 1992; Partea a 5-a, SPONGIAR-SWING, 1994; XI Partea 1, Litera Ş, 1978; Partea a 2-a, Litera T, T-TOCĂLIŢĂ, 1982; Partea a 3-a, TOCĂNA-TWIST, 1983; XII, Partea 1, Litera Ţ, 1994; XIII, Partea 1, Litera V, V-VENI, 1997; XIV, Litera Z, 2000. ) în legătură cu reflectarea noilor norme ortografice ale limbii române în volumele DLR elaborate după 1993, semnalăm faptul că forma sânt, reflectând un fonetism real, vechi şi popular, este păstrată în citatele în care nu era folosit sunt. avantajele elaborării computerizate, valorificându-se băncile de date în curs de elaborare în institut. Având în vedere diferenţele semnalate (dintre care unele se regăsesc şi între primele şi ultimele litere din seria nouă), este foarte binevenită ideea actualilor responsabili ai DLR de a se publica, pentru operativitate, un Supliment - care se poate realiza relativ mai lesne - "care să înregistreze neologismele adoptate de limba literară de la începutul secolului" 20 "până în prezent, precum şi o serie de cuvinte regionale incluse în atlasele lingvistice şi în culegeri de pe teren sau termeni vechi extraşi din documente ale secolelor al XVI-lea - al XVIII-lea, editate în ultimele decenii"11. 2.1.2. Din motivele expuse mai sus, la care se adaugă şi faptul că DA/DLR este accesibil mai ales specialiştilor şi mai puţin publicului larg, institutul bucureştean pregăteşte între timp, la sugestia conducerii Academiei Române, o sinteză a marelui dicţionar academic, fără citate şi izvoare şi cu un sistem foarte economic de prezentare a informaţiilor lexicografice. Acest Mic dicţionar academic (MDA)12 (care va avea totuşi patru volume), inclus, alături de DLR, printre lucrările fundamentale ale Academiei Române, va avea cea 175 000 de intrări (cea 125.000 de cuvinte şi cea 50.000 de variante); primul volum (A-C) a fost publicat în anul 2001 de editura Univers Enciclopedic. Proiectul Micului dicţionar academic, numit astfel în opoziţie cu "marele" dicţionar academic, şi-a propus să reducă decalajul dintre cele două serii ale acestuia, îmbogăţind primele litere pe baza unor surse lexicografice mai noi. La rândul său, acest nou dicţionar prezintă însă dezavantajul de a fi fost obligat, prin dimensiuni, să renunţe la citatele ilustrative, ceea ce limitează posibilitatea utilizării lui ca sursă de informaţii morfologice, gramaticale şi stilistice; numărul neobişnuit de mare de abrevieri netransparente, utilizate din acelaşi motiv de economie, constituie un argument suplimentar în favoarea realizării unei versiuni electronice a MDA care să permită regăsirea automată a informaţiilor. 2.1.3. Spre deosebire de DA/DLR, o reflectare în general unitară a vocabularului limbii române oferă Dicţionarul explicativ al limbii române13, despre a cărui siglă, DEX, se afirmă, pe drept cuvânt, că a devenit un apelativ; denumirea, care ar fi trebuit protejată prin înregistrare, a fost preluată abuziv de Noul dicţionar explicativ al limbii române publicat pe CD-Rom de firmele Litera în sigla NODEX, sugerând că ar fi "un nou DEX". Prima ediţie, un volum de 1.049 de pagini, cuprinzând 56.569 de cuvinte şi variante, a fost urmată de un Supliment la 11 Marius Sala, G. Mihăilă (2000). Cuvânt înainte, în Dicţionarul limbii române (DLR). Serie ^nouă. Tomul XIV. Litera Z, Bucureşti, p. VI. V. /. Dănăilă (1994). De ce este nevoie de un MDA?, în "Limba română" XLIII, 9-10, p. 397-406 şi Marius Sala (2001). Prefaţa, în Micul dicţionar academic (MDA), voi. I, A-C, ^Bucureşti. I. Coteanu, Luiza Seche, M. Seche (conducătorii lucrării) et al. (1975). Dicţionarul explicativ al limbii române (DEX), Bucureşti. 24 25 Dicţionarul explicativ al limbii române (DEX-S)14. Ediţia a doua a DEX15 totalizează 1.204 pagini; această ediţie, care se publică în continuare în tiraje succesive, totalizase numai în primii patru ani de la apariţie 65.000 de exemplare vândute, după un calcul sumar rezultând că la 42 de locuitori ai României revenea un DEX. Actualmente, se poate într-adevăr afirma că, prin DEX, best-sellerul lingvisticii româneşti, Institutul a intrat în marea majoritate a caselor din România. Se preconizează ca DEX să fie realizat, în fine, într-un viitor relativ apropiat, şi în format electronic. El a fost deja supus, de către Centrul de Cercetări Avansate în învăţarea Automată, Prelucrarea Limbajului Natural şi Modelarea Conceptuală al Academiei Române, codificării conform TEI16. Se estimează că ediţia a lll-a a DEX, concepută sub conducerea lui Ion Dănăilă, va avea în plus faţă de precedenta cea 30.000 de cuvinte. Sub conducerea lui Ion Coteanu şi Ion Dănăilă, la sectorul de specialitate al Institutului a fost conceput şi un Nou dicţionar explicativ al limbii române (NEX), cu caracteristici diferite de cele ale DEX: inventar de cea 100.000 de cuvinte şi variante (deci aproape de două ori mai multe decât prima ediţie a DEX), definiţii mai concise, prin eliminarea sinonimelor şi - din păcate!-, neinclude-rea etimologiei cuvintelor; revizuit de cei doi responsabili, el aşteaptă introducerea în calculator, în vederea efectuării corelaţiilor semantice definiţionale şi sinonimice. 2.1.4. DEX a scos practic din circulaţie dicţionarele explicative mai vechi, limitate la limba română literară, DLRLC şi DM17. Prima siglă reprezintă Dicţionarul limbii române literare contemporane18, elaborat de institutele din Bucureşti şi Cluj pornind de la "baza manuscrisă" a DA şi apărut între 1955 şi 1957 în patru volume. El se mai foloseşte şi astăzi - deşi din el lipsesc cuvintele, sensurile şi citatele neconforme cu ideologia vremii - pentru citatele cu care, spre deosebire de dicţionarele de dimensiuni comparabile mai noi, sunt ilustrate sensurile cuvintelor (chiar dacă, pentru unele neologisme, citatele provin, aşa cum era obligatoriu în epocă, din traducerile "operelor clasicilor" marxism-leninismului!). El mai merită deci atenţie în virtutea faptului că, spre deosebire de DEX şi de MDA, Ion Coteanu, Ion Dănăilă, Nicoleta Tiugan (conducătorii lucrării) et al. (1988). Supliment la Dicţionarul explicativ al limbii române (DEX-S) Bucureşti. J Ion Coteanu, Lucreţia Mareş (sub conducerea) et al. (1996), Dicţionarul explicativ al limbii române (DEX), ediţia a ll-a, Bucureşti. ' Dan Tufiş (2000). Cercetare şi colaborare internaţională în ingineria lingvistică la RACAI, în "Terminologia în România şi în Republica Moldova", Cluj-Napoca, p. 34-36 şi Recherche et collaboration internaţionale en industries de la langue â l'Academie Roumaine, în "Terminometro Hors-serie n° 4. La terminologie en Roumanie et en Republique de Moldova", p. 38-40. 7 Pentru detalii cu privire la aceste două dicţionare v. Mircea Seche (1969). Dicţionarele explicative ale limbii române literare, în Schiţă de istorie a lexicografiei române, voi. II, De la 1880 până astăzi, Bucureşti, p. 135-147. ' D. Macrea, E. Petrovici (sub direcţia) et al. (1955-1957). Dicţionarul limbii române literare contemporane (DLRLC), Editura Academiei, Bucureşti, voi. I, A-C; //, D-L 1956' III M-R 1957; IV, S-Z, 1957. ' ' ' include citate ilustrative, care din păcate au fost eliminate din dicţionarele următoare. 2.1.5. O versiune prescurtată a acestui dicţionar, cu un inventar puţin mărit şi cu adăugarea etimologiei cuvintelor, dar cu eliminarea citatelor, a fost publicată de Institutul din Bucureşti în 1958 sub titlul Dicţionarul limbii române moderne19 (abreviat DM). 2.1.6. Un dicţionar de un tip special, cu o utilitate mult mai largă decât aceea care i se recunoaşte de obicei, elaborat de data aceasta de colectivul de gramatică al Institutului (condus până de curând de Mioara Avram20}, este Dicţionarul ortografic, ortoepic şi morfologic al limbii române (DOOM) \ Este singurul dicţionar al limbii române (mai bogat decât DEX) care conţine ample informaţii cu privire la formele flexionare ale cuvintelor variabile incluse, putând servi astfel (chiar dacă aceste informaţii nu sunt exhaustive) ca sursă pentru studii şi aplicaţii de morfologie. Institutul ar.e în prezent în lucru, sub conducerea subsemnatei, o a doua ediţie, parţial revăzută şi adăugită, a DOOM (care va cuprinde şi cuvinte neînregistrate în nici un dicţionar românesc până în prezent). Aceasta va apărea în anul 2003, inclusiv pe CD-Rom, şi va trebui să servească drept bază unui nou corector ortografic şi morfologic, care să ţină seamă de modificarea unor recomandări oficiale în raport cu cele încă în vigoare. 2.1.7. în fine, un dicţionar mai puţin obişnuit, Dicţionarul invers22, în care cuvintele sunt ordonate alfabetic pornind dinspre sfârşitul lor, este deosebit de util specialiştilor pentru studierea terminaţiilor, a desinenţelor şi a sufixelor, dar şi poeţilor,' fiind utilizabil şi ca dicţionar de rime. Această lucrare - care, spune "legenda", a valorificat experienţa din copilărie a uneia dintre autoare, care folosise în joacă o păsărească de acest fel - ar merita şi ea o nouă elaborare, pe baza unui inventar mai bogat şi actualizat de cuvinte şi a unui program care să permită "răsturnarea" lor automată. 2.1.8. Institutul a publicat, încă din 1968, un dicţionar al lexicului unui autor, primul ales neputând fi altul decât Eminescu - Dicţionarul limbii poetice a lui Eminescu23, care însă, la acea vreme, nu se putea baza, evident, pe stabilirea concordanţelor aşa cum se realizează ea în zilele noastre. 2.1.9. Institutul a elaborat de asemenea o serie de dicţionare ale limbii române pe epoci sau pe probleme, cum sunt Dicţionarul limbii române literare 19 D. Macrea (sub direcţia) (1958). Dicţionarul limbii române moderne, Bucureşti. 20 Pentru activitatea acestuia v. Mioara Avram (1999). Colectivul de gramatică, în Mioara Avram, Marius Sala, Ioana Vintilă-Rădulescu, op. cit., p. 113-125. 21 Mioara Avram (red. resp.) et al. (1982). Dicţionarul ortografic, ortoepic şi morfologic al limbii române (DOGM), Bucureşti, 1982. 22 *** (fgsjy Dicţionar invers, Bucureşti. V. şi Mircea Seche (1969). Schiţă de istorie a lexicografiei române, voi. II, De la 1880 până astăzi, Bucureşti, p. 254-255. 23 Tudor Vianu (sub redacţia) et al. (1968). Dicţionarul limbii poetice a lui Eminescu, Bucureşti. 26 27 vechi24 şi Dicţionarul împrumuturilor latino-romanice în limba română veche25, publicate de sectorul de limbă literară, filologie şi poetică26, condus de Ion Gheţie,' iar în prezent de Alexandru Mareş - şi Dicţionarul elementelor româneşti din documentele slavo-române27, elaborat la sectorul de slavistică28 - dicţionare destinate în primul rând specialiştilor. 2.1. 10. Un cercetător din institut, Constant Mâneca, a publicat, împreună cu Florin Marcu, un extrem de util, cu toate criticile care i s-au adus, Dicţionar de neologisme29, reluat şi dezvoltat, după moartea celui dintâi, de Florin Marcu, în numeroase variante, de diverse dimensiuni, la diferite edituri, inclusiv pe CD-Rom. 2.1.11. Se află în lucru şi Dicţionarul etimologic al limbii române (DELR) -coordonator: Marius Sala -, altă lucrare fundamentală a Academiei Române, la care colaborează cercetători din toate sectoarele Institutului, cercetători din Cluj şi Timişoara şi cadre didactice de la universităţile din Bucureşti, Cluj şi Timişoara. 2.1.12. Pe lângă resursele privitoare la numele comune, Institutul a elaborat şi importante lucrări consacrate numelor proprii30. Astfel, în domeniul toponimiei, după clasica lucrare a lui lorgu Iordan31, s-a realizat în Institut Dicţionarul toponimic al României, partea I, Oltenia32, elaborat sub conducerea lui Gh. Bolocan în colaborare cu cadre didactice de la Universitatea din Craiova, din care au apărut în perioada 1993-2001 primele trei volume, precum şi al doilea dicţionar din serie, consacrat Munteniei şi aflat în curs de definitivare. 24 Mariana Costinescu, Magdalena Georgescu, Florentina Zgraon (1987). Dicţionarul limbii române literare vechi (1640-1780). Termeni regionali Bucureşti. 25 Gh. Chivu, Emanuela Buză, Alexandra Roman Moraru (1992). Dicţionarul împrumuturilor latino-romanice în limba română veche (1421-1760) Bucureşti. 26 V. Ion Gheţie (1999). Colectivul de limbă literară şi filologie, în Mioara Avram, Marius Sala, Ioana Vintilă-Rădulescu, op. cit, p. 132-143. 27 Gheorghe Bolocan (redactor responsabil) et al. (1981). Dicţionarul elementelor româneşti din documentele slavo-române. 1374-1600, Bucureşti. 28 Cu privire la care v. Virgil Nestorescu (1999). Sectorul de lexicografie bilingvă. Fostul sector de slavistică, în Mioara Avram, Marius Sala, Ioana Vintilă-Rădulescu, op cit p 165-174. 29 F. Marcu, C. Mâneca (1961-1978). Dicţionar de neologisme, Bucureşti, 1961; ed. II revăzută şi adăugită, 1966; 31978. V. şi Mircea Seche (1969). Schită'de istorie a Jexicografiei române, voi. II, De la 1880 până astăzi, Bucureşti, p. 154-159. Pentru activitatea în acest domeniu v. Gheorghe Bolocan, Ecaterina Mihăilă (1999). Colectivul de onomastică şi Domniţa Tomescu (1999). Grupul de lucru PatRom, în Mioara Avram, Marius Sala, Ioana Vintilă-Rădulescu, op. cit, p. 125-132. 31 lorgu Iordan (1952-1963). Nume de locuri româneşti în Republica Populară Română Bucureşti, 1952; Toponimia românească, Bucureşti, 1963. 2 Gh. Bolocan (sub redacţia) et al. (1993-2001). Dicţionarul toponimic al României. Oltenia (DTRO), voi. I-III, Craiova, Editura Universitaria. în domeniul onomasticii, de asemenea urmând altei lucrări clasice a lui lorgu Iordan33, Institutul colaborează şi la proiectul internaţional PatRom, care realizează un dicţionar istoric de antroponimie romanică, în care este reprezentată şi limba română, şi din care până acum a fost publicat un prim volum de prezentare34. 2.2. Dicţionare bilingve şi multilingve 2.2.1. Pe lângă dicţionarele monolingve ale limbii române, Institutul a realizat şi unele din cele mai importante dicţionare bilingve35 (englez-român36, german-român37, rus-român38, ceh-român39 şi sârb-român40 - perechea sa, dicţionarul român-sârb, fiind în curs de redactare; un dicţionar francez-român a rămas nepublicat) şi frazeologice (spaniol-român, sub tipar, şi român-spaniol, în curs de elaborare), cărora li se adaugă dicţionare bilingve41 - care au început a fi transpuse şi pe CD-Rom - şi dicţionare frazeologice româneşti42 şi bilingve43 elaborate de unii membri ai Institutului; Dicţionarul elen-român, lucrare colectivă, se apropie şi el de sfârşit. 2.2.2. Institutul a colaborat şi la mai multe dicţionare multilingve44, dintre care se distinge în mod deosebit un lexicon multilingv de un tip special - o adevărată premieră internaţională - Dicţionarul elementelor latineşti savante din limbile romanice, elaborat la sectorul de romanistică (condus iniţial de marele 33 lorgu Iordan (1983). Dicţionar al numelor de familie româneşti, Bucureşti. 34 *** (fQQj) pictionnairehistorique d'anthroponymie romane (PatRom). Presentation d'un projet, Tubingen. 35 V. şi llinca Constantinescu. (1999). Fostul sector de germanistică, în Mioara Avram, Marius Sala, Ioana Vintilă-Rădulescu, op. cit, p. 174-179. 36 L. Leviţchi (red. resp.) etal. (1974). Dicţionar englez-român, Bucureşti. Suplimentul la acest dicţionar, care nu a mai apărut, coordonat de llinca Constantinescu, va fi inclus într-o nouă ediţie, mult mărită, a dicţionarului, aflată sub tipar şi care va reprezenta cel mai bogat dicţionar englez-român. 37 M. Isbăşescu, Măria lliescu (coord. şi revizie) et al. (1966, 1988). Dicţionar german-român, Bucureşti, 1966; ediţia a ll-a revăzută şi îmbogăţită, Bucureşti, 1988. 38 Gheorghe Bolocan (redactor responsabil) (1964). Dicţionar rus-român, Bucureşti. 39 S. Staţi (red. resp.) et al. (1967). Dicţionar ceh-român, Bucureşti. 40 M. Tomici (1998-2000). Dicţionar sârb-român, 3 voi, Timişoara. 41 Gh. Bolocan (1972). Dicţionar bulgar-român, Bucureşti - Sofia; Gh. Bolocan et al. (1980). Dicţionar român-rus, Bucureşti - Moscova; Al. Calciu, C. Duhăneanu, D. Munteanu (1979). Dicţionar român-spaniol, Bucureşti; Ana Canarache (coord.) (1967, 1978). Dicţionar român-francez, Bucureşti, 21978; M. Isbăşescu (red. resp.) (1963), Dicţionar român-german, Bucureşti; Valeria Neagu (2001). Dicţionar român-spaniol (cu transpunere pe CD-Rom), Bucureşti. 42 V. Breban et al. (1969). Dicţionar de expresii şi locuţiuni româneşti Bucureşti. 43 Gh. Bolocan et al. (1968). Dicţionar frazeologic rus-român, Bucureşti; H. Mantsch et al. (1979). Dicţionar frazeologic român-german, Bucureşti. 44 *** flQQiy Dictionnaire de la presse ecrite et audiovisuelle. Espagnol-frangais-italien-portugais-roumain, Paris; *** (2001). Usage Dictionary of Anglicisms in Selected European Languages (UDASEL) Oxford ş.a. 28 29 romanist lorgu Iordan, apoi de Marius Sala şi în prezent de subsemnata)45, în colaborare cu cadre didactice de la Facultatea de Limbi şi Literaturi Străine a Universităţii din Bucureşti şi în coordonarea prof. dr. Sanda Reinheimer Rîpeanu, decanul Facultăţii. Negăsindu-şi un editor "clasic" din cauza costurilor prea ridicate, acest dicţionar va fi publicat direct pe Internet, sub auspiciile Universităţii din Bucureşti. 3. Bănci de date 3.1. Institutul a avut în proiect încă din anii 1978-80 realizarea primei bănci computerizate de date lingvistice din România (Banca de date fono-morfo-semantice a limbii române - BANDASEM)46, cel dintâi modul fiind cel de semantică, proiectat pentru un Dicţionar confruntativ de sinonime, de analogii şi de asociaţii al limbii române (DCSAAs). Redactarea acestuia, care a ajuns la litera S, s-a făcut însă cu mijloace tradiţionale, deşi prin colaborarea cu Centrul de Calcul al Universităţii din Bucureşti se elaborase un modul de program în sistemul Socrate pentru recunoaşterea şi selectarea, ca probă, a analogiilor şi a asociaţiilor cuvântului blitz. Elaborarea DCSAAs a fost întreruptă pentru un timp în favoarea lucrărilor prioritare al Academiei, iar reluarea lui se va putea face, sperăm, cu mijloacele informatice disponibile actualmente47. 3.2. O minibancă iniţiată în cadrul sectorului de gramatică al Institutului, a cărei alimentare a fost din păcate întreruptă în favoarea concentrării forţelor pentru realizarea ediţiei a doua a "Gramaticii Academiei", este Banca de inovaţii a limbii române, bazată pe monitorizarea presei scrise şi audiovizuale actuale. 3.3. Având în vedere că în DOOM informaţia este atomizată, în folosul cititorului neprofesionist, în cadrul fiecărui cuvânt-titlu în parte, dar este greu de sistematizat de către specialist, Institutul are în proiect, începând din 2003, realizarea unui baze de date care să permită nu numai elaborarea unui Nou dicţionar ortografic, ortoepic şi morfologic al limbii române şi a unor dicţionare specializate de un tip asemănător, precum şi aducerea lor permanentă la zi, ci şi gruparea cuvintelor în clase în funcţie de caracteristicile lor fonetice, grafice şi morfologice48. Cu privire la activitatea acestuia v. Marius Sala (1999). Sectorul de limbi romanice şi clasice, în Mioara Avram, Marius Sala, Ioana Vintilă-Rădulescu, op. cit, p. 147-164. 46 Ion Dănăilă (2000). Proiecte de prelucrare electronică a vocabularului limbii române, în "Terminologia în România şi în Republica Moldova", Cluj-Napoca, p. 36-37. 47 Partea de fonetică/grafematică şi de morfologie a BANDASEM a fost cedată institutului L | omolog din Cluj, pentru care v. Felicia Şerban et al. (2000). Baza de date a limbii române, în || "Terminologia în România şi în Republica Moldova", Cluj-Napoca, p. 37-38 şi La base de l| donnees de la langue roumaine, în "Terminometro Hors-serie n° 4. La terminologie en j Roumanie et en Republique de Moldova", p. 40 -42. || 48 Clasificarea cuvintelor româneşti conform modului lor de flexiune, realizată de Alf II Lombard, Constantin Gâdei (1981). Dictionnaire morphologique de la langue roumaine, 3.4. Institutul are în proiect şi elaborarea sau definitivarea unor resurse terminologice49 (dicţionare terminologice bi- şi multilingve, valorificând cele elaborate în cadrul proiectului PRACTEAST din cadru programului COPERNICUS al Comisiei Europene50 şi un dicţionar al termenilor oficiali); de altfel, mai mulţi membri ai Institutului au colaborat la realizarea Băncii de date terminologice (BDT) multilingve a Asociaţiei Române TermRom51, care, cu sprijinul Direcţiei de terminologie şi inginerie lingvistică a Uniunii Latine, este accesibilă pe site-ul TermRom găzduit de CIMEC (http://www.cimec.ro/tr) şi, de curând, şi pe CD-Rom. Reprezentarea României (prin subsemnata) în Reţeaua Panlatină de terminologie (Realiter)52 şi în Reţeaua Francofonă de Amenajare Lingvistică (Rifal)53 vor constitui desigur un sprijin în dezvoltarea resurselor terminologice pentru limba română în conformitate cu normele şi recomandările internaţionale. Lund - Bucureşti, bazată pe inventarul DEX1f prezintă unele inexactităţi din cauza insuficientei cunoaşteri de către autori a limbii române actuale; ea constituie una din bazele realizării, în Republica Moldova, a unui pachet de programe destinat elaborărilor de nivel morfologic, pentru care v. Elena Boian et al. (2000). Instrumentar pentru aplicaţii lingvistice, în "Terminologia în România şi în Republica Moldova", Cluj-Napoca, p. 38-40 şi Instruments pour applications linguistiques, în "Terminometro Hors-serie n° 4. La terminologie en Roumanie et en Republique de Moldova", p. 42-44; o grupare pe tipuri a unui număr limitat de cuvinte ale limbii române a fost realizată de Flora Şuteu, Elisabeta Şoşa (1999) în îndreptar ortografic şi morfologic; Bucureşti. } V. Ioana Vintilă-Rădulescu (1999). Institutul de Lingvistică "lorgu Iordan" din Bucureşti, în "Terminologia în România şi în Republica Moldova", Cluj-Napoca, p. 13-15, şi L'lnstitut de Linguistique lorgu Iordan de Bucarest, în "Terminometro Hors-serie n° 4. La terminologie en Roumanie et en Republique de Moldova", p. 22-23. } Nicoleta Petuhov. (2000). Colaborarea românească la proiectul PRACTEAST, în "Terminologia în România şi în Republica Moldova", Cluj-Napoca, p. 58-59 şi La collaboration roumaine au projet Practeast, în "Terminometro Hors-serie n° 4, La terminologie en Roumanie et en Republique de Moldova", p. 64-66. 1 Dan Matei (2000). Banca de date terminologice a TermRom, în "Terminologia în România şi în Republica Moldova", Cluj-Napoca, p. 29-30 şi La banque de donnees terminologiques de TermRom, în "Terminometro Hors-serie n° 4, La terminologie en Roumanie et en ^Republique de Moldova", p. 32-33. 1 Dan Matei (2000). Prezenţa românească în reţeaua panlatină de terminologie (Realiter), în "Terminologia în România şi în Republica Moldova", Cluj-Napoca, p. 56-58 şi La presence roumaine dans le Reseau panlatin de terminologie Realiter, în "Terminometro Hors-serie n° 4. La terminologie en Roumanie et en Republique de Moldova", p. 63-64. 3 Ioana Vintilă-Rădulescu (2000). Colaborarea în cadrul ACCT/Agenţiei Interguverna-mentale a Francofoniei şi al Rifal, în "Terminologia în România şi în Republica Moldova", Cluj-Napoca, p. 51-52 şi La cooperation dans le cadre de l'ACCT (Agence Intergouvernementale de la Francophonie), în "Terminometro Hors-serie n° 4. La terminologie en Roumanie et en Republique de Moldova", p. 57-58. 30 31 4. Corpusuri O altă categorie importantă de resurse lingvistice o constituie corpusurile, la Institut fiind în curs de realizare o Bancă de texte româneşti, care cuprinde texte din secolele al XVI-lea - al XVII Mea, introduse integral în calculator, şi în care se prevede introducerea câtorva sute de texte din toate epocile. Iniţiată de directorul institutului, acad. Marius Sala, Banca a fost deja valorificată în elaborarea unor teze de doctorat, printre altele la aceea a Janei Balacciu-Matei. Pentru exploatarea ei deplină în vederea identificării primelor atestări ale cuvintelor limbii române din fondul vechi, necesare MDA şi Dicţionarului etimologic al limbii române (DELR), a îmbogăţirii dicţionarelor limbii române în general şi a dezvoltării studiilor privind istoria limbii române literare şi a limbii noastre în ansamblu este necesară achiziţionarea unor programe de ultimă oră, precum şi specializarea unor persoane pentru utilizarea lor eficientă. Sperăm de asemenea că într-un viitor nu prea îndepărtat se va realiza şi dorita joncţiune cu Banca de texte din faza modernă şi contemporană a limbii române, proiectată a se realiza la Centrul de Studii Româneşti de pe lângă Universitatea din Anvers, inaugurat în primăvara anului 2000 sub conducerea cunoscutei romaniste şi romaniste Liliane Tasmowski. 5. Resurse bibliografice Amintim pe scurt şi principalele resurse bibliografice privitoare la limba română elaborate de Institut sau de membri ai acestuia54. Bibliografia limbii române, iniţiată de Al. Rosetti şi definitivată de Aurel Nicolescu, a rămas nepublicată. Bibliografia românească de lingvistică (BRL) referitoare la lucrările de lingvistică apărute în ţară începând din 1944 apare anual în revista "Limba română"; în 1999, ea totalizase deja 64.340 de titluri, în peste 3.300 de pagini de tipar; se preconizează introducerea în calculator a tuturor numerelor din BRL în vederea publicării unui volum cu itemurile ordonate pe autori şi pe domenii (descrise şi separate mai amănunţit decât în forma apărută, cronologic, cu indice de domenii, materii, cuvinte, autori etc). Pentru domeniul terminologiei s-au realizat bibliografii ale dicţionarelor terminologice, respectiv ale studiilor de terminologie55 şi ale standardelor româneşti de/cu terminologie56, precum şi un repertoriu bio-bibliografic al terminologilor '1. Coteanu, I. Dănăilă (1970). Introducere în lingvistica si filologia românească Probleme. Bibliografie, Bucureşti; T. Vianu (red. resp.) et al. (1972). Bibliografia analitică a limbii române literare. 1780-1866, Bucureşti; Gh. Chivu, Mariana Costinescu (1974). Bibliografia filologică românească. Secolul al XVI-lea, Bucureşti. ' Anca Fezi et al. (2000). Bibliografia lucrărilor de terminologie (1990-1999). România, în "Terminologia în România şi în Republica Moldova", Cluj-Napoca, p. 103-113 şi pe discheta anexată revistei Terminometro Hors-serie n° 4. La terminologie en Roumanie et en Republique de Moldova". 'Aurora Peţan, EdySăvescu (2000). Standarde româneşti de/cu terminologie (1990-1999). România, în "Terminologia în România şi în Republica Moldova", Cluj-Napoca, 2000, p. din România57, inclus în repertoriul internaţional al terminologilor din domeniul neolatin pregătit de Uniunea Latină şi accesibil pe Internet. 6. Concluzii Nu ne vom referi aici la alte tipuri de lucrări (gramatici58, tratate59, enciclopedii60 etc.) elaborate de Institut sau de cercetători ai acestuia ori la alte tipuri de resurse care ar merita să fie elaborate de noul institut, pentru a înlocui lucrări mai vechi şi a valorifica posibilităţile oferite culturii de societatea informaţională, de exemplu un nou dicţionar de frecvenţă al limbii române ş.a. Deşi dicţionarele pe CD-Rom şi cele pe Internet sunt solicitatete de tot mai mulţi utilizatori din ţară şi din străinătate, care cer tot mai des informaţii cu privire la eventuale dicţionare româneşti on-line, până în prezent a existat la noi o anumită reticenţă a editurilor proprietare ale drepturilor asupra ediţiilor pe suportul tradiţional de hârtie faţă de acest nou mod de difuzare. Nu trebuie însă să existe temerea că folosirea şi a noilor suporturi ar diminua vânzarea cărţilor, în condiţiile în care, în ciuda tuturor eforturilor, un procent încă infim din populaţia Românei are acces la PC-uri. De altfel, practica altor ţări a arătat că, în mod neaşteptat, difuzarea şi în format electronic chiar a sporit desfacerea cărţilor, cărora le-a făcut în felul acesta reclamă şi care prezintă, la rândul lor, alte avantaje în utilizare în raport cu CD-Romurile, cele două tipuri specializându-se şi în funcţie de necesităţi. Astfel, având în vedere culegerea lor computerizată, atât DEX, cât şi MDA şi DOOM ar putea fi primele dicţionare ale Institutului difuzate în viitor şi pe CD-Rom. Credem că şi diverse lucrări valoroase ale Institutului, care, exclusiv din motive financiare, nu-şi găsesc editori de ani de zile, nici în ţară, nici în străinătate (ca Bibliografia limbii române, Dicţionarul spaniolei americane ş.a.), ar putea fi 117-126 şi pe discheta anexată revistei Terminometro Hors-serie n° 4. La terminologie en Roumanie et en Republique de Moldova". 57 Adriana Marinescu (2000). Repertoriul bibliografic al terminologilor. România, în "Terminologia în România şi în Republica Moldova", Cluj-Napoca, 2000, p. 128-139 şi pe discheta anexată revistei Terminometro Hors-serie n° 4. La terminologie en Roumanie et en Republique de Moldova". 8 *** (1954, 1963). Gramatica limbii române, Bucureşti, ed. I, 1954; ed. a ll-a, revăzută şi adăugită, 1963; Mioara Avram (1986, 1997, 2001). Gramatica pentru toţi, Bucureşti, 1986; s 21997;32001. 59 Al. Rosetti (redactor responsabil) et al. (1965, 1969). Istoria limbii române. Bucureşti, voi. I. Limba latină, voi. al ll-lea; Al. Graur, Mioara Avram (1970-1989). Formarea cuvintelor în limba română, Bucureşti: I. Fulvia Ciobanu, Finuţa Hasan (1970). Compunerea; //. Mioara Avram et al. (1978). Prefixele, 1978; III. Laura Vasiliu (1989). Sufixele, 7. Derivarea 6Qverbală etc. Marius Sala, Ioana Vintilă-Rădulescu (1981). Limbile lumii. Mică enciclopedie, Bucureşti; (1984). Les langues du monde. Petite encyclopedie, Bucureşti - Paris; Marius Sala (coord.) etal. (1989). Enciclopedia limbilor romanice, Bucureşti; (2001), Enciclopedia limbii române, Bucureşti. 32 33 valorificare prin aducerea lor la cunoştinţa celor interesaţi pe această cale, tot mai utilizată în societatea informaţională actuală. O condiţie pentru viitor este realizarea din capul locului a lucrărilor institutului pe calculator, care a devenit posibilă prin tot mai buna dotare tehnică a Institutului, realizată prin eforturile directorului său, precum şi prin însuşirea, de către un număr tot mai mare de cercetători din Institut, în special din generaţiile tânără şi mijlocie, a cunoştinţelor de operare pe calculator, inclusiv, în unele cazuri, a lucrului cu baze de date. Prin realizarea proiectelor de editare pe CD-Rom şi pe Internet vom recupera relativa întârziere în acest domeniu faţă de difuzarea în România, de către Grupului Editorial Litera din Republica Moldova şi firma Litera Internaţional, cu sediul în Bucureşti, a unor CD-Romuri cuprinzând, în diverse combinaţii, mai multe titluri61. Sperăm că CD-Romurile consacrate unor dicţionare ale Institutului vor fi, deşi tot protejate, mai uşor de instalat decât cele de la Litera şi că vor oferi mai multe facilităţi în utilizare decât acestea, care nu sunt foarte practice, mai ales pentru cercetători, în ciuda structurii lor modulare şi a interfeţei lor comune, despre care în reclamă se spune că permit activarea simultană a tuturor dicţionarelor. Pentru progresul cercetărilor şi dezvoltarea şi prelucrarea resurselor la nivelul exigenţelor pe plan mondial, credem că în viitor se impune o mai bună colaborare, în interes reciproc, între lingvişti şi informaticienii preocupaţi de probleme asemănătoare. Corectorul electronic ORTO 2001 ROM SP, Dicţionarul ortografic al limbii române, Gramatica uzuală a limbii române, Noul dicţionar explicativ al limbii române^ Marele dicţionar de neologisme de Florin Marcu, Dicţionarul de dublete etimologice ale limbii române de Marcu Gabinschi şi un Dicţionar de termeni de afaceri englez-român. Contribuţia lingvisticii la studiul terminologiilor ştiinţifice Angela BIDU-VRÂNCEANU Universitatea din Bucureşti, Edgar Quinet nr. 5-7 vrancean@gpsnet.ro 1. Se admite "laicizarea" ştiinţelor [1] sau importanţa lor socio-culturală, economică şi pedagogică tot mai mare în societăţile moderne. Aceasta înseamnă că limbajele specializate şi terminologiile lor nu mai reprezintă coduri total inaccesibile vorbitorilor obişnuiţi, nespecializaţi sau de altă specialitate. în direcţia deschiderii, chiar şi parţiale a codurilor ştiinţifice, dicţionarele generale [2], care includ un număr destul de mare de termeni ştiinţifici joacă un rol deosebit pentru a asigura accesul la sensul specializat oricărui vorbitor insuficient informat, pentru a-l ajuta să rezolve ambiguităţile de diferite tipuri şi chiar să utilizeze adecvat o terminologie. Permanenta raportare la dicţionarele generale ca forme instituţio-nalizate de reglare a uzului nu numai al cuvintelor din limba comună, ci şi a termenilor specializaţi constituie premisa de la care pornim pentru a susţine importanţa lingvisticii în descrierea terminologiilor ştiinţifice, în receptarea şi utilizarea lor adecvată chiar şi de către nespecialişti. Pe aceste poziţii s-a situat activitatea în cadrul a trei contracte de cercetare ştiinţifică pe anii 1997, 1999 şi 2000, finanţate de CNCSIS (Consiliul Naţional de Cercetare Ştiinţifică). Au fost studiate limbajul filozofic, terminologiile matematică, mineralogică şi din artele plastice şi, dintr-o perspectivă mai limitată medicina, lingvistica şi ştiinţele politice. Rezultatele cercetărilor au fost publicate în două volume: Lexic comun, lexic specializat [3], care conţine studii cu caracter monografic şi Lexic ştiinţific interdisciplinar [4], reprezentând o sinteză a lexicografiei generale şi specializate pentru termenii din fiecare dintre domeniile studiate care apar mai mult decât într-o terminologie ştiinţifică. în toate cercetările întreprinse s-a urmărit adoptarea unei grile metodologice comune atât pentru clase de cuvinte din limba comună (abstractele), cât şi pentru termenii specializaţi din orice domeniu. S-a obţinut atât caracterizarea fiecărei terminologii studiate în parte, cât şi desprinderea unor trăsături generale ale terminologiilor ştiinţifice, relevante din punct de vedere lingvistic. S-au avut în vedere aspecte paradigmatice privind diferitele modalităţi de definire a sensului, relaţiile semantice (monosemie/polisemie, hiponimie, sinonimie) din perspectiva necesităţii ca termenii ştiinţifici să fie monoreferenţiali, univoci din punct de vedere 34 35 semantic şi să nu aibă sinonime. Analiza sintagmatică a gradului de non-determinare contextuală ca o condiţie de exprimare a sensului specializat a individualizat terminologiile ştiinţifice studiate, de la o libertate contextuală mai mare (terminologia matematică, mineralogică) sau relativă (terminologia filozofică) până la o strictă determinare contextuală (terminologia politică şi din artele plastice). Acolo unde independenţa contextuală e mai mare, determinările contextuale exprimă în mod similar în diferite terminologii (matematică, filozofică, lingvistică) subcategorii ştiinţifice care dezambiguizează lexicul ştiinţific intedisci-plinar. Caracterizarea termenilor ştiinţifici prin mărci diastratice în dicţionarele generale şi enciclopedice ca tipuri de informaţii sintagmatice reprezintă un aspect foarte important pentru uzajul adecvat de către specialişti, aspect deficitar, inegal rezolvat. De pe poziţia receptorului nespecializat care decodează sensul total sau parţial, un rol important îl are definiţia lexicografică care, spre deosebire de cea terminologică trebuie să fie mai mult sau mai puţin naturală şi prin aceasta accesibilă. Existenţa celor două tipuri de definiţii ale termenilor specializaţi este în general admisă şi compararea lor este favorizată de prezentarea sintetică, sinoptică propusă de noi [4]. Chiar şi în cazul definiţiilor strict terminologice, Em. Vasiliu [5] a susţinut şi demonstrat prin diferite exemple relevanţa diferită a unor componente de sens pentru vorbitorul specialist sau non-specialist. Pornind de la aceste constatări de principiu, ar fi justificat ca termenii ştiinţifici să aibă definiţii alternative, ştiinţifice şi pre-ştiinţifice [6], condiţionate atât de o interpretare semantică, cât şi de una pragmatică. Din această perspectivă, definiţiile termenilor ştiinţifici în dicţionarele generale ar trebui să difere de cele din dicţionarele specializate pentru a facilita deschiderea codurilor ştiinţifice şi pentru a dezambiguiza lexicul ştiinţific interdisciplinar (din principiu, de interes mai larg) sau tangenţele cu limba comună. Din păcate, cu mici excepţii (matematica) selecţia termenilor ştiinţifici şi definirea lor nu diferă aproape deloc în dicţionarele generale şi în cele specializate. 2. Din perspectivă lingvistică, terminologiile investigate prezintă o serie de particularităţi: Matematica se caracterizează prin cel mai mare grad de abstractizare şi de ermetism la nivelul sensurilor şi definiţiilor lor. Compararea definiţiilor specializate cu cele din dicţionarele generale arată că acestea din urmă definesc diferit şi mai accesibil termenii, fără a afecta precizia lor semantică. Sensurile univoce, fără sinonime nu sunt condiţionate contextual; sintagmele mai mult sau mai puţin fixe diferenţiază subcategorii conceptuale ( de ex. sistem de ecuaţii, ~ de curbe, ~ de numeraţie, ~ de referinţă) şi nu afectează independenţa semantică a acestora. Această terminologie dispune de cea mai bună marcare diastratică în DEX, chiar dacă există numeroase situaţii în care apartenenţa la matematică rezultă numai din definiţie (manieră de caracterizare practicată sistematic şi nu întotdeauna convenabil de DEX în cazul altor terminologii). Matematica are cel mai bogat lexic ştiinţific interdisciplinar, cei mai numeroşi termeni comuni fiind cu fizica, filozofia, logici, dar şi cu lingvistica, biologia, arhitectura ş.a.; termenii interdisciplinari îşi păstrează aproape neschimbat sensul, indiferent de domeniul în care se utilizează. Dacă în unele cazuri (relaţia cu fizica, logica, filozofia) punctul de plecare pentru lexicul interdisciplinar nu se poate stabili cu certitudine, în destule alte situaţii, matematica este sursa "împrumutului" făcut de alte ştiinţe (arte plastice, arhitectură, lingvistică ş.a.) Mineralogia reprezintă şi ea un grad mare de ermetism sau închidere a codului, majoritatea termenilor fiind univoci semantic, monoreferenţiali şi implicit, independenţi contextual. Determinările contextuale reprezintă subtipuri, ca şi în alte terminologii (matematică, filozofie de ex.; acvamarin brazilian, ~ sintetic, ~ siamez, etc.) Are un număr mai limitat de termeni comuni cu alte ştiinţe (chimia, artele plastice, simbolistica) şi, cel puţin pentru ultimele două, mineralogia este punctul de origine al termenilor interdisciplinari. în ciuda caracterului strict specializat al acestei terminologii, marcarea diastratică din dicţionarele generale este deficitară. Terminologia filozofică se caracterizează printr-un grad oarecare de ambiguitate, determinat de variaţii de interpretare în funcţie de curente şi tipuri de texte, dar şi de contactele cu alte ştiinţe sau cu limba comună. De aceeadefiniţiile termenilor filozofici nu se pot limita la dicţionare, fiind necesară analiza strategiilor argumentative şi a figurilor textuale; Invers proporţional cu această necesitate de dezambiguizare, DEX-ul prezintă o marcare diastratică deficitară atât pentru termenii filozofici, cât şi pentru celelalte terminologii cu care se stabilesc interdisciplinarităţi, cum ar fi matematica, lingvistica şi alte domenii umaniste. O bună parte a lexicului ştiinţific interdisciplinar are ca punct de plecare filozofia, al cărei sens se păstrează ca o medie semantică în majoritatea disciplinelor. Ca şi în alte ştiinţe, determinarea contextuală exprimă în general subtipuri (de ex. sistem al ştiinţelor, ~ axiomatic, ~ filozofic). Terminologia artelor plastice prezintă aspecte paradoxale. Maniera de înregistrare şi de definire echivocă, imprecisă a acestor termeni în dicţionarele generale dă impresia unui nespecialist de falsă accesibilitate, interpretare contrazisă categoric de definiţiile precise, riguroase din dicţionarele şi textele specializate. Dependenţa contextuală strictă a numeroşi termeni din artele plastice, al căror sens specializat e condiţionat de sintagmele fixe în care apare (de ex. acord cromatic, compoziţie de gen, semn plastic) reprezintă o altă caracteristică a acestei terminologii. Artele plastice au un lexic ştiinţific interdisciplinar bogat, în care se remarcă faptul că sunt preluaţi cu unele modificări semantice (privind interesul pentru acest domeniu) termeni din alte ştiinţe, cum ar fi chimia, mineralogia, matematica, fizica. DEX-ul nu utilizează decât mărcile diastratice (pictură), (sculptură) dispuse nesistematic şi rar, ceea ce contribuie la o tratare deficitară a acestei terminologii. 36 37 Lexicul ştiinţelor politice prezintă, din prespectiva analizei întreprinse de noi, o serie de particularităţi (unele asemănătoare cu artele plastice). Se remarcă dependenţa contextuală strictă a acestei terminologii, nici unul dintre termeni nefiind total liber contextual. Sensul specializat în ştiinţele politice se exprimă, deci, aproape exclusiv pe cale sintagmatică, în contexte mai mult (celulă de criză, agregare de interese, de ex.) sau mai puţin fixe (diverse combinaţii cu adjectivul politic în sintagme nominale: capital politic, cartel ~ algoritm ~, contract ~, dialog ~ alternanţă politică). Preia (fără să fie niciodată punct de plecare termeni din numeroase şi variate ştiinţe: economia, filozofia, dreptul, dar şi lingvistica, biologia, medicina, geografia, fizica, psihologia, sportul. în majoritatea acestor cazuri nu există o motivare de conţinut strictă (dincolo de întrebuinţarea metaforică), ceea ce determină, în mare parte, mai curând un lexic ştiinţific interferent decât unul interdisciplinar. Poate şi din cauza modificărilor continue şi rapide din domeniul politicii, DEX-ul înregistrează în mică măsură termeni şi sensuri din acest domeniu diastratic, ceea ce constituţie un dezavantaj în impunerea acestei terminologii. 3. Analiza lingvistică a limbajelor ştiinţifice (care ar putea fi extinsă) permite caracterizarea unor terminologii ca "puternice" (matematica, mineralogia de ex.), iar a altora mai "slabe" în diferite forme şi grade (de ex. ştiinţele politice, artele plastice), cu dificultăţi mai mari de deschidere a codurilor în cazul primei categorii. Delimitarea componentelor de sens relevante diferit în funcţie de vorbitori specializaţi şi nespecializaţi ar putea constitui o bază obiectivă pentru rezolvarea mai eficientă a definiţiilor alternative în dicţionarele generale, foarte importante în "laicizarea" ştiinţelor necesară în grade diferite în epoca actuală. Exprimarea sensului specializat condiţionat de dependenţele contextuale mai mici (pentru terminologiile "puternice") sau mai mari (pentru terminologiile "slabe") constituie o caracterizare lingvistică relevantă. în schimb, în unele cazuri (ca pentru terminologia politică), determinările contextuale sunt mai favorabile, "transparenţei" semantice sau deschiderii codurilor specializate. Analiza lexicului ştiinţific interdisciplinar (LSI) poate contribui şi ea la determinarea specificului unor terminologii. Ştiinţele care constituie sursa, punctul de plecare pentru o parte a LSI îşi susţin, şi pe această cale, statutul de terminologie "puternică" (de ex. matematica, fizica şi, din acest punct de vedere filozofia). Dimpotrivă, atunci când punctul de plecare nu se poate stabili aproape niciodată la nivelul unor terminologii (ştiinţele politice, artele plastice), aceasta constituie o modalitate de determinare specifică. Diferenţierea interdisciplinarităţilor (cu o motivare de conţinut determinată de considerarea referentului din diferite puncte de vedere sau de un transfer conceptual) de simplele interferenţe (mai puţin sau deloc motivate, cu modificări de sens ale termenilor, multe metaforice) se bazează pe aprecierea distanţei semantice, verificată obiectiv. Dat fiind rolul dicţionarelor generale în impunerea şi extinderea terminologiilor ştiinţifice, de interes pentru diferite categorii de vorbitori, carenţele constatate în tratarea sensului şi în marcarea lor diastratică riguroasă conduc la concluzia necesităţii unei reconsiderării şi remedieri a manierei de tratare din perspectiva "laicizării" ştiinţelor. Referinţe bibliografice [1] F. Rastier (1995) Le terme; entre ontologie et linguistique. Banque des mots 1995/7, p. 35-65. [2] DEX - Dicţionar explicativ al limbii române, (1996) ed.a 2-a sub coord. acad- I. Coteanu şi Dr. Lucreţia Mareş, Ed. Univers Encilopedic, Bucureşti 1996. [3] A. Bidu-Vrânceanu - coordonator (2000). Lexic comun, lexic specializat, Editura Universităţii din Bucureşti, 2000, cu colaboratorii: Alice Toma (matematică), Silvia Săvulescu (mineralogie), Claudia Ene (filozofie), Alexandra Vrânceanu (arte plastice). [4] A. Bidu-Vrânceanu - coordonator (2001). Lexic ştiinţific interdisciplinar, Editura Universităţii din Bucureşti, 2001, cu colaboratorii: Silvia Săvulescu (ştiinţe politice şi mineralogie), Alice Toma (matematică),Claudia Ene (filozofie), Alexandra Vrânceanu (arte plastice). [5] Em. Vasiliu (1980). Sens şi definiţie lexicografică "Studii şi cercetări lingvistice", an XXXI, 465, 1980. 6] Em. Vasiliu (1982/1983). Adevăr analitic şi definiţie lexicografică "Analele ştiinţifice ale Universităţii "Al. I Cuza" din laşi", secţiunea III, tom XXVIII/XXIX, 1982/1983. 39 Gramaticile generative nontransformationale Emil IONESCU Universitatea Bucureşti, Facultatea de Litere Str. Edgar Quinet nr. 5-7, Email: eionescu@racai.ro Acest articol este o prezentare generală a gramaticilor generative nontransformationale (GNT) şi a prezenţei lor în cercetarea lingvistică din România. în prima secţiune a articolului este descrisă geneza acestor gramatici. în secţiunea a doua, sunt prezentate pe scurt caracteristicile lor, în timp ce în partea treia şi a patra se menţionează principalele realizări ştiinţifice şi formele de existenţă instituţională ale curentului. Partea a cincea este consacrată iniţiativelor şi paşilor care au dus la pătrunderea acestor gramatici în mediile ştiinţifice de la noi. Concluziile articolul se vor a fi o pledoarie în sprijinul eforturilor de dezvoltare a acestei direcţii în cultura ştiinţifică românească. 1. Gramaticile generative nontransformationale: apariţia lor Gramaticile generative nontransformationale reprezintă, în interiorul lingvisticii formale contemporane, o direcţie extrem de influentă şi de un remarcabil dinamism. Istoria acestei direcţii este, desigur, mai recentă decât istoria generativismului din care face parte. Este însă o istorie deja bogată şi diversă. Printre altele, diversitatea se exprimă şi prin faptul că suntem obligaţi să vorbim despre gramatici şi nu despre o gramatică nontransformaţională, pur şi simplu. Putem plasa începuturile acestei istorii la cumpăna dintre anii 70 şi '80. Sunt anii când programul gramaticii universale al lui Noam Chomsky este pe punctul să depăşească starea de impas atinsă prin faza denumită de istoricii mişcării "teoria standard". Privită din perspectiva prezentului, lucrarea din 1981 a lui Chomsky ("Lectures on Government and Binding") tocmai acest lucru îl subliniază: depăşirea crizei prin propunerea unui model nou de gramatică universală. Punctele în care gramatica universală este reformulată în cadrul modelului "Government and Binding" (GB) nu sunt puţine şi nici neînsemnate. Dar cea mai importantă modificare a fost operată într-una din componentele care născuse iniţial cele mai mari speranţe: componenta transformărilor. Formulată succint, regândirea 52177^ 40 41 conceptului de transformare în cadrul modelului GB înseamnă două lucruri: simplificare şi îngrădire. Simplificare, deoarece marea varietate de transformări se reduce acum la o singură operaţie: deplasarea unui constituent oarecare a. Şi îngrădire, pentru că deplasarea nu se poate produce oricum, ci numai în condiţiile în care anumite reguli foarte generale, numite principii, sunt respectate. Nu toţi adepţii generativismului au fost însă mulţumiţi cu noua propunere. Ceea ce s-a reproşat a fost că transformările rămâneau mai departe mecanisme prea puternice - în ciuda îngrădirilor şi a simplificărilor - deoarece ele operau pe un domeniu prea larg: cel al structurilor sintactice. O altă obiecţie viza temeiurile mentale ale operaţiei de deplasare: în ciuda plauzibilităţii aparente a acestei ipoteze, nu există dovezi - susţineau criticii - că mintea implicată în utilizarea limbajului ar face uz de o astfel de operaţie. în sfârşit, existau cercetători care considerau că noul model de gramatică universală era greoi din punct de vedere computaţional, tocmai din cauza operaţiei de deplasare: anume, pentru fiecare deplasare de constituenţi, este necesară o verificare a compatibilităţii dintre principii şi deplasarea constituentului. în ansamblu, divergenţele legate de conceptul de transformare au pregătit cea mai mare ruptură pe care a cunoscut-o în istoria sa curentul gramaticii universale. Criticii radicali ai conceptului de transformare au propus renunţarea la acest mecanism, propunere pe care Chomsky şi cei ce l-au urmat nu au acceptat-o niciodată. începând cu anul 1981, ruptura se oficializează. Apar pe rând Gramatica Lexico-Funcţională (LFG - Bresnan şi Kaplan), Gramatica Sintagmatică Generalizată (GPSG - Gazdar, Klein Pullum şi Sag), Gramatica Arborilor Adăugaţi (TAG - Joshi), Gramatica Centrilor de Sintagmă (HPSG - Pollard şi Sag), Gramaticile Categoriale de Unificare (CUG- Uzkoreit) trăsătură (atribut)-valoare, orice fel de informaţie lingvistică - fonologică, morfologică, sintactică semantică, pragmatică - îşi găseşte o reprezentare adecvată. Câteva exemple: notaţia [P(arte de )V(orbire): nume] spune că o anumită entitate lingvistică este un nume. Reprezentarea [F(ormă)V(erbală): gerunziu] precizează că avem a face cu un verb la gerunziu; reprezentarea [RAM(ură): v(aloare)n(on)v(idă)] spune că obiectul lingvistic în chestiune are structură internă şi este prin urmare o sintagmă. Este uşor de remarcat că notaţia atribut-valoare aplică principiul general al funcţiilor: unui anumit atribut îi corespunde o anumită valoare, întocmai cum unui argument dat îi corespunde o anumită valoare, datorită unei legi specifice de corespondenţă. Reprezentările de care se face uz în GNT sunt denumite structuri de trăsături. 2.2 Unificarea GNT se mai numesc şi gramatici de unificare. Unificarea are drept obiect structurile de trăsături. Unificarea a două structuri de trăsături A şi B (notată AuB) este structura minimală de trăsături care cuprinde în acelaşi timp şi pe A şi pe B. Dacă o astfel de structură nu există, unificarea "eşuează" (ceea ce e notat cu 1). Unificarea verifică aşadar compatibilitatea dintre două structuri de trăsături şi produce o structură rezultantă care conţine toată informaţia din structurile supuse unificării, lată câteva exemple: (1) [CAT: det] u [CATmume] = ± (eşec) (2) [CAT: det]u [ACORD: [NUM: singfl = CAT: det ACORD: [NUM :sing]^ 2. Caracteristicile GNT Dincolo de varietatea lor, gramaticile nontransformationale au un set de trăsături comune: • Exploatează în mod generalizat reprezentările în termeni de trăsături • Fac recurs la mecanismul unificării • Se bazează pe constrângeri • Sunt gramatici lexicaliste • Au adecvare computaţională 2.1. Reprezentări: structurile de trăsături Reprezentările în termeni de trăsături sunt bine cunoscute în lingvistica modernă, datorită fonologiei şi semanticii structurale. GNT au meritul de a fi generalizat această notaţie la scara întregii teorii lingvistice. Prin perechea (3) [CAT: nume] u GEN: mase ACORD: NUM :sing CAT: nume GEN: mase NUM: sing ACORD: Operaţia de unificare din primul exemplu eşuează pentru că structura rezultantă ar trebui să conţină atributul CAT cu două valori diferite (determinator şi nume). Unificarea se realizează normal în (2) şi (3), şi produce o structură mai complexă. Se poate remarca faptul că rolul unificării este acela de a explica tot ceea ce este corect în variate compartimente de limbă. Dacă are loc o unificare de informaţii fonologice, aceasta explică un aspect al corectitudinii fonologice pentru o limbă dată. O unificare de informaţii morfologice dă seama de un aspect al corectitudinii morfologice, ş.am.d. Nu e însă exclusă nici unificarea de informaţii diferite, de exemplu, semantice şi morfologice, semantice şi sintactice etc. 59577^ 42 43 2.3. Constrângeri în exemplul (1) din paragraful precedent, unificarea eşuează deoarece nici o structură de trăsături nu poate avea valori diferite pentru acelaşi atribut. Aceasta este o "lege" inerentă unificării, tot astfel cum în logica bivalentă o "lege inerentă" este terţiul exclus. Se poate spune că (1) defineşte o limită a unificării şi implicit o constrângere asupra acestei operaţii. Constrângerea este de natură formală, pentru că derivă din natura însăşi a unificării. Dar pentru scopurile unei teorii lingvistice, astfel de constrângeri nu pot fi suficiente. Polona, de pildă, face la verbele de persoana I deosebirea între verbele folosite de un bărbat şi cele folosite de o femeie. Verbul are aşadar gen în polonă, dar nu şi în română. Pentru a face această diferenţă între cele două limbi trebuie să' se admită că unificarea informaţiei de gen cu cea de verb se poate face în polonă dar nu se poate face şi în română. Numai că de această dată constrângerea privind unificările nu mai are temei formal. Nu se poate spune că în mod necesar verbul are sau nu gen. Unificările acestor informaţii sunt prin urmare "contingente", sau cu un alt termen, "empirice", tocmai pentru că ele nu derivă din natura însăşi a operaţiei. Gramatica unei limbi se descrie mai ales în termenii unificărilor "contingente". 2.4 Lexicalism în teoriile contemporane ale gramaticii, lexicalismul este o opţiune privitoare la modul în care este concepută structura cuvintelor în relaţia lor cu sintaxa. Există teorii, precum GB, care consideră că procesul de constituire morfologică a cuvintelor are loc în sintaxă. în acest sens, GB este o morfosintaxă deoarece generalizează operaţia de deplasare la nivelul morfologiei înseşi, prin mecanismul numit "deplasare centru-centru" (engl, "Head to Head Movement"). Gramaticile de unificare adoptă o strategie distinctă: ele consideră că procesele de constituire morfologică a cuvintelor sunt independente de sintaxă. în această perspectivă, rezultatul proceselor morfologice furnizează sintaxei inputul necesar: cuvintele gata formate. Modularizarea celor două componente ale gramaticii se dovedeşte preferabilă mai ales în cazul limbilor cu morfologie bogată. Un alt aspect al lexicalismului asumat de GNT este ilustrat de modul în care sunt construite explicaţiile de gramaticalitate. Explicaţiile în GNT se sprijină în măsura posibilului (dar într-o măsură mult mai mare decât în alte teorii) pe proprietăţile cuvintelor. In istoria generativismului, pasivul, de pildă, a fost considerat multă vreme o structură explicabilă sintactic, adică o construcţie rezultată din transformări ale unei alte structuri sintactice. GNT afirmă însă că nu e nevoie să se recurgă la structuri sintactice anumite, deoarece toate elementele de care e nevoie pentru a explica o construcţie pasivă pot fi codificate la nivelul cuvintelor1. Un tratament asemănător Preferinţa aceasta pentru un compartiment de limbă în defavoarea altui compartiment, atunci când se pune problema mecanismelor care justifică o anumită construcţie nu e înţeleasă încă nici azi de unii lingvişti. Este vorba de aceia care cred că a avansa o explicaţie lexicalistă atunci când există deja una sintactică pentru un fenomen oarecare poate fi observat în cazul dependenţelor la distanţă, sau în cel al construcţiilor de ridicare (engl. "raising"), unde rolul unităţilor lexicale în determinarea proprietăţilor acestor construcţii este de asemenea semnificativ. 2.5 Adecvare computaţională în lingvistică, o teorie este considerată adecvată, dacă teoria acoperă domeniul de fapte pentru care este construită ca o explicaţie. O morfologie a unei limbi, de pildă, este adecvată dacă prin regulile propuse dă seamă de construcţiile morfologic corecte ale limbii supuse analizei. Acest principiu foarte general a fost nuanţat de către Chomsky. Nuanţarea este deja celebră: pornind de la ideea că utilizarea limbajului este o proprietate a minţii omeneşti, Chomsky a susţinut că o teorie trebuie socotită adecvată nu doar pentru că produce explicaţii ale cazurilor de corectitudine, ci şi pentru că mecanismele utilizate sunt dovedite (sau cel puţin presupuse) a fi însuşite de către mintea omenească. Quine afirmase că dacă avem două gramatici care cu mijloace diferite explică aceeaşi realitate lingvistică, nu există criterii suplimentare de alegere a uneia dintre ele. Chomsky a replicat că un astfel de criteriu există totuşi, el fiind măsura în care fiecare dintre aceste gramatici se foloseşte de operaţii cunoscute ca aparţinând minţii în procesele ei cognitive. Criteriul suplimentar formulat de Chomsky în evaluarea teoriilor lingvistice a apropiat comunitatea generativiştilor de cea a psihologilor şi a impulsionat cercetările de psiholingvistică. S-au obţinut rezultate interesante şi s-au construit ipoteze neaşteptate. De pildă, regulile de constituenţi sînt socotite astăzi nişte operaţiuni cu mare probabilitate de a fi folosite de inteligenţa umană. Recursivitatea este şi ea considerată a fi o proprietate de care inteligenţa umană face uz în utilizarea limbajului. Criteriul lui Chomsky a condus însă şi la cercetări cu rezultate greu de judecat. De pildă, despre realitatea psihologică a urmelor, concept cardinal al teoriei GB, s-a argumentat şi pro şi contra, şi este foarte dificil chiar şi azi să se poată lua o poziţie. Un lucru este cert totuşi în evoluţia raporturilor dintre teoria lingvistică şi realitatea ei psihologică: comparativ cu faza de început, interesul psihologilor şi al psiholingviştilor faţă de ipotezele venite din comunitatea "chomskyeniior" a scăzut semnificativ. A crescut însă interesul psiholingviştilor pentru ipotezele venite din lumea inteligenţei artificiale. Este celebră în acest sens ipoteza de organizare a cunoştinţelor lexicale a lui Quillian, care a atras atenţia în mod special colectivităţii înseamnă doar a propune variaţiuni pe aceeaşi temă. Diferenţele sunt în realitate cruciale şi privesc mecanismele cognitive angajate în utilizarea limbajului. Este deja cunoscut că procesarea unităţilor lexicale este mai uşor de efectuat decât unele dintre procesările structurilor sintactice. Acest fapt oferă un criteriu valoros de judecare a plauzibilităţii unei gramatici privite din unghi cognitiv. 557592 44 45 de psihologi şi de psiholingvşti. Un al treilea factor intra astfel în joc, rezultatul fiind că unele teorii lingvistice au devenit atente la operaţiile şi mecanismele utilizate de inteligenţa artificală. Erau exact teoriile generative netransformaţionale. Consecinţa principală a acestei deplasări de interes a fost că teoriile în cauză au devenit accesibile utilizării automate. Cu alte cuvinte - şi spre deosebire de gramaticile lui Chomsky - ele pot fi implementate computaţional. Vom numi adecvarea unei teorii la domeniul de fapte pe care îl abordează adecvare lingvistică. Măsura în care o teorie lingvistică aparţine (sau poate fi presupusă a aparţine) minţii omeneşti defineşte adecvarea ei psihologică. Iar gradul în care ea este livrabilă inteligenţei artificiale indică adecvarea ei computaţională. Direcţia actuală a curentului de idei pare să fie următoarea: legăturile şi dialogul dintre psihologia cognitivă şi inteligenţa artificială sunt într-o continuă creştere, astfel încât adecvarea computaţională a unei teorii lingvistice are şanse mari să-i confere şi adecvare psihologică. Pe această direcţie sunt plasate gramaticile generative netransformaţionale. 3. Realizări Una dintre cele mai importante realizări ale gramaticilor nontransformationale îl reprezintă numărul mare de aplicaţii. O enumerare a limbilor supuse analizelor nu este posibilă aici, dar se poate preciza că aproximativ doua treimi din familiile de limbi (considerate in eşantioanele lor reprezentative) au fost analizate din perspectiva netransformaţională. Este caracteristic acestor analize faptul că refuză deosebirea chomskyană centru-periferie ("core-periphery"). Ele se concentrează asupra varietăţii de date oferite de corpusuri. Ceea ce este însă cel mai important sub aspectul realizărilor este faptul că GNT au reuşit să producă replici viabile la analizele paradigmei dominante, cea chomskyană. O serie de fenomene gramaticale - privite de obicei ca fiind de la sine caracterizabile prin mecanismul deplasării constituenţilor - au primit in cadrul GNT analize alternative. Aşa s-a întâmplat cu construcţiile pasive, cu fenomenul de ridicare (şi mai general cu fenomenele de depedenţă limitată), cu construcţiile nonlocale (precum topicalizările, structurile relative si interogative). In această privinţă, GNT au continuat tradiţia firească, inaugurată de structuralism, tradiţie constând in regândirea fenomenelor de limbă odată cu fiecare nouă şcoala lingvistică. 4. Forme instituţionale de susţinere i r GNT sunt bine reprezentate instituţional. Ele şi-au făcut loc în primul rând în programele curiculare ale unor universităţi de prestigiu, precum Universitatea Stanford, Universitatea Statului Ohio (Columbus), Universitatea Tuebingen, Universitatea Saarbruecken, Universitatea Groningen, King's College din Londra Universitatea Edinburgh, Universitatea Paris 7. Extensiile acestor programe curiculare sunt şcolile de vară. O prestigioasă şcoală de acest fel ("European Summer School in Logic Language and Information" - ESSLLI) este organizată anual din 1989, cu rolul de diseminare a evoluţiilor si curentelor formate în interiorul gramaticilor netransformaţionale. Este apoi de semnalat, în aceeaşi linie a "didacticii" gramaticilor nontransformationale, nou înfiinţata scoală de vară de la Konstaz (Germania). în planul congreselor ştiinţifice, HPSG si LFG au de multă vreme propriile lor conferinţe anuale. Iar un congres ţinut o dată la doi ani - cel de gramatici formale - urmăreşte să adune sub acelaşi acoperiş toate şcolile aceleiaşi familii. Până de curând, gramaticile nontransformationale nu au avut o revistă proprie. Lucrările însă au fost şi sunt publicate in reviste de prestigiu, precum "Computaţional Linguistics" "Natural Language and Linguistic Theory", "Journal of Linguistics", "Language" sau "Langages". O revistă orientată explicit spre aceste gramatici este editată de puţină vreme la cunoscuta editură olandeză Kluwer. Este vorba despre revista "Grammars". De asemenea, pe lângă Centrul de Studii asupra Limbajului si Informaţiei de la Universitatea Stanford există de mai multă vreme o deja celebră editură care publică lucrările esenţiale ale domeniului. 5. Gramaticile nontransformationale în România Prezenţa GNT în România poate fi discutată având în vedere două coordonate: cea a contribuţiilor ştiinţifice şi cea a programelor curiculare. Din primul punct de vedere, întâia contribuţie (după cunoştinţa noastră, cel puţin) a venit din partea Adrianei Costăchescu ([14]). Adriana Costachescu este autorul unui studiu, din perspectiva GPSG (teorie care a precedat si inspirat HPSG), asupra relaţiei dintre coordonarea adversativă si subordonarea concesivă. Studiul a fost elaborat in 1993 şi publicat in 1996. Lucrări de prezentare generală a diferitelor forme de GNT sau, dimpotrivă, de prezentare a trunchiului comun - unificarea - au fost publicate în ultimii şase ani de Adrian Atanasiu, Verginica Barbu, Ana-Maria Barbu, Florentina Hristea, Emil lonescu şi Rodica Tătar. Printre "pionierii" aplicaţiilor acestor gramatici la limba română trebuie menţionaţi Liviu Ciortuz şi cercetătoarea italiană Paola Monachesi. Amândoi au folosit teoria HPSG. Rolul lui Monachesi în stimularea aplicaţiilor de acest tip la limba română trebuie în mod special subliniat. Studiile sale asupra criticelor pronominale din română au determinat o "mobilizare" a energiilor câtorva 46 47 cercetători români. Este vorba despre Ana-Maria Barbu, Emil lonescu şi Amalia Todiraşcu. Ana-Maria Barbu a aplicat HPSG în analiza elementelor gravitând în jurul verbului - adverbul de negaţie, semiadverbele, auxiliarele - şi a ajuns la concluzia că acestea sunt mai apropiate de afixe decât de cuvinte. Concluzia analizei se întâlneşte cu concluzia exprimată în lucrarea Valeriei Guţu Romalo, "Morfologie structurală a limbii române", în care formele compuse ale verbelor sunt considerate forme cu afix mobiL O alta contribuţie a Anei-Maria Barbu priveşte ordinea constituenţilor in grupul nominal. Valorificând sugestiile de analiză ale lui Valerio Allegranza', Ana-Maria Barbu a propus o clasificare a constituenţilor grupului nominal, care este relevantă pentru problema ordinii acestora. Analiza produce astfel soluţii clare şi eficiente într-o problemă complicată de gramatică a limbii române. Semnalând unele neajunsuri în analiza GB a fenomenului de anticipare clitică a complementului direct nominal în română, Verginica Barbu şi Emil lonescu propun o abordare alternativă HPSG. Analiza poate fi extinsă şi la alte limbi care prezintă fenomenul în cauză. Analiza susţine că pronumele neaccentuate nu au un comportament uniform, proprietăţile lor depinzând de faptul dacă participă sau nu la structuri de dublare. Noutatea abordării vine din faptul că fenomenul anticipării obiectului direct este în mod ultim justificat prin proprietăţile lexicale ale verbului tranzitiv. Un fenomen care, în aparenţă cel puţin, implică recursul la mecanismul deplasării - este vorba de prezenţa pronumelor neaccentuate în acuzativ în contexte în care ele nu sunt subordonate faţă de vreun element din acel context -este tratat într-un alt studiu asupra cliticelor pronominale româneşti2 (). Studiul arată că ipoteza deplasării constituenţilor nu este necesară în analiza fenomenului. Este propusă în alternativă o analiză fără deplasări care captează toate proprietăţile fenomenului. O analiză HPSG este propusă de asemenea pentru fenomenul negaţiei duble şi multiple în română [23]. în sfârşit, Amalia Todiraşcu abordează într-unui din studiile sale asupra limbii române, o categorie de dependenţe limitate (aşa-numitele tough-constructions), din aceeaşi perspectivă HPSG. în aceeaşi linie a contribuţiilor ştiinţifice, merită amintită o intiativă instituţională: acreditarea de către CNCSIS,' în anul 2001, a Centrului de Lingvistică Computaţională de pe lângă Facultatea de Litere. Centrul este perechea universitară a Centrului de Studii Avansate în Inteligenţă Artificială. Apariţia sa a fost semnalată în buletinul european ELSNEWS.' Unul dintre programele de cercetare pe anul 2002 ale centrului are în vedere dezvoltarea aplicaţiilor de gramatici netransformaţionale la limba română. în engleză, fenomenul este cunoscut sub numele de tlitic climbing", si este ilustrat în română de structuri de tipul Nu-I pot suferi pe Ion. în planul programelor curiculare, GNT şi-au făcut loc mai greu, şi au fost întâmpinate uneori nu doar cu neîncredere, ci şi cu ostilitate. A existat însă din fericire un sprijin substanţial şi constant al factorilor de decizie. Ne referim la decanul Facultăţii de Litere, acad. prof. Dan Horia Mazilu, la rectorul Universităţii Bucureşti, prof. dr. loan Mihăilescu, la prorectorul aceleiaşi instituţii, prof. dr. loan Pânzaru, şi la acad. Dan loan Tufiş, directorul Centrului de Studii Avansate în Inteligenţă' Artificală al Academiei Române, cărora autorul acestor rânduri le exprimă via şi profunda sa gratitudine, pentru susţinerea pe care a simţit-o mereu în iniţiativele sale. Mulţumită acestui sprijin, au devenit realitate câteva proiecte care pot fi considerate succese: • în programa cursurilor opţionale de limbă pentru anul al IV-lea al Facultăţii de Litere a fost introdus în 1996 un curs introductiv de GPSG, iar din 1997 pînă în 2001 s-a ţinut un curs introductiv de gramatici de unificare cu referire specială la HPSG. • Din 1999, se predă la Facultatea de Matematică a Universităţii din Bucureşti un curs opţional de un an de prelucrare automată a limbii naturale, în care un loc important îl ocupă gramaticile de unificare. • Din 1997 pînă în prezent masteratul de lingvistică teoretică al Facultăţii de Litere din cadrul aceleiaşi universităţi găzduieşte un curs de un semestru de teorie HPSG aplicată la limba română. • Din 1999, acelaşi masterat oferă un seminar de gramatici cu implementare computaţională. • în anul 2000, un proiect de dezvoltare a componentei de lingvistică computaţională în cadrul masteratului de lingvistică teoretică a primit sprijin de finanţare din partea Băncii Mondiale şi a Guvernului României, sprijin care a făcut posibile printre altele organizarea unor cicluri de conferinţe pe teme de GNT (în special HPSG) la Facultatea de Litere a Universităţii Bucureşti. Au conferenţiat Ivan Sag (Universitatea Stanford), Anne Abeille şi Daniele Godard (Universitatea Paris 7), Ştefan Muller (Universitatea din Jena), Robert Malouf (Universitatea Groningen), Howard Gregory (King's College, Londra), Erhard Hinrichs (Universitatea Tubingen), toţi fiind personalităţi recunoscute ale domeniului. Mulţumită aceluiaşi program, cercetătorii români au putut petrece stagii de specializare la universităţile din Lille şi Stanford, sau au putut participa la manifestări reprezentative, cum ar fi colocviul UNESCO asupra spaţiilor virtuale şi multilingvismului de la Paris (aprilie 2001), colocviul de gramatici bazate pe constrângeri Trondheim (august 2001), sau congresul de prelucrare automată a limbilor naturale de la Tokyo,' (noiembrie, 2001). Cea mai importantă realizare legată de acest program, a constat însă în posibilitatea unor mobilităţi studenţeşti, concretizate în vizitele de studiu ale studenţilor masteratului de lingvistică teoretică, la universităţile din Darmstadt, Tubingen, Paris 7 şi Sienna. 691779 48 49 6. Concluzii Deşi GNT au pătruns în mediile ştiinţifice din România mai târziu decât în alte ţări, faptul că ele sunt prezente la noi este un lucru încurajator. Există tentaţia de a privi aceste eforturi de sincronizare cu mişcarea de idei din domeniul lingvisticii formale drept tentative mimetice şi superficiale. Este o greşeală gravă. Diversele comunităţi de lingvişti pot desigur ignora un curent, precum cel prezentat mai sus, dar aceasta este o atitudine, pentru a spune aşa, pe proprie răspundere. GNT şi teoria lingvistică pe care ele au inspirat-o şi-au făcut deja loc în lingvistica zilelor noastre şi au devenit una din paradigmele majore. în plus, dubla deschidere a acestor gramatici către psihologia cognitivă, pe de-o parte, şi către inteligenţa artificială, pe de altă parte, recomandă această paradigmă drept cadrul privilegiat de dialog interdisciplinar din ştiinţele umaniste ale contemporaneităţii. Din acest triunghi, sunt aşteptate să apară noi aplicaţii - unele au şi apărut deja - care vor extinde într-un mod neaşteptat conceptul de lingvistică aplicată. Pentru toate aceste motive, tentativele de a păstra un contact viu şi de perspectivă cu comunitatea ştiinţifică internaţională a GNT reprezintă o investiţie sigură pe temen lung. Bibliografie [1] Abeille, A. Les nouvelles syntaxes. Grammaires d'unification et analyse du frangais, Armând Colin, Paris, 1993 [2] Atanasiu, A. Curs de lingvistică matematică, Editura Universităţii Bucureşti, 1998 ' [3] Barbu, A.M. Gramatici categoriale. Studiu comparativ cu gramaticile de constituenţi, "Limba Română", XVLI, 4-6, p 239-252, Ed. Academiei, 1997 [4] Idem, Complexul verbal, "Studii şi Cercetări Lingvistice", Ed. Academiei, sub tipar. [5] Idem, Romanian Determiners: Order and Classification, "Revue Roumaine de Linguistique", Ed. Academiei, sub tipar [6] Idem, Funcţiile sintactice în Teoria X-Bară, "Studii şi Cercetări Lingvistice", Ed. Academiei, sub tipar Barbu, A.M. şi E. lonescu Teorii gramaticale contemporane: Gramatica Centrilor de Sintagmă, "Limba Română" 1 1996 31-55 ' [7] Idem, Accusative Clitic Doubling in Romanian, Liviu Ciortuz, Paola Monachesi, Hans Uszkoreit (editori) "Informai Proceedings of the GE&GL Workshop: Grammar Engineering and Grammar Learning", Tuşnad, România, 1997 [8] Barbu, V. Despre gramaticile de unificare, Analele Universităţii Bucureşti, seria limbă şi literatură română, 2001, p. 45-52 [9] Barbu, V. şi E. lonescu Anticiparea complementului direct în limba română în perspectiva HPSG, Lucrările colocviului "Perspective moderne asupra limbii române", Bucureşti, Editura Universităţii din Bucureşti, (sub tipar) [10] Borsley, R. Syntactic Theory: A Unified Approach, Edward Arnold, London, 1991 [11] Bresnan, J (editor) The Mental Representation of Grammatical Relations, MIT, Press, Ca. Mass, 1982 [12] Ciortuz, L. An HPSG Kernel for Romanian, manuscris, 1996 [13] Ciortuz, L, P. Monachesi, şi H. Uszkoreit (editori; Informai Proceedings of the GE&GL Workshop: Grammar Engineering and Grammar Learning, Tuşnad, România, 1997 [14] Costăchescu, A. "Coordination" adversative et "subordination" concessive, lliescu, M. şi S. Sora, (editori), Rumănisch: Typologie, Klassification, Sprachcharakteristik, Mtinchen, 1996, p. 121-134 [15]Gazdar, G, E. Klein, G. Pullum şi I. Sag, Generalized Phrase Structure Grammar, Cambridge, Harvard University Press, 1985 [16] Gerlach, B. şi J. Grijzenhout (editori) Clitics in Phonology, Morphology and Syntax, John Benjamins Publishing Company, Amsterdam / Philadelphia, 2000 [17]Hristea, F. Introducere în procesarea limbajului natural cu aplicaţii în PROLOG, Editura Universităţii Bucureşti, Bucureşti, 2000 [18] lliescu, M. şi S. Sora, (editori), Rumănisch: Typologie, Klassification, Sprachcharakteristik, Mtinchen, 1996, p. 121-134 [19] lonescu, E. A Type of SOV Construction in Romanian, "Cahiers de Linguistique Theorique et Appliquee", tomes XXXII-XXXIII, 1995-1996, 19-39 [20] Idem, Accusative Weak Pronouns in Romanian, "Cahiers de Linguistique Theorique et Appliquee", tomes XXXII-XXXIII, 1995-1996,19-39 [21] Idem, Accusative Clitic Doubling in Romanian, "Cahiers de Linguistique Theorique et Appliquee" tomes XXXII-XXXIII, 1995-1996, 53-73 [22] Idem,, Accusative Clitic Climbing in Romanian, "Cahiers de Linguistique Theorique et Appliquee", tomes XXXII-XXXIII, 1995-1996, 74-87 [23] Idem, A Quantification-based Approach to Negative Concord in Romanian in Geert-Jan M. Kruijff and Richard T. Oehrle (editori), Proceedings of Formal Grammar Conference Utrecht,1999, p. 25-36 [24] Idem, pro-Drop: An HPSG Account without Lexical Rules, "Bucharest Working Papers in Linguistics", voi. I, nr.1, 1999, 117-124 50 [25] Idem, On the Status of PE in the Direct Object Construction in Romanian, Romanian Journal of Information Science and Technology, volume 4, numbers 3-4, 2001, p. 293-310 [26] Joshi, A. Introduction to Tree Adjoining Grammar, Manaster Ramer, A. (editor) The Mathematics of Language, John Benjamins, Amsterdam,1987, p. 87-114 [27] Kruijff, G-J. M. and R. T. Oehrle (editori), Proceedings of Formal Grammar Conference, Utrecht, 1999 [28] Manaster Ramer, A. (ed.) The Mathematics of Language, John Benjamins Publishing Company, Amsterdam, 1987 [29] Monachesi, P. Clitic Placementin the Romanian Verbal Complex, Gerlach and Grijzenhout (2000), p. 255-294. [30] Pollard, C. şi I. A. Sag, Information-based Syntax and Semantics, CSLI, University of Chicago Press 1987 [31] Idem, Head-driven Phrase Structure Grammar, The University of Chicago Press, Chicago, 1994 [32] Shieber, St. An Introduction to Unification-based Theories of Grammar, CSLI, University of Chicago Press, 1986 [33] Tătar, D. Inteligenţă artificială, Editura Albastră, Cluj, 2001 [34] Todiraşcu, A. Romanian Tough-Constructions, Ciortuz, L, P. Monachesi, şi H. Uszkoreit (editori; Informai Proceedings of the GE&GL Workshop: Grammar Engineering and Grammar Learning, Tuşnad, România, 1997 [35] Wood, M. McGee, Categorial Grammars, Routledge London and New York, 1993 51 Către o teorie X-bar funcţională Neculai CURTEANU Institutul de Informatică Teoretică, Academia Română, Filiala laşi curteanu@iit.tuiasi.ro 1. Teorii X-bar mai vechi şi mai noi Scopul prezentei lucrări este dublu: (a) de a propune o nouă X-bar schemă, numită X-bar schemă funcţională şi recursivă (pe scurt, FX-bar schemă), mai generală şi mai adecvată decât cele existente, care să satisfacă cerinţele unei abordări funcţionale a limbajului natural (LN), în particular, ale strategiei lingvistice SCD (Segmentare-Coeziune-Dependenţă) [1], [2], şi (b) de a pune în evidenţă faptul că teoria FX-bar propusă poate reprezenta o posibilă (şi necesară) soluţie la următoarea problemă ridicată de Noam Chomsky în teoria Minimalist Program [3]: în două capitole diferite, Chomsky afirmă (în două abordări diferite, aparent contradictorii, asupra structurii sintactice a LN) atât importanţa crescândă a teoriei X-bar cât şi posibilitatea ca teoria X-bar standard să fie "largely eliminated in favor of bare essentials" (vezi secţiunea 5). 1.1. Teoria X-bar clasică Printre (sub)teoriile care reprezintă substanţa majoră pentru câteva teorii formale importante asupra sintaxei (LN), un rol fundamental este jucat de către aşa-numita teorie X-bar. X-bar schemele propuse sunt de obicei însoţite de definiţii, ipoteze, restricţii, principii şi alte (sub)teorii gramaticale care specifică într-o cât mai mare măsură modul concret în care X-bar schemele sunt utilizate pentru a construi structurile sintactice de bază ale LN. în general, teoria X-bar stabileşte categoriile gramaticale principale, proiecţiile lor lingvistice (minimale şi maximale), relaţiile de dominare dintre categorii în cadrul acestor proiecţii, sub-, co-, sau supra-ordonarea lor. Toate aceste aspecte asigură numai coloana vertebrală (infrastructura) consistentă a structurii sintactice în reprezentarea LN. Un capitol de o importanţă deosebită este relaţia dintre teoria X-bar şi alte sub(teorii) sintactice şi semantice care formează întregul corpus al unei anumite teorii lingvistice. Prima formă a X-bar teoriei este propusă de către Noam Chomsky în 'ucrarea Remarks on Nominalizations (1970) [4]. Chomsky scoate în evidenţă diferenţele reale existente în următoarele sintagme nominale: 52 53 (1.1) John 's criticism of the book\ (1.2) John's criticizing the book; în special datorită şablonului verbal (similar cu al verbului "criticize") rezultat din gerunziul nominal (pentru engleză) "criticizing", în comparaţie cu forma nominală derivată "criticism". Teoria X-bar originală propusă de Chomsky identifică trei categorii lexicale primitive, N [Eng: noun], V [Eng: verb] şi A [Eng: adjective], fiecare dintre ele cu câte două categorii sintagmatice corespunzătoare. Mai exact, utilizând notaţia X = N, V, A, categoria gramaticală X se întâlneşte ca nucleu [Eng: head] într-o categorie intermediară X' (sau X1, sau X1), tradiţional numită X-bar, precum şi într-o categorie maximală X" (sau X2, sau X2), tradiţional numită XP, reprezentând proiecţia maximală a categoriei gramaticale X (lexicală sau nelexicală). Categoria X este numită nucleul sintagmelor X' (sau X1) şi X" (sau X2) care o conţin. Să mai notăm că prescurtarea pentru categoria prepoziţională este P. Ulterior au fost considerate patru categorii lexicale, bazate pe următoarele combinaţii ale celor două trăsături N şi V (considerate ca fiind generice pentru categoriile lexicale): N este o categorie X cu trăsăturile [+N, -V]; V este o categorie X cu trăsăturile [-N,+V]; A este o categorie X cu trăsăturile [+N, +V]; P este o categorie X cu trăsăturile [-N, -V]. Teoria X-bar poate fi înţeleasă şi ca o specificare a modalităţii în care unele categorii gramaticale sunt dominate de către altele, deci ca o teorie a dominanţei gramaticale (sau, aşa cum spune Chomsky, a "guvernărir), care arată cum un nucleu (sau o categorie lingvistică) X se proiectează (se extinde) către categoriile mai complexe (structurile sintagmatice) X' (sau X1) şi X" (sau X2, sau XP). Structurile sintactice X1 şu X2 devin categorii gramaticale esenţiale ale organizării şi reprezentării textului în LN. Deci, X-bar teoria clasică consideră că X, împreună cu o secvenţă de complemente (sau argumente, notate Argj) este imediat dominată de X1, în timp ce XI împreună cu o secvenţă de specificatori (notată Speq) este imediat dominată de către X2 (sau. XP). Utilizând binecunoscutele notaţii din domeniul teoriilor lingvistice formale, (X' = X1, X" = X2 = XP), categoriile lexicale şi gramaticale ale teoriei X-bar clasice a lui Chomsky sunt următoarele: NP VP AP PP N Arg V Arg A Arg AP P NP Figura 1.1. Proiecţiile categoriilor lexicale din teoria X-bar clasică 1.2. Extinderea teoriei X-bar la categorii non-lexicale Stowell [5] propune ca teoria X-bar clasică să fie extinsă la categorii nelexicale sau funcţionale. în particular, categoria gramaticală S [Eng: sentence\ Rom: frază], care corespunde uneia sau mai multor propoziţii gramaticale (clauze), este văzută ca 12 sau IP, deci ca proiecţia maximală a categoriei nelexicale "I", sau INFL [Eng: Inflectionaf]. Nucleul nelexical I (INFL) reprezintă mulţimea de trăsături de flexionare atribuite nucleului lexical al clauzei-matrice (propoziţia principală, sau chiar una regentă) dintr-o frază, aşa cum sunt timpul, aspectul etc. în clauza unei fraze. Remarcăm categoria S, care introduce un anumit grad de ambiguitate în analiza gramaticală, atât în engleză cât şi în română. Termenul adecvat pentru realitatea lingvistică codificată de categoria S ar trebui să fie acela de "clauză gramaticală" pentru engleză [Eng: (grammatical) clause], şi de "propoziţie gramaticală" pentru limba română, cu două sorturi principale: clauză finită, prescurtată CLF sau mai simplu CL, şi clauză infinită, prescurtată CLI. Astfel în extensia nelexicală a teoriei X-bar, S este proiecţia (lingvistică) maximală a categoriei virtuale (nelexicale) I, în timp ce S1 este văzută ca fiind C2, sau CP, unde nucleul C este un complementizator, o categorie gramaticală ce corespunde unei expresii (unui delimitator) sau unei sintagme care introduce o clauză subordonată, e.g. pronume relativ, conjuncţie, locuţiune conjuncţională etc. Teoria X-bar extinsă acreditează următoarele structuri: I 78698749 54 IP = S SI NP John II I VP read CP = S1 SpecCP CI IP thaî John reads Figura 1.2. Teoria X-bar extinsă la categorii nelexicale Sunt necesare câteva remarci: (a) Teoria X-bar extinsă utilizează terminologia de "categorii nelexicale (sau funcţionale)", prin care Stowell, Chomsky şi alţi lingvişti definesc noile nuclee ale structurilor sintactice considerate. Categoria virtuală "I" este, desigur, una nelexicală, şi susţine o anumită funcţionalitate depinzând de categoria lexicală căreia îi este atribuită. Categoria C nu este, de obicei, nelexicală (exceptând situaţia, posibilă, când ea lipseşte) deoarece C corespunde unor categorii gramaticale lexical nevide. în ceea ce priveşte funcţionalitatea lui C, suntem de acord că C corespunde într-adevăr unor funcţii şi relaţii sintactice şi semantice importante pe care le numim marcheri de propoziţie [1], [2], [6], uneori incluşi în clase mai largi cum sunt cea a marcherilor de discurs [7], reprezentând în acelaşi timp şi un element (deci o relaţie) de co-referinţă în cadrul fenomenului de legare, şi/sau o "barieră" [8] în cadrul teoriei limitării [9]. Aceste aspecte multi-funcţionale ale categoriei C nu sunt contradictorii ci doar complementare, întregind un tablou complex al funcţionalităţii lexical-semantice pentru o categorie lingvistică atât de specială cum este C. (b) A doua observaţie este dedicată rolului unor categorii nelexicale în cadrul X-bar schemelor extinse. Din Fig. 1.2. reiese că subiectul NP are rolul (nesigur) al unui specificator pentru S = IP, în timp ce VP reprezintă complementul categoriei virtuale I. De asemenea, S1 = CP se consideră a fi proiecţia maximală a categoriei C, în timp ce complementul sintagmei CP este IP. Admiţând că în engleză, din punct de vedere sintactic, această supoziţie are sens deoarece categoria C reprezintă nucleul acestor sintagme, în alte limbaje, inclusiv româna, acest lucru este nedecis, în special din perspective semantice şi funcţionale. Unele abordări funcţionale ale acestor probleme sunt discutate în mai multe lucrări, dar 55 ne vom restrânge să menţionăm aici soluţiile oferite de către teoria gramaticii funcţionale [10] şi strategia lingvistică SCD [1], [2], [6]. Un interes special prezintă abordarea lexicală (inclusiv funcţională) a teoriei X-bar ca subteorie de bază în cadrul teoriei sintactice HPSG [Eng: Head-driven Phrase Structure Grammar] [11]. O analiză comparativă cu FX-bar schema propusă în această lucrare va fi făcută într-o lucrare viitoare. 1.3. X-bar schemele din teoria GB X-bar schemele propuse de teoria Government and Binding (GB) a lui Chomsky [5] sunt următoarele: Specifier XI Modifier X0 Argument {thatjor} NP I VP iii. John to see the movie Figura 1.3. X-bar schema generală din GB, X = N, V, A, P, S în teoria GB există următoarele X-bar echivalenţe pentru proiecţiile categoriilor gramaticale (lexicale şi nelexicale). Tabelul 1.3 x ! XI I X2 N NI NP V VI VP A Al AP P PI PP I S SI în lucrările GB [5] si cele care urmează, Chomsky consideră categoria I ca fiind nucleul lui S, iar complementizatorul C ca fiind nucleul iui S1. în subsecţiunea următoare teoria sintactică GPSG a lui G. Gazdar [12] face un important pas 56 înainte către lexicalitate şi către utilizarea explicită a trăsăturilor lingvistice atribuite categoriilor gramaticale. 1.4. Teoria X-bar în GPSG în teoria lingvistică GPSG [Eng: Generalized Phrase Structure Grammar] [12], [13] etc, (sub)teoria X-bar joacă de asemenea un rol central, o sintagmă a LN fiind definită ca proiecţia trăsăturilor lingvistice atribuite nucleului [Eng: head] acelei sintagme. Informaţia cuprinsă în trăsăturile nucleului determină caracteristicile principale ale comportamentului sintactic al sintagmelor LN. Reamintim că o categorie sintactică în GPSG se reprezintă ca o mulţime de perechi . De exemplu, eticheta NP [Eng: noun phrase] (sau N2), prin care se notează o sintagmă nominală, reprezintă o abreviere pentru mulţimea {, , }, unde BAR este numele trăsăturii ce codifică nivelul de proiecţie a categoriei sintactice N = {, }. Trăsătura BAR poate lua valorile 0, 1, 2. Teoria GPSG consideră N, V, A şi P ca fiind categorii sintactice majore. Toate celelalte sunt considerate de GPSG ca fiind categorii minore: determinatori, com-plementizatori, marcheri, cuantificatori, alte particule etc. Categoriile majore sunt considerate de către teoria GPSG ca având întotdeauna o valoare pentru trăsătura BAR. Valoarea BAR pentru categoriile minore nu este definită niciodată în GPSG. Teoria sintactică a GPSG aduce câteva elemente noi şi interesante comparativ cu teoria GB: (a) X-bar schemele au, ca şi în GB, trei nivele de proiecţie (valorile trăsăturii BAR); (b) Pentru economia reprezentării, GPSG propune ca în X-bar schemele de bază, nivelul proiecţiei lingvistice să fie conservat când se trece de la nucleu către expresiile subcategorizate, mai puţin în cazul în care acest lucru se face prin (alte) reguli explicite; (c) Printr-un mecanism de moştenire implicită, nivelele BAR de proiecţie a nodului-rădăcină şi ale nodurilor-fiice rămân aceleaşi, mai puţin în cazul în care există o indicaţie contrară expresă. O altă caracteristică este aceea că în GPSG nu se întâlnesc categorii abstracte, non-lexicale, cum ar fi "I" (INFL) din GB. Acest lucru este posibil deoarece în GPSG, pentru aceste categorii nelexicale, nu există un nivel de proiecţie pe care ele să fie reprezentate (sub nivelul lexical BAR = 0). Consecinţa este aceea că, în GPSG, S este proiecţia unei categorii V. Mai exact, proiecţiile maximale ale lui V sunt VP, S, şi S1, depinzând de următoarele valori luate de către trăsăturile SUBJ şi COMP (= complementizator = C): V[BAR 2][SUBJ-][COMP NIL] = VP; V[BAR 2][SUBJ +][COMP NIL] = S; V[BAR 2][SUBJ +][COMP a] = S1; unde a e {that, for, whether, if). în sfârşit, trebuie să remarcăm că GPSG trebuie să rezolve problemele întâlnite în mod obişnuit în formalismele gramaticale bazate pe unificarea lingvistică (şi/sau logică), de exemplu PATR-II [14], HPSG [15], [16] etc. O astfel 57 de problemă este, în particular, transmiterea informaţiei despre timpul verbului între forma flexionară codificată de verb şi nodul S. Pentru teoriile lingvistice care permit inserarea în arborele de derivare a cuvintelor flexionate, aşa cum este cazul cu GPSG, HPSG etc, informaţia despre forma flexionară trebuie să poată fi mutată în ambele direcţii pe nivelele X-bar schemei. Din aceasta derivă, în GPSG, condiţia ca V să fie nucleul structurii clauzale care corespunde categoriei S. Pe de altă parte, în GB, informaţia asupra timpului unui verb poate fi transmisă dinspre nodul I către proiecţia sa în S înainte ca I să fie combinat cu forma flexionată a verbului din S. Această situaţie poate produce potenţiale dificultăţi procedurale şi de reprezentare. Este important de menţionat că proiecţiile categoriilor din Tabelul 1.3 rămân aceleaşi pentru GPSG şi LFG [Eng: Lexical Funcţional Grammar] (vezi de exemplu [13]), cu diferenţa notabilă că prima celulă din ultima linie a Tabelului 1.3 este goală, deoarece în aceste două teorii lingvistice (ca şi în altele), categoria virtuală I lipseşte. 1.5. O formulare recursivă a X-bar schemelor din teoria Tbarr Vom propune în această subsecţiune o formulare recursivă a teoriei X-bar avându-şi originea în teoria barierelor (TBarr) [8], [17] şi fiind compatibilă cu teoria sintactică a Programului Minimalist (MinP) [3] şi cu modelul său gramatical din Principii şi Parametri (P&P) [3]. în conformitate cu MinP şi P&P, gramaticile concrete ale limbajelor naturale (LN) reale pot fi modelate de mulţimi de parametri şi valorile lor, care specifică principii şi teorii lingvistice universal valabile. Pentru o asemenea setare (asignare) a valorilor parametrilor, relaţiile de precedenţă (de ordonare liniară) dintre categoriile gramatice sunt obţinute din proprietăţi ca marcarea cazuală, atribuiri de roluri tematice ((0 - roluri şi 8 - marcheri), împreună cu alte relaţii şi marcheri ce se aplică la nivelul sintagmelor, clauzelor, şi unităţilor de discurs. Din acest motiv, relaţiile de precedenţă pentru X-bar schemele propuse pot fi utilizate independent pe arborii sintactici consideraţi, informaţia de ordonare (liniară) a categoriilor fiind dată de următorii parametri de precedenţă. (OrdPar) Un anumit parametru (depinzând de limbaj) precizează dacă secvenţa de specificatori precede sau succede nucleul, iar un alt parametru (depinzând de limbaj) precizează când secvenţa complementelor precede sau succede nucleul din X-bar schemă. De exemplu, în engleză, specificatorii preced de obicei nucleele lor nominale, în timp ce în română, în mod normal, ei succed nucleelor. în general, complementele (argumentele) succed nucleele lor şi în engleză şi în română. Un caz special al argumentului este subiectul (sintactic). Această exprimare a (OrdPar) poate fi încă particularizată în funcţie de categoriile lexicale concrete, din LN concrete. De exemplu, atât în română cât şi în engleză, când o sintagmă adjectivală (adverbială) este predicaţional activă, fiind urmată de anumite argumente (complemente sau adjuncţi), atunci este obligatoriu ca ea să succeadă propriul nucleu şi nu să îl preceadă. Consecinţa principală a parametrizării dependentă de limbaj a precedenţei categoriilor lingvistice este că în exprimarea teoriilor lingvistice se pot utiliza arbori neordonaţi, iar principiile propuse de teoria X-bar primesc un puternic caracter de independenţă relativ la regulile de dominare ale structurilor sintagmatice. Este important faptul ca X-bar schemele obţinute în cadrul teoriei X-bar considerate să asigure proiecţii adecvate ale categoriilor lexicale, permiţând inserarea adjuncţilor, obţinerea categoriilor de proiecţie maximală, şi acceptarea faptului că unele proiecţii minimale sau maximale din structura de adâncime pot fi vide (deci noduri care să domine categorii vide), conform [9], [8], [17]. Fiind stabilit principiul (OrdPar), teoriile GB şi Tbarr consideră următoarele trei nivele ale proiecţiei din teoria X-bar, sintetizate de următoarele reguli (principii) şi de X-bar schemele corespunzătoare: (PXO) Fiecare nod XO dintr-o schemă X-bar este fie vid, neavând nici o trăsătură, fie este nodul-mamă al unui element lexical a cărei categorie gramaticală şi trăsături sunt specificate la nivelul lexiconului. XO NIL X0[F] lex-item[F] Figura 1.5.1. Nodul XO în TBarr (PX1) Fiecare nod X1 (X' sau X1) având trăsăturile lexicale F este fie nodul-rădăcină al exact unui nod X (care este nucleu) cu trăsăturile F şi al unei secvenţe de noduri XP (care sunt complemente, sau argumente), fie este rădăcina unui nod identic X1 împreună cu exact un nod XP (care este adjunct). Figura 1.5.2. Nodul X1 în TBarr (PX2) Fiecare nod XP care are trăsăturile lexicale F trebuie să satisfacă una şi numai una din următoarele condiţii: (i) XP este un nod-frunză (nu mai are nici un nod-fiică) şi mulţimea F este vidă; (ii) XP este rădăcina unei secvenţe de XPs (specificatori) şi a exact unui nod X1 moştenind trăsăturile F; (iii) XP este rădăcina unei secvenţe de XPs (complemente, sau argumente) şi a exact unui nod X cu trăsăturile F; (iv) XP este rădăcina unui alt nod XP moştenind trăsăturile F şi a exact unui nod XP. O observaţie importantă este aceea că unele dintre secvenţele XP specificate în regulile (PX1) şi (PX2) pot fi vide. Figura 1.5.3. Nodul X2 în teoria TBarr Combinând recursiv X-bar schemele rezultate din regulile (XPo)-(XP1)-(Xp2) se pot obţine toate structurile sintactice întâlnite în X-bar teoria clasică şi extinsă XP [F] XP[F] /W ^Xl^^CP^S^ XPm(Spec) / \x XI [F] XP, \ XPm X[F] XP,(Arg) XP„(Arg) / \> XI [F] Adjunct, i i Adjunctn Figura 1.5.4. Formele generale (şi recursive) ale X-bar schemelor din TBarr 60 2. X-bar teoria din modelul P&P al teoriei MinP 2.1 Sistemul Chomskyan al gramaticii universale Această subsecţiune conturează câteva aspecte implicate de către teoria X-bar în cadrul teoriilor MinP (Minimalist Program) şi P&P (Principles and Parameters) [3]. Pentru a înţelege contextul, este necesar să schiţăm teoria lui Chomsky a gramaticii universale UG [Eng: Universal Grammar] şi a relaţiilor sale cu abordarea MinP bazată pe P&P. Sunt introduse următoarele concepte de UG. Capacitatea utilizării şi înţelegerii LN se bazează în esenţă pe proceduri care pot genera obiecte numite descrieri structurale (SDs). SDs sunt expresii de limbaj. Teoria unui LN particular constituie gramatica acestuia, în timp ce teoria tuturor limbajelor şi a expresiilor pe care le generează ele reprezintă Gramatica Universală (UG). Se consideră că UG specifică anumite nivele lingvistice, sau sisteme de reprezentare a informaţiei lingvistice. UG a lui Chomsky [3] presupune că fiecare SD este o secvenţă (8, a, n, X) de patru reprezentări pe următoarele nivele, respectiv: structură de adâncime (D-structură), structură de suprafaţă (S-structură), formă fonetică (PF) şi formă logică (LF). O ipoteză constructivă pentru UG este aceea că limbajul este scufundat în sisteme de performanţă care permit ca exprimări în LN să fie folosite pentru articulare, interpretare, referire, interogare, reflecţie şi alte acţiuni, în timp ce SDs devin un complex de instrucţiuni pentru aceste sisteme de performanţă. O altă ipoteză standard pentru construcţia UG este aceea că un LN este format din două componente: un lexicon şi un sistem computaţional. Această construcţie este o inovaţie esenţială comparativ cu teoria GB, care pretinde independenţa sa faţă de orice aspecte computaţionale sau de implementare. Lexiconul specifică elementele de intrare pentru sistemul computaţional, în timp ce acesta foloseşte intrările de lexicon pentru a genera derivări şi SDs. Derivarea unei exprimări lingvistice particulare implică alegerea elementelor din lexicon şi evaluarea, construind perechea pe două nivele de performanţă, numite şi reprezentări de interfaţă. Una din ipotezele de bază ale teoriei lui Chomsky Minimalist Program este aceea că în construcţia SD, utilizând lexiconul şi sistemul de evaluare, sunt luate în considerare numai două nivele de interfaţă, corespunzând lui PF (formă fonetică) şi lui LF (formă logică), împreună cu mulţimile de perechi (n, X) rezultate din cele două forme. în abordarea P&P a teoriei lingvistice MinP, UG asigură un sistem de principii fixat, asociat cu un tablou finit de parametri evaluaţi (pe un număr finit de valori). Regulile pentru un LN particular se reduc la alegerea valorilor pentru aceşti parametri. Noţiunea de construcţie gramaticală este eliminată, împreună cu regulile particulare de construcţie, specifice gramaticilor generative. Construcţii ca 61 VP, clauză relativă, pasivul etc. devin doar elemente ale unei taxonomii generale, sau colecţii de fenomene explicate prin interacţiunea principiilor de UG, legate (setate) cu anumite valori fixate ale parametrilor. în sistemul computaţional al UG există un set de principii invariante, fiecare cu un domeniu de opţiuni restrânse la elementele funcţionale şi proprietăţile generale ale lexiconului. O selecţie Z printre aceste opţiuni determină LN concret. în schimb, un limbaj determină o mulţime infinită de SDs lingvistice, fiecare pereche (n, X) fiind obţinută din nivelele de interfaţă (PF, LF), respectiv. Achiziţia de limbaj implică fixarea mulţimii 2, în timp ce gramatica limbajului se reduce la specificarea lui 2. în fine, un sistem de parsare care este invariant şi neantrenat (cum adesea se presupune) poate fi văzut ca o transformare a perechii (I, ti) într-o schemă structurată similară cu o SD. Condiţiile asupra reprezentărilor LN impuse pentru diferite principii şi (sub)teorii, cum ar fi teoria legării, teoria cazurilor, ^-teoria etc, sunt satisfăcute pe nivelele de interfaţă ale sistemelor de performanţă. Toate aceste ipoteze fac parte din teoria MinP a lui Chomsky şi din construcţia sa pentru UG. 2.2 (Sub)teoria X-bar în contextul teoriei MinP Sistemul computaţional al unui LN concret preia reprezentările unei forme date şi le modifică, în timp ce UG trebuie să furnizeze mijloacele de a reprezenta o mulţime de elemente din lexicon într-o formă care să poată fi accesată şi procesată de către sistemul computaţional. Forma sub care este accesat lexiconul de către sistemul computaţional poate fi considerată ca fiind o anumită versiune a teoriei X-bar. Schemele X-bar pot fi asociate în mod natural cu structuri de trăsături lingvistice [18], ca un tip de date lingvistice standard şi invariant pentru a reprezenta şi a procesa LN eficient. în strategia SCD, schemele X-bar augmentate [19] considerate până acum nu sunt doar tipuri de reprezentare a datelor la nivelul lexiconului ci ele pot asigura structurile invariante fundamentale pentru a reprezenta şi a procesa textul în LN la nivel sintactic [1], [2], [6]. în teoria Minimalist Program şi modelarea P&P a UG, proprietăţile şi relaţiile esenţiale sunt formulate în termenii simpli şi elementari ai teoriei X-bar. Astfel, o structură X-bar este compusă din proiecţiile lingvistice ale nucleelor selectate din lexicon. în schema X-bar a teoriei MinP reprezentată în Fig. 2.2.1. sunt prezente două relaţii locale: relaţia Specificator-Nucleu de la ZP la X, şi relaţia Nucleu-Complement de la X şi YP (ordinea categoriilor nu este esenţială, fiind stabilită de către parametri P&P adecvaţi de ordonare). Relaţia Nucleu-Complement (Nucleu-Argument) nu este numai "locală" ci şi fundamentală deoarece este asociată (8) relaţiilor tematice. Figura 2.2.1. Schema X-bar din teoria MinP 62 Dacă, pentru moment, nu este luată în considerare relaţia de adjuncţie sau adjuncţii se consideră a se afla printre argumentele-complemente, X-bar structurile pot fi reduse la X-bar schema din Fig. 2.2.1, cu următoarele specificări: (a) Sunt considerate numai relaţiile locale (deci nici o relaţie de proiecţie între X şi vreo sintagmă inclusă în proiecţiile maximale YP sau ZP); (b) Relaţia Nucleu-Complement reprezintă relaţia locală de nucleu [Eng: core relation]; (c) O relaţie locală admisibilă a schemei X-bar din MinP este cea Nucleu-Nucleu. De exemplu, relaţia unui verb predicativ cu nucleul predicaţional (deverbal) al unei sintagme nominale pe care o subcate-gorizează; (d) O altă relaţie în X-bar schema din MinP este legătura de lanţ [Eng: chain //n/c], corespunzând unui lanţ de dominare sau de guvernare. Guvernarea realizată de nucleu joacă un rol central în toate componentele teoriei MinP asupra UG. Una dintre problemele-cheie este asignarea corectă a trăsăturilor nucleului. în HPSG şi SCD, de exemplu, acest lucru este realizat la nivel lexical (BAR = 0), după aplicarea flexionării, cât şi la nivel de lexicon (nivel de proiecţie notat convenţional cu BAR = -1) pentru clasa categoriilor lingvistice cu proprietăţi funcţionale (predicaţionale, relaţionale), fie ele verbe, substantive, adjective, marcheri de sintagmă, marcheri de discurs etc. care antrenează un comportament sintactic funcţional [2], [6]. în particular, pentru teoria MinP, subteorii ca S-guvernarea şi guvernarea de caz, corespunzând 6-marcării şi Caz-marcării, sunt cele mai importante forme de dominare. Un studiu comparativ al guvernării categoriilor (dependenţă, dominare), relaţie prezentă firesc în cele mai importante teorii sintactice formale existente în acest moment, este inclus în [20]. Structurile propuse de teoria X-bar trebuie "animate" de către (sub)teoriile (de asemenea complementare) conţinute în MinP şi P&P, şi care explicitează fenomenele de guvernare, legare, limitare etc. ce s-au dovedit a fi importante pentru orice teorie lingvistică deoarece ele asigură reguli pentru organizarea lexiconului şi a sistemului computaţional care generează şi recunoaşte SDs. De exemplu, în funcţionarea teoriei cazurilor in contextul schemelor X-bar din MinP, ipoteza standard din MinP este aceea că, într-o frază (propoziţie), relaţia Specificator-Nucleu atrage după sine cazul structural pentru poziţia de subiect, în timp ce poziţia de obiect primeşte cazul sub guvernarea nucleului V, incluzând construcţii în care obiectul marcat cazual de către un verb nu este complementul său ci doar un adjunct (aşa-numita marcare de caz excepţională). în continuare este prezentată structura X-bar de bază a clauzei în teoria MinP, cu următoarele notaţii uzuale: C = COMP = Complementizator, T = Timpul, Agrs = acordul subiectului; Agr0 = acordul obiectului etc. Figura 2.2.2. X-bar structura clauzei în teoria MinP Schemele X-bar clauzale clasice din Fig. 1.2. şi Fig. 1.3. sunt expandate în Fig. 2.2.2., cu următoarea posibilă interpretare funcţională: X-bar schema MinP are ca nucleu VP, care îşi selectează sintagma-Obiect (sau argument, mai general) prin acord şi marcare, afectată apoi de Specificator. Un timp finit T aplicat sintagmei Verb-Obiect generează sintagma TP [Eng: tensed phrase], căreia i se aplică apoi aceleaşi funcţii de selecţie a subiectului (acord, marcare, specificare), generând sintagma Verb-Obiect-Subiect, care este de fapt clauza finită simplă (notată S). în fine, prin aplicarea asupra lui S (văzută ca sintagmă AgrsP) a unui complementizator C (sau marcher clauzal, marcher de discurs etc.) se obţine o clauză "completă" ce poate, prin recursie, să genereze orice frază [Eng: sentence]. Alte exemple de X-bar scheme bazate pe MinP şi P&P, ce pot fi discutate în contextul mai general al fenomenelor de guvernare sunt date de Fig. 2.2.3. care urmează. Figura 2.2.3. X-bar scheme în fenomene de "ridicare" la nivel de Spec în MinP Concluzia este aceea că teoria X-bar din MinP sintetizează relaţiile fundamentale de dependenţă, descrise de X-bar schemele propuse, şi implicate în procesele de organizare a lexiconului şi a sistemului computaţional din UG. X-bar teoria în abordarea MinP reflectă în principal aspectele statice întâlnite în fenomenele de guvernare (c-comandă, m-comandă, bariere, categorii de blocare etc), în teoria legării şi în procesele de referinţă-coreferinţă, în stabilirea dependenţelor la mare distanţă (extra-clauzale) etc Nu vrem să intrăm în detalii şi să explicităm mecanismele de lucru ale X-bar schemelor considerate, ci mai curând să atragem atenţia asupra teoriei X-bar ca o componentă fundamentală a unei teorii lingvistice noi şi elaborate cum este MinP şi modelul său P&P [3]. Teoriile MinP şi P&P nu reprezintă un punct-terminus pentru evoluţia teoriei X-bar. Dimpotrivă, asigură o bază de pornire pentru o strategie radical diferită în care Chomsky examinează cele mai serioase argumente pentru a abandona (!) teoria X-bar [3; Cap. Categorii şi transformări]. Această alternativă şi consecinţele sale sunt discutate în secţiunea 5, şi ar trebui să reprezinte una dintre cele mai importante provocări prezente pentru domeniul analizei şi proiectării teoriilor lingvistice [21]. Unul dintre principalele scopuri ale secţiunii care urmează este de a introduce propunerea noastră de scheme X-bar funcţionale (scheme FX-bar) în cadrul strategiei lingvistice SCD. Propunerea noastră o considerăm a fi o poziţie pragmatică şi echilibrată în direcţia teoriei X-bar, atrăgând atenţia asupra adevăratului său rol şi oportunităţilor computaţionale din lingvistica reală, înţelegerea corectă a aspectelor statice şi dinamice ale acestei versiuni a teoriei X-bar ar trebui să fie de asemenea o consecinţă a unei priviri cuprinzătoare a întregului context al teoriilor lingvistice care stabilesc principiile de dependenţă, 65 pasele de marcheri, categoriile şi ierarhiile, regulile de referire şi structurare, în Strânsă relaţie cu formele şi regulile de construcţie ale (sub) schemelor FX-bar. 3. Scheme X-bar funcţionale şi strategia lingvistică SCD în [19], în contextul strategiei lingvistice SCD (Segmentare-Coeziune-Dependenţă) [22], [19], [1], [2], [6], este definită o clasă de scheme X-bar augmentate (scheme AX-bar), scheme destinate a reprezenta invarianţi sintactici generali de reprezentare şi operare cu structurile gramaticale ale LN, în particular pentru limba română, ca soluţie la problemele de analiză şi generare automată a LN. Schemele FX-bar (funcţionale) propuse aici completează şi extind schemele AX-bar [19], şi pot fi interpretate în mai multe moduri: (1) din punct de vedere static, schemele FX-bar pot furniza câteva de tipuri fundamentale de date pentru reprezentarea informaţiei lingvistice în structuri de trăsături lingvistice, standardizate şi tipizate; (2) din punct de vedere dinamic, schemele FX-bar pot codifica informaţia lingvistică în formă procedurală ca funcţii şi relaţii standard ce sunt (recursiv) apelate în cadrul proceselor de analiză şi generare a LN; (3) schema FX-bar generală poate fi de asemenea interpretată şi utilizată ca un automat pe baza căruia să se realizeze o analiză on-line a textului unei fraze, cuvânt cu cuvânt. 3.1. Câteva preliminarii asupra SCD Sunt necesare unele precizări asupra noţiunilor şi notaţiilor cu care lucrează strategia lingvistică SCD. Unul dintre elementele importante este că nivelul 2 (BAR = 1) în X-bar schema clasică joacă un rol-cheie în SCD pentru construcţia structurilor sintactice, şi este utilizat sub numele de grup nominal (NG), grup verbal (VG), grup adjectival-adverbial (AG), în general XG, pentru X = N, V, A. Grupul XG corespunde proiecţiei lexicale X1, cu X = N, V, A, şi clauzei minimale CLO, în X-bar schema fundamentală propusă în Fig. 3.2.1. Să menţionăm că orice XG (X1) este un XP (X2), dar nu şi invers, deoarece proiecţia categoriei X în cazul XG lucrează numai pentru nivelul BAR ^1. SCD face de asemenea distincţie între câteva tipuri de NGs (NGs elementare, Predicaţionale, non-predicaţionale, etc), VGs (VGs la un timp finit şi la un timp non-finit) etc O altă trăsătură esenţială şi specifică a SCD este un tratament adecvat al Proprietăţilor funcţionale ale categoriilor lingvistice, ca şi al tuturor categoriilor Naţionale şi sintagmelor (expresiilor) de discurs. Mecanismul utilizat pentru a obţine acest lucru se bazează pe clase de marcheri lingvistici şi ierarhiile lor [1], 12]i [6], [7], [45]. Câteva observaţii se impun: 66 67 (a) Marcherii din SCD, numiţi marcheri de structuri sintagmatice (PS-Ms) [Eng: phrase-structure markers], sunt cu totul diferiţi de ceea ce teoria lui Chomsky numeşte formal "marcheri de sintagmă" [Eng: phrase-markers] în [17], sau T(ree)-marcheri în [3]. Marcherii Chomsky sunt definiţi ca "tăieturi orizontale" (sau "factorizări") în cadrul unui arbore de derivare, sau ca fiind arborele însuşi. Mult mai apropiaţi de ceea ce sunt PS-Ms în HPSG [16], marcherii de structuri sintagmatice (PS-Ms) din SCD sunt acele categorii lexicale şi nelexicale care se aplică cuvintelor şi structurilor sintagmatice (PSs) cu scopul de evidenţia, de a marca, anumite funcţii şi relaţii sintactice şi semantice pe care PSs respective le joacă în cadrul unei exprimări. Punerea în evidenţă a anumitor funcţii care se aplică PSs se referă la (cel puţin) câteva elemente: tipul funcţiei (sintactic, semantic, relaţional, logic, pragmatic, discursiv etc), locul, în text, unde începe aplicarea funcţiei sau relaţiei, şi domeniul (domeniile, conexe sau nu) de aplicare a funcţiei sau relaţiei (limitele textuale între care se aplică). Exemple tipice de PS-Ms din SCD sunt: (a) trăsăturile predicative generate de către categoriile predicaţionale (de fapt, verbe, substantive, adjective şi adverbe predicaţionale); (b) acele mijloace gramaticale prin care sunt introduse noi NGs (grupuri nominale în limbajul SCD), VGs, AGs (Caz-marcarea, acordul, gradele de comparaţie, etc); (c) acele categorii şi expresii (numite şi marcheri de discurs) care introduc noi clauze; (of) PS-Ms care introduc proprietăţi relaţionale asupra PSs şi clauzale (de exemplu de marcheri de tip logic cum sunt structurile dacă-atunci-altfel, deoarece, etc, dar şi marcheri de tip sintactico-semantic cum sunt aceia care introduc categorii şi clauze subordonate etc) (b) SCD se aseamănă din unele puncte de vedere cu abordarea [16] a HPSG şi, parţial, cu [15], care exploatează, pentru prima o$ră în clasa teoriilor lingvistice bazate pe gramatici de PSs (PS-Gs), într-o mult mai mare măsură, categoria lingvistică a marcherilor PS-Ms. în [16], Pollard & Sag "postulează o nouă parte a marcherilor de discurs,... ce se remarcă ... printr-un nou atribut al categoriilor (în plus faţă de NUCLEU şi SUBCAT) numită MARKING, cu valori din sortul marking". Teoria HPSG enunţă PRINCIPIUL MARCĂRII [16, p. 400] după cum urmează: "într-o sintagmă cu nucleu, valoarea trăsăturii MARKING este lexical-identică cu cea a trăsăturii MARKER-DAUGHTER dacă aceasta există, şi cu cea a trăsăturii HEAD-DAUGHTER în caz contrar. Modul în care HPSG [16] pune la lucru PS-Ms reprezintă un bun şi esenţial pas înainte, deşi credem că nu exploatează îndeajuns potenţialul funcţional şi relaţional al diferitelor clase de marcheri şi ierarhiile acestora (aşa cum face strategia SCD, vezi şi [7], [45]). (c) Continuând şi extinzând construcţia limbajului, ca o expresie de convergenţă între gramatica categorială şi Minimalist Program, Chomsky [3] consideră transformările generalizate (GTs) şi concepe un demers de înlocuire a X-bar teoriei, ce explică în Programul Minimalist structura constituenţilor (sintagmatici) complecşi, prin GT Merge care construieşte obiecte sintactice pornind de la obiecte sintactice simple (de exemplu, "speaks" şi "French" sunt "reunite" într-un nou obiect sintactic "speaks French" etc). Mai multe formalizări ale acestui nou curent al ideilor lui Chomsky pot fi găsite în cadrul gramaticilor logice multi-modale şi de tipuri categoriale, e.g. [21], [23], [24] etc (vezi şi secţiunea 5). (d) Dintr-o perspectivă diferită dar oarecum similară, gramatica funcţională (FG) [25] a lui Simon Dik, orientată funcţional şi semantic, încearcă să facă aceleaşi lucruri. Ca şi în SCD, FG găseşte patru tipuri ierarhice de bază ale categoriilor relaţionale, aceste tipuri corespunzând într-o bună măsură cu clasele de marcheri PS-Ms şi ierarhiile lor stabilite în SCD [7], [2], [6]. PS-Ms reprezintă acele mijloace lingvistice de "suprafaţă" pe care le utilizează un limbaj natural pentru a organiza sintactic şi semantic structurile codificate în construcţii gramaticale. Se impune în viitor o analiză comparativă între cele patru nivele sau "straturi1 din organizarea formală şi semantică furnizată de FG [25], şi cele patru nivele de proiecţie lingvistică, împreună cu clasele de marcheri corespunzătoare, din SCD: (1) cuvântul (lexical); (2) sintagma XG (X = N, V, A) subclauzală; (3) clauza (finită şi infinită); (4) unitatea de discurs (una sau mai multe fraze, care să formeze un segment de discurs). (e) în fine, privitor la utilizarea intensivă a caracterului predicaţional pe care categoriile lexicale majore (N, V, A) îl poartă (proprietate moştenită sau dobândită apoi de alte categorii gramaticale), strategia lingvistică SCD este comparabilă în special cu FG, cu accentul particular pe ierarhiile de delimitare şi marcare aplicate structurilor sintactico-semantice. SCD porneşte de la lexicon şi stabileşte la acest nivel o taxonomie predicaţională iniţială pentru categoriile lexicale majore. Un exemplu simplu al acestei taxonomii predicative este dat de către cele două categorii importante de substantive comune: substantive existenţiale sau obiectuale, a căror predicaţionalitate (trăsătură PRED) este EXIST (e.g. [Eng: student, table; Rom: elev-student, masă]) şi a căror reprezentare funcţională reflectă categorii individuale sau personale, de exemplu predicatul uni-variabil student(X), masă(X) etc, şi substantive de tip-predicaţional, a căror predicaţionalitate (trăsătură PRED) are valoarea ACT, e.g. [Rom: întâlnire, invidie, marcare etc], şi ale căror reprezentări funcţionale depind de mai multe variabile, de exemplu întâlnire(X, Y,...), invidie(X, Y,...), marcare(X, Y) etc Substantivele proprii şi/sau personificările sunt codificate prin constante ale variabilelor din predicatele de mai sus. Câteva din remarcile anterioare vor fi aprofundate în concluziile finale ale lucrării. Schemele FX-bar, ca şi precursoarele lor schemele AX-bar [19], reflectă Pentru SCD faptul că un XPG (grupul sintagmatic de nucleu X), sau mai simplu XG, conţine un nucleu, reprezentat printr-o categorie lexicală (nevidă) sau printr-o categorie virtuală (vidă), înconjurat (prin relaţii de coeziune) de specificatori şi/sau Codificatori de tipul A (adjectival-adverbial). Este esenţial să facem următoarea specificare: un XG din SCD nu include nici un complement (argument obligatoriu) sau adjunct. Complementele şi adjuncţii, împreună cu nucleele de nivel BAR = 1 formează nivelul BAR = 2 în FX-bar schema propusă în Fig. 3.2.1. Pentru un anumit nivel de specificare semantică, FX-bar schemele nu fac o distincţie clară între complemente (argumente obligatorii) şi adjuncţi, considerând toate structurile subcategorizate ca fiind argumente sintactice] clasificări ulterioare (suplimentare) sunt făcute pe baza şabloanelor verbale şi restricţiilor sintactice, semantice, şi pragmatice asupra componentelor şablonului, la nivel de lexicon. O problemă a cărei soluţie poate influenţa în mod special şi teoria X-bar este aceea a asignării corecte a complementelor şi adjuncţilor, în particular, a stabilirii corecte a dependenţelor dintre grupurile nominale (NGs). Soluţia acestei probleme nu se poate obţine la nivel sintactic, iar o soluţie completă nu se poate obţine uneori nici chiar în contextul unui nivel semantic minimal (vezi [26], [27]). Chomsky remarcă realitatea că "... the distinction between modifiers and arguments is notoriously difficult in certain cases" [9, p. 44]. Exemple simple ilustrează această problemă: în TBarr [8], sintagmele "the students ofphysics" este văzută ca un NP cu un argument PP, în timp ce sintagma "the students in. the yard" este considerată a fi un NP cu un adjunct modificator PP. De fapt, în numeroase LNs, inclusiv engleză, se pot aduce multiple argumente serioase pentru ca cele două sintagme să poată fi la fel de bine interpretate fie într-un fel, fie în celălalt. Soluţia SCD pentru acest exemplu foarte particular este următoarea (schiţând şi soluţia problemei generale): substantivul "students" este obiectual, adică nu are o natură predicaţională prin el însuşi, astfel că ambele sintagme nominale care îl succed sunt considerate de către SCD ca fiind modificatori pentru NG "students". Natura acestor modificatori poate fi diferită deoarece "physics" este introdus de marcherul de caz (genitiv) "of, în timp ce "the yard1 este introdus de marcherul prepoziţional "in". în general, când nucleul lui NG posedă o trăsătură predicaţională, atunci NG care urmează nucleului predicaţional asigură o distribuţie sintactică ce satisface un anumit şablon (verbal) al predicatului (verbului) corespunzător. Clasele din PS-Ms şi ierarhiile lor din SCD [7], [45] sunt responsabile pentru delimitarea structurilor sintagmatice propuse de schemele FX-bar, şi pentru stabilirea dependenţelor sintactico-semantice. Diferitele tipuri de marcheri sunt adesea aplicate simultan (deci multiplu) asupra aceloraşi categorii gramaticale, în cadrul anumitor nivele de structurare (proiecţii pe BAR-nivel). Similar cu unele teorii lingvistice (LFG, FG, şi parţial HPSG) dar contrar altora (GB, GPSCB etc), SCD nu consideră prepoziţia (X = P) ca fiind o categorie lexicală majoră. în SCD, P primeşte rolul unui marcher (funcţional), având atât proprietăţi de marcher de caz cât şi de complementizator. Categoriile HPSG PP[+PRD] sau PP[-PRD] (vezi [16]) sunt irelevante pentru SCD deoarece trăsătura +PRD în HPSG este atribuită numai lui PP subcategorizat de un V, în timp ce trăsătura (predicaţională) PRED din SCD poate fi în mod egal atribuită lui V, N, sau A (la nivelul lexiconului, cel puţin) dar nu şi lui P. în SCD proprietăţile de subcategorizare sunt exploatate ab initio, la nivelul de organizare a lexiconului, pe baza trăsăturii funcţionale PRED de predicaţionalitate, asignată sau nu, unora din categoriile sintactice majore N, V, A. Observaţii lingvistice Empirice ne-au convins, încă de la începuturile cristalizării SCD [22], că o taxonomie funcţională şi predicativă adecvată ar trebui să reprezinte punctul de plecare al oricărei teorii lingvistice, atât din motive teoretice cât şi computaţionale, şi că multiple din abordările actuale (cum ar fi [27]-[32]) aduc o susţinere puternică pentru multe din ideile esenţiale din SCD, în special folosirea intensivă a predicativităţii şi ^funcţionalităţii descrierilor lexical-semantice ale categoriilor lingvistice atât în ^procesarea automată a LN cât şi în organizarea bazelor de cunoştinţe lexicale. [19] propune următoarea specificare a Principiului Proiecţiei Maximale k(PMP) [Eng: Principie of Maximal Projection], ca un pas important către folosirea intensivă a trăsăturilor predicaţionale (funcţionale) ale categoriilor lexicale majore îh SCD. Propunem aici O specificare a PMP (formă actualizată): Proprietăţile de subcategorizare ale categoriilor sintactice majore N, V, A depind de trăsătura lor lexical-semantică PRED(icativity), cu valorile ACT şi EXIST, şi de trăsătura lor morfo-semantică TENS(e), cu valorile FINI(te) şi INFI(nite). Trăsătura PRED, atribuită categoriilor majore N, V, A la nivel de lexicon, primeşte două valori: valoarea ACT, pentru acele categorii care au proprietăţi r predicaţionale (în literatură este folosit adesea termenul "deverbale"), şi valoarea ; EXIST, pentru acele categorii N, V, A cu caracter existenţial, obiectual, non-predicaţional. Trăsătura TENS primeşte valorile FINI(te) pentru acele forme ale „^categoriei V care posedă un timp sau aspect finit, personal, şi valoarea INFI(nite) pentru toate celelalte categorii şi situaţii. Exemple: [Eng: boy,.pencil\ Rom: băiat, pix] PRED:= EXIST; şi TENS:= INFI; [Eng: attempt, showing, proved; Rom: încercare, arătând, demonstrat] PRED:=ACT;şi TENS:= INFI; [Eng: are; Rom: sunt] PRED:= EXIST; şi TENS:= FINI; [Eng: gives; Rom: dă] PRED:= ACT; şi TENS:= FINI. într-un grup verbal VG reprezentând un compus la un timp finit, valorile "pozitive" de trăsături, cum sunt ACT sau FINI sunt moştenite de la nucleul V al VG de către întreaga sintagmă VG, sau pot fi obţinute cumulativ prin proiecţia morfo-sintactică. Specificarea PMP de mai a funcţiei proiecţiei maximale este necesară în SCD deoarece îh multe LNs, inclusiv în română, calitatea deverbală (predicaţională, deci funcţională) a categoriilor lexicale tradiţional non-verbale cum ar fi N şi A trebuie descoperită cât mai devreme posibil şi asignată la nivel de lexicon. De exemplu, în engleză, deşi pentru substantivele care 'verbalizează în "-ing" valoarea trăsăturii lor TENS este INFI, aceste substantive posedă, pentru trăsătura PRED, aceeaşi valoare ACT sau EXIST pe care o au verbele din care provin 18963^84 70 substantivele (sau gerunziile) în "-/ng", şi astfel posedă aceleaşi proprietăţi de subcategorizare ca ale verbului de origine. 3.2. Ipoteze de lucru şi aspecte caracteristice ale FX-bar schemei Continuând ideile de bază ale schemelor AX-bar din [19], propunem, pentru SCD, FX-bar schema generală din Fig. 3.2.1. Muchiile din stânga conţin noduri cu rol funcţional sau relaţional: marcheri, cuantificatori, specificatori, modificatori (eventual adjuncţi). Pentru a obţine reprezentări sintactice şi semantice corecte, nodurile funcţionale se aplică (recursiv) nucleelor Xk şi CLk, k = 0, 1, 2, iar nucleele, cu rol funcţional (predicaţional, X1) sau relaţional (eventual X2), au ca argumente clauze infinite (complemente, X1) sau finite (X2). Precizăm că la acest nivel nu se poate face distincţia dintre complemente COMPLi (argumente obligatorii) şi adjuncţi ADJCTj (argumente opţionale). în mod normal, în Fig. 3.2.1., ADJCTj sunt "amestecaţi" printre ARGj ,'la nivel sintactic nefiind discernabili de complementele obligatorii ale unui nucleu predicaţional. Poziţia funcţională (la stânga nodului X1) a nodurilor ADJCT poate rezulta doar în urma unor calcule semantice şi pragmatice suplimentare, din care se obţine rolul tematic al argumentelor ARGs ale lui X1. S = CL2 S = X3-marcheri X2 = CLI [TENS=FINI] Z2 = CLl1CLl2...CLlm (Clauze Finite-Infinite) X2-marcheri ADJCT,...ADJCTm X1=XG=CL0 ARG, ... ARGn (Adjunc{i=Modif) [PRED=ACTv TENS=FINI] (Complemente) X1 -marcheri Specif--Cuant Modif= XO-formă_lexicală = A1 [PRED-F] sau A2 XO-marcher flexional X(-l )-formă_lexicon [PRED-F] Figura 3.2.1. Schema (funcţională) FX-bar generală (*) Aspecte specifice ale schemei FX-bar propuse: (*1) Sunt permise un număr arbitrar de argumente (sau sateliţi In sensul [10], [31]), toate notate cu ARGs. In SCD, ARGs sunt formate din complemente obligatorii (COMPLs) şi din adjuncţi 71 (ADJCTs), sau complemente opţionale. ADJCTs pot fi reprezentaţi la nivel sintactic tot ca argumente ale nucleului, însă la nivel semantic ADJCTs au rol de modificatori ai nucleului. Notaţia "A-poziţie" din teoriile Chomskyene, care înseamnă ARG-poziţie, nu trebuie confundată cu notaţia noastră pentru categoria A = adjectiv-adverb. în teoriile şi notaţia lui Chomsky, COMPLs sunt în A-poziţie (ARG-poziţie), în timp ce ADJCTs nu. SCD se situează pe o poziţie sintactică similară cu HPSG [16], care utilizează lista SUBCAT pentru a codifica toate sintagmele pe care le subcategorizează un nucleu semantic, adică atât COMPLs cât şi ADJCTs (sau ARGs din SCD). (*2) Sintagmele AG = A0 sau A1, sau AP = A2 sunt postulate de către SCD ca fiind de tipul categoriei funcţionale Modif, manifestate prin categoriile A (de nivel XO, şi aplicabile la nivel XO), ADJCTs (de nivel X1, şi aplicabile la nivel XO şi X1), şi clauza relativă (de nivel X2, şi aplicabilă la nivel XO şi X1). (*3) Categoria generică Specif (sau Spec), în care intră cuvintele şi sintagmele ce desemnează cuantificatori de toate tipurile (generalizaţi), determinatori (în particular), este postulată de către SCD ca fiind o categorie funcţională ce poartă trăsături de natură cuantificaţională la nivel lexical (în particular, negaţia la nivelul X1), inclusiv articularea (hotărâtă sau nu), suprapunându-se deci uneori peste X1-marcheri de trăsături funcţionale cum este acordul. Relaţiile (funcţionale) de acord sunt esenţiale pentru coeziunea locală şi globală în cadrul strategiei SCD: acordul dintre XO-Modif şi XO-Specif cu nucleul XO (la nivel X1), acordul Nucleu-Subj (sau chiar Nucleu-COMPL) şi acordul COMPL-PronEmfat (Pronume emfatic) (la nivel X2), o anumită corespondenţă a timpurilor evenimentelor într-o clauză şi între clauze. Aceste tipuri de relaţii de acord, referinţă şi coreferinţă, coeziune, coerenţă, etc. sunt responsabile pentru o largă clasă de dependenţe locale şi globale, inclusiv dependenţe la distanţă mare şi în extra-poziţie. Accentul în componenta de coeziune a strategiei SCD (Segmentare-Coeziune-Dependenţă) cade pe mijloacele sintactice şi de "suprafaţă", mai curând decât pe cele semantice, încercând să găsim, să extragem, şi să utilizăm într-o măsură maximală informaţii de ordin superior, cum ar fi informaţia de discurs [34], pragmatică, semantică etc. (*4) Sintagma tradiţională PP din teoriile lingvistice clasice, iar în SCD, grupul prepoziţional PG (format dintr-un grup nominal NG care este precedat de o prepoziţie sau o locuţiune prepoziţională) este întotdeauna considerată un ARG (COMPL sau ADJCT) în FX-bar schemele al căror nucleu (lexical nevid sau vid) este N, V, A. Această ipoteză de bază asupra PG este justificată de SCD prin faptul că P nu este considerată o categorie majoră, adică o categorie de nivel X1 în schema FX-bar din Fig. 3.2.1. ci doar o categorie de nivel XO. Proprietăţile de subcategorizare ale N, V, A (dar nu şi P) pot fi asignate ab initio, 'a nivel de lexicon, începând cu trăsătura lexicală PRED a categoriilor predicaţionale. Categoria P poate primi proprietăţi funcţionale, cel mai adesea ca marcher de caz, uneori proprietăţi relaţionale (de exemplu [Eng: on; Rom: asupra]), dar nu şi Proprietăţi de subcategorizare. (*5) Subiectul (Subj) în SCD, lexical nevid sau vid (pRO), este considerat ca un argument special al proiecţiilor maximale ale categoriilor X = N, V, A într-o clauză finită (de nivel X2) sau infinită (de nivel X1). (*6) In ipotezele (*5) şi (*2) de mai sus, categoria lingvistică tradiţională VP este dizolvată într-un grup verbal VG (finit sau infinit), înconjurat (de cele mai multe ori I I l 72 73 urmat) ca nucleu de ARGs şi formând o clauză finită, respectiv infinită. (*7) Teoria limitării şi multe probleme majore legate de TBarr [8], [9], [17] sunt explicitate şi rezolvate în cadrul realizat de SCD şi schemele FX-bar, în principal datorită delimitării clare a funcţiilor şi relaţiilor care se aplică cuvintelor şi sintagmelor, a reprezentării lor lexicale prin clasele de PS-Ms, şi a specificării domeniului lor de aplicare. Acest rol este realizat explicit în cadrul claselor si ierarhiilor de marcheri propuse şi utilizate de SCD [2], [6], [7], [45]. Trebuie să remarcăm că în lucrările sale cele mai recente [34], [35], Chomsky adoptă o tehnică similară de "limitare" a operaţiilor de construire [Eng: merge] şi transformare [Eng: move] doar la "domeniul" sintactic al unei "faze" [Eng: phase], o unitate textuală (care în general coincide cu clauza!) în care Chomsky propune următorul principiu de impenetrabilitate "într-o fază (clauză n.n.) F cu nucleul H, domeniul lui H nu este accesibil la operaţii în exteriorul lui F, ci este accesibil numai H şi muchia sa (nodul său ascendent)" [34]. Exact aşa este construită şi funcţionează schema FX-bar! De asemenea, fenomene de teoria legării [9], [8], [3], [16], legăturile [Eng: linking] din [27], mecanisme de coeziune (locală şi globală) şi discurs întâlnite în [36], [31], [33], etc. sunt mai uşor de [ pus în evidenţă şi de rezolvat în cadrul oferit de strategia lingvistică SCD si teoria FX-bar. (♦) Observaţii asupra ipotezelor de lucru pentru schema FX-bar din Fig. 3.2.1.: (41) Schema FX-bar este proiectată să lucreze în asociere cu un parser care este capabil să recunoască clasele de PS-Ms şi structurile sintagmatice considerate [ de strategia lingvistică SCD. Schema FX-bar este organizată pe patru nivele de proiecţie BAR = (H-3 (deasupra nivelului de lexicon, notat convenţional BAR = -1); i trei nivele X0-X1-X2 corespund proiecţiei dintre nivelul lexical (BAR = 0) si nivelul f clauzal, al structurilor uni-eveniment, alte trei nivele CL0(=X1)-CL1(=X2)-CL2 f corespund proiecţiei dintre nivelul clauzal minimal CLO = X1 şi nivelul frazei, al ! structurilor multi-eveniment. Nivelele uni-eveniment X0-X1-X2 exprimă predicaţia clauzei (propoziţiei) simple în care sunt distribuite categoriile lexicale de bază şi sintagmele pe care le generează, în timp ce nivelele CL0-CL1-CL2 exprimă relaţiile logice şi predicaţionale (de ordinul doi) dintre clauzele simple. Schema FX-bar lucrează într-o manieră recursivă (top-down sau bottom-up), atât în situaţiile de analiză cât şi în cele de generare în care este antrenat parserul asociat, în strânsă cooperare cu strategia lingvistică SCD, cu clasele de PS-Ms şi ierarhiile lor si, mai ales, pe baza meta-algoritmilor SCD de analiză-generare [1],' [2], [6], [7]. Să mai observăm că FX-bar schema din Fig. 3.2.1. poate fi utilizată independent de aşa numita ordine canonică (sau sistemică) a cuvintelor si sintagmelor dintr-o clauză, I specifică fiecărui LN [37], [38]. (^2) Valoarea ACT de trăsătură (funcţională) pentru | categoriile N şi A (şi implicit V) este atribuită acestor categorii la nivel de lexicon ! atunci când ele corespund unor evenimente cu actanţi şi/sau stări multiple. Valoarea [ EXIST este implicit sau explicit introdusă de formele şi înţelesurile verbelor j existenţiale (a fi), modale (a trebui), etc. (^3) Trăsătura (funcţională) TENS este I similară cu categoriile virtuale I (INFL) şi T (Tense) din teoriile GB si TBarr ale lui I Chomsky şi din schemele S-bar corespunzătoare (Fig. 1.3. şi Fig. 2.2.3.). Pentru un VG finit (TENS = FINI), structura V2 corespunzătoare devine clauza finită clasică. Dacă sintagma XG (X1) este un grup a cărei categorie-nucleu X posedă valorile de trăsături PRED = ACT şi TENS = INFI, atunci XG devine noul nucleu al unei clauze infinite ce face parte dintr-o structură de nivel X2 (XP). (^4) Poziţia specială a subiectului sintactic (Subj) este considerată de către SCD atât o ARG-poziţie (asemănătoare, de fapt, cu o COMPL-poziţie) cât şi o Caz-poziţie. în concordanţă cu TBarr [8] şi cu HPSG [16], Subj primeşte poziţia specială a primului element din lista SUBCAT [16]. Aceasta este în esenţă o poziţie sintactică, iar Subj poate primi o funcţie tematică (Opoziţie) autentică doar ca rezultat al unor calcule sintactice şi semantice suplimentare! (^5) Aşa cum rezultă din schema FX-bar din Fig. 3.2.1., sintagmele AP şi PP din teoriile lingvistice clasice sunt segmentate de către marcherii SCD [7], [45] în sintagme mai mici XG, X = N, V, A. Aşa cum am precizat deja, SCD atribuie noilor sintagme următoarele roluri: AG = Modif, cu rol funcţional la nivelul de proiecţie X1, şi PG = ARG (COMPL sau ADJCT), ADJCT purtând de asemenea rol de Modif al nucleului de nivel X2. PG devine deci un NG P-marcat, iar orice categorie A are de la început reprezentarea (nesaturată) A(X), unde X = N, V, A este nucleul ([existent, viitor, sau lipsind pur şi simplu) al sintagmei de nivel X1 în care Modif = A. în mod similar, orice categorie Specif (determinator, cuantificator, etc.) joacă un rol similar, schema FX-bar impunând reprezentarea funcţională Specif(X), unde X este nucleul sintagmei. (^6) în ciuda anumitor asemănări (inerente) între schemele FX-bar şi versiunea MinP a teoriei X-bar, există diferenţe de bază în ce priveşte organizarea şi funcţionarea constructivă dintre schemele (F)X-bar din Fig. 3.2.1. şi Fig. 2.2.1. De exemplu, în schema FX-bar, fiecare element lexical se proiectează într-o categorie obiectuală sau funcţională (relaţională), aceasta este (coeziv şi ^recursiv) înconjurată de către Specif şi/sau Modif, iar dacă valoarea ACT a trăsăturii HPRED a nucleului este prezentă, atunci această valoare ACT este moştenită de către întreaga sintagmă al cărei nucleu a fost specificat sau modificat. Această sintagmă cu nucleu predicaţional îşi subcategorizează complementele (argumentele obligatorii COMPLs) şi adjuncţii ADJCTs (care modifică sintagma-nucleu). în schema X-bar din Fig. 2.2.1.,'se întâmplă tocmai invers deoarece "The Head-Complement relation is the "most local" relation of an XP to a terminal Head Y, all other relations within YP being Head-Specifier (apari from adjunction, ...)" [3: p. 53]. (^7) Deşi schema FX-bar generală a fost proiectată având în vedere în primul rând limba română, ea poate fi aplicată pentru a reprezenta, grafic şi logic, structuri sintactico-semantice ale LNs cu valori ale parametrilor gramaticali foarte diferite, cum ar fi engleză-germană sau franceză-germană. Distribuţia complementelor (argumentelor) în română (engleză, franceză) poate fi foarte diferită de cea din germană; de exemplu, într-o clauză al cărei verb principal din compusul său verbal VG se află în poziţie finală, sau pentru o categorie A (adjectiv-adverb) având valoarea de trăsătură PRED = ACT. Ex. 3.2.2.R. /Paharul /spart //de Ion/ cu mingea /de fotbal/ Ex. 3.2.2.E. /The glass /broken //by Ion/ with / the football / Ex. 3.2.2.G. /Das/von lon/mit/dem Fuflball //zerbrochene //Glass/ După cum am remarcat în (t1), schema FX-bar poate fi utilizată incJependent de regulile structurilor sintagmatice şi ordinea lor (din română sau 74 germană), aceasta deoarece principiile rămân aceleaşi şi diferă numai anumiţi parametri şi valorile lor pentru LNs distincte: în română (şi engleză, franceză) argumentele succed o categorie A ce reprezintă un nucleu predicaţional, în timp de în germană ele îl pot precede. Dacă un nucleu V al unei clauze are valorile de trăsături PRED = ACT şi TENS = FINI, atunci distribuţia ARGs este similară cu cea din română, cu posibile (şi probabile) diferenţe impuse de ordinea sistemică, strict dependentă de LN, a ARGs (a se vedea [37} dar şi [27]). Dacă se încearcă utilizarea formei FX-bar ca "schelet" pentru un automat (sau gramatică formală) de analiză şi generare a LN, un asemenea automat ar trebui să mimeze atât forma generală a schemei FX-bar cât şi regulile gramaticale de analiză-generare. Partea din automat care reflectă cele patru nivele de organizare a structurilor LN în schema FX-bar ar trebui să fie independentă de limbaj (cel puţin pentru o largă clasă de limbaje europene), în timp ce (sub)partea constituentă care recunoaşte structurile lingvistice pe fiecare nivel individual Xk (k = 1, 2, 3) trebuie să fie dependentă de limbaj (acest fapt este binecunoscut şi parametrizat). Reprezentarea schemei FX-bar pentru Ex.3.2.2.G. este aceeaşi cu reprezentările FX-bar pentru Ex.3.2.2.R.-E., şi similară cu figura pentru Ex.4.1.2.R.-E. 4. Exemple de aplicare a schemelor FX-bar Vom expune câteva exemple de aplicare^ a schemelor FX-bar la reprezentarea sintagmelor, clauzelor şi frazelor. în exemplele prezentate, categoriile gramaticale pentru care PRED = ACT sau TENS = FINI vor fi subliniate, iar PS-Ms care se aplică sintagmelor Xk (k = 0, 1, 2) sunt reprezentaţi grafic în text prin apariţia unuia sau mai multor semne 'slash' /. Să notăm că schemele (augmentate) AX-bar din [19], deşi oarecum asemănătoare în spirit sunt efectiv scufundate în schema FX-bar generală, diferenţele substanţiale constând în forma unitară a FX-bar schemei şi în criteriile sintactice şi logico-semantice mai clare, pe baza cărora clasele de PS-Ms şi ierarhiile lor sunt explicit propuse şi aplicate în funcţionarea schemei FX-bar. Care este relaţia dintre exemplele de FX-bar scheme şi formulele logice ataşate după reprezentarea grafică? Prima formulă este o reprezentare uzuală a LN, care foloseşte limbajul logicii predicatelor, reprezentare mai apropiată de exprimarea în LN, conţinând toate variabilele ce codifică referinţele-coreferinţele, dar (pentru simplitate) fără cuantifcatorii corespunzători. A doua formulă este traducerea mai completă a primei formule în limbajul de programare logică Prolog, folosind tehnici clasice de reprezentare a cunoştinţelor de LN în Prolog. Pe o scală ascendentă a măsurii în care sintagmele LN ar fi analizate, schema FX-bar poate fi văzută ca un prim rezultat al procesului de parsare (analiză), prima formulă ar urma procesului de parsare, incorporând fenomenele de referinţă (şi coreferinţă, rezoluţie a anaforei, etc), iar a doua formulă ar reprezenta o rafinare a primei formule. Formulele de tipul doi reprezintă de asemenea atât un stadiu final al procesului de analiză a frazei cât şi punctul de pornire în procesul de generare a 75 unei fraze (conform cu abordarea [39], [6] a generării automate a LN, însă diferită de [31], de exemplu). Este important să remarcăm că schema FX-bar propusă reflectă, în principal, relaţiile de dependenţă dintre diferitele categorii, sintagme, şi clauze dintr-o frază, împreună cu marcherii corespunzători care controlează, în parte, şi comportamentul lor distribuţional. Deoarece am văzut în ce măsură ordinea argumentelor este (parametric) dependentă de limbaj în schemele FX-bar, acestea pot codifica nu numai situaţii în care argumentele succed (situaţia obişnuită) sau în care ele preced nucleul lor semantic (Ex.3.2.2.), dar şi în care argumentele aceluiaşi nucleu sunt interschimbabile. Deci aceleiaşi scheme FX-bar i se pot atribui mai multe formule logice corespunzătoare "echivalente". 4.1. De la text la scheme FX-bar , \ Strategia SCD propune următoarele scheme FX-bar pentru exemplele de mai jos. Deşi muchiile ale căror noduri sunt Modif sau Specif sunt situate în dreapta nucleului corespunzător (pentru convenienţe grafice), ele trebuie înţelese ca având rol funcţional (situate la stânga şi aplicându-se nucleului X1). La fel şi cu unii adjuncţi, la nivel X2. Diferenţele dintre codificarea formei pentru engleză şi cea pentru română sunt nesemnificative (cu excepţia unor aspecte suplimentare de acord, care sunt puse în evidenţă). Forma codificată a textului pentru limba engleză este un argument suplimentar pentru versatilitatea schemelor FX-bar propuse. ~Ex. 4.1.1.R. /floare albă/de cireş / Ex. 4.1.1 .E. / the cherry / white blossom / Mark = Def NI Mark N Spec Modif^Al NIL Mark N Spec=Def Modif A /|\\ /\ | | Mark blossom Mark A Spec Modif Mark c/ierry the NIL blossom Mark white cherry white 20079377 76 77 LR.4.1.1.R. de( cireş)( albă( floare( X))); LR.4.1.1.E. quant( indef, X, white( blossom( X)), cherry( X)). Ex. 4.1.2.R. /floare albă/ //bătută//de vânt/ Ex. 4.1.2.E./tf7e white blossom/ //blown//bv the wind/ object, = O,; eventj = ef Ni Mark NI; Spec Mark Ni Spec Modif = Ai Modif =A2 Mark Al y\ —vim^/f^^^ =|N1 ^^x? ST blossom; Mark A Spec Modif Mark A Sm* MoHîf I _ (\. \ >s ^SST«Ţm^±A Spec Modif MarU sVldif ^ Mark N SpecModif blossom Mark white NILPRED=act blown NIL / 1 ^/j tens=înft/i pred=exist whitp ' r , tens=infi pred=act pred=exist m^ - tens=infi £;y w/W the NIL LR.4.1.2.R. albă( floare( X)) a bătută( de( vânt( Y)), X); LR.4.1.2.E. quant( indef, X, white( blossom( X)), quant( indef, Y, by( the( wind( Y))), blown( Y, X))). Ex. 4.1.3.R. //educat//[de tatăl săul//corespunzător//cu vechile principii/ Ex. 4.1.3.E. //educated//[bv his fatherl//accordinalv// with old-fashioned principles/ NI Mark N Spec A2 = Modif n. Mark Al ARGi =N1 ARG2 = N1 by N Spec Modif = NI • pred = act/ /'l^^^"*"""'^'^''^^ /\ /T^X^^^ tens = educated Mark ^1 ARQi ARG2 = N1 Mark toi Mark N Spec Modif pred = act educate j | \ 0i / \ ^\ / Mark A Spec Modif MarkN Spec Modif =AlMark/af/K?r NIL /INI Mark accordingly NIL with principles Mark A Spec Modif pred = âctm kA Spec Modif =A2 Oj tens = r - FINI v INFI accordins Mark 'old-\ ushioned NIL old-fashion LF.4.1.3.R. corespunzător X, cu( vechile( principii( Y)))) ( educaţ( X, de( său( tatăl( Z))))); LF.4.1.3.E. quant( indef, X, educated( X, by( his( father( Z)))), quant( indef, Y, with( old( principles( Y))), accordinqlv( X, Y))). Ex.4.1.4.R. // Omul, // căruia, // PRO] / h -am dat // cartea // PROj a părăsit // ţara.// Ex.4.1.4.E. // The man\ //whom\/l\ /pave//the book//PRO\ left //the country.// 4.1.4.E. Readinq 1 (left = pastjense(feave)) S = CL2 CLlF = ec ™irk CLlF=V2=er Mark whom Mark \h who MarkvWwm MJk^ SpecM^jf Mar£ ^ ^ M^,up ARG2 = ni Mark n Spec Modif A Mark/ PRED=a6t I NIL Mark™™i"* Mark VI ARGj=Nl ARGjZnÎ country the NIL tens= I ^ ^ FINI v INFI Ih* Case+ whom = Ot / \ \ +CL-m / Mark V Spec Modif , wh° I I I pred=act f>ave NIL TENS=FINI the book Oj Mark N Spec Moăif = I CL1F= V2 Mark man, the M k V1 ARGj=m :N1 Mark ARG3 = NI whom, V / Mark N Sp\ ^od.f= 'TENS= FINI j who CL1F=, PRED^EXISI" TENS= INFI Mark gave Mark the \m i 1,1 . | JJ ^ Mark^V ARG2=N1 Mark V Spec Modif the Oj PRED=ACT jg TENS= ~Ţ~ FINI v INFI live book NIL country 4.1.4.E. Readinq3 ([Eng: leff\ - [Rom: stânga]).. LF.4.1.4.R. a-părăsit( omul( X) a am-dat( Y, cartea( Z), X), ţara( T); LF.4.1.4.E. quant( def, X, and( man( X), quant( def, Y, l( Y), quant( def, Z, book( Z), qavef Y, Z, X)))), quant( def, T, country( T), jeft( X, T))). Ex. 4.1.5.R. //lon\ //a convins^ //pe Mariaj //că //deplasarea* //e/j /la Lodra / /a fost utilă //ek / Universităţii. // Ex. 4.1.5.E. // John\//convinced I/Mary^ //that //her^ //departure* // to London //was useful//ek / to the University. // objectj = Oj; eventj = ej S = CL2 Mark CLIF = er =V2 ARGi = es Mark ^1 ARGi=Nl ARG2=N1 ARG3=CL1F= es that Mark V Spec Modif John-, Maryx MarkVl Mark convinced NIL Mark V Spec Modif=CLlI =A2 ARGi=CLlI= convince PRED=EXIST was ' ' ^ adTT^j, Mark N Spec Modif _ to, TENS=FINI / Mark - ARGi=Nlq ARG^=N 1 „ v , =Oj London to be Mark Nl^ ARG^Nl ARG2=N1 er Oj INI /\KAJi: rk N ~ ' " " 7 MarK ai akui=iniq aku2=ini —\. ( ] \ A . Mark A Spec Modif eq to the • Mark departure NIL A University / L . -L PRED=ACT deal PRED=ACT useful NIL TENS=INFI | touse departure LF.4.1.5.R. a-convins( ion, -o( pe( mariaj)), că( a-fost-utilă( deplasarea( ei( Xj), la(londra)), universităţii( Y)))); LF.4.1.5.E. convinced( john = X, mary = Y, quant( def, X, her( X), departuref X, to( london)) = E, quant( def, Z, university( Z), was-useful( E, Z)))). 4.2. Observaţii generale (*1) Nu este scopul prezentei lucrări să arate cum sunt obţinute ^prezentările FX-bar ale structurilor LN (într-o manieră mai mult sau mai puţin 3'goritmică), ci doar să propună schema FX-bar generală ca un mecanism esenţial ^reprezentare a informaţiei lingvistice, să sugereze cum lucrează, şi să explice 80 81 raţiunile introducerii acestui mecanism. Teoria FX-bar este integrată ca4 o componentă importantă a strategiei lingvistice SCD, însă ea poate fi utilizată şi în alte contexte computaţionale, cu condiţia de a include ingredientele necesare, şi anume, clasele de PS-Ms, ierarhiile acestor clase, o taxonomie funcţională (predicaţională) şi relaţională a categoriilor majore şi a marcherilor, un algoritm (în particular, algoritmii SCD) de obţinere a structurilor de dependenţă, etc. Aspecte mai detaliate ale SCD au fost prezentate în [1], [2], [6], [7], [45]. (*2) Funcţionarea corectă a schemelor FX-bar expuse arată clar cât de necesară este utilizarea (intensivă) a trăsăturilor predicative şi funcţional-relafionale pentru fiecare categorie lexicală. Din experienţa noastră în ce priveşte analiza şi generarea automată a limbii române [6], considerăm că accentul pus pe trăsăturile funcţionale ale categoriilor gramaticale, cuplat cu punerea în evidenţă a PS-Ms, reprezintă elemente-cheie în utilizarea cu succes a teoriilor X-bar curente în procesarea automată a LN şi în cadrul unor teorii lingvistice moderne (UG, FG, HPSG, etc). (a3) Punerea în valoare a trăsăturilor funcţionale (în particular, predicaţionale) ale categoriilor majore N, V, A, şi a celor relaţionale ale claselor de marcheri (marcheri numiţi în literatură şi "cue phrases" [Rom: sintagme indicatoare] [28], [31], sau conective [29], [30] etc), deşi esenţiale, nu poate rezolva toate problemele. De exemplu, asignarea dependenţelor corecte în juxtapunerea de NGs este o problemă binecunoscut de dificilă, imposibil de rezolvat complet doar la nivel sintactic. Există însă în prezent un puternic curent către acest tip de abordări, aceasta deoarece ele reflectă mult mai adecvat structura reală a textului de LN (cel puţin pentru o clasă largă de LNs europene). Aceste abordări pot diferi substanţial în instrumentele şi tehnicile de parsare, însă principiile rămân foarte similare (de exemplu, [19], [29], [31], [33], etc (*4) PS-Ms (marcherii de structuri sintagmatice) joacă un rol fundamental în delimitarea structurilor sintactice şi semantice, şi stabilirea dependenţelor corecte între aceste structuri, SCD a pus accentul încă de la începuturi pe acest aspect [22]. Se remarcă în prezent o întreagă mişcare către reconsiderarea rolului esenţial al marcherilor, în special la nivel de discurs şi în analize complexe ale marilor unităţi textuale (regăsirea informaţiei, rezumare automată, planificare şi generare automată de text, etc). Strategia SCD, cu componenta ei de teorie FX-bar, încearcă să pună la lucru întreaga paletă de PS-Ms, de la nivel lexical şi de coeziune (locală), până la nivel de discurs (coeziune şi coerenţă globală), punând accentul pe sintaxă (nivelul de "suprafaţă", [Eng: shallow]) şi pe un nivel minimal de semantism. în funcţie de problema de LN ce trebuie rezolvată, acest nivel poate fi amplificat în mod corespunzător, (a5) Cuplarea schemelor FX-bar cu: (a) clasele de marcheri SCD şi cu ierarhia lor ce corespunde celor patru nivele de proiecţie lingvistică din FX-bar [7], [45]; (b) o taxonomie bazată pe predicaţionalitate a categoriilor majore N, V, A; (c) exploatarea maximală a trăsăturilor funcţionale (predicaţionale) şi relaţionale ale tuturor categoriilor lexicale şi nelexicale (deci şi ale PS-Ms); (d) o schemă X-bar simplă şi unică, apelată recursiv pe cele patru nivele ale sale, pornind de la lexicon (convenţional, BAR = -1) şi până la nivelul de discurs al frazei multi-eveniment (BAR = 3), aceste aspecte reprezintă principalele diferenţe (şi noutăţi) dintre teoria FX-bar şi teoriile X-bar precedente, (a6) Schema FX-bar poate fi de asemenea asociată cu un automat dependent de limbaj (pentru o largă clasă de LNs), care începe să lucreze pentru fiecare frază, primeşte on-lirie cuvânt cu cuvânt, şi se opreşte odată cu semnul de punctuaţie final al frazei. Pentru valori adecvate ale parametrilor de LN cum sunt ordinea cuvintelor (argumentelor) şi direcţia proiecţiei lingvistice pentru categoriile majore şi pentru marcheri, schema FX-bar poate reprezenta corect dependenţele structurilor lingvistice (inclusiv pentru Ex.3.2.2.G). 5. Problema X-bar teoriei actuale Mai este necesară X-bar teoria sau nu? Este teoria X-bar pe moarte sau nu? Care este valoarea teoretică şi, mai ales, practică a (sub)teoriei X-bar în cadrul teoriilor lingvistice şi al tehnologiilor actuale ale LN? Cum trebuie să percepem în mod corect X-bar teoria atunci când, în aceeaşi carte a lui Chomsky, găsim următoarele două pasaje: (Chomskyl): "The concepts of X-bar theory are therefore fundamental. In a minimalist theory, the crucial properties and relations will be stated in the simple and elementary terms of X-bar theory." [3, p. 172], (Chomsky2): "Standard X-bar theory is thus largely eliminated in favor of bare essentials." [3; p. 246]. Subliniem că aceste citate nu sunt extrase din text astfel încât să nu aibă relevanţă în context, cu intenţia de a provoca confuzie. Dimpotrivă! De asemenea, scopul nostru nu este de a căuta o posibilă incoerenţă ci de a pune în evidenţă noua poziţie a lui Noam Chomsky, între 1992 şi 1995. încercăm să deschidem o discuţie pe această temă deoarece considerăm că există o problemă, şi că ea este de o reală importanţă. în această secţiune urmărim cinci obiective: (A) Să enunţăm problema X-bar teoriei. (B) Să rezumăm soluţiile existente în momentul de faţă. (C) Să stabilim rolul X-bar teoriei în interiorul contextului teoriilor lingvistice şi să sugerăm posibile dezvoltări. (D) Să specificăm poziţia FX-bar schemelor propuse privitor la dilema eliminării complete a X-bar teoriei şi, în special, relaţia noii FX-bar teorii conturate în contextul strategiei lingvistice SCD. (E) Căteva concluzii şi perspective. (A) Să considerăm următoarea problemă: reflectă teoria X-bar o realitate lingvistică a LNs, şi dacă da, prin ce mijloace această realitate lingvistică ar putea fi cel mai bine reflectată? Proiecţia categoriilor lingvistice este un fapt lingvistic de netăgăduit. Chomsky şi alţi distinşi lingvişti au fost în completă eroare în ultimii 25-30 de ani? Credem că nu. Problema este dacă teoria X-bar poate încă să mai fie un bun model, sau vehicul, care să exprime acest fapt, şi cu ce preţ de utilitate. Principiul Proiecţiei Extinse [3, p. 55] şi Principiul Proiecţiei Maximale (propus în [19] şi secţiunea 3.1.) au ca scop să stabilească forma şi marginile cele mai probabile ale unităţilor textuale obţinute în cadrul procesului de proiecţie a categoriilor lingvistice. 82 83 (B) Ipoteza (Chomskyl) de mai sus dă un răspuns afirmativ la această întrebare în timp ce (Chomsky2) reprezintă, aparent, opusul acestui răspuns. Abordarea din [3, Cap. Categories and Transformations] pentru ipoteza (Chomsky2) este că disoluţia schemelor X-bar, deci a proiecţiei categoriilor lingvistice, poate fi înlocuită cu succes prin folosirea proprietăţilor de funcţionalitate, predicativitate, tipologie şi transformare intrinseci acestor categorii, deşi aceste proprietăţi sunt reprezentate în [3] cu acelaşi aparat X-bar pe care îl combat! în cadrul unei teorii a "structurii sintagmatice pure", operaţiile unui sistem computaţional al LN "construiesc recursiv obiecte sintactice", iar "categoriile sunt construcţii elementare rezultate din proprietăţile elementelor lexicale", cu condiţia "să nu fie adăugate obiecte noi în cursul procesării, înafară de rearanjări ale proprietăţilor lexicale" [3]. Rezultatul pare să fie spectacular: dispar nivelele de proiecţie (în sensul teoriei X-bar), astfel spus, nu se face nici o deosebire între elementele lexicale şi nucleele proiectate din ele, în timp ce "teoria structurilor sintagmatice poate fi eliminată în întregime, se pare, pe baza celor mai elementare ipoteze" [3, p. 294]. Nu ar fi pentru întâia oară când teoria lingvistică încearcă să renunţe la (sub)teoria X-bar. Chomsky sugerează că nivelele de proiecţie lingvistică pot fi înlocuite de către "proprietăţile (funcţionale n.n.) ale elementelor lexicale". Acesta este chiar cazul gramaticii funcţionale (FG) [25] în care, formal, lipseşte teoria X-bar. Dar chiar şi în gramatica funcţională a lui Dik, conţinutul ascuns al teoriei X-bar este scufundat de fapt în cele patru nivele de structuri ierarhice ale functorilor şi operatorilor ce se aplică pe categoriile şi structurile cu care FG lucrează la fiecare nivel sintactic. O situaţie specială avem în SCD, unde nivelele de proiecţie a categoriilor lingvistice sunt recuperate pe baza unei funcţionalităţi ierarhice a elementelor lexicale, iar FX-bar schema propusă poate fi utilizată (recursiv) ca un invariant sintactic constructiv al structurilor sintagmatice în cadrul proceselor de analiză şi generare automată a LN (limbii române). Schema FX-bar propusă (Fig. 3.2.1.) poate fi considerată ca un compromis, o negociere, între (Chomskyl) şi (Chomsky2), deoarece (Chomsky2) se prezintă fără mecanisme concrete pentru a-şi susţine ipoteza: în timp ce teoriile X-bar clasice nu mai pot fi utilizate ca instrumente operaţionale pentru a reflecta o viziune exclusiv funcţională (şi relaţională) asupra sintaxei, teoria FX-bar propusă poate face acest lucru. (C) Poziţia noastră privind problema (A) asupra teoriei X-bar poate fi rezumată astfel: (C1) Proiecţia categoriilor gramaticale este un fapt lingvistic. (C2) Acest fapt poate fi corect reflectat prin "nuclee" şi "nivele (bar) c/e proiecţie" în interiorul schemelor X-bar, dar şi prin proprietăţile funcţionale "intrinsec? ale categoriilor lexicale şi gramaticale. (C3) Teoria X-bar include deci o componentă de adevărată construcţie lingvistică, iar ingredientul său de bază este confecţionat din relaţiile funcţionale stabilite între elementele lexicale (şi nelexicale) conţinute în cadrul schemelor X-bar. (C4) Atunci când proprietăţile funcţionale ale categoriilor lexicale nu sunt evaluate şi exploatate corespunzător, teoria X-bar este inconsistentă şi produce dificultăţi de calcul şi rezultate incorecte. (C5) Acestea sunt consecinţele unui aspect mult mai general, şi anume că teoria X-bar nu trebuie să fie văzută ca o teorie gramaticală singulară, construită pentru sine, ci ca un dispozitiv component al unui mecanism lingvistic teoretic şi computaţional mai generat, ale cărui principii să guverneze teoria X-bar. Axiomatica (bazele constructive ale) teoriei X-bar trebuie să fie un rezultat al bunei ei funcţionări, pe fenomenele concrete de limbaj, şi nu invers! (C6) Ad limitum, se poate concepe că mecanismul lingvistic teoretic menţionat mai înainte poate funcţiona şi fără includerea dispozitivului reprezentat de teoria X-bar, aşa cum încearcă teoria MinP să propună în [3, Cap. Categories and Transformations] (dar folosindu-se în explicare tot de aparatul de reprezentare al teoriei X-bar), precum şi în cazul FG [25]. (D) Considerăm că schemele (funcţionale) FX-bar propuse furnizează un (sub)sistem necesar şi folositor în cadrul oricărei teorii sintactice asupra LN, inclusiv (şi în special) pentru strategia lingvistică SCD. O condiţie esenţială pentru schemele FX-bar este ca ele să reflecte corespunzător proprietăţile funcţionale şi relaţionale ale tuturor categoriilor lexicale şi gramaticale. Exemplele 4.1.1.-4.1.5. arată cum sunt construite schemele FX-bar, cum se obţin (prin apel recursiv pe nivele) structurile sintagmatice complexe ale LN, şi cum acestea rămân închise la operatorul de compunere (adjuncţie) pe baza principiilor şi regulilor SCD. Schimbând perspectiva, prin definirea teoriei FX-bar ca o componentă a strategiei lingvistice SCD, şi parafrazând formalismul bine-cunoscut al gramaticilor TAG [Eng: tree adjoining grammar], strategia SCD poate fi văzută şi ca o teorie a evaluării şi adjuncţiei de FX-bar scheme. Este doar o mostră a rolului important pe care teoria X-bar îl poate încă juca în cadrul teoriei şi tehnologiei LN. (E) Un element original propus de schemele FX-bar în peisajul teoriilor X-bar cunoscute este rolul lor dublu ce îl pot juca în cadrul strategiei SCD (şi nu numai): Schemele FX-bar pentru X = N, V, A, CL (CL = clauză) trebuie concepute ca un set de invarianţi sintactici (dinamici) ce pot fi folosiţi (1) la reprezentarea informaţiei lingvistice la nivel de lexicon (în mod similar cu structurile de trăsături lingvistice [18], dar într-o manieră mai simplă şi mai regulată), şi (2) la procesarea (analizarea şi generarea) automată de text în LN (inclusiv, şi mai ales, pentru limba română), de la structurile sintagmatice simple până la cele de discurs. Derivarea de automate şi gramatici formale bazate pe schema FX-bar, pentru analiza LN, ar fi o consecinţă normală şi o provocare a prezentei propuneri. Modul recursiv, ascendent şi incremental (prin apelul de funcţii şi relaţii cu rol lingvistic multiplu), dar şi descendent (bazat pe sateliţii nucleelor semantice), utilizarea la maximum a contextualităţii marcherilor de toate tipurile poate reprezenta o motivaţie naturală pentru cercetarea relaţiei dintre strategia SCD (cu componenta ei de teorie FX-bar), şi modelele generative oferite de către gramaticile contextuale Marcus [41], [42], un formalism context-dependent puternic, destinat parsării dar şi analizei semantice şi de discurs (articularea topic-focus [37]) a LN. Gramaticile contextuale Marcus aparţin unei serii de formalisme care includ gramatici TAG [43], dramatici orientate-nucleu [15], [16], gramatici indexate, gramatici X-bar, gramatici context-free marcate [44] etc, formalisme ce realizează o modelare mai realistă a comportamentului sintactic, semantic şi discursiv al LN. Referinţe bibliografice [1] N. Curteanu (1990). A Marker-Hierarchy-based Approach Supporting the SCD Parsing Strategy. Research Report no. 18, Institute of Technical Cybemetics, Bratislava. [2] N. Curteanu (1994). From Morphology to Discourse Through Marker Structures in the SCD Parsing Strategy. A Marker-Hierarchy Based Approach. Language and Cybemetics, Akademia Libroservo, Prague, 61-73. [3] Noam Chomsky (1995). The Minimalist Program. The MIT Press, Cambridge, Massachusetts. [4] N. Chomsky (1970). Remarks on Nominalizations. In R. Jacobs and P. Rosenbaum (eds.), Readings in Transformational Grammar, Ginn and Co., Boston, 184-221. [5] T. Stowell (1981). Origins of Phrase Structure. Ph.D. Dissertation, Dept. of Linguistics and Philosophy, MIT, Cambridge. [6] N. Curteanu, G. Holban (1996). Strategia lingvistică SCD aplicată la analiza şi generarea limbii române. Limbaj şi Tehnologie (Dan Tufiş, Ed.), Academia Română, Bucureşti, p. 169-176. [7] N. Curteanu, C. Linteş (2002). Segmentation Algorithms for Clause-Type Textual Units, Research Report, Institute of Theoretical Informatics, Romanian Academy. [8] Noam Chomsky (1986). Barriers. The MIT Press, Cambridge. [9] Noam Chomsky (1981). Lectures on Government and Binding. Foris, Dordrecht. [10] Simon C. Dik (1989). The Theory of Funcţional Grammar. Foris Publishers, Dordrecht. [11] Cari Pollard, Ivan Sag (1994). Head-Driven Phrase Structure Grammar. The University of Chicago Press, Chicago & London. [12] Gerald Gazdar, E. Klein, G. Pullum, I. Sag (1985). Generalized Phrase Structure Grammar. Harvard University Press, Cambridge, Massachusetts. [13] Peter Sells (1985). Lectures on Contemporary Syntactic Theories. CSLI, Stanford, California. [14] Stuart Shieber (1986). An Introduction to Unification-Based Approaches to Grammar. CSLI, Stanford, California. [15] Cari Pollard, Ivan Sag (1987). Information-based Syntax and Semantics. CSLI, Stanford, California. [16] Cari Pollard, Ivan Sag (1994). Head-Driven Phrase Structure Grammar. The University of Chicago Press, Chicago & London. [17] E.P. Stabler Jr. (1992). The Logical Approach to Syntax: Foundations, Specifications and Implementations of Theories of Government and Binding. The MIT Press, Cambridge, Massachusetts. [18] N. Curteanu, G. Holban (2000). A Set-Theoretic Approach to Linguistic Feature Structures and Unification Algorithms (I, II). Computer Science Journal of Moldova, 8(2): 116-149, 8(3): 223-246. [19] Neculai Curteanu (1988). Augmented X-bar Schemes. COLING'88 Proceedings, Budapest, 130-132. [20] Neculai Curteanu, A. Todiraşcu, G. Holban (1997). Teorii sintactice ale limbajului natural. Raport de cercetare, Institutul de Informatică Teoretică, Academia Română, laşi, 66 p. [21] Alain Lecomte (1998). Multimodal Logic for Syntax. Logica Trianguli, 2: 49-72. [22] Neculai Curteanu (1983). Algoritmi de analiză sintactică a frazei şi propoziţiei româneşti. INFO-IAŞI'83, p. 533-549. [23] M. Moortgat (1997). Categorial Type Logics. Handbook of Logic and Language, Elsevier. [24] E.P. Stabler Jr. (1997). Derivational Minimalism. Logical Aspects of Computaţional Linguistics, LNCS no. 1328, Springer-Verlag, Berlin. [25] Simon Dik (1989). The Theory of Funcţional Grammar. Foris Publishers, Dordrecht. " [26] Robert Kasper (1993). Adjuncts in the Mittelfeld. în "German Grammar in HPSG" (J. Nerbonne et al., Eds.), CSLI, Stanford, California. [27] Denis Bouchard (1995). The Semantics of Syntax. A Minimalist Approach to Grammar. The Univ. of Chicago Press, Chicago & London. [28] Julia Hirschberg, D. Litman (1993). Empirical Studies on the Disambiguation of Cue Phrases. Computaţional Linguistics 19(3): 501-530. [29] Jacques Jayez, C. Rossari (1999)..Pragmatic Connectives as Predicates. The Case of Inferential Connectives. în "Predicative Forms in Natural Language and in Lexical Knowledge Bases" (P. Saint-Dizier, Ed.), Kluwer Academic Publishers, Dordrecht. [30] Patrick Saint-Dizier (Ed.) (1999). Predicative Forms in Natural Language and in Lexical Knowledge Bases. Kluwer Academic Publishers, Dordrecht. [31] Daniel Marcu (2000). The Theory and Practice of Discourse Parsing and Summarization. The MIT Press, Cambridge. [32] V. Raskin, S. Nirenburg (1999). Lexical Rules for Deverbal Adjectives. In "Breadth and Depth of Semantic Lexicons", Kluwer Academic Publishers, Dordrecht. 86 [33] O. Popârda, N. Curteanu (2002). L'evolution du discours juridique frangais analyse par la strategie linguistique SCD. In "Representation du Sens Linguistique" (D. Bouchard, Ed.), LINCOM Studies in Theoretical Linguistics, LINCOM EUROPA, Munchen. [34] Noam Chomsky (2000). Minimalist inquiries: the framework. în R. Martin et al. (Eds) "Step by step. Esseys on Minimalist Syntax in Honor of Howard Lasnik", MIT Press, Cambridge, p. 89-155. [35] Noam Chomsky (2001). Derivation by phase: în M. Kenstowicz (Ed.) "Ken Hale: a life in language", MIT Press, Cambridge, p. 1-52. [36] Jane Morris; G. Hirst (1991). Lexical Cohesion Computed by Thesaural Relations as an Indicator of the Structure of Text. Computaţional Linguistics 17(1): 21-48. [37] Eva Hajicova, H. Skoumalova, P. Sgall (1995). An Automatic Procedure for Topic-Focus Identification. Computaţional Linguistics, 21(1): 81-94. [38] P. Sgall, E. Hajicova, J. Panevova (1986). The Meaning of the Sentence in Its Semantic and Pragmatic Aspects. Kluwer Academic Publishers, Dordrecht. [39] S. Shieber, F. Pereira, G. Van Noord, R. Moore (1990). Semantic Head-Driven Generation. Computaţional Linguistics 16(1): 30-41. [40] Şteven Abney (1996). Part-Of-Speech Tagging and Parţial Parsing. în "Corpus-Based Methods in Language and Speech", (K. Church et al., Eds.), Kluwer Acad. Publishers, Dordrecht. [41] Solomon Marcus (1997). Contextual Grammars and Natural Language. în Cap. 5 (Voi. 2) din "The Handbook of Formal Languages", G. Rozenberg, A. Salomaa, Eds., Springer-Verlag, Berlin, 215-235. [42] Gheorghe Păun (1997). Marcus Contextual Grammars. Kluwer Academic Publishers, Dordrecht. [43] Michele Abrusci, Christophe Fouquere, Jacqueline Vauzeille (1999). Tree Adjoining Grammars in a Fragment of the Lambeck Calculus. Computaţional Linguistics, 25(2): 209-236. [44] Philip Miller (1999). Strong Generative Capacity. The Semantics of Linguistic Formalism. CSLI Publications, Stanford, California. [45] D. Gâlea, N. Curteanu, C. Linteş (2002). Algoritmi de segmentare a textului în unităţi de tip cauzal. (în prezentul volum) 87 Teoria HPSG. Studiu de caz: acordul încrucişat Ana-Maria BARBU RACAI, Calea 13 Septembrie nr.13, Bucureşti abarbu@racai.ro 1. Introducere Oricât ar fi de mare entuziasmul creat de performanţele realizate cu calculatorul, care cuprinde deopotrivă şi domeniul prelucrării limbajului natural, rezultate temeinice nu se pot obţine dacă acestea nu sunt fundamentate pe îndelungi şi profunde analize teoretice. Nu putem aspira la obiective majore în ingineria lingvistică, precum analizarea şi generarea de texte, construirea de verificatoare ortografice şi gramaticale sau chiar de traducătoare automate, dacă se ignoră particularităţile inerente ale obiectului în studiu, anume ale limbajului natural în general, şi a limbii de aplicaţie, în special. Or aceste particularităţi sunt oferite, sub un aspect sau altul, tocmai de teoriile gramaticale. Experienţa a dovedit că eşecurile din ingineria lingvistică au avut ca posibile surse eşecurile în descrierea corespunzătoare a fenomenelor de limbă, dar şi succesele, la rândul lor, s-au datorat în parte acurateţei, exactităţii, şi nu în ultimul rând caracteristicilor computaţionale ale unui model gramatical teoretic. lată de ce alegerea unei teorii lingvistice adecvate, cu scopul de a scrie pe baza acesteia o gramatică computaţională a unei limbi particulare, în speţă a limbii române, este un act de primă însemnătate. După anii primelor dezvoltări ale gramaticii generative, sintaxa formală este, de aproape două decenii, repusă în discuţie ca obiect de studiu autonom distinct în aceiaşi timp de cel al lexicului şi cei al sensului. Mai multe curente teoretice, cunoscute sub numele generic de "gramatici de unificare" sau "gramatici bazate pe constrângeri", s-au născut din această reconsiderare a sintaxei. Este vorba de modele recente (cele mai vechi datând de la începutul anilor '80), dezvoltate în cea mai mare parte în Statele Unite, şi în generai aproape necunoscute publicului român. Aceste modele se pretează scrierii de gramatici pentru calculator, dar ambiţia lor este mai întâi de a constitui teorii lingvistice de sine stătătoare. Autorii lor se înscriu pe linia programului gramaticii generative chomskyene din 1957, de la care preiau grija pentru o formalizare operatorie a sintaxei, dar se disting suficient de modelul actual al Şcolii de la Cambridge (numit Government and Binding) pentru a prezenta teorii alternative. Printre punctele 88 89 comune ale gramaticilor de unificare, se află pe de o parte atenţia acordată unei articulări mai explicite a lexicului, sintaxei şi semanticii, pe de altă parte accentul pus pe descrierile lingvistice şi recurgerea la un stil de analiză sintactică mai "concret", care limitează recurgerea la elemente "vide" (nerealizate concret) şi care restrânge numărul etapelor intermediare în producerea unui enunţ. în acest articol vom prezenta pe scurt una dintre teoriile lingvistice amintite, anume "Gramatica sintagmatică ghidată de centru", denumită abreviat HPSG după numele său din engleză "Head-driven Phrase Structure Grammar". Apoi vom ilustra modul în care poate fi aplicată această teorie în reprezentarea unui fenomen mai special de limbă română prin aceea că presupune dependenţe încrucişate de acord. Este vorba de structuri relative de tipul băiatul a cărui soră cântă unde articolul genitival a se acordă cu substantivul soră, iar pronumele relativ cărui se acordă cu substantivul băiatul. 2. Teoria lingvistică HPSG 2.1. Scurt istoric Modelul gramaticii sintagmatice ghidate de centru (engl. Head-driven Phrase Structure Grammar, sau HPSG) a fost conceput la începutul anilor '80 de Cari Pollard şi Ivan Sag cu scopul de a permite o integrare mai explicită a diferitelor nivele de analiză lingvistică: fonetic, sintactic şi semantic. El a luat naştere în principal din Gramatica Sintagmatică Generalizată (GPSG) şi din lucrările lui C. Pollard despre Head Grammar [1], dar autorii lor s-au inspirat deopotrivă din numeroase alte teorii. Ei au preluat de la modelul chomskyan al Guvernării şi Anaforicităţii (GB) noţiunea de modularitate şi recurgerea la principii foarte generale (Principiul anaforicităţii, al controlului^etc). De la Gramatica Funcţională de Unificare (FUG) [2] au împrumutat reprezentarea uniformă a elementelor lexicale, a sintagmelor şi regulilor gramaticale sub formă de structuri de trăsături. S-au inspirat de la Gramatica Lexical Funcţională (LFG) pentru îmbogăţirea cadrelor de subcategorizare şi a noţiunii de regulă lexicală. Au luat de la gramaticile categoriale ideea de saturare progresivă a predicatelor şi recurgerea la o ierarhie de funcţii gramaticale (cf. [3]). S-au inspirat, în sfârşit, dintr-un punct de vedere mai formal, din lucrări de logică şi informatică asupra tipurilor şi moştenirii. Teoria este prezentată în cele două lucrări ale lui C. Pollard şi Ivan Sag: [4] şi [5]. Majoritatea exemplelor privesc limba engleză şi tratează fenomene variate: fenomene de acord, construcţii infinitivale, anafore, construcţii relative şi comparative. Fenomenele de control sunt totodată dezvoltate în [6], iar o analiză a anaforelor este propusă în [7]. Primele lucrări au conferit de la bun început o dimensiune multilinguală acestei teorii prin abordări privind germana ([8], [9]), catalana ([10]), japoneza ([11]), dar şi coreana ([12]), franceza ([13]) şi italiana ([14]). C. Pollard şi I. Sag preiau din modelul GPSG noţiunea de gramatică sintagmatică, cu distincţia între o componentă ierarhică (scheme Dl -de dominanţă imediată) şi o componentă liniară (principii de precedenţă liniară), precum şi recurgerea la principii foarte generale de partaj şi de propagare a trăsăturilor. Totuşi ei se separă de modelul original în câteva puncte. Structurile sintagmatice sunt în întregime exprimate în termeni de structuri de trăsături, cu introducerea unui atribut Ramuri. Structurile de trăsături sunt la rândul lor organizate în ierarhii de tipuri, comportând fiecare trăsături predefinite. Modelul HPSG oferă astfel anumite simplificări în raport cu GPSG: întregul arsenal de reguli Dl este redus la şase scheme de bază; metareguliie sunt eliminate în favoarea regulilor lexicale. S-a urmărit deosebirea clară între ceea ce ţine de domeniul constrângerilor universale şi ceea ce ţine de descrierea unei limbi particulare. Principiile de coocurenţă a trăsăturilor din GPSG, care amestecă constrângerile universale şi cele specifice unei limbi date, au fost suprimate. 2.2 Organizarea generală a HPSG 2.2.1 Caracteristici specifice gramaticilor de unificare Se poate considera că gramaticile de unificare, sau gramaticile bazate pe constrângeri, reprezintă noile teorii sintactice ale anilor '80. Este vorba de modele care urmăresc o articulare explicită între lexic, sintaxă şi semantică. Proprietăţile lingvistice corespunzătoare sunt concepute ca "informaţii" asociate morfemelor, sintagmelor sau construcţiilor, combinate prin operaţii variate, dintre care unificarea ocupă un rol central. Această concepţie "integratoare" este unul dintre atuurile lor pentru tratarea automată a limbajelor naturale. Un alt avantaj este că ele se bazează pe modele logice sau matematice (gramatici de constituenţi, structuri de trăsături), pentru care au fost definite metode de programare. Ele sunt în general rezultatul unui compromis între expresivitatea lingvistică (grija de a facilita exprimarea diferitor principii lingvistice adăugându-se variante notaţionale sau operatori) şi eficacitate (notaţii concentrate, puţine operaţii). Aici, ne vom rezuma să punctăm trăsăturile lor comune cele mai pregnante, dintre care: • reabilitarea descrierilor de suprafaţă; • reînnoirea descrierilor sintactice prin definirea de trăsături complexe; • definirea de principii generale de bună formare a enunţurilor; • integrarea lexicului, sintaxei şi semanticii. Gramaticile de unificare îmbogăţesc aparatul formal al gramaticilor de constituenţi cu un număr de noţiuni importante. în acest capitol ne vom limita la prezentarea principalelor noţiuni utilizate pe parcursul lucrării, pentru detalii putând fi consultate S. Shieber [21] sau H. Uszkoreit [38]. 90 91 2.2.1.1 Structuri de trăsături Structurile de trăsături (engl. feature structure) sunt primitive ale teoriilor sintactice bazate pe unificare şi reprezintă ansambluri de trăsături, numite şi complexe de trăsături (engl. feature complexes sau feature bundles), care pot fi reprezentate sub formă de matrice. O trăsătură este o pereche atribut-valoare, valorile putând fi simboluri atomice sau trăsături. Trăsăturile cu valoare non atomică conduc la structuri de trăsături care prezintă îmbricări. Spre exemplu, cuvintelor acest şi câine li se asociază o trăsătură Cat cu valoare atomică (pentru categorie) şi o trăsătură complexă Acord care ia ca valoare conjuncţia a două trăsături Num (pentru număr) şi Gen: (1) acest câine Cat = Det Acord = Gen = mase Num = sing Cat = N Acord Gen = mase Num = sing O structură este rău formată când conţine de două ori acelaşi atribut (la acelaşi nivel de imbricare) cu o valoare diferită. Şi alte reprezentări de structuri de trăsături (sau structuri atribut-valoare) sunt posibile, fiind echivalente formal. Cele mai utile, pentru implementarea informatică, sunt cele care utilizează grafuri orientate: arcuri care poartă nume de trăsături şi punctează spre noduri care sunt etichetate cu valoarea trăsăturii (dacă e vorba de trăsături cu valoare atomică) sau sunt puncte de plecare pentru alte arce (pentru trăsături cu valoare non atomică). De pildă, pentru exemplele de mai sus vom avea următoarele reprezentări: (2) Det Num N o Num In termeni de grafuri, echivalentul interdicţiei ca un acelaşi atribut să apară de doua ori la acelaşi nivel cu valori diferite este interdicţia ca'două arcuri care poarta aceeaşi etichetă să puncteze, plecând din acelaşi nod, către două noduri diferite (ceea ce e o restricţie generală asupra grafurilor ce corespund automatelor deterministe). Structurile de grafuri pot fi ciclice sau non ciclice. Acestea din urmă se numesc grafuri aciclice orientate (engl. Directed Acyclic Graph sau DAG), denumire adesea folosită pentru a desemna structurile de trăsături. în lucrul cu structuri de trăsături complexe se impun unele distincţii, de pildă, între structurile identice şi structurile cu valori partajate (sau reentrante). Cele din urmă sunt identice şi vor rămâne astfel indiferent de modificările suferite ulterior, ceea ce nu se întâmplă cu primele. în exemplul ce urmează structura de trăsături A comportă două atribute cu valori identice Acord şi Num. în structura B, cele două atribute Acord sunt coindexate (prin indicele 1), ceea ce face ca ele să partajeze în mod egal trăsătura [Num = sing]. (3). A: Det = [Acord=[Num = sing]] Nume = [Acord = [Num = sing]] B: Det = [Acord =| 11 [Num = sing]] Nume = [Acord =| 11 ] Dacă se unifică fiecare din aceste structuri cu structura C de mai jos, rezultatul nu va fi acelaşi: (4) (5) C: [Det = [Acord = [Gen = mase]] C^ A: Det = [Acord = [Num = sing, Gen = mase]] Nume - [Acord = [Num = sing]] C^B: Det = [Acord = 111 [Num = sing, Gen = mase]] Nume = [Acord =| 11 ] După unificare, trăsătura Acord îmbricată sub atributul Nume va avea şi el o trăsătură Gen specificată în cazul lui C u B, dar nu şi în cazul C u A. în termeni de grafuri, reprezentarea unei structuri reentrante ca B este următoarea: 92 (6) B: Nume Acord I, Det Acord Num o sing 2.2.1.2 Extensiune şi unificare Se defineşte o relaţie de extensiune între structuri de trăsături după cum urmează: O structură de trăsături A este o extensiune a unei structuri de trăsături B (notându-se AdB) dacă şi numai dacă: - toate trăsăturile cu valoare atomică prezente în B sunt prezente şi în A cu aceeaşi valoare, - pentru orice trăsătură cu valoare non atomică, valoarea lui în A este o extensiune a valorii lui în B. De exemplu, structura de trăsături asociată cuvântului câine în (1), reluată în (7) stânga, este o extensiune a structurii din (7), dreapta, dar reciproca nu este adevărată pentru că structura din dreapta nu are trăsătura [Num = sing] prezentă în cea a cuvântului câine: (7) Cat = N Acord = Gen = mase Num =.sing Cat = N Acord .=■ [Gen = mase] Dacă numărul de atribute nu este limitat se poate obţine o infinitate de structuri care sunt extensii ale unei structuri date. Relaţia inversă a extensiei se numeşte subsumare , A subsuma B dacă şi numai dacă B este o extensie a lui A. Pe baza acestei relaţii de ordine parţială putem defini o structură de latice, cu o limită superioară şi o limită inferioară. Este de notat că aici nu există o relaţie de ordine strictă pentru că orice structură este o extensie a ei înseşi (AdA). Structura care le subsumează pe toate celelalte (pentru care toate celelalte sunt extensiuni) este. structura vidă (notată T), pe care o putem interpreta ca disjuncţia tuturor cuplurilor atribut-valoare ale gramaticii. Dacă dorim să plasăm o limită inferioară, structura care va fi o extensie a tuturor celorlalte (care este subsumată de toate celelalte) va fi cea care conţine conjuncţia tuturor cuplurilor atribut-valoare posibile (notată 1) adică o structură "falsă" sau rău formată. Această relaţie de ordine parţială e folosită pentru a defini unificarea. Această operaţie a luat naştere din cercetările în logică şi informatică (limbajul 93 Prolog). Definită la început ca procedură de rezolvare pentru logica predicatelor de ordinul întâi, cf. [15], ea a fost introdusă în lingvistică de A. Colmerauer, [16], apoi de M. Kay, [17], pentru a testa, fuziona şi propaga trăsături sintactice. Ea este definită în felul următor: Unificarea a două structuri de trăsături A şi B (notată AuB) este structura minimală care este în acelaşi timp o extensiune a lui A şi a lui B. Dacă o astfel de structură nu există, unificarea "eşuează" (ceea ce e notat cu 1). Altfel spus, unificarea verifică compatibilitatea dintre două structuri de trăsături şi produce o structură rezultantă care este cea mai mică structură ce conţine toată informaţia din prima structură şi toată informaţia din a doua structură. Unificarea este o operaţie idempotentă (AuA = A), comutativă (A u B = B u A) şi asociativă (Au(BuC) = (AuB)uC), spunem de asemenea că este declarativă (dacă A = A' şi B = B' atunci A u B = A' u B') şi monotonă (AuBdA şîAuBdB; dacă A z) B atunci VCAuCdBuC), ceea ce vrea să spună că relaţiile de extensiune sunt conservate prin unificare. Colocvial spus, unificarea adaugă informaţie, fără să o scadă. în termeni de grafuri, echivalentul operaţiei de unificare este fuziunea definită pentru automatele cu număr finit de stări. Pentru exemplul din (8a) se obţine reprezentarea grafică din (8b): (8) Cat - N Acord = [Num = sing U [Acord = [Gen = masc]]= Cat = N Acord = Gen = mase I Num = sing N o Anumiţi operatori pot fi adăugaţi structurilor de trăsături, cei mai utili fiind negaţia (notată ~ sau * pentru trăsături cu valoare atomică) şi disjuncţia (notată prin acolade sau semnul /). Folosirea negaţiei permite să se renunţe la anumite disjuncţii. Există de exemplu echivalenţă între următoarele două ecuaţii, dacă considerăm că atributul Mod are 8 valori posibile în română (indicativ, conjunctiv, imperativ, prezumtiv, infinitiv, gerunziu, supin, participiu): 94 [Mod * inf] [Mod = ind/conj7prez/imp/ger/sup/part]. în secţiunea următoare vom trece la descrierea caracteristicilor specifice ale teoriei HPSG care o fac distinctă de toate celelalte teorii bazate pe unificare. Trebuie spus de la bun început că autorii modelului HPSG au preluat o mulţime de caracteristici ale teoriilor apărute anterior, inclusiv de la gramatica generativă, tocmai din dorinţa de a aduna într-un singur formalism tot ce e mai adecvat pentru reprezenatrea lingvistică în general. Pentru o paralelă detaliată între HPSG şi alte teorii bazate pe constrângeri a se vedea [18]. 2.2 Caracteristici specifice HPSG în HPSG, structurile de trăsături, utilizate în LFG pentru reprezentarea funcţiilor gramaticale, iar în GPSG pentru reprezentarea categoriilor, sunt sistematizate pentru a include atât structurile de constituenţi cât şi regulile gramaticale. Ele corespund la ceea ce se numeşte un semn lingvistic, adică un cuvânt, o sintagmă sau o regulă, conţinând informaţii fonetice, sintactice, semantice şi discursive. Structurile de trăsături sunt cât se poate de adecvate pentru organizarea într-o notaţie comună a informaţiilor lingvistice eterogene. Spre deosebire de celelalte teorii lingvistice bazate pe unificare, HPSG utilizează ierarhizarea tipologică. Fiecare structură de trăsături este încadrată într-un anumit tip pentru care sunt predefinite anumite constrângeri şi care îşi are locul într-o ierarhie de tipuri. în cadrul ierarhiei funcţionează relaţia de moştenire a constrângerilor tipurilor superioare asupra descendenţilor lor. Un exemplu de ierarhie de tipuri este dată în (9). (9) semn PHON phon SYNSEM synsem cuvânt adjectiv nume sintagmă [SYNSEM|LOCAL|CAT|LEX +] [DAUGHTERS list] cuvânt-lexical cuvânt-funcţional [CATjSUBCAT list] [CAT|HEAD|MARK synsem] complementizor verb determinant prepoziţie CAT| HEAD|PREPFORM prepform] 95 Pentru fiecare tip sunt definite anumite trăsături specifice (sau anumite constrângeri) care se adaugă constrângerilor moştenite de la tipurile din care descind. Trebuie adăugat că într-o ierarhie de tipuri sunt permise moşteniri multiple, adică sunt permise tipuri care au mai mulţi părinţi. Cel mai general tip în HPSG este "semnul" (în engleză sign). El conţine informaţie fonologică (prin trăsătura PHON) şi informaţie sintactico-semantică (prin trăsătura SYNSEM). Semnul, la rândul lui, poate fi un cuvânt sau o sintagmă, după cum se vede în (9), mai sus. Sintagma are spre deosebire de cuvânt o trăsătură în plus, numită DAUGHTERS (adică ramuri-surori) care , 3 r /aloare o listă cu semnele combinate în sintagmă. Un exemplu de semn lexical împreună cu descrierea trăsăturilor specifice acestuia este dată în (10) pentru verbul a vrea. (10) PHON< vrea > SYNSEM LOCAL CATEGORY HEAD I VFORM base] VAL SUB<|1 SPR<> COMPS<|2 LOC CAT | HEAD | CASE nom CONT|INDEX|3| LOC CAT | HEAD | CASE ace CONT|INDEX|4| CONTENT CONTEXT {...} ARG- - ST <| 1 U|2|> ~RELN vrea' RESTR ARG1 1 3 1 ARG2 l4l . NONLOCALo Combinarea cuvintelor în sintagme se face pe baza unor reguli exprimate la rândul lor sub formă de structuri de trăsături tipizate, purtând numele de scheme de Dominanţă Imediată (scheme Dl). Asupra regulilor acţionează suplimentar principiile, care, la rândul lor, sunt exprimate prin constrângeri asupra anumitor trăsături. în cele ce urmează vom prezenta pe scurt principiile şi schemele Dl de bază. Dintre principii, ne rezumăm prezentarea la următoarele: a. Principiul Trăsăturilor Centrale b. Principiul de Subcategorizare i i 97 (11) c. Principiul Semantic a. Principiul Trăsăturilor Centrale Pentru majoritatea sintagmelor se defineşte un atribut HEAD ("centru"), inclus în trăsătura CATEGORY (CAT), a cărui valoare trebuie să fie partajată cu cea a atributului HEAD din semnul ramurii-centru HEAD-DTR a sintagmei. Principiul Trăsăturilor Centrale poate fi exprimat prin descrierea următoare (notând valoarea partajată prin indicele [1]): "SYNSEM | CAT | HEAD [1] DAUGHTERS | HEAD - DTR | SYNSEM | CAT | HEAD [1] Semnul HEAD-DTR poate fi sintagmatic sau lexical, b. Principiul de Subcategorizare Atributul SUBCAT are ca valoare o listă care este actualizată progresiv, pe măsură ce sintagma se "saturează", în sensul că atunci când complementele sunt realizate, ele sunt eliminate din lista SUBCAT a sintagmei respective. O sintagmă se numeşte saturată (sau completă) când valoarea listei SUBCAT este vidă. Principiul de Subcategorizare poate fi enunţat astfel: Valoarea listei SUBCAT a ramurii HEAD-DTR a unei sintagme trebuie să corespundă concatenării listei L1ca valoare a atributului SUBCAT al sintagmei şi a listei L2 a semnelor ce aparţin ramurii de complemente COMPS-DTR (sau, mai precis, nu lista semnelor, ci a trăsăturilor SYNSEM a acestor semne). Acesta poate fi reprezentat prin structura de trăsături următoare (notând prin simbolul © concatenarea listelor): ["SYNSEM | CATEGORY | SUBCAT Ll (12) DAUGHTERS HEAD - DTR | SYNSEM | CAT | SUBCAT L10L2 COMPS - DTR L2 două schimenDI:eama Subcate9orizare pot fi descrise următoarele cam^L8^^^ ° S,'nta9mă S3tUrată CU ramurâ Comp.emente: head- (13) SYNSEM | CATEGORY | SUBCAT < > DAUGHTERsf HEA°' °TR 1 SYNSEM I CAT I SUBCAT < X > COMPS - DTR < X > , 2. Schema Dl pentru o sintagmă non saturată cu ramură Complemente: head-compl (14) SYNSEMj CATEGORY| SUBCAT < X > HEAD-DTR | SYNSEM| CAT| SUBCAT < X,Yl,Y2...Yn> COMPS-DTR < Yl,Y2...Yn> DAUGHTERS 3. Schema Dl pentru o sintagmă cu ramură Adjunct: head-adjunct Modificatorii (adjective atributive, adverbe, complemente circumstanţiale) sunt introduşi într-o ramură specială numită ramura Adjunct (sau ADJCT-DTR). Modificatorii selecţionează categoria pe care o modifică (N' pentru adjective, V sau GV pentru adverbe). Această selecţie se face printr-un atribut MODIF, care are ca valoare o structură de trăsături SYNSEM. Pentru o sintagmă centru-adjunct bine formată trebuie să aibă loc unificarea valorii trăsăturii MODIF a adjunctului cu valoarea trăsăturii SYNSEM a centrului. Astfel adjectivele pot selecţiona numele pentru care sunt atribute, iar adverbele pot selecţiona verbele respective, adică se poate preciza în intrarea lor lexicală trăsăturile Categorie, Conţinut, Index etc. ale numelui sau verbului aşteptat. Descrierea unei sintagme cu Adjunct este următoarea: (15) DAUGHTERS HEAD-DTR | SYNSEM |1| ADJCT - DTR | SYNSEM | CAT | HEAD | MODIF 111 c. Principiul Semantic Principiul semantic reglementează propagarea trăsăturilor semantice, adică cele două trăsături CONTENT şi CONTEXT. Se urmăreşte pe de o parte ca sintagmele să partajeze valoarea trăsăturii CONTENT din ramura centrului cu trăsătura proprie CONTENT, iar pe de altă parte să determine "ridicarea" la nivelul sintagmelor superioiare a eventualilor cuantificatori şi a variabilelor care le pot corespunde. HPSG face apel la noţiunea de centru semantic, acesta fiind identic cu centrul sintactic, în afara cazului sintagmelor cu adjunct. în acest caz, centrul Sintactic este categoria modificată, dar centrul semantic este modificatorul (care joacă rolul de predicat semantic). Principiul Semantic poate fi exprimat astfel: Valoarea atributului CONTENT a categoriei dominante este identică cu valoarea atributului CONTENT a categoriei care este centru semantic (ramura Adjunct sau, implicit, ramura HEAD). O altă schemă Dl, head-functor, propusă de Allegranza în [19], reprezintă 0 modificare a schemei head-adjunct cu scopul de a satisface exigenţele de 98 reprezentare a determinatorilor într-un grup nominal. Determinatorii sunt trataţi ca functori aplicaţi centrului. Ei selectează centrul prin atributul ARG-SLOT şi marchează sintagma rezultată cu anumite trăsături specifice determinatorului respectiv prin partajarea valorii atributului MARKER între ramura Functor şi nodul mamă. Descrierea acestei scheme este dată mai jos. 4. Schema Dl pentru o sintagmă cu ramură Functor: head-functor (16) SYNSEM | LOCAL | CAT j MARKER 111 DAUGHTERS FUN - DTR | SYNSEM | LOCAL | CAT HEAD MARKER] 1| ARG-SLOT 12 i HEAD - DTR | SYNSEM | 2 | JA Cu aparatul formal oferit de HPSG, în secţiunea care urmează, dăm spre exemplificare analizarea unei structuri concrete din limba română. Structura propusă conţine un centru nominal modificat de o propoziţie relativă al cărei element de relaţie este în cazul genitiv precedat de articolul genitival. Această structură este interesantă prin faptul că prezintă un fenomen, acela de acord încrucişat, care pare să scape reprezentărilor gramaticilor independente de context. Avantajul teoriei lingvistice discutate aici, însă, oferă o soluţie pe cât de unitară, pe atât de elegantă, după cum sperăm să reiasă din cele ce urmează. 3. Structuri relative cu acord încrucişat în limba română structurile care prezintă acord încrucişat sunt propoziţiile relative în care pronumele relativ este precedat de articolul genitival, ca în exemplul de mai jos. (17) băiatul a cărui soră cântă Acordul este încrucişat prin aceea că pronumele relativ propriu-zis se acordă cu substantivul determinat de propoziţia relativă, băiatul, iar articolul genitival al se acordă cu subiectul relativei, soră, după următoarea schemă: (18) băiatul a cărui soră cântă mai jos. Structura internă a acestui grup nominal este reprezentată în arborele de (19) Gdet GN GV N V Det N băiatul cărui soră cântă După cum se vede în acest arbore, exemplul din (17) este format dintr-un substantiv centru, băiatul, modificat de o propoziţie relativă al cărei subiect, a cărui soră, cuprinde elementul de relaţie care face legătura dintre numele amintit şi propoziţia relativă. Dacă ne-am limita descrierea la regulile independente de context sugerate în arbore, nu am putea da seamă de fenomenul de acord încrucişat pe care-l discutăm aici. Acest lucru este însă posibil dacă folosim o gramatică HPSG, beneficiind de avantajele oferite de mecanismul unificării şi de reprezentările prin structuri de trăsături. Aplicând schemele de dominanţă imediată şi principiile specifice teoriei HPSG, arborele de mai sus poate fi adnotat cu regulile HPSG aplicate, în felul următor (unde am folosit ca notaţii funcţionale H=centrul sintagmei, C=complement, Fct=functor, F=filler). I (20) GN head-fîller P-rel head-subject GN head-functor Fcţ/\H Gdet head-compl H/\C N Det N băiatul cărui soră cântă Fenomenul de acord încrucişat presupune pe de o parte acordul determinatorului a cu substantivul soră, iar pe de altă parte acordul pronumelui relativ cărui cu substantivul băiatul. Primul acord amintit se face relativ banal. Intrarea lexicală a determinatorului a, în calitatea sa de functor, specifică în valoarea atributului său central ARG-SLOT ce trăsături de acord trebuie să aibă substantivul pe care urmează să-l modifice. Când detrminatorul a se combină cu complementul său cărui, principiul trăsăturilor centrale face ca această informaţie să fie percolată la nodul mamă GDet. Mai departe, schema Dl head-functor verifică dacă trăsăturile de acord ale GDet unifică cu cele ale centrului său nominal. Acest mecanism este ilustrat în arborele de mai jos. (21) GN head-functor GDet head-compl HEAD | ARG - SLOT 111 fem, sg SUBCAT< > Det |2| HEAD | ARG - SLOT 111 fem, sg " SUBCAT<|2|> N caim sora Al doilea tip de acord, în schimb, ridică anumite dificultăţi prin faptul că nu se realizează într-un arbore local, adică nu se realizează între ramurile surori ale aceluiaşi nod. Prin urmare, trăsăturile de acord ale pronumelui relativ trebuiesc percolate până la nivelul nodului P-rel (din (19)) pentru a putea fi controlate prin unificare de regula head-filler cu trăsăturile de acord corespunzătoare substantivului determinat. Mecanismul din teoria HPSG care dă seama de propagarea la distanţă a anumitor trăsături se numeşte mecanismul dependenţelor la distanţă şi se aplică fenomenelor de limbă precum interogaţiile, topicalizările şi, cum-este cazul nostru, construcţiile relative. Aici ne vom ocupa numai de tratarea relativelor, pentru celelalte fenomene a se vedea [5]. Ideea principală a acestui mecanism este că pronumele relative poartă în intrările lor lexicale informaţii despre numele la care se referă. Intrarea lexicală a Pronumelui relativ din exemplul nostru va conţine, prin urmare, informaţiile date în (22). 02193256 102 (22) PHONOLOGY < cărui > CATEGORY LOCAL SYNSEM HEAD noun[ genitive] SUBCATo CONTENT npro[lNDEX 111 [ masculine, singular ] 1RELN human _INSTANCE|1| NONLOCAL INHERITED TO - BIND QUE{} REL{|1 SLASH{ QUE{} REL{} SLASHU Valoarea trăsăturii NONLOCAL | INHERITED indică acele trăsături care vor fi supuse Principiului Trăsăturilor Nonlocale. Aceste trăsături pot fi specifice elemetelor interogative, definite prin atributul QUE, elementelor dislocate, date de atributul SLASH sau pot fi specifice elementelor relative indicate prin atributul REL. După cum se observă în (22), acest ultim atribut are în cazul de faţă valoare non-vidă, coindexată cu conţinutul semantic de masculin-singular al pronumelui. Potrivit Principiului Trăsăturilor Nonlocale, formulat în (23), valoarea atributului nonlocal INHERITED ("moştenit") este trecută din nod în nod spre vârful arborelui până va întâlni o ramură soră ale cărei trăsături locale unifică cu cele moştenite. (23) Principiului Trăsăturilor Nonlocale Pentru fiecare trăsătură nonlocală, valoarea atributului INHERITED a nodului mamă este egală cu reuniunea valorilor atributului INHERITED ale ramurilor fiice mai puţin valoarea atributului TO-BIND a ramurii centru. Atributul TO-BIND, practic, opreşte propagarea trăsăturilor moştenite în momentul în care se realizează elementul căutat, adică elementul care a făcut necesară această propagare. De exemplu, trăsăturile de acord ale pronumelui relativ, în exemplul nostru cărui, se propagă la nivelul propoziţiei relative până când este realizat substantivul la care se referă acest pronume, adică băiatul. Regula care asignează o valoare atributului TO-BIND în momentul în care are loc unificarea trăsăturilor locale ale unui element cu trăsăturile moştenite pe 103 PQ rpntnl pste o schemă de dominanţă imediată numită head-filler (filler ar pTaI*. î"d?ep» -ceTa ce vine sâ completeze o lipsâ") si es,e descnsa ,n (24). (24) Schema Dl head-filler DAUGHTERS FILLER- DTR| SYNSEM| LOCAL 111 LOCALI CATEG î HEAD-DTR SYNSEM NONLOCAL HEAD | VFQRM finite SUBCATo INHERITED|REL{|1!,.-} T0-BIND|REL{|1|} în *fâr*it dacă aplicăm Principiul Trăsăturilor Nonlocale şi schema Dl head-Z ^M?U care if-vem în vedere se realizează în man.era ilustrată în arborele de mai jos. (25) GN [INHER|REL { }] H N [LOCAL P-rel INHER | REL {| 11} T0-BIND{|1|} GN [INHERjREL {111} ] Fct, Gdet [INHER|REL{|1|}] N N|l|masc,sg [INHERjREL {|1|J] băiatul a cărui sora cântă în concluzie, acordul încrucişat avut în vedere presupune, pe de o parte, un acord local, cel dintre articolul genitival şi substantivul determinat, în cazul nostru subiectul propoziţiei relative, iar pe de altă parte un acord la distanţă, cel dintre pronumele relativ şi substantivul determinat, exterior propoziţiei relative. Primul tip de acord se face pe baza Principiului Trăsăturilor Centrale şi a acordului banal dintre functor şi centrul său, pe când cel de al doilea tip de acord face uz de Principiul Trăsăturilor Nonlocale şi de schema de Dominanţă Imediată head-filler. 4. Concluzii Analiza oferită aici pune în lumină faptul că un fenomen dificil precum acordul încrucişat poate fi tratat într-o manieră relativ simplă şi elegantă cu ajutorul unei teorii lingvistice adecvate, cum este teoria Head-driven Phrase Structure Grammar. Prin aparatul formal şi adecvarea lingvistică pe care le oferă această teorie, descrierea fenomenelor limbii române devine incontestabil mai unitară, mai explicită şi mult mai riguroasă. Acestor avantaje li se adaugă încă unul, extrem de important, acela al adecvării teoriei pentru implementarea informatică. Este deschis astfel drumul pentru construirea de gramatici computaţionale ale limbii române şi dezvoltarea componentei informatizate a acesteia. Aplicaţiile informatice ale teoriei HPSG sunt, de altfel, în plină dezvoltare şi nu am dori să încheiem înainte de a aminti câteva aspecte în acest sens. ^ Modelul HPSG a făcut parte încă de la origine dintr-un sistem de tratare automată a englezei dezvoltat în laboratoarele de cercetare Hewlett Packard din Palo Alto ([20]). Apoi, au fost propuse diferite implementări, unele bazate pe sistemul PATR ([21]), altele realizate direct în Prolog ([22], [23]). Dintre implementările de sisteme de gestiune a structurilor de trăsături tipologizate şi cu moştenire, se poate cita sistemul Typed Feature Structure (TFS) al lui M.Emele şi R. Zajac [24] şi sistemul ALE al lui B. Carpenter [25]. Teoria HPSG a inspirat deopotrivă noul formalism european ALEP, a cărui implementare (în Prolog) presupune un mecanism de gestionare de gramatici şi lexicoane, un analizor, un generator şi un modul de transfer pentru traducerile automate. Este de altfel utilizat în mai multe centre de cercetare universitară (precum DFKI la Saarbrucken, Centerfor Cognitive Science în statul Ohio, CSLI la Stanford) sau industriale, în special la ATR în Japonia (pentru traducerea automată englezo-japoneză pentru stabilirea de întâlniri prin telefon). O altă aplicaţie informatică a acestei teorii, pe cât de recentă, pe atât de importantă este cea cuprinsă în proiectul Verbmobil, [26], care s-a ocupat cu traducerea bidirecţională, în timp real, a textelor vorbite în trei limbi (germană, engleză şi japoneză). Head-driven Phrase Structure Grammar este o teorie care s-a impus incontestabil în ligvistica modernă atât prin numeroasele sale aplicaţii informatice, cât şi prin "generalitatea" aparatului său care o face adecvată pentru numeroase limbi ale lumii, aşa cum se poate vedea din impresionanta bibliografie electronică HPSG oferită de pagina www.dfki.de/lt/HPSG. Nu trebuie trecute cu vederea lucrările de limba română dezvoltate în acest cadru, dintre care le amintim pe cele ale lui lonescu ([27]-[33]), Monachesi ([34]-[36]) şi Barbu ([37]) la care s-ar cuveni să se adauge multe altele spre afirmarea limbii române în lingvistica internaţională. Referinţe bibliografice [1] Polard, C. - Generalized Context-Free Grammars, Head Grammars and Natural Language. Teză de doctorat. Universitatea din Stanford, 1984. [2] Kay, Martin - "Funcţional Grammars", Actes 5° annual meeting of the Berkeley Linguistics Society, Berkeley, 1979, pp. 142-158. [3] Oehrle, Richard; Bach, Emmon; Wheeler, Deirdre (eds.) - "Categorial Grammars and Natural Language Structures", Dordrecht: Reidel, 1988. [4] Pollard, C; Sag, I. - Information-based Syntax and Semantics, CSLI, University of Chicago Press, 1987. [5] Pollard, C; Sag, I. - Head-driven Phrase Structure Grammar, CSLI, University of Chicago Press, 1994. [6] Sag, I.; Pollard, C. - "An integrated theory of complement control"', Language, 67:1, 1991, pp. 63-113. [7] Pollard, C; Sag, I. - "Anaphors in English and the scope of binding theory", Linguistic Inquiry, 23:2, 1992, pp. 261-303. [8] Pollard, C. - "On head non-movement", Actele Colocviului Discontinuous constituency, Tilburg, 1990. [9] Nerbonne, J.; Netter, K.; Pollard, C. (eds.) - "German grammar in HPSG", CSLI, University of Chicago Press, 1993. [10] Balari, S. - "Feature structures, linguistic information and grammatical theory", Teză de doctorat, Universitatea Autonomă din Barcelona, 1993. [11] Gunji, T. - Japanese Phrase Structure Grammar, Reidel, 1987. [12] Chung, C. - "Korean auxiliary verb constructions without VP modes", Harvard Workshop on Korean Linguistics, V; în C. Pollard, I. Sag (eds.), Readings in HPSG, 1993. 106 [13] Miller, P.; Sag, I. - French clitic movement without clitics or movement, LSA Meeting, Los Arigeles, 1993. [14] Monachesi, P. - "Oject clitics and clitic climbing in Italian HPSG grammar", Actes 6° European ACL, Utrecht, 1993, pp. 431-437. [15] Robinson, J. - "A machine-oriented logic based on the resolution principie", Journal of the ACM, 12, 1965, pp.23-44. [16] Colmerauer, A. - "Les grammaires de metamorphose", Universite d'Aix Marseille, 1975, reluat în L. Bolc (ed.) Natural Language Communication with computers, Springer, Verlag, 1978. [17] Kay, M. - "Funcţional grammars", Actes 5° annual meeting of the Berkeley Linguistics Society, Berkeley, 1979, pp. 142-158. [18] Abeille, A. - Les nouvelles syntaxes. Grammaires d'unification et analyse du frangais, Armând Colin, Paris, 1993. [19] Allegranza, V. - "Determiners as Functors: NP Structure in Italian" în S. Balari & L. Dini (eds.) Românce in HPSG, CSLI, Stanford, 1998. [20] Proudian, D.; Pollard, C. - "Parsing Head-driven Phrase Structure Grammar", Actes 23°ACL, Chicago, 1985, pp. 167-171. [21] Shieber, S. - An Introduction to unification-based theories of grammar, CSLI, University of Chicago Press, 1986. [22] Oliva, K. - "Simple parser for an HPSG-style grammar implemented in Prolog", Actes13°COLING, Helsinki, vol.3,1990, pp.434-436. [23] Carpenter, B. - "The generative power of Categorial grammars and Head-driven Phrase Structure grammar with lexical rules", Computaţional Linguistics, 17:3, 1991, pp. 301-314. [24] Emele, M.; Zajac, R. - "Typed-unification grammars", Actes 13° COLING, Helsinki, vol.3, 1990, pp. 293-298. [25] Carpenter, B. - "The Logic of typed Feature Structures with Applications to Unification Grammars, Logic Programs and Constraint Resolution", Cambridge University Press [Implementarea sistemului ALE], 1992. [26] Wahlster, W. (ed.) - Verbmobil: Foundations of Speech-to-Speech Translation, Springer, Berlin, 2000. [27] lonescu, E. - "A Type of SOV Construction in Romanian", "Cahiers de Linguistique Theorique et Appliquee", tomes XXXII-XXXIII, 1995-1996, 19-39. [28] lonescu, E. - "Accusative Weak Pronouns in Romanian", Cahiers de Linguistique Theorique et Appliquee, tomes XXXII-XXXIII, 1995-1996, 40-52. 107 [29] lonescu, E. - "Accusative Clitic Doubling in Romanian", Cahiers de Linguistique Theorique et Appliquee tomes XXXII-XXXIII, 1995-1996, 53-73. [30] lonescu, E. - "Accusative Clitic Climbing in Romanian", Cahiers de Linguistique Theorique et Appliquee, tomes XXXII-XXXIII, 1995-1996, 74-87. [31] lonescu, E. - "A Quantification-based Approach to Negative Concord in Romanian" in Geert-Jan M. Kruijff and Richard T. Oehrle (editori), Proceedings of Formal Grammar Conference Utrecht,1999, p. 25-36. [32] lonescu, E. - Pro-Drop: An HPSG Account without Lexical Rules, "Bucharest Working Papers in Linguistics", voi. I, nr.1, 1999, 117-124. [33] lonescu, E. - On the Status of PE in the Direct Object Construction in Romanian, Romanian Journal of Information Science and Technology, volume 4, numbers 3-4, 2001, p. 293-310. [34] Monachesi, P. - "The morphosyntax of Romanian cliticization" în P.-A. Coppen, H. van Halteren, & L. Teunissen, eds., Proceeding of Computaţional Linguistics in The Netherlands 1997, pp. 99-118, Amsterdam-Atlanta:Rodopi. [35] Monachesi, P. - "Linearization properties of the Romanian verbal complex" în Proceedings of WECOL 98, Tempe, 1999. [36] Monachesi, P. - "Clitic Placement in the Romanian verbal complex", în B. Gerlach and J. Grijzenhout (eds.) Clitics in Phonology, Morphology and Syntax, LA 36, Amsterdam: John Benjamins Publishing Company, 2000. [37] Barbu, A.M. - "Romanian determiners:order and classification" în Revue Roumaine de Linguistique, XLIII, nr.5-6, pp.299-315, Bucureşti, 1998. [38] Uszkoreit, H. - "From Feature Bundles to Abstract Data Types: New Directions in the Representation of Linguistic Knowledge, in H. Blaser Natural Language at the Computer, Berlin: Springer, 1989. i 109 După 10 ani de experienţă terminografică: noul model de date terminologice al TermRom Dan MATEI, Institutul de Memorie Culturală Piaţa Presei Libere, nr. 1, C.P. 33-90, 713411, Bucureşti dan@cimec.ro A. Preambul Din 1991 — când a fost înfiinţată — Asociaţia Română de Terminologie (TermRom) a desfăşurat o activitate terminografică materializată într-o bază de date proprie (accesibilă, în parte, pe web la www.cimec.ro/tr/) şi într-o serie de publicaţii specifice. Formatul terminografic utilizat — descris în [1] —, derivat din formatul standard MicroMATER (ISO 6156), se bazează pe un model de date (relativ) complex, serializat pe două nivele: nivelul conceptului şi nivelul termenului. Practica terminografică (ce se traduce prin prelucrarea unei mari diversităţi de date terminologice) ne-a revelat o tensiune între complexitatea datelor reale şi insuficienta complexitate a modelului folosit. în plus, necesitatea transferului de date între aplicaţii diverse a scos la iveală utilitatea consemnării cu o granularitate sporită a elementelor înregistrării terminologice. Mai mult, "entuziasmul" cu care ISO revizuieşte standardele terminologice în ultimii ani1, cu alte cuvinte, relativa instabilitate a standardelor din acest domeniu, îndeamnă la o şi mai fină granularitate, pentru a spori şansele de compatibilitate cu normele de transfer viitoare. Pe de altă parte, pe măsura acumulării experienţei, era din ce în ce mai limpede că modelul de date folosit ar trebui să acomodeze o mai mare diversitate şi complexitate de metadate bibliografice, ca şi o fină şi flexibilă tratare a metadatelor "administrative", de gestionare a colecţiei terminologice (vezi şi [2]). Aceste considerente au dus la elaborarea unui model de date obiectual, care, pe lângă cerinţele expuse mai sus, să fie şi suficient de abstract ca să permită o serializare convenabilă (pentru transfer de date), — probabil bazată pe XML, de exemplu în formatul MARTIF [3] — şi să nu ceară elaborarea de aplicaţii informatice de o complexitate excesivă. 1 Atât ISO 12200 cât şi ISO 12620 sunt în revizie (deşi ambele datează doar din 1999), iar ISO 16642, este încă nedefinitivat. Desigur, această stare a lucrurilor probează şi faptul că domeniul nu este încă bine "aşezat". B. Modelul Clasă Generalizare Dependenţă Asociere Convenţional, modelul este împărţit în secţiuni ("pachete" [packages], în terminologia UML). La nivelul cel mai de sus, se disting secţiunea (aşa zis) funcţională şi secţiunea administrativă. B.l. Secţiunea funcţională în fig. 1 se prezintă clasele funcţionale esenţiale şi asocierile lor. Practic, orice element al modelului este o 'înregistrare'. Cu alte cuvinte, 'înregistrare' este clasa generică. Existenţa unei clase generice oferă — pe lângă gruparea proprietăţilor comune tuturor elementelor — şi posibilitatea de a avea un identificator unic pentru fiecare înregistrare din baza de date ce implementează acest model. Ţintă Relaţie Figura 1 - Secţiunea funcţională (generică) Clasa 'înregistrare' are două subclase: 'entitate' (care grupează elementele ce au o existenţă autonomă) şi 'relaţie' (care grupează asocierile binare între înregistrări). Se observă că sunt acceptabile chiar şi relaţiile binare între relaţii, lucru folositor şi în practică. Reificarea relaţiilor binare între înregistrări simplifică mult modelul şi constituie o manieră flexibilă de a consemna o mare varietate de asocieri între elementele modelului. O relaţie R poate avea două caracteristici fundamentale, utile în cadrul modelului: a. simetria: dacă x este în relaţia R cu y, y este în relaţia R cu x; b. tranzitivitatea: dacă x este în relaţia R cu y şi y este în relaţia R cu z, x este în relaţia R cu z. Pentru fiecare instanţă a clasei 'relaţie', aceste caracteristici (sau lipsa lor) se consemnează ca un atribut al tipului respectiv de relaţii (nereprezentat grafic în model)2. Consemnarea acestor proprietăţi ale relaţiilor poate fi foarte folositoare pentru programele care ar exploata baza de date. Pentru a se rezolva (relativ) simplu şi flexibil asocierile multiple între înregistrări, s-a introdus subclasa 'situaţie' a clasei 'entitate'. După cum se vede în figură, o instanţă (sau mai multe) a clasei 'situaţie' se asociază cu o instanţă a clasei 'înregistrare', iar obiectul 'situaţie' este conectat cu oricâte alte elemente prin instanţe banale ale clasei 'relaţie'. în practică, cele mai frecvente utilizări ale acestui tip de obiect sunt ca încarnări de contexte şi evenimente. în fine, cea de-a două subclasă a clasei 'entitate' este 'enunţ'. Acest tip de obiect este destinat a consemna atribute ale unei înregistrări care n-au fost aprioric prevăzute în model, cu alte cuvinte el găzduieşte menţiuni pentru care se doreşte un statut superior simplelor note, şi anume care se doresc a fi colocabile şi/sau indexabile. în continuare se prezintă doar subsecţiunile secţiunii funcţionale care sunt de interes în contextul acestui volum. B.1.1. Secţiunea terminologică nologică. Fig. 2 prezintă entităţile (i.e. subclasele clasei 'entitate') de natură termi- O categorie de relaţii tranzitive şi asimetrice. importantă în terminologie — este cea a relaţiilor ierarhice, 99999^ Entitate {frqrnjtegjstru Noţiune Termen r Concept Generează—>4 Intrarelndex Figura 2 - Secţiunea terminologi- ca Principala clasă a acestei subsecţiuni este 'noţiune'. Instanţele ei consemnează noţiunile vehiculate în baza de date terminologică, independent de limbă. Din raţiuni practice, şi anume din necesitatea de a cuprinde în baze de date terminologice şi materialul organizat de obicei în tezaure terminologice, s-a decis să se cuprindă în modelul de date nu doar conceptele pure, ci şi unităţi semantice mai largi, precum cele desemnate de termenii compuşi într-un tezaur (sau ceea ce ISO 12620 numeşte 'unităţi frazeologice' [A.2.1.18]). Clasa acestor unităţi conceptuale care cuprinde conceptele şi unităţile semantice mai largi este clasa 'noţiune'. Distincţia fină între 'noţiune' şi 'concept' este formulată în logică astfel [5]: Noţiune: formă logică fundamentală care reflectă însuşirile caracteristice necesare şi generale ale unei clase de obiecte. Concept: noţiune care reflectă însuşirile esenţiale ale unei clase de obiecte3. Aşadar, o noţiune care nu e concept cuprinde mai mulţi factori semantici, deci poate fi factorizată4. 1den*,Mrenusunlconcep,e;b|ona. imwtot_ A doua subclasă a acestei secţiuni este 'termen'. Instanţele ei consemnează doar "denumirile" conceptelor (A.1. în ISO 12620). Cu alte cuvinte, consemnează ceea ce au în comun o familie de expresii lingvistice ce designează un concept5. Expresiile lingvistice propriu-zise sunt consemnate în instanţele clasei 'sintagmă'6. Din pricina faptului că un termen poate fi exprimat printr-un set de expresii lingvistice (flexiuni, variante ortografice etc), s-a preferat separarea "termenului" de expresiile sale lingvistice, în felul acesta nu ne conformăm strict definiţiei pentru 'termen', din ISO 12620 (A.1): "a designation of a defined concept in a special language by a linguistic expression". Se poate observa în figură faptul că sintagmele generează intrări de index, în fapt, o sintagmă poate genera — prin inversare/permutare — mai multe intrări de index, dacă terminograful decide că asta ar fi în folosul utilizatorilor, prin colocarea sintagmei la fiecare "factor" semnificativ. Exemple: Sintagma Intrări de index efect Doppler efect Doppler Doppler, efect pseudofonetism pseudofonetism fonetism, pseudo- completivă indirectă anticipată compietivă indirectă anticipată indirectă anticipată, completivă anticipată, completivă indirectă Clasa 'relaţie' este vitală pentru consemnarea asocierilor între entităţile modelului. Pentru a ilustra modul în care se consemnează informaţia terminologică esenţială, în fig. 3 s-au reprezentat tipurile de relaţii esenţiale care asociază, pe de o parte, conceptele cu termenii care le designează, iar pe de alta, termenii cu sintagmele care-i exprimă. De asemenea, se vede cum o "situaţie" (care — în această ilustrare — implică (cel puţin) un loc, o perioadă şi un agent) caracterizează designarea. O regulă simplă, pragmatică de a distinge o noţiune care este concept de una care nu este, ni se pare: noţiunea care e concept şi-ar găsi locul într-un dicţionar, pe când cea care hu e, nu. Exemple de "familie de expresii lingvistice" sunt: a) clădire, clădiri; b) expresiv, expresivă, 6 expresivi, expresive. în acest context, 'sintagmă' desemnează — printr-un abuz de limbaj - atât sintagme cât şi cuvinte. 91746157 114 Cbncept ; (from Terminologie) \ LOC j i(fromSpatluTlmp)j Relaţie/Localizată ! Agent \ \ (ţrom Agenţi) \ Relaţie/Implicat Relaţie/Designează IhCareSeAfiă ; Situaţie Termen (from Temiino^gfe) Relaţie/Datata RelaŞe/... l Relape/Bprimă I Perioadă | L(from.Sj)a^Tlmjp)j • -.......^ I Sintagmă i Figura 3 - Ilustrare a reprezentării informaţiei terminologice într-o astfel de schemă, se pot reprezenta cu acurateţe cazuri precum: a) Concept: mic arbust cu flori roşietice din familia ericaceae ... • Relaţie/designează: Termen (ştiinţific) [latină]: Relaţie/exprimă: Sintagmă: Kalmia latifolia • Relaţie/designează: Situaţie/context: Relaţie/localizează: Loc: nordul Statelor Unite Termen [engleză]: 115 Relaţie/exprimă: Sintagmă: mountain laurel • Relaţie/designează: Situaţie/context: Relaţie/localizează: Loc: sudul Statelor Unite Termen [engleză]: Relaţie/exprimă: Sintagmă: calico bush • Relaţie/designează: Situaţie/context: Relaţie/localizează: Loc: sudul Statelor Unite Termen [engleză]: Relaţie/exprimă: Sintagmă: sheep's bane • Relaţie/designează: Termen [română]: Relaţie/exprimă: Sintagmă [s.m.sg.]: laur de munte Relaţie/exprimă: Sintagmă [s.m.pl.]: lauri de munte b) Concept: comandant de călărime • Relaţie/designează: Situaţie/context: Relaţie/localizează: Loc: Moldova Relaţie/localizează: Loc: Ţara Românească Relaţie/datează: Perioadă: sec. XVII-XVIII Termen [română]: Relaţie/exprimă: Sintagmă [s.m.sg.]: serdar Relaţie/exprimă: Sintagmă [s.m.pl.]: serdari c) Concept: boier de rang mijlociu 116 • Relaţie/designează Situaţie/context: Relaţie/datează: Perioadă: sec. XVIII-XIX Termen [română]: Relaţie/exprimă: Sintagmă: serdar [s.m.sg.] Relaţie/exprimă: Sintagmă: serdari [s.m.pl.] Tot ca o ilustrare, în fig. 4 se prezintă modul cum se consemnează etimologia unui termen, cu ajutorul clasei 'situaţie': o situaţie de tip 'etimologie' se asociază cu termenul de bază, iar termenii din care acesta provine sunt asociaţi cu situaţia prin intermediul unor relaţii de tip 'provineDin'. :> 117 Termen (from Terminologie) <-- Relaţie/R-ovineDIn Relaţieypr 'ovineDin Termen/Ti 1_ Relaţie/FrovineDin Termen/T2 Situaţie/etimologie: Relaţie/provine din: Termen [greacă]: Relaţie/exprimă: Sintagmă: acro Relaţie/provinedin: Termen [latină]: Relaţie/exprimă: Sintagmă: fixus 6.7.2. Secţiunea bibliografică Fig. 5 prezintă entităţile (i.e. subclasele clasei 'entitate') de natură bibliografică, cu alte cuvinte este o secţiune de metadate. Secţiunea pare simplă, deoarece o bună parte din multitudinea de date bibliografice sunt consemnate cu ajutorul relaţiilor. Clasa esenţială este 'ediţie'; cea care consemnează fişa bibliografică a unei ediţii citate. Entitatea 'lucrare' consemnează metadatele specifice unei creaţii (mai ales textuale, în cazul nostru), i.e. "abstractizează" ceea ce au în comun toate ediţiile unei lucrări. Utilitatea ei imediată este colocarea tuturor manifestărilor unei lucrări, indiferent de limbă sau ediţie. O subclasă importantă a clasei 'lucrare' este entitatea 'serial'. Aici se consemnează şi periodicele, adică entităţile ce grupează instanţele clasei 'NumărPeriodic', cu alte cuvinte publicaţiile-gazdă ale articolelor. Discuţia asupra acestor clase şi a relaţiilor între ele depăşeşte cadrul acestui articol. Entitate | (from registru) Termen/Tn Figura 4 - Ilustrare a reprezentării etimologiei De pildă: Concept: fixat la vârf Relaţie/designează: Termen [română]: Relaţie/exprimă: Sintagmă: acrofix Serial Număr periodic Figura 5 - Secţiunea bibliografică 99991 B.2. Secţiunea administrativă în fig. 6 se prezintă clasele de natură administrativă şi relaţiile esenţiale între ele. Rolul acestor clase este de a consemna modificările survenite în baza de date, în succesiunea lor. în acest fel se poate urmări geneza înregistrărilor şi se pot identifica responsabilităţile. în plus, deoarece se prevede şi stocarea datelor modificate, se creează premizele revenirii la stări anterioare ale bazei de date. în instanţele clasei 'intervenţie' se consemnează fiecare modificare operată asupra unei înregistrări. Fiecare asemenea instanţă este asociată — prin intermediul instanţelor clasei 'contribuţie' — cu agentul (i.e. operatorul) care a produs-o. în plus o intervenţie este asociată şi cu sursele ei documentare. Se observă cum clasa 'referinţă' poate avea ca instanţe atât referinţe bibliografice (citând o ediţie), cât şi referinţe personale (citând o comunicare personală). Clasa 'înregistrareArhivă' este foarte importantă, instanţele ei fiind chiar versiunile "desuete" (i.e. cele dinainte de modificări) ale atributelor înregistrărilor. înregistrare (from[Registru) Modifică Intervenţie înregistrare arhivă C. Remarci finale Modelul prezentat pare suficient de flexibil pentru a satisface cerinţele funcţionale atât ale unei baze de date terminologice, cât şi a uneia lexicografice (mai ales datorită distincţiei între termeni şi expresiile lor lingvistice). El este şi suficient de abstract pentru ca schema unei baze de date ce l-ar folosi ca fundament să fie relativ comodă la implementare. TermRom are în curs un proiect de elaborare a unei astfel de baze de date terminologice. După finalizarea acesteia, este de aşteptat un proces traumatic de convertire a bazei de date curente. Sporul de funcţionalitate obţinut va compensa însă efortul. D. Referinţe [1] Matei, Dan. Banca de date terminologice a TermRom şi problemele ei neologice, în Limbaj şi Tehnologie / Dan Tufiş - editor. - Bucureşti: Editura Academiei Române, 1996' [2] ISO/CD 16642:1999, Computer applications in terminology - Metamodel for representing terminologica! data collections [3] ISO 12200:1999, Computer applications in terminology - Machine-readable terminology interchange format (MARTIF) - Negotiate interchange [4] ISO 12620:1999, Computer applications in terminology - Data categories [5] Cheţan, Octavian, Radu Sommer. Dicţionar de filozofie / Coordonare ştiinţifică Octavian Cheţan, Radu Sommer. — Bucureşti: Editura Politică, 1978 Figura 6 - Secţiunea administrativă 121 Probleme de reprezentare a datelor terminografice într-o bază de date relaţională Sorin GHEŢARII TERMOROM, Str. Meşterul Manole nr. 3 gsorin@fx.ro Oriunde şi oricând se creează, comunică, înregistrează, prelucrează, stochează, transformă sau refoloseşte informaţie sau cunoştinţe de specialitate este implicată într-un fel sau altul şi terminologia. Comunicarea într-un anumit domeniu a devenit un discurs specializat cu texte de specialitate diferenţiate în nenumărate forme. Atunci când se defineşte terminologia ca o mulţime structurată de concepte şi denumirile lor într-un anumit domeniu, ea poate fi socotită ca fiind infrastructura cunoaşterii de specialitate. Scrierea textelor tehnice şi documentarea tehnică devin astfel imposibile fără o utilizare corectă a unor resurse terminologice. Deoarece producerea textelor tehnice implică frecvent mai multe limbi, terminologiile multilingve de înaltă calitate au devenit bunuri mult dorite greu de găsit pe înfloritoarea piaţă a industriilor limbajelor şi cunoaşterii. Există numeroase baze de date terminologice disponibile pentru interogare on-line sau pe CD-ROM (TERMIUM, EURODICAUTOM), pe dischete sub forma unor dicţionare electronice sau ca baze de date personale realizate şi întreţinute de ingineri, specialişti în calculatoare, chimişti care lucrează ca terminologi, traducătorii, autori de texte tehnice. Aceste baze de date sunt utilizate pentru: • traducere asistată de calculator; • scrierea de texte tehnice şi ştiinţifice asistată de calculator; • sisteme informatice (administrarea componentelor etc); • cercetări terminologice în lingvistică, filozofia ştiinţei, sociologia tehnologiei etc. Pentru asemenea obiective au fost dezvoltate aplicaţii specializate (programe de management al bazelor de date terminologice), unele disponibile pe piaţa terminologică internaţională, altele ca prototipuri în cadrul unor proiecte de cercetare.academică. MARTIF este formatul standardizat pentru managementul informaţiei terminologice. Posibilitatea organizării terminologiei în baze de date având formate diferite face nerealistă presupunerea ca s-ar putea cădea de acord asupra unui anumit format de bază de date relaţională, aşa cum este SQL, care să fie folosit pentru schimburile terminologice. De aceea s-a mers pe linia producerii unui 565025 ll I ! Ii 122 format la dispoziţia publică fără obligaţiii materiale şi care să fie independent de platforma de lucru. Rezultatul este MARTIF (Machine-Readable Terminology Interchange Format cunoscut şi ca ISO 12200. In ISO 12620 sunt descrise 150 de categorii de date, un număr imens care nu urmăreşte decât să le arate pe cele posibile şi modul în care acestea pot fi structurate. Categoriile MARTIF sunt împărţite în 10 secţiuni grupate în 4 clase. Acestea sunt: • termen: cuprinde categoria de date termen (1); • informaţie în legătură cu termenii: conţine informaţia legată de termeni (2) şi informaţia privind gradul de echivalenţă; • informaţie descriptivă: relaţie cu domeniul (4), descrierea conceptului (5), relaţii între concepte (6), categorii de date care leagă un concept de poziţia sa în sistemul de concepte (7), note (8); • informaţie administrativă: categorii de date care leagă un concept de un element al unui tezaur sau de o altă formă de documentare (9), categorii de date care cuprind informaţii administrative. Un avantaj major al faptului că MARTIF este scris folosind cod SGML este acela că, deşi se poate aprecia că lectura codului nu este facilă, ea este totuşi posibilă ca urmare a faptului că nu face apel decât la caracterele ASCII. Un alt avantaj al sistemului MARTIF este acela că el acceptă referinţe către alte documente chiar din interiorul documentului. Iniţial MARTIF presupune că înainte de implementarea produselor software pentru importul sau exportul datelor programatorii sunt obligaţi să examineze sursele implicate. Pentru a asigura un acces aşa numit "orb" care să permită oricui să transfere baze de date terminologice din orice sistem spre sau dinspre MARTIF este necesară o standardizare suplimentară a categoriilor de date, domeniilor specifice etc. Tabela ce urmează enumera acea parte a "elementelor" MARTIF care sunt de cea mai mare importanţă pentru realizarea unei resurse terminologice Multilingve. îvnrimTf'6 UmC 06 Q.ate termino'ogice pentrU un COncept " S^nSSS^?^ ?' administrative codate lor sau, în cazul unei abordări bilingve sau multilingve, două sau mai mu te datele descriptive şi administrative asociate lor Atributele includ: type, care clasifică setul de date terminologice conform categoriile de date specificate de ISO 12620 Limba, in caarul unui element va fi folosit pentru a grupa mai multe şi asociate unei singure limbi SSSST* ,an9 6546 °b,igat0rie'?n afara -u'S care HI 1 kntig> [ 123 Grup de informaţii terminologice; în cadrul unui element , va conţine elemente de informaţii asociate cu un singur termen, fiecare dintre acestea funcţionând la acelaşi nivel; cu alte cuvinte nu este permisă imbricarea între elementele subordonate unui . Prezenţa atributului lang este obligatorie, în afara cazului în care el este moştenit. _ Grup încuibat de informaţii terminologice; va fi folosit în cadrul unui element dacă anumite elemente informaţionale sunt asociate mai curând cu elemente interne, decât cu întregul . Următoarele elemente vor fi folosite în cadrul pentru a găzdui alte date terminologice: , , şi . Prezenţa atributului lang este obligatorie, în afara cazului în care el este moştenit.__ Va conţine un termen format dintr-un singur cuvânt sau din mai multe cuvinte, sau o desemnare simbolică privită ca un termen tehnic "Va conţine un element şi posibil, cel puţin mea un element încuibat în plus faţă de termen.-_- " Va conţine informaţii legate de termen. Atributele includ: x ... , . . type care clasifică conform categoriilor de date ;în ISO 12200. [ Va conţine un element şi posibil cel puţin un încuibat în plus faţă de informaţia legată de termen. Va fi folosit pentru a găzdui un nivel suplimentar de imbricare în cadrul elementului __ Va conţine informaţii descriptive precum definiţia, contextul sau explicaţii descriind concepte şi termeni. Atributele includ: type, care clasifică potrivit categoriilor de date în ISO 12200. | " Va conţine date administrative. Atributele includ: . , , .Q type care clasifică în funcţie de categoriile de date ite în ISO 12200. _:-.-- i element 124 125 m im ' 'll'l 1 |~ |2 Va conţine o singură dată de formatul YYYY-MM-DD, cu opţiunea notării dată-timp YYYY-MM-DD hh:mm:ss. Atributele includ: type, care clasifică după categoriile specificate în ISO 12200._ Va conţine o notă sau o adnotare drept comentariu legat fie de un întreg , un întreg sau ori de unul din [elementele <...Grp>._J__ Va fi folosit în cazul informaţiilor de tipul folosite în cadrul | când conţinutul notei este legat de o listă de opţiuni._ Va fi folosit în cazul informaţiilor de tipul folosite în cadrul când conţinutul notei este legat de o listă de opţiuni Va consta dintr-un indicator către o altă locaţie din documentul curent. (Atributele includ: type, care clasifică conform Anexei A, A. 12 target, care precizează destinaţia referirii, ca unul sau mai mulţi identificatori SGML._ Va defini o referire către o altă locaţie din documentul curent, în termeni de unul sau mai multe elemente identificabile. GI este asociat cu text suplimentar drept conţinut al elementului, deci constă dintr-o etichetă-start cu o ţintă integrată, urmată de textul asociat şi închisă de o etichetă-sfârşit. Atributele includ: type, care clasifică conform Anexei A. target, care precizează destinaţia referirii ca unul sau mai mulţi identificatori SGML._'__ Va defini o referinţă la un grafic, ilustraţie, figură, tabel sau alt document extern sau fişier folosind o notaţie indicativă extinsă ca valoare a atributului ţintă a , de ex. , unde valoarea 'documentldentifier' este un cod de identificare pentru documentul ţintă. Utilizatorul va documenta notaţia indicativă extinsă care este folosită incluzând un comentariu adecvat în elementul ale header DTD. Atributele includ: type, care clasifică conform Anexei A. target, care precizează destinaţia referirii ca unul sau mai mulţi identificatori SGML »3 1 Mmcăt ZTJdoar "To ItSiZ IT ar drept co"tinut * amantului, sunt toate con^ Intefatâ- Elementele , şi *Z~ur^ t,ntlte de <™f> **>»*> să fi accesibile Sllui-ţintă pentru SUI Va fi folosit pentru a marca un cuvânt sau o frază ca evidenţiat grafic în contrast cu textul înconjurător. Atributele includ: type, care clasifică conform Anexei A. target, care precizează destinaţia referirii ca unul sau mai mulţi identificatori SGML SZ;.^ sau o fraza ca apărând alt.......b, cea a textului înconjurător. Atributele includ: r . lanq care identifică limba cuvântului sau frazei marcate vi-■—:—:-:-7.— •______*:«7r7irn il oon mai mi i_|iang, uait? mpninioa mm/M —____________ | Va fi folosit în back-matter şi va conţine unul sau mai multe obiecte back-matter, mai ales resurse comune ca: date bibliografice, date de responsabilitate, identificatori de jnamespace (URL-uri şi FPI-uri), material textual la care se fac referiri dese, liste de locaţii geografice, fişiere externe şi altele .asemenea. (Atributele includ: itype, care clasifică după categoriile de date [specificate în ISO 12620 Anexa A, A. 11.4.1. 4 Va conţine o dată constând în general dintr-o resursă comună ca: date bibliografice, date de responsabilitate, identificatori de inamespace (URL-uri şi FPI-uri), material textual la care se fac referiri dese, liste de locaţii geografice, fişiere externe şi altele asemenea. Datele bibliografice ar trebui să rezide în bâck matter sau într-un document extern (caz în care se va face referire la datele bibliografice din back matter folosind elementul ). Atributele includ: type, care clasifică după categoriile de date specificate în ISO 12620 Anexa A, A.11.4.2. Dacă se specifică altfel, tipul este moştenit de la [respectiv._ Notă - în managementul terminologiei o utilizare frecventă a se face pentru a sublinia termeni necesari, adică termeni folosiţi într-o definiţie, notă sau alt material textual care 4 sunt definiţi altundeva în resursa terminologică. Vezi de asemenea Anexa A, A.2.2.2. Notă - Unele documente terminologice cuprind date bibliografice complete în format nediferenţiat drept conţinut al categoriei de date sursă (vezi ISO 12620:1999, A.10.19). Această practică încurajează redundanţa şi efortul mărit pentru îngrijirea datelor. Aceste Informaţii ar trebui convertite în obiecte back matter (informaţii bibliografice) dacă este posibil. 126 127 Va fi folosit în back matter şi va conţine unul sau mai multe obiecte individuale care în mod tradiţional sunt grupate împreună, de ex. obiectele numele autorului si prenumele autorului vor fi grupate împreună într-un de tip=autor Atributele includ: type care clasifică în principal conform categoriilor de date listate în ISO 12620 Anexa B. Totuşi acest Standard Internaţional nu specifică întregul spectru al categoriilor de date care pot fi folosite cu Va conţine un exemplu individual de informaţie back matter Atributele includ: type, care clasifică în principal conform categoriilor de date listate în ISO 12620 Anexa B pentru informaţii bibliografice Totuşi acest Standard Internaţional nu specifică întregul spectru al categoriilor de date care pot fi folosite cu Va conţine unul sau mai multe împreună cu sau . . . Atributele includ: type, care clasifică în principal conform categoriilor de date listate în ISO 12620 Anexa B pentru informaţii bibliografice Totuşi acest Standard Internaţional nu specifică întregul spectru al categoriilor de date care pot fi folosite cu Din acest tabel au mai fost eliminate elementele (aproape la fel de numeroase) specifice informaţiilor bibliografice. Instanţierea elementelor enumerat mai sus se face prin intermediul "categoriilor de date" standardizate de ISO 12620. Numărul acestora este de aproximativ 200. în cea mai amplă resursă terminologică (EURODICAUTOM) sunt în prezent prezente mai puţin de 20 astfel de categorii de date. Uniunea Eropeană în activitatea sa este unul dintre utilizatorii majori ai procedurilor de translatare a textelor şi terminologiei. Aceasta se datoreşte parţial faptului că legislaţia sa este direct aplicabilă în statele membre şi de aceea ea . trebuie să fie disponibilă în toate limbile de lucru oficiale. Ca rezultat, traducătorii Comisiei Europene produc mai mult de 1 milion de pagini pe an şi au de-a face cu cel puţin 6-7 milioane de termeni (în medie sunt 8 sau 9 termeni care ridică probleme pe fiecare pagină). Unitatea pentru Terminologie a Comisiei Europene este destinată asigurării suportului lingvistic pentru toate limbile oficiale ale Uniunii Europene. Au fost elaborate glosare de specialitate, multe dintre ele în nouă limbi. Domeniile acoperite sunt tratatele importante cum ar fi cele de la Maastricht şi Roma, cele economice şi administrative (Taxa pe Valoarea Adăugată, buget) dar şi unele legate de subiectele centrale sau puternic inovatoare ale ştiinţei şi tehnologiei (fizica plasmei, biotehnologie, minerit). Deosebit de rolul lor de resurse terminologice şi de surse terminologice pentru domeniile de inovare, aceste glosare documentează ceea ce se numeşte "Eurolect", adică frazele şi cuvintele care îşi au origina în cadrul Uniunii Europene şi pentru care nu există echivalente naţionale. Monitorizând toate modificările apărute ca urmare a unei evoluţii permanente a bazei de date EURODICAUTOM am constatat că, recent, a avut loc schimbarea suportului hardware şi odată cu aceasta pot fi observate următoarele: • Indicarea mult mai frecventă a referinţei la documentul sursă a termenului; • Indicarea frecventă a referinţei la documentul sursă al definiţiei acestuia; • Indicarea documentului sursă şi pentru sinonime şi abrevieri; • Utilizarea mai frecventă a notelor pentru adăugarea unor informaţii suplimentare asupra termenilor, acestea putând fi grupate astfel: o {NTE} explicaţii şi informaţii generale asupra termenilor; o {TXT} contextul (de cele mai multe ori un exemplu de utilizare a termenului respectiv); o {GRM} informaţii gramaticale (gen, număr); o {USG} indicarea mediului în care este utilizat termenul: "technical jargon"; o {REG} notă asupra unor utilizări locale speciale sau asupra regionalismelor; o {DOM} indicarea unui domeniu sau subdomeniu care comple-mentează clasificarea obişnuită folosită anterior şi care a rămas încă prezentă. De asemenea se prevede ca în cel mai scurt timp să fie implementate următoarele: • afişarea tuturor caracterelor şi diacriticelor (ca şi a informaţiei nelingvistice, dacă se cere); • îmbunătăţirea sistemului de clasificare a domeniilor; • introducerea link-urilor interne şi externe. Modelele de date terminologice orientate în exclusivitate către terminologie au avantajul de a fi relativ intuitive pentru terminolog. Transcrierea directă a elementelor şi relaţiilor dintre acestea într-o bază de date este din ce în ce mai dificilă şi mai riscantă. 128 129 Există încercări meritorii de realizare a unor interfeţe "cuprinzătoare" pentru consultarea resurselor terminologice. Exemplele ' următoare sunt edificatoare în acest sens. Primul exemplu ar putea provoca comentarii legate de complexitatea reală a înregistrării referinţelor bibliografice cele mai obişnuite. jjCopy righi Cycorn Limited 2002 flrtlp:// www.cy contcaukj/T These detaiis idemify the source of sorne Text appearing wiîhin one of the ierm entries. ■ □ x ldentifietjisol087-i.2 Atiihor given nunei Generate imiqtie îdentifer Authoi family namejTC B7/SC i Anide tiilej _ Page mimuersj ™ Book UllejOS/^-I^^ Parii fhewarîdlpplKîoS ISBN! " ;- Book edition Drafr jPublicaiion dale ^Explore the tabs belowto set ine numerous propenles of rhe ierm lt is OK io lea*e manypropenles biank (undefined) ; Main Giaiiiinai îjsage | Sound anei stiucuiVe Siatus i Deseriptions Teriniobject , Temi lypej entiy ierm Terro \0[ j Antonym term j False frieiid 1 Shott fotm of anoiliei ierm Abbieviated fotm of another ierm s Generate unique ierm ID Tai gel terntf Target terni; Target term Target terrnj More terni type Cominit changes Commil changes anri dose Rollback changes and dose 130 Cu alte cuvinte la nivelul seturilor de semne necesare unei resurse terminologice multilingve se poate conta pe serviciile standardului Unicode şi pe cele ale oricărei baze de date relaţionale care acceptă Unicode. Pentru indicarea formatelor de prezentare (fonte, punere în pagină, seturi de caractere) şi a limbii utilizate se face apel la balizare astfel încât la nivelul câmpului vom găsi şiruri de caractere Unicode balizate. înscrierea datelor terminologice este facilitată de înscrierea lor în "categorii de date" bine definite (vezi ISO 12620). Dar numărul mare al acestor categorii şi mai ales incidenţa ridicată a apariţiilor neprevăzute dinainte a unora noi face imposibilă alocarea unui câmp de date fiecărei categorii de date. Aceeaşi observaţie poate fi făcută şi asupra relaţiilor dintre diferitele categorii de date care reflectă direct relaţiile dintre elementele MARTIF. O soluţie este o abstractizare suplimentară a datelor terminologice după încadrarea lor succesivă în şiruri de caractere balizate, categorii de date, elemente MARTIF. în centrul modelului de date se află un set de 13 entităţi (atomi): [Entitate_ data category jdata category name data category index type picklist _ Descriere _ o anumită clasă de informaţii terminologice (de exemplu: term, part of speech)__ un nume agreat de utilizator (user-friendly), dependent de limbă, al unei anumite categorii de date (de exemplu, în română, "termen" pentru term)____ o strategie de indexare corespunzătoare unei anumite categorii de date (ISO 12620) (de exemplu: nu se indexează, se indexează ca valoare unică, se indexează cuvânt cu cuvânt)_ o anumită limbă, care dispune de o schema de codare uniformă care utilizează un singur set de caractere (de jexemplu: French, German, Italian)_, o combinaţie unică de caractere care poate fi utilizată pentru reprezentarea unei singure sau mai multor limbi (de exemplu: ISO 8879-1. ISO 8859-2)_ o mulţime de valori posibile ale unor date terminologice aparţinând unei anumite categorii de date (ISO 12620) (de exemplu, pentru categoria "parte de vorbire": noun, verb, adjective)_ o dată terminologică unică__ o dată (time stamp) care constituie valoarea unui element un număr care constituie valoarea unui element un membru al unei liste care reprezintă valoarea unui element_ ;ir de caractere care constituie valoarea unui element in şir de caractere r.pr^ ron^-:-^ x— 131 Primele 6 "articole" sunt "meta-entităţi"; ele sunt create şi tabelele corespunzătoare sunt completate cu informaţii înainte de încărcarea oricărei date terminologice în baza de date. Prin completarea acestor table se conturează şi se activează chiar modelul de date al bazei de date terminologice. Cu alte cuvinte, ansamblul "meta-tabelelor" defineşte structura care impune condiţii şi unifică datele terminologice de nivel molecular. Ele pot fi considerate atomi catalizatori ai reacţiilor necesare combinării altor atomi în interacţiuni moleculare. Celelalte 7 entităţi se încarcă direct prin proceduri de introducere a datelor sau prin import şi cuprind datele terminologice vizibile pentru utilizatorul bazei de date. Informaţiile conţinute de aceste entităţi pot fi validate la nivel molecular folosind interogări SQL standard. Majoritatea interogărilor formulate de utilizatorii bazei de date se concentrează aproape în întregime asupra informaţiilor încărcate în aceste entităţi. Elementul central al aplicaţiei pentru întreţinerea unei astfel de baze de date este componenta de tip parser pentru crearea, validarea şi prelucrarea documentelor MARTIF în particular (fără a ignora documentele SGML, HTML, XML). în mod obişnuit un parser este un modul software care examinează un document SGML prin confruntarea acestuia cu DTD-ul corespunzător. Rezultatul acestei examinări este de cele mai multe ori simplu: 'da' în situaţia în care documentul reprezintă o instanţiere validă a DTD-ului şi 'nu' în cazul contrar. De cele mai multe ori parser-u\ este capabil să 'normalizeze' documentul validat (aducându-l la o 'formă canonică') astfel încât facilitează formatarea, editarea şi încărcarea documentului în baza de date. Alături de parser şi legat de acesta se află un editor structurat. Pornind de la DTD acesta propune utilizatorului pas cu pas opţiunile de compunere, sau modificare a unui document în conformitate cu definiţia tipului corespunzător documentului. în cazul în care obiectivul este compunerea unui document SGML el poate asigura completarea teg-urilor necesare. De cele mai multe ori sistemele de management al bazelor de date orientate spre text folosesc fişiere inversate de indexare a conţinutului acestora pentru regăsirea informaţiilor. Căutarea poate urmări apariţia unui anume cuvânt, sau a unui model oarecare într-un document sau în o parte a acestuia. Identificarea subdiviziunilor documentului se poate face folosind tocmai tag-urile cu acesta este marcat, respectiv modul în care acestea au fost transcrise în relaţiile dintre tabelele bazei de date. în fine, o componentă deosebit de importantă este aceea care realizează funcţiile de import-export a\e datelor terminologice spre şi dinspre baza de date. Terminologia calităţii Realizarea unor resurse terminologice multilingve este de mai multă vreme în centrul preocupărilor Asociaţiei Române pentru Terminologie (TERMROM). începând de anul trecut pe lista temelor având aceeaşi orientare se înscrie proiectul "Terminologie armonizată cu prevederile EURODICAUTOM în domeniul calitate şi standardizare". Proiectul a fost iniţiat de Ministerul Educaţiei şi Cercetării şi este finanţat în cadrul Programulului CALIST. Obiectivele principale ale acestui subprogram sunt: • Asigurarea flexibilităţii necesare pentru a răspunde operativ la cerinţele concrete de rezolvare a unor teme de cercetare care decurg din priorităţile stabilite prin strategiile guvernamentale adoptate pe domenii specifice, în procesul integrării României în U.E. • Asigurarea condiţiilor de dezvoltare şi armonizare a sistemului de standarde naţionale în conformitate cu cerinţele organismelor de standardizare europene şi internaţionale; • Asigurarea unei baze terminologice ştiinţifice pentru elaborarea standardelor de calitate româneşti, precum şi în ceea ce priveşte condiţiile de aplicabilitate a prevederilor standardelor internaţionale şi europene adaptate ca standarde româneşti; • Clarificarea condiţiilor pe care trebuie să le îndeplinească produsele româneşti în vederea pătrunderii lor pe piaţa unică a Uniunii Europene şi produsele introduse în România. Pentru realizarea obiectivelor proiectului au fost prevăzute următoarele activităţi: • întocmirea unui Proiect Terminologic pentru definirea şi înregistrarea terminologiei domeniilor calitate şi standardizare utilizate în documentele oficiale ale Uniunii Europene, conform prevederilor EURODICAUTOM şi standardelor internaţionale; • Extragerea, traducerea şi structurarea terminologiei domeniilor calitate şi standardizare; • Proiectarea, programarea şi implementarea unei Baze de date conform Proiectului Terminologic capabilă să gestioneze toate domeniile EURODICAUTOM; • înregistrarea în baza de date a terminologiei domeniilor calitate şi standardizare; • Elaborarea unei aplicaţii informatice de administrare a bazei de date terminologice şi de transfer de date terminologice conform formatului standard ISO pentru lucrul în reţea; Realizarea unui site web pentru promovarea Bazei de date terminologice şi punerea acesteia la dispoziţia publicului. A fost avizat Proiectul Terminologic, au fost stabilite cerinţele pe care să le satisfacă suportul informatic, s-a constituit un fond de termeni specifici extraşi din EURODICAUTOM şi din Tezaurul raţional al CEI şi au fost demarate activităţile pentru realizarea unei baze de date relaţionale EUROCAST pentru înregistrarea acestora. Bibliografie [1] ISO 639:1988 Code for the representation of names of languages [2] ISO 639-2:1998 Code for the representation of names of languages - Part 2: Alpha-3 code [3] ISO 704:2000 Terminology work - Principles and methods [4] ISO 860:1996 Terminology work - Harmonization of concepts and terms [5] ISO 1087-1:2000 Terminology work - Vocabulary - Part 1: Theory and application [6] ISO 1087-2:2000 Terminology work - Vocabulary - Part 2: Computer applications [7] ISO 1951:1997 Lexicographical symbols particularly for use in classified defining vocabularies [8] ISO 6156:1987 Magnetic tape exchange format for terminological/lexicographical records (MATER) [9] ISO 10241:1992 Preparation and layout of internaţional terminology standards [10] ISO 12199:2000(E) Alphabetical ordering of multilingual terminological and lexicographical data represented in the Latin alphabet [11] IS012200:1999 Computer applications in terminology - Machine-readable terminology interchange format (MARTIF) - Negotiated interchange [12] ISO/TR 12618:1994 Computer aids in terminology - Creation and use of terminological databases and text corpora [13] IS012620:1999 Computer applications in terminology - Data categories [14] IS015188:2001 Project management guidelines for terminology standardization Secţiunea il TEHNOLOGII ALE LIMBAJULUI SCRIS 137 Ro-Balkanet - ontologie lexicalizată, în context multilingv, pentru limba română Dan TUFIŞ, Institutul de Cercetări pentru Inteligenţa Artificială, Academia Română, Bucureşti Calea 13 Septembrie nr. 13, 74311, sector 5 tufis@racai.ro Dan CRISTEA, Facultatea de Informatică, Universitatea A.I.Cuza, laşi Str. General Berthelot, nr. 16 dcristea@infoiasi.ro Rezumat Cerinţele creării unei ontologii multilingve de tipul EuroWordNet sunt frecvent contradictorii şi dacă problemele de compatibilitate nu sunt considerate în etapele timpurii ale construcţiei, o armonizare tardivă se poate dovedi dificilă sau imposibilă. Mai exact, există două probleme majore de compatibilitate care trebuie avute în vedere şi anume: acoperirea conceptuală - în sensul că fiecare lexicon monolingv ar trebui să conţină lexicalizări ale aceluiaşi fond conceptual şi coeziunea interpretativă - în sensul că interpretarea relaţiilor folosite în fiecare din ontologiile cuprinse în ontologia multilingvă trebuie să fie identică. în lucrare sunt discutate ambele aspecte şi prezentate soluţiile adoptate în vederea satisfacerii criteriilor de consistenţă şi coerenţă multilinguală a wordnet-ului pentru limba română. 1. Limbă, resurse lingvistice şi comunicare electronică Cercetarea în domeniul tehnologiilor limbajului este un domeniu ce are deja istorie în ştiinţa calculatoarelor, dar, actualmente, motivaţiile sale depăşesc sfera interesului pur ştiinţific sau comercial. Păstrarea identităţii limbilor şi culturilor naţionale în cadrul globalizant al societăţii informaţionale şi a cunoaşterii readuce în actualitate avertismentul lui Alain Danzin [1]: "în era electronică, este esenţial pentru supravieţuirea unei limbi ca ea să fie folosită în sistemele de informare electronică." Avansul ştiinţific şi tehnologic obţinut în cei 10 ani scurşi de la raportul prezentat de Danzin Comisiei Europene a condus la maturizarea unor teorii, tehnologii, metode şi la dezvoltarea altora noi, dar mai ales a permis 138 definirea unor standarde pentru realizarea unitară a ceea ce generic se numeşte resurse lingvistice fundamentale ale unei limbi. Caracterul multilingual al societăţii cunoaşterii, în care conceptul de "unitate prin diversitate" se referă în primul rând la prezervarea limbilor şi culturilor actuale, a generat o deosebită efervescenţă, puternic stimulată de organismele internaţionale - în primul rând de Comisia Europeană - asupra cercetării în domeniul resurselor multilingve. Metodologic, tehnologia limbajului natural creează o distincţie netă între prelucrări şi date, între "maşinăria software de prelucrare a limbajului" numită şi lingware şi cunoştinţele lingvistice, numite cum arătam resurse lingvistice, necesare funcţionării acestei maşinării. Dihotomia lingware - resurse lingvistice, susţinută de standardele de reprezentare şi codificare a cunoştinţelor lingvistice permite dezvoltarea independentă a celor două componente ale unui sistem de prelucrare a limbajului. Lingware-ul este independent de limbă şi intră tot mai pregnant în zona ingineriei software. El poate fi dezvoltat de specialişti de oriunde fără ca aceştia să fie preocupaţi de limba pentru care va fi folosit. Resursele lingvistice însă sunt de competenţa specialiştilor vorbitori nativi ai limbii respective. în condiţiile în care aceste resurse lingvistice sunt realizate în conformitate cu standardele sau practicile internaţionale, ele pot fi integrate în sistemele de comunicare electronică, nu doar pentru prelucrare monolingvă ci mai ales pentru prelucrări multilingve. Beneficiile alinierii la standardele internaţionale în realizarea resurselor lingvistice sunt enorme, şi putem considera un exemplu foarte simplu. Să presupunem că suntem interesaţi de un anumit subiect şi, folosind imensul ocean informaţional ce este Internet-ul, apelăm la un aşa numit "motor de căutare", un program a cărui funcţionalitate asigură identificarea documentelor electronice ce conţin informaţii potenţial relevante pentru subiectul nostru de interes. Acest gen de serviciu informaţional este asigurat de "motoare de căutare" precum Google, Altavista, Excite şi multe altele. Documentele interesante din punctul nostru de vedere ar putea să fie scrise în limba engleză, franceză, germană, română sau orice altă limbă. Dar pentru a le regăsi pe toate, indiferent în ce limbă am formulat cererea noastră de regăsire, motorului general de căutare îi sunt necesare resursele lingvistice specifice limbilor în care documentele ar putea exista. Dacă aceste resurse lingvistice există pentru engleză, franceză, germană, italiană etc. şi ele sunt reprezentate în acelaşi format standardizat, rezultatul cercetării noastre documentare va fi o colecţie de documente tratând subiectul de interes în oricare dintre aceste limbi. Un astfel de serviciu, numit regăsire documentară multilingvă este o realitate pentru toate limbile "mari", o calificare ce nu are acoperire în substratul cultural ci doar în ceea ce se numeşte "nivelul de informatizare al limbii". Procesul de informatizare a unei limbi naturale permite potenţarea şi diseminarea ei prin mijloacele tehnologice ale societăţii informaţionale. 139 2. Lexicalizarea abordărilor în tehnologia limbajului şi conceptul "wordnet" Lexicul este fără îndoială cea mai importantă resursă lingvistică a unei limbi. Marea majoritate a cercetării actuale, atât în lingvistica formală cât mai ales în tehnologia limbajului, plasează componenta lexicală în centrul modelelor de limbă, sub influenţa a ceea ce a fost numită abordarea lexicalizaiă sau lexicalistă a studiului limbii. Nu este de mirare, deci, enormul interes pentru dezvoltarea de resurse lexicale multilingve. Studiul computaţional al dicţionarelor electronice, natura informaţiei ce trebuie inclusă în ele şi tipul de prelucrări pe care le poate facilita o anumită structurare a unui mare voium lexical a fost, fără îndoială, fundamental influenţat de proiectul WordNet, lansat în urmă cu mai mult de 25 de ani la Universitatea din Princeton sub conducerea reputatului psiholingvist George Miller. WordNet, resursă publică, este o uriaşă reţea semantică lexicală în care peste 100.000 de înţelesuri lexicalizate în limba engleză prin mai mult de 130.000 de cuvinte sunt asociate între ele prin relaţii semantice şi/sau lexicale [2]. Fondul lexical este distribuit în 4 reţele semantice corespunzând categoriilor gramaticale deschise: substantive, verbe, adjective şi adverbe. Noţiunea de înţeles (meaning) este în WordNet echivalată cu cea de concept şi este reprezentată printr-o serie sinonimică în care fiecare cuvânt al seriei are asociat un număr ce identifică sensul în care cuvântul respectiv are înţelesul asociat conceptului. Seria sinonimică ce identifică un înţeles se numeşte sinset. Relaţiile existente între sinseturi sunt de diferite tipuri, depinzând de categoria gramaticală a cuvintelor ce alcătuiesc un anumit sinset (antonimie/sinonimie, hiponimie/hiperonimie, holonimie/meronimie, troponimie etc). Influenţa proiectului WordNet a fost enormă în domeniul tehnologiei limbajului (exprimată poate şi prin faptul că acum, în limbajul tehnic cel puţin, cuvintele "wordnet" şi "synset" au devenit substantive comune, importate prin calchiere în mai toate limbile), iar beneficiile acestui concept sunt atât de evidente încât Comisia Europeană, între 1996 şi 1998, a finanţat un proiect similar de mare anvergură numit EuroWordNet [3]. Acest proiect, extrem de ambiţios şi-a propus nu numai realizarea concertată de wordneturi monolingve pentru limbile europene de circulaţie internaţională (engleză, franceză, germană, italiană, olandeză, spaniolă) dar a introdus o cerinţă fundamental nouă, anume corelarea multilinguală a celor 6 reţele semantice lexicale, astfel încât dintr-un sinset al unei limbi să se poată ajunge în echivalentul de traducere al oricăreia dintre celelalte 5 limbi. Faţă de relaţiile originale din WordNet, EuroWordNet propune un inventar mult mai bogat (90) de relaţii cum ar fi cele tematice de tip cazual (Agent, Patient, Instrument, Location, Direction) sau cele corelând sensurile derivaţilor lexicali (XPOS-SYNONYMY: a adora - adoraţie). Soluţia tehnică pentru corelarea multilinguală a reţelelor semantice monolingve a fost definirea unui index interlingual (ILI), independent de limbă, conţinând reprezentări conceptuale ale înţelesurilor lexicalizabile în limbile 140 141 proiectului. Fiecare înţeles din oricare din limbile reprezentate în reţeaua semantică multilingvă este pus în corespondenţă, în general, cu un singur concept al indexului interlingual. Aceste corespondenţe se realizează prin intermediul a 20 de tipuri distincte de relaţii binare. Sinseturile (seriile sinonimice) din două sau mai multe limbi care sunt puse în corespondenţă cu acelaşi concept din ILI sunt considerate echivalenţi de traducere, natura echivalenţei de traducere fiind definită de tipul relaţiilor ce definesc corespondenţa dintre sinseturile respective şi • conceptul comun. Iniţial, indexul multilingual a fost constituit ca o mulţime nestructurată a tuturor înţelesurilor lexicalizate în WordNet (cu alte cuvinte în engleză). Ulterior, prin dezvoltarea wordneturilor monolingve, ILI a fost îmbogăţit şi cu reprezentări conceptuale cu lexicalizări ce nu se regăsesc în engleză. O altă inovaţie a proiectului EuroWordNet a fost adoptarea unei mulţimi de primitive semantice, independente de limbaj, în termenii cărora aşa-numitele concepte de bază din ILI au fost asociate cu descrieri ontologice. Prin importul acestor descrieri la nivelul lexicalizărilor prin echivalenţi de traducere (şi, prin moştenire, la hiponimii acestora) în fiecare dintre wordneturile monolingve, în EuroWordNet se poate vorbi de o ontologie lexicală multilingvă. O prezentare în detaliu a proiectului EuroWordNet se poate găsi în [4]. După 3 ani, proiectul EuroWordNet iniţial a fost extins pentru o perioadă de încă doi ani (EuroWordNet II) şi a încorporat încă 4 limbi: bască, catalană, cehă şi estoniană. Proiectul EuroWordNet II s-a încheiat în anul 2000 cu realizarea unor nuclee a căror extensie a rămas în exerciţiul financiar al autorităţilor naţionale. 3. Limba română în contextul proiectului BALKANET, extensie a EuroWordNet In septembrie 2001 a fost lansat proiectul european BALKANET (IST -2000 - 29388), o continuare firească a proiectului EuroWordNet II care aduce alături de cele 10 limbi europene alte 5 limbi din zona balcanică: bulgară, greacă, română, sârbo-croată, turcă [5]. Ca şi în EuroWordNet, ontologiile lexicale monolingve sunt corelate printr-o mulţime de concepte interlinguale, corespondenţele fiind stabilite cu ajutorul unor relaţii de echivalenţă complexe (eq-synonymy, eq-near-synonymy, eq-has-hyperonym, eq-has-hypernym etc). Reprezentanţii din România în acest proiect, care va dura trei ani, sunt Institutul Academiei Române de Cercetări pentru Inteligenţă Artificială din Bucureşti (coordonator Dan Tufiş) şi Facultatea de Informatică a Universităţii A.I.Cuza din laşi (coordonator Dan Cristea) şi în realizarea obiectivelor proiectului sunt implicaţi numeroşi specialişti, atât informaticieni cât şi lingvişti. Desigur, participarea românească în acest proiect şi angajarea faţă de obiectivele proiectului nu s-au bazat numai pe entuziasm ci pe activităţi şi rezultate anterioare importante, pe surse lingvistice primare [6] de referinţă ale limbii române, implementate ca resurse lingvistice [6] în format standardizat şi pe o multitudine de programe de prelucrare dezvoltate de-a lungul a mulţi ani de cercetare, în cea mai mare parte prin finanţare internaţională. 3.1. Corpusuri în cadrul proiectelor europene Multext-East şi TELRI [7], [8], [9], [10], [11] a fost creat un corpus paralel în 7 limbi, foarte detaliat adnotat, bazat pe romanul "1984" al lui Orwell şi un alt corpus paralel în 25 de limbi, bazat pe "Republica" lui Platon. Adnotarea folosită iniţial a fost conformă cu standardul TEI (http://www.tei-c.org/),dar ulterior, odată cu cristalizarea standardului CES [12], corpusurile au fost re-adnotate (automat) în conformitate cu CES. Acestea sunt două corpusuri relativ mici (câte aproximativ 110.000 cuvinte în fiecare limbă) dar, datorită acurateţei proceselor de etichetare şi de aliniere (validate manual), au fost extrem de folositoare pentru diverse aplicaţii, de la construirea modelelor lingvistice pentru . etichetare morfo-sintactică [13], clasificare a documentelor [14], extragere de echivalenţi de traducere [15], până la discriminarea automată a sensurilor [16]. Pe lângă corpusurile multilingve s-au construit alte două corpusuri monolingve mult mai mari: un corpus literar bazat pe diverse romane (conţinând aproximativ 1.500.000 cuvinte) şi un corpus jurnalistic (conţinând peste 100.000.000 cuvinte). Ambele corpusuri au fost segmentate, etichetate şi lematizate automat1. 3.2. Dicţionare explicative: WEB-LEX şi XML-LEX Principalul dicţionar pe care l-am folosit în analiza noastră este Dicţionarul Explicativ al Limbii Române [17], referinţa lexicografică pentru limba română contemporană, dicţionar realizat de Institutul de Lingvistică "lorgu Iordan"2 al Academiei Române. în urma analizelor statistice de frecvenţă în corpusurile menţionate, au fost selectate şi introduse în format electronic cele mai frecvente 23.000 de cuvinte titlu din DEX. Acest nucleu DEX a fost convertit într-o bază de date lexicală în cadrul proiectului european CONCEDE (CONortium for Central European Dictionary Encoding) [11] şi al proiectului prioritar al Academiei WEB-LEX [18]. Ulterior, îmbogăţit continuu prin culegere manuală din alte câteva dicţionare explicative (DEX'84, DOOM, DLRM), la iniţiativa unor tineri entuziaşti atât din ţară cât şi din diasporă (vezi de pildă: http://dex.francu.com), WEB-LEX a fost corectat sub aspect sintactic-structural şi codificat într-un format standardizat, respectând convenţiile lexicografice utilizate de DEX şi, în măsura posibilului, conţinutul său textual. Uneori, din considerente legate de consistenţa structurală, 1 Multe dintre aceste resurse pot fi găsite pe situl Consorţiului de Informatizare pentru Limba Română (ConsILR) la adresa http://consilr.info.uaic.ro 2 Noua sa denumire este Institutul de Lingvistică "lorgu lordan-AI. Rosetti 142 143 s-au operat o serie de modificări asupra conţinutului. De asemenea, o serie de erori evidente în sursa primară au fost corectate de specialişti avizaţi. Deşi mai bogat (în prezent WEB-LEX conţine aproape 70.000 de intrări, faţă de cele circa 56.000 de intrări din DEX'96), influenţa DEX a fost fundamentală în dezvoltarea WEB-LEX. Pe de altă parte, eventualele critici asupra conţinutului, acolo unde neam despărţit de DEX, în nici un caz nu trebuie puse în seama Institutul de Lingvistică "lorgu lordan-AI. Rosetti" ci a noastră. Din acest motiv, preferăm să ne referim la WEB-LEX ca la un dicţionar de tip DEX şi nu ca variantă computaţională a DEX-ului. Codificarea conţinutului WEB-LEX s-a realizat folosind limbajul de adnotare XML. Implementarea, ce explicitează toate convenţiile tipografice precum şi informaţiile implicite, a condus la un volum textual de date de circa 8-10 ori mai mare faţă de conţinutul textual echivalent al DEX-ului. Adnotarea XML a fost realizată automat, cu ajutorul compilatorului dic [18]. Compilatorul a fost generat automat folosind JavaCC®, pe baza unei gramatici LL(7) ce descrie structura formală a intrărilor în DEX. dic poate fi folosit pentru a genera documente XML (conform cu DTD-ul CONCEDE) pentru orice dicţionar ce foloseşte convenţiile tipografice adoptate în DEX. în [19] sunt prezentate o multitudine de dicţionare realizate sau aflate în curs de realizare la Institutul de Lingvistică "lorgu lordan-AI. Rosetti" şi presupunând că ele urmăresc convenţiile tipografice şi lexicografice adoptate în DEX, toate aceste surse lingvistice de referinţă pentru limba română ar putea fi transformate, cu efort minim, în resurse computaţionale fundamentale pentru prelucrarea automată. Varianta codificată a dicţionarului nostru este numită XML-LEX iar structura sa este descrisă de DTD-ul (Document Type Definition) pe care îl reproducem în figura 1, dezvoltat în cadrul proiectului CONCEDE.