A corpus-linguistic investigation into the lexis of written English EU discourse: an ESP pedagogic perspective

(1)

Tézisek

Jablonkai Réka

A corpus-linguistic investigation into the lexis of written English EU discourse: an ESP pedagogic

perspective

Az írott angol EU nyelvhasználat lexikai vizsgálata korpusznyelvészeti eszközökkel szaknyelvoktatási

szempontból

PhD doktori értekezés

Témavezet ő : Dr. Károly Krisztina, PhD, habil.

Budapest

2010

(2)

2

(3)

1. A kutatás tárgya, a disszertáció célja

A disszertáció az írott angol EU nyelvhasználat lexikai és lexikogrammatikai sajátosságait tárja fel szaknyelvoktatási szempontból. A kutatás jelentőségét az adja, hogy bár az EU nyelvpolitikája szerint minden hivatalos dokumentumot elérhetővé kell tenni az EU 23 hivatalos nyelvén (Tanácsi rendelet (EC) No 1791/2006), a gyakorlatban, időbeli és anyagi korlátok miatt, az EU dokumentumok először csak egy vagy néhány munkanyelven jelennek meg. Gyakran ez a munkanyelv az angol (Truchot, 2002). Truchot (2002) arra is rámutatott, hogy az angol nyelv használata nemcsak a tagországok közötti kommunikációban, hanem az EU intézmények belső kommunikációjában is, különösen az írott kommunikációban, egyre elterjedtebb. Az angol nyelv lingua francaként, “közvetítő nyelvként” való térnyerése szükségessé teszi, hogy a tagországok leendő EU szakemberei megfelelő felkészítést kapjanak az EU dokumentumokra jellemző angol nyelvhasználatról. Ezért van szükség olyan kutatásokra, amelyek átfogóan vizsgálják az EU intézményekben jellemző angol nyelvhasználatot, és amely kutatásokra alapozva EU angol tananyagokat lehet kidolgozni.

A legtöbb kutatás az angol EU dokumentumokat a nyelvpolitika és fordítás szempontjából vizsgálta. Csupán néhány olyan kutatás van, amely az EU angol nyelvhasználatot nyelvoktatási szempontból elemezte. Ezek a kutatások vagy egyetlen műfajt vizsgáltak, például EU pályázatokat (Tribble, 2000), vagy kis korpuszt használtak a kutatásukhoz (Trebits, 2008, 2009a, 2009b; Jablonkai, 2009), és ezért eredményeik nem általánosíthatóak. A disszertációban bemutatott kutatás az EU angol nyelvhasználat alaposabb megismeréséhez kíván hozzájárulni, elsősorban szaknyelvoktatási szempontból. Ennek érdekében a következő célokat fogalmazta meg: (1) meghatározni, hogy mely műfajokat és konkrét dokumentumokat tartanak munkájukhoz fontosnak a különböző EU szakterületeken dolgozó szakemberek, (2) meghatározni az írott angol EU nyelvhasználatra jellemző lexikai elemeket, (3) feltárni az írott angol EU nyelvhasználat lexikai és lexikogrammatikai sajátosságait, (4) javaslatokat tenni EU angol kurzusok összeállításához. A kitűzött célok elérése

(4)

4

érdekében a kutatás nem egyetlen EU műfajra vagy EU szakterületre, például monetáris politikára vagy biztonságpolitikára fókuszál, hanem általános képet kíván adni az írott angol EU nyelvhasználatról.

2. A kutatási kérdések

Az előzőekben megfogalmazott célok alapján a kutatás a következő kutatási kérdésekre bontható le:

1. Milyen műfajok és konkrét dokumentumok tekinthetők jellemzőnek az írott angol EU nyelvhasználatra?

1.1 Milyen EU műfajokat és konkrét dokumentumokat használnak munkájuk során a magyar EU szakemberek?

1.2 Melyek azok a műfajok, amelyeket a különböző EU szakterületeken dolgozó EU szakemberek használnak?

1.3 Milyen műfajokat és konkrét dokumentumokat találnak a magyar EU szakemberek hasznosnak a leendő EU szakemberek felkészítése szempontjából?

1.4 Hogyan használják a magyar EU szakemberek az EU szövegeket?

2. Milyen lexikai elemek jellemzőek az írott angol EU nyelvhasználatra?

2.1 Melyek azok a leggyakoribb lexikai elemek, amelyeket az EU szövegek nagy hányadában használnak?

2.2 Milyen kollokációk jellemzőek az írott angol EU nyelvhasználatra?

2.3 Melyek az írott angol EU nyelvhasználatban gyakori többszavas lexikai elemek?

3. Az eredményeknek milyen pedagógiai vonatkozásai vannak az EU angol szaknyelv oktatására nézve, különös tekintettel kurzusok és tananyagok kidolgozására?

3. A disszertáció felépítése

A disszertáció kilenc fejezetből áll. A bevezető fejezetet követő 2. fejezet a kutatás elméleti hátterét mutatja be a következő kutatási területeket érintve: szövegnyelvészet, nyelvváltozatok kutatása, a szaknyelvkutatás és szaknyelvoktatás. A fejezet áttekintést nyújt a nyelvváltozatok vizsgálatának kutatási eredményeiről és megközelítéseiről,

(5)

tárgyalja a regiszterek, nyelvhasználatok vizsgálatát és meghatározza a disszertációban vizsgált nyelvhasználatot. A fejezet részletesen kitér a szaknyelvkutatás és szaknyelvoktatás kérdéseire, hiszen a disszertáció kiindulását ezek a kutatási eredmények adták. A fejezet bemutatja a szaknyelvoktatásra, elsősorban az angol szaknyelv kutatására és oktatására ható elméleti és gyakorlati megközelítéseket, kitérve a szókincs, a kurzusok és tananyagok kidolgozásának kérdéseire.

A 3. fejezet az EU nyelvhasználat korábbi vizsgálatainak eredményeit mutatja be.

A fejezet tárgyalja az EU dokumentumok eddig megállapított sajátosságait, és meghatározza a „hibrid szöveg” (Schäffner & Adab, 2001a, 2001b) – az EU szövegekre jellemző szövegtípus – fogalmát. Ezenkívül a fejezet összefoglalja az EU szövegek pedagógiai céllal végzett vizsgálatainak eredményeit.

A kutatás módszertanilag a korpusznyelvészeti kutatások eredményeit és módszereit alkalmazza. A 4. fejezet ezért részletesen tárgyalja a korpusznyelvészet szövegek vizsgálatára vonatkozó legfontosabb elméleti és gyakorlati megfontolásait. A fejezet kiemeli a korpuszkutatásra jellemző empirikus megközelítés előnyeit, különös tekintettel a szaknyelvoktatásra és szaknyelvkutatásra. Végezetül, a fejezet tárgyalja a korpusztervezés és korpuszépítés szaknyelvkutatással kapcsolatos kérdéseit, és bemutatja a Szaknyelvkutatási korpuszkészítés modelljét.

A kutatás célját és a kutatási kérdéseket az 5. fejezet foglalja össze. A kutatás egyes lépéseiről a 6. fejezet ad áttekintést. Az elemzési eljárásokat részletesen a 6.3 és 6.4 fejezetek tárgyalják, kitérve a korpusztervezés és korpuszépítés lépéseire és a korpuszelemzés módszereire. A 6.3 fejezet bemutatja, hogyan alkalmazta a kutatás a Szaknyelvkutatási korpuszkészítés modelljét a korpuszkészítés elméleti és gyakorlati alapjaként. A 6.4 fejezet a korpuszelemzés három módszerét mutatja be, melyek a következők: az írott angol EU nyelvhasználatra jellemző leggyakoribb lexikai elemek kiválasztásának módszere, néhány kiválasztott lexikai elem kollokációinak vizsgálata és a többszavas lexikai elemek gyakoriságalapú vizsgálata. Az eredményeket a 7.

fejezet tárgyalja több alfejezetben, melyek mindegyike a kutatás egy-egy alkalmazott módszerének eredményeit mutatja be. A fejezet a kutatás legfontosabb eredményeinek összefoglalásával zárul, kiemelve a hivatalos angol nyelvű EU dokumentumok lexikai sajátosságait.

(6)

6

A 8. fejezet a pedagógiai vonatkozásokat tárgyalja, rámutatva az írott angol EU nyelvhasználat azon sajátosságaira, amelyek a szaknyelvoktatás szempontjából relevánsak, és olyan módszereket javasol, amelyekkel a kutatás eredményeit a szaknyelvoktatás gyakorlatában is hasznosíthatjuk.

A 9. fejezet összegzi a kutatás eredményeit és bemutatja azt is, hogy ez a kutatás miben járult hozzá a korpusznyelvészethez, a szaknyelvi regiszterek vizsgálatához, a műfajalapú szaknyelvoktatáshoz és a szaknyelvoktatás módszereihez. A fejezet további kutatási irányokat is javasol.

4. Korpusznyelvészeti kutatások a szaknyelvoktatásban és kutatásban

A korpusznyelvészet a következő területeken hozott új eredményeket a szaknyelvkutatásban: (1) a szaknyelv sajátosságainak leírása, különös tekintettel a szaknyelvi szókincsre, (2) a kontextus megismerése, azaz ismeretek arról a kontextusról, amelyben a szaknyelvi szövegeket használják, illetve amelyben a szaknyelvtanulók angol tudásukat használni fogják (Tribble, 2000), (3) diskurzus kompetencia, azaz a tudományos és szakmai műfajok diskurzus jellemzőinek leírása, (4) kurzusok és tananyagok kidolgozása, különösen a korpuszalapú (DDL) oktatás, a lexikai megközelítés alkalmazása és meglevő tananyagok értékelése; (5) különböző nyelvek összehasonlító vizsgálata.

A kutatás az angol nyelvű EU dokumentumokban használt angol nyelvváltozat vizsgálatával annak szaknyelvi sajátosságait kívánja feltárni. Az elméleti háttér, mely alapján az egyes kontextusokban használt nyelvváltozatokat vizsgálták, a regiszterek elemzése. Regisztereket különböző szinten határozhatunk meg (Biber, Johansson, Leech, Conrad, & Finegan, 1999) a mező, az alakmód és a hangnem kategóriák alapján (Halliday, 1978). Ennek megfelelően a vizsgált regiszter a következőképpen határozható meg: (1) mező: Európai Unió; (2) alakmód: írott; (3) hangnem: hivatalos.

A szaknyelvi regiszterek vizsgálatához számos kutatás alkalmazott korpusznyelvészeti módszereket és elemzett szaknyelvi korpuszokat, melyek a vizsgált tudományterület vagy szakma szövegeit tartalmazták. A jelen kutatás lexikai szempontú megközelítést alkalmaz az angol nyelvű EU dokumentumok regiszterének leírásához és korpusznyelvészeti módszerekkel vizsgálja a regiszter lexikai és

(7)

lexikogrammatikai sajátosságait. Az alkalmazott módszerek között szerepelnek: (1) a szólista, azaz az EU szövegek széles körében gyakran használt lexikai elemek meghatározása; (2) kollokációs elemzés, azaz azon kollokációk vizsgálata, melyek gyakran fordulnak elő a kiválasztott lemmákkal; (3) lexikai csoportok, azaz a gyakran használt négyszavas lexikai elemek vizsgálata.

4.1 Szókincs a szaknyelvi korpuszokban

Empirikus kutatási eredmények alapján Nation (1990) a szókincs négy szintjét határozta meg: (1) nagyon gyakori vagy általános köznyelvi szókincs, (2) tudományos vagy közös szakszókincs, (3) speciális szakszókincs, (4) ritkán előforduló szókincs. A szókincs ezen kategóriáit gyakoriságuk, elterjedtségük és a szövegbeli arányuk jellemzi. (Chung & Nation, 2003, 2004; Nation & Hwang, 1995; Sutarsyah, Nation, &

Kennedy, 1994). A korábbi kutatások szaknyelvi korpuszok szókincsének vizsgálatakor azt találták, hogy a ritkán előforduló szavak és a speciális szakszókincs a korpusz tokenjeinek 5 - 5%-át teszik ki (Nation, 1990). A nagyon gyakori vagy általános köznyelvi szókincset a West (1953) által összeállított általános angol szólista (General Service List of English Words, GSL) alapján vizsgálták a korábbi szakszókincset elemző kutatások. Ezek a kutatások azt találták, hogy a GSL általában a vizsgált szövegek 70-75%-át teszi ki (Nation & Hwang, 1995). Az ilyen jellegű kutatások eredményeként a szaknyelvi korpuszok gyakorisági listái alapján szólistákat is összeállítottak. A szaknyelvoktatási céllal összeállított szólistákra jó példa Coxhead (2000) tudományos közös szakszókincslistája (Academic Word List, AWL), Mudraya (2006) mérnök hallgatóknak készült szólistája (Student Engineering Word List, SEWL) és Wang, Liang és Ge (2008) orvosi közös szakszókincslistája (Medical Academic Word List, MAWL).

4.2 Kollokáció a szaknyelvi korpuszokban

Bár sok korpuszalapú kutatás vizsgálta a kollokációkat az angol nyelvben (Renouf

& Sinclair, 1992; Sinclair, 1991; Sinclair, Jones, Daley, & Krishnamurthy, 2004), kevés kutatás koncentrált egyes regiszterekben jellemző kollokációkra. A néhány szaknyelvi korpuszon végzett kollokáció-kutatás azt találta, hogy a kollokációk

(8)

8

nagyon szakterület-függőek (Gledhill, 2000; Ward, 2007). Ezek a kutatások arra is rávilágítottak, hogy a szaknyelvi korpuszokban talált kollokációk állandósultabbak (Gledhill, 2000; Nelson, 2000, 2006). Vannak olyan kutatások is, melyek során bizonyos lexikai elemek szemantikai prozódiáját vetették össze általános korpuszokban és szaknyelvi korpuszokban. Nelson (2006) például Üzleti angol korpuszát vizsgálva azt találta, hogy a lexikai elemek rendelkeztek üzleti regiszter- specifikus szemantikai preferenciával, de olyan preferenciákkal is, melyek egyaránt jellemzőek voltak a szaknyelvi és az általános korpuszban is.

4.3 Lexikai csoportok szaknyelvi korpuszokban

A gyakoriság alapján meghatározott többszavas lexikai egység a lexikai csoport. A lexikai csoport fogalmát Biber és munkatársai vezették be a The Longman Grammar of Spoken and Written English című könyvükben (Biber et al., 1999). Biber, Conrad és Cortes (2004) a következő három főkategóriát különböztették meg a lexikai csoportok nyelvi szerkezete szerint: (1) igei csoportot tartalmazó lexikai csoportok, (2) alárendelő mellékmondat-részletet tartalmazó lexikai csoportok és (3) főnévi és elöljárós szerkezetet tartalmazó lexikai csoportok. A korábbi kutatások azt is vizsgálták, hogy a lexikai csoportok milyen funkciót töltenek be a szövegben. Biber és munkatársai (2004) azt találták, hogy három főfunkciót töltenek be a lexikai csoportok a szövegben: (1) véleményt és attitűdöt fejeznek ki, (2) szövegszervező funkcióban állnak és (3) különböző attribútumokat határoznak meg, mint pl. az időt vagy helyet.

5. A korpuszkészítés modellje szaknyelvkutatási célokra

A korpuszalapú kutatások egyik legfontosabb lépése magának a korpusznak a létrehozása. A korpusz összetétele elsődleges fontosságú, hiszen az elemzések eredményét csakis annak alapján értelmezhetjük, hogy milyen szövegeket vizsgáltunk.

Mekkora legyen a korpusz? Hány szöveget tartalmazzon? Milyen műfajokat és szövegtípusokat tartalmazzon? Egész szövegek vagy szövegrészletek legyenek a korpuszban, milyen hosszúak legyenek a részletek? Ez néhány azok közül a kérdések közül, melyeket a kutatóknak meg kell válaszolniuk, amikor a saját korpuszukat állítják össze kutatási vagy oktatási célokra. Amióta csak használnak korpuszokat

(9)

nyelvészeti kutatásokban, a korpuszépítés ’hogyanja és mikéntje’ mindig is téma volt.

A szakirodalomban találunk elméleti megfontolásokat (Biber, Conrad, & Reppen, 1998; Clear, 1992; Leech, 1991; McEnery & Wilson, 1996; Szirmai, 2005) és gyakorlati problémafelvetéseket is, és születtek javaslatok is a korpuszépítés szisztematikusabbá tételére (Leitner, 1992; Nelson, 1996; Sinclair, 2005). A disszertáció áttekintést nyújt a korpuszépítés legfontosabb elméleti és gyakorlati megfontolásairól és ezek alapján bemutatja a Szaknyelvkutatási korpuszkészítés modelljét. A modell célja, hogy integrálja a korpuszépítésnek a szakirodalomban korábban már meghatározott elveit és gyakorlatát, és hogy tartalmazzon minden olyan lépést, amely szükséges a megbízható korpuszalapú szaknyelvkutatáshoz. A modellt az 1. ábra mutatja be.

6. A kutatás módszerei

Az írott angol EU nyelvhasználat vizsgálata két szakaszban történt. A vizsgálat nyelvi és pedagógiai szempontokra fókuszált és az elemzés két szakaszában kvantitatív és kvalitatív módszereket is alkalmazott az Angol EU nyelvhasználati korpusz

összeállítása és vizsgálata során.

Az első szakaszban azon műfajok meghatározására került sor, melyeket a különböző EU szakterületeken dolgozó EU szakemberek használnak munkájuk során, és ezért jól jellemzik az általuk használt dokumentumok nyelvezetét. Első lépésként a műfajok meghatározása történt meg kérdőíves szükségletelemzés keretében. Második lépésben a szükségletelemzés eredménye alapján az Angol EU nyelvhasználati korpusz összeállítására kerül sor. Az előző fejezetben bemutatott szaknyelvkutatási korpuszkészítés modellje alapján ebben a lépésben sor került az ideális korpusz megtervezésére és a végső korpusz összeállítására. Az 1. táblázatban összefoglalva láthatók a javasolt korpuszkészítési modell azon lépései, amelyek a kutatás szempontjából relevánsak.

(10)

A vizsgált nyelv (regiszter, nyelvváltozat, műfaj stb.)

Korábbi

korpuszkutatások Hasonló kutatások

Társadalomtudo- mányi és egyéb releváns területek kutatási

eredményei

A korábbi nyelvészeti kutatások eredményei

Szükséglet- elemzés eredménye Statisztikai információ

A korpuszkutatás célja

A korpusz típusa

Reprezentativitás

Összehasonlíthatóság

Megvalósíthatóság,

Mintavétel és

kiválasztási kritériumok

A korpusz összetétele

A korpusz mérete

AZ IDEÁLIS KORPUSZ

Adatgyűjtés Adatbevitel VÉGSŐ KORPUSZ

1. ábra A szaknyelvkutatási korpuszkészítés modellje

(11)

1. táblázat

A korpuszkészítés lépései

Lépések Megfontolások, információforrások

1. A korpusz céljának meghatározása • az írott angol nyelvhasználat pedagógiai célú vizsgálata

2. A korpusz típusának meghatározása • szaknyelvi korpusz 3. A korpusz által reprezentálni kívánt populáció

vizsgálata

• a külső szövegválasztási kritériumok meghatározása a következők alapján:

• EU kutatások eredményei

• az EU diskurzus korábbi nyelvészeti vizsgálatainak eredményei

• az EU fordításkutatás korábbi eredményei

• EU szakemberek körében végzett szükségletelemzés eredményei 4. A korpusz felépítésének és összetételének

meghatározása • időszak: 2000 után

• a szükségletelemzés eredménye alapján:

• releváns EU műfajok

• az egyes EU műfajok aránya

• az EU szakterületek

• az EU szakterületek aránya

• reprezentativitás 5. A korpusz méretének meghatározása • szavak száma: kb. 1 millió

• nyelvi minták száma

• teljes szövegek

• összehasonlíthatóság korábbi szaknyelvi korpuszokkal

• az elemzések megvalósíthatósága

6. Adatgyűjtés • megfelelő források: EU intézmények hivatalos honlapja,

• a kérdőív válaszadói által küldött szövegek

• a szerzői jog kérdésének tisztázása az EU Kiadóhivatalával

7. Adatbevitel • módszerek:

• elektronikus verziók pdf, html és Word formátumból szövegformátummá alakítása

A második szakaszban a kutatás az EU szövegek lexikai és lexikogrammatikai vizsgálatára fókuszált. A vizsgálat korpuszelemző szoftverek segítségével elvégzett kvantitatív módszerekből és további kvalitatív módszerekből állt. A kutatás a legtöbb elemzéshez a WordSmith Tools 4 (Scott, 2004) korpuszelemző programot használta.

Egy további alkalmazott szoftver a Sketch engine (Kilgarriff & Tugwell, 2001) volt.

Ezt a szoftvert a kutatás a kollokációk vizsgálatára alkalmazta. Az EU szólista összeállítására a Range (Heatley, Nation, & Coxhead, 2002) program használatával került sor.

A korpuszelemzés három lépésben történt. Mindegyik lépés az Angol EU nyelvhasználati korpusz egy-egy lexikai aspektusát vizsgálta. A kutatás első lépésében

(12)

12

az EU szólista összeállításával és a kulcsszavak meghatározásával átfogó képet kívánt kapni az Angol EU nyelvhasználati korpusz leggyakoribb lexikai elemeiről. Az elemzés egysége ebben a lépésben a Bauer és Nation (1993) által definiált szócsalád volt. Definíciójuk alapján egy szócsaládhoz tartozik az alapszó, ennek ragozott alakjai és az „átlátható” képzett alakjai. A következő lépés a gyakori lexikai elemek tipikus használatának vizsgálata volt azok kollokációinak, szemantikai preferenciáinak és szemantikai prozódiáinak elemzésével. Az Angol EU nyelvhasználati korpuszban talált lexikai minták összevetésre kerültek a BNC írott részében található mintákkal. A kollokációs elemzés lemmákat vizsgált – azaz a szótő és hozzátartozó ragozott alakok együttesét (Francis & Kučera, 1982, p. 1). Végül, az Angol EU nyelvhasználati korpuszban a többszavas kifejezések kerültek meghatározásra gyakorisági alapon, a lexikai csoportok definíciója alapján. Biber és Conrad (1999, p. 183) meghatározása szerint a lexikai csoportok a statisztikailag kimutathatóan gyakran együttálló három vagy többszavas szócsoportok.

7. A kutatás eredményei

A kutatás a következő eredményeket hozta: létrehozta magát az Angol EU nyelvhasználati korpuszt és a korpusz alapján betekintést nyújt az írott angol EU nyelvhasználat lexikai és lexikogrammatikai sajátosságaiba. Összefoglalóan elmondhatjuk, hogy ezek az eredmények fontos lépést jelentenek az EU dokumentumokban használt angol nyelvváltozat jobb megismeréséhez.

7.1 Az Angol EU nyelvhasználati korpusz

Ahogy az 1. mellékletben található táblázat mutatja, az Angol EU nyelvhasználati korpusz 1 174 7531 szövegszót, 40 különböző EU műfajt és 241 szöveget tartalmaz öt különböző kategóriába sorolva az EURlex, az EU joganyag hivatalos adatbázisa alapján. A korpuszban található műfajok (pl. szerződések, rendeletek, határozatok, elnökségi következtetések, sajtónyilatkozatok) az EU műfajok szakemberek által használt összefoglaló listájának tekinthetők, és így kiindulópontként szolgálhatnak a műfajalapú EU angol szaknyelvoktatásában. Az Angol EU nyelvhasználati korpusz teljes szövegekből áll. A szövegek többségét (94%-át) 2000 és 2005 között adták ki; a

(13)

szövegek 5%-a az 1990-es években jelent meg és néhány szöveget (1%) az 1980-as években adtak ki. Az Angol EU nyelvhasználati korpuszban hasonló arányban találhatók az EU szakterületek témáit tárgyaló szövegek, ezért megfelelő alapját képezheti egy olyan kutatásnak, amely átfogó képet kíván adni az írott angol EU nyelvhasználatról. Bár a korpusz nem tekinthető teljes mértékben reprezentatívnak, a lexikai és lexikogrammatikai elemzések eredményei bizonyos mértékig általánosíthatóak. Az Angol EU nyelvhasználati korpusz nemcsak további nyelvészeti vizsgálatok alapjaként szolgálhat, hanem felhasználható hagyományos tananyagok és korpuszalapú oktatási anyagok elkészítéséhez is.

7.2 Szókincs az Angol EU nyelvhasználati korpuszban

Az angol EU dokumentumok szókincsére vonatkozó eredmények azt mutatják, hogy az Angol EU nyelvhasználati korpusz 75%-át a 2000 leggyakoribb angol szócsalád teszi ki. Ez megfelel annak az aránynak, amelyet korábbi kutatások különböző szakterületek szaknyelvi szövegeinek vizsgálata során találtak (Chung &

Nation, 2003; Nation & Hwang, 1995; Sutarsyah et al., 1994). Az AWL szólista (Coxhead, 2000) közel 14%-át teszi ki az Angol EU nyelvhasználati korpusz tokenjeinek. A kutatás eredményeként összeállított EU szólista magasabb arányt ért el és a vizsgált korpusz 18%-át fedi le. A két szólista között ugyan van átfedés, az EU szólista 190 szócsaládja azonban EU-specifikusnak tekinthető. Ezeket a szócsaládokat tekinthetjük az Angol EU nyelvhasználati korpusz gyakori specifikus szakszókincsének. A szókincs ezen rétege a korpusz 4%-át teszi ki.

7.3 Kollokáció az Angol EU nyelvhasználati korpuszban

Az EU szólista kiválasztott elemeinek kollokációs vizsgálata bizonyos szempontból rávilágított arra, hogy miért is tekinthetjük az angol EU dokumentumokat hibrid szövegeknek. Hibrid szövegeknek olyan szövegeket nevezünk, melyeknek olyan sajátosságai vannak, amelyek ’furcsának’ vagy ’szokatlannak’ tűnnek a célkultúra számára (Schäffner & Adab, 2001a, p. 175). A kutatás több különbséget is talált a kiválasztott lexikai elemek gyakori kollokációi között angol nyelvű általános és EU szövegekben. Az eredmények különbséget mutatnak abban is, hogy a vizsgált

(14)

14

lexikai elemek milyen nyelvtani kapcsolatban állnak kollokációikkal az Angol EU nyelvhasználati korpuszban és a BNC írott részében. Ezek az eltérő kollokációk és a gyakori, az általános nyelvtől eltérő nyelvtani kapcsolatok felfoghatók az EU szövegek

’furcsa’ vagy ’szokatlan’ sajátosságainak, és ezért ezek a sajátosságok hozzájárulhatnak ahhoz, hogy az angol EU dokumentumokat hibrid szövegeknek tekintjük. A kollokációs elemzés arra is rávilágított, hogy a vizsgált lexikai elmek általában többféle nyelvtani kapcsolatban állnak kollokációikkal az Angol EU nyelvhasználati korpuszban. A különböző kollokációk és a szemantikai preferenciák száma azonban a BNC írott részében magasabb, ami arra enged következtetni, hogy a kiválasztott lexikai elemek kollokációi az Angol EU nyelvhasználati korpuszban lexikai szempontból állandósultabbak. A szemantikai preferenciákra vonatkozóan az eredmények azt mutatják, hogy vannak EU-specifikus szemantikai preferenciák is, és vannak olyan preferenciák, melyek a vizsgált lexikai elemekre mindkét korpuszban jellemzőek.

7.4 Lexikai csoportok az Angol EU nyelvhasználati korpuszban

Az Angol EU nyelvhasználati korpuszban a többszavas lexikai elemek gyakoriságalapú vizsgálata azt mutatta, hogy az írott angol EU nyelvhasználatban sok különböző négyszavas lexikai csoportot találunk, és ezek gyakorisága nagyobb, mint a lexikai csoportok gyakorisága más regiszterekben. Ez arra utal, hogy az írott angol EU nyelvhasználat sok állandósult kifejezést alkalmaz. A lexikai csoportok nyelvtani szerkezetére vonatkozóan a kutatás azt találta, hogy az Angol EU nyelvhasználati korpusz lexikai csoportjainak többsége főnévi és elöljárós szerkezetet tartalmaz, és más írott regiszterekhez képest nagyobb arányban találunk igei csoportot tartalmazó lexikai csoportokat. Az Angol EU nyelvhasználati korpuszban talált lexikai csoportok szövegben betöltött funkciójának vizsgálata azt mutatta, hogy legtöbbjük referenciális funkciót tölt be, kifejezve a szövegben levő logikai kapcsolatokat, vagy az időre vagy más szövegekre utalva. A lexikai csoportok második leggyakoribb kategóriája a Témaspecifikus kategória, melyben a legtöbb lexikai csoport EU intézményeket vagy EU-val kapcsolatos országokat jelöl. A lexikai csoportok nyelvtani szerkezete és funkciója közötti kapcsolat vizsgálata azt mutatta, hogy az Angol EU nyelvhasználati

(15)

korpuszban meghatározott referenciális és témaspecifikus lexikai csoportok nagy többsége főnévi és elöljárós szerkezetet tartalmaz.

8. A kutatás szaknyelvoktatási vonatkozásai

A kutatás eredményei alapján számos következtetés fogalmazható meg az EU angol szaknyelv oktatására vonatkozóan. A vizsgálat eredményei alapján összeállított EU szólista 513 szócsaládja tekinthető az írott angol EU nyelvhasználat gyakori közös és speciális szakszókincsének. Ezek a szócsaládok nem egyes EU szakterületekre jellemzőek. Az EU szólista elemzése rávilágított, hogy a szólista szócsaládjai az EU dokumentumok nagy százalékában megtalálhatók. Ezért az EU szólista EU angol tananyagok és kurzusok kidolgozásának megbízható alapját képezheti. Az EU szólista segítségével az EU-specifikus lexikai elemek könnyen kiválaszthatók és ezek alapján olyan hagyományos vagy korpuszalapú gyakorlatok készíthetők, amelyek az írott angol EU nyelvhasználatra jellemző lexikai és lexikogrammatikai sajátosságokat mutatják be. Az EU szólista kiegészíthető az egyes lexikai elemek kollokációival és ezek a kollokációk megtaníthatók a nyelvtanulóknak, ahogy azt a nyelvtanítás lexikai megközelítésében Lewis (1993) is javasolja. A kollokációs elemzés alapján az egyes lemmák gyakori kollokációit a pedagógiai kollokációs profil segítségével foglalhatjuk össze a nyelvtanulók számára. Amint azt a 2. melléklet mutatja, ez a profil nemcsak a kollokációkról ad információt, hanem bemutatja a lemma gyakori szemantikai preferenciáit is és azokat a nyelvtani kapcsolatokat is, amelyeket a lemma kollokációival gyakran alakít ki.

Az Angol EU nyelvhasználati korpuszban meghatározott lexikai csoportok előfordulása és általános jellemzői alapján is megfogalmazhatók a szaknyelvoktatásra vonatkozó következtetések. A lexikai csoportok nyelvtani szerkezetének vizsgálata azt mutatta, hogy bizonyos igei csoportok, főnévi és elöljárós szerkezetek gyakrabban fordulnak elő, ezért ezen nyelvtani szerkezetek (például az of-os főnévi csoportok, az elöljárós szerkezetek általában és a passzív igét tartalmazó igei csoportok) tanítására és gyakoroltatására nagyobb hangsúlyt kell fektetni a nyelvoktatás során. A lexikai csoportok szövegbeli funkciójának vizsgálata azt találta, hogy a lexikai csoportok egy harmada EU-specifikus fogalmakra utal. Ezek a lexikai csoportok jól használhatók

(16)

16

EU-s glosszáriumok összeállításához. Végezetül, az eredmények azt mutatják, hogy a lexikai csoportok nagyon gyakoriak az Angol EU nyelvhasználati korpuszban, ezért ezen lexikai csoportok használatának tanítása hatékonyabbá teheti az EU angol kurzusokat és tananyagokat. A lexikai csoportok tanítása a következőket kell, hogy magában foglalja: (1) a nyelvtanulók figyelmének felhívása a lexikai csoportokra, (2) a lexikai csoportok funkciójának bemutatása, és (3) a lexikai csoportok lexikogrammatikai jellemzőinek tanítása példákkal és gyakorlatokkal (Cortes, 2004;

Cortes, 2006; Neely & Cortes, 2009).

9. Összegzés

A kutatás a következő területek korábbi eredményeihez járult hozzá: (1) a szaknyelvkutatás korpusznyelvészeti megközelítéséhez az írott angol EU nyelvhasználat vizsgálata céljából meghatározott kiválasztási kritériumok alkalmazásával összeállított Angol EU nyelvhasználati korpuszszal, (2) a szaknyelvkutatási célú korpuszkészítés módszertanához az e célra kidolgozott szaknyelvkutatási korpuszkészítés modelljével, (3) a regiszterek vizsgálatához az írott angol EU nyelvhasználat lexikai és lexikogrammatikai sajátosságainak feltárásával, (4) a műfajalapú szaknyelvoktatáshoz az írott angol EU nyelvhasználat gyakran használt műfajainak meghatározásával, (5) a szaknyelvoktatáshoz az EU szólista összeállításával és az EU-specifikus lexikai csoportok meghatározásával, továbbá a kutatási eredmények gyakorlati alkalmazására javasolt feladattípusokkal (pl. lásd 3.

melléklet), melyek együttesen EU angol szaknyelvi kurzusok és tananyagok alapját képezhetik.

10. További kutatási irányok

A kutatás az írott angol EU nyelvhasználat általános lexikai sajátosságaival bővítette tudásunkat erről a regiszterről. A feltárt sajátosságok alapján azonban még nem készíthető minden sajátosságra kiterjedő leírás erről a regiszterről. Számos további lexikai és lexikogrammatikai sajátosság vizsgálatára van még szükség, melyek további kutatási lehetőségeket tartogatnak az angol szaknyelvet kutatók számára. A jelen kutatás kollokációs elemzése nagyon kisszámú lexikai elemet vizsgált, így

(17)

szükség van az írott angol EU nyelvhasználat nagyobb mintát alkalmazó kollokációs vizsgálatára. További lehetséges kutatási terület az EU-n belüli szóbeli kommunikáció vizsgálata, melynek segítségével a jelen írott nyelvhasználatra fókuszáló kutatás eredményei kegészíthetők a szóbeli nyelvhasználat sajátosságaival. Ilyen kutatások eredményeképpen nyelvi és szaknyelvoktatási szempontból egyaránt átfogó képet kapunk az EU intézményekre jellemző angol nyelvhasználatról.

(18)

18

1. Theme and aims of the dissertation

This dissertation explores the lexical and lexicogrammatical features of written English EU discourse from an ESP pedagogic perspective. The rationale for the study is that according to the EU language policy, all official documents should be made available in the twenty-three official languages of the EU (Council Regulation (EC) No 1791/2006), in practice, however, because of time and financial constraints, documents are produced first in one, or just some of the working languages of the EU.

Often, EU documents are first produced in English (Truchot, 2002). Truchot (2002) demonstrated the increase in the use of English, not only in communication between member states, but also in internal communication within EU institutions, especially in written communication. English gaining more and more ground within the EU as the lingua franca, necessitates the preparation of future EU professionals in EU member states for the use of English in an EU context. Therefore, issues such as a comprehensive analysis of the varieties of English used within the institutions of the EU, or the teaching materials for EU English courses need to be addressed in ESP research.

Most studies on the use of English in EU documents have focused on aspects of language policy and translation. Only a handful of studies have explored the use of English in the EU context from a language pedagogic point of view. These studies either focused on a single genre, e.g. EU project proposals (Tribble, 2000), or applied a fairly small corpus in their analyses (Trebits, 2008, 2009a, 2009b; Jablonkai, 2009), and therefore failed to provide generalisable results. The present study extends research into the use of English in the EU context by pursuing the following aims: (1) to identify the genres and specific documents that EU professionals working in different EU subject fields regard as relevant and, therefore, can represent written English EU discourse; (2) to identify the lexical items that are typically associated with written English EU discourse; (3) to analyse and describe the patterns of lexis in written English EU discourse, and (4) to formulate recommendations for course design and materials development for English language courses for EU studies and occupational purposes within the EU context. In order to achieve these aims, the present study takes a comprehensive view of written English EU discourse, covering

(19)

several genres, and all EU subject fields, ranging from monetary policy to foreign and security policy.

2. Research questions

Following on from the aims enumerated above, the dissertation is guided by the specific research questions below:

1. What genres and specific documents can be regarded as representative of written English EU discourse?

1.1. What EU genres and specific documents do Hungarian EU professionals use in their daily work?

1.2.What are the genres common to Hungarian EU professionals working in different EU subject fields?

1.3.What EU genres and specific documents do Hungarian EU professionals consider useful for the preparation of future EU professionals?

1.4.How are EU texts used by Hungarian EU professionals?

2. What lexical items are especially associated with written English EU discourse?

2.1. What are the most frequent lexical items used in a wide range of EU texts?

2.2.What collocational patterns emerge in written English EU discourse?

2.3.What are frequent MWIs in written English EU discourse?

3. What pedagogical implications do the findings have for teaching English for EU purposes with special emphasis on course design and materials development?

3. The structure of the dissertation

This dissertation is divided into nine chapters. Following the introductory chapter, Chapter 2 provides the theoretical framework for the study, focusing on text analysis and the analysis of language variation, as well as research and teaching English for Specific Purposes (ESP). Firstly, a brief theoretical overview of the analysis of language variation is given, outlining relevant aspects of register analysis, and defining the register under study. Then, as the present study draws heavily on earlier findings in research and teaching ESP; a detailed discussion of theoretical influences, approaches and practical elements, such as lexis and course and materials design in ESP, is given.

(20)

20

Chapter 3 presents the findings of earlier analyses of EU discourse. The main characteristics of EU texts are discussed, and the notion of the ‘hybrid text’ (Schäffner

& Adab, 2001a, 2001b) – the text type proposed for characterising EU texts – is defined. The chapter also summarises the main findings of analyses of English EU texts for pedagogic purposes.

The methodological approach used in the current analysis draws on corpus- linguistic research. Therefore, Chapter 4 focuses on the most important theoretical and practical considerations of corpus linguistics in text analysis. The chapter also highlights the benefits of the empirical stance that is characteristic of corpus research for several fields in general, and for ESP and language teaching, in particular. Finally, relevant issues of corpus design and corpus building for ESP are discussed, and a Model for Corpus Creation for ESP is proposed.

The aims and research questions guiding the present investigation are summarised in Chapter 5, and an overview of the research design is given in Chapter 6. The research procedures are discussed in detail in Sections 6.3 and 6.4; outlining the two main stages of the research, that is, the corpus design and corpus building stage, and the corpus analysis stage. Section 6.3 describes how the proposed Model for Corpus Creation for ESP was applied as the theoretical and practical foundation of the corpus design and compilation stage of the study. Section 6.4 describes the three main procedures of corpus analysis, namely, the selection of lexical items particularly associated with written English EU discourse, the investigation of collocations of selected lexical items, and the frequency-based analysis of multi-word items (MWI).

The results of the investigation are presented and discussed in Chapter 7 in several sections, each section focusing on both the results, and the limitations, of the different stages and procedures of the research. The chapter ends with a summary of the main findings of the investigation by highlighting the principle characteristics of the lexis of official English EU documents.

Chapter 8 discusses the pedagogical implications of the study by pinpointing aspects of written English EU discourse that are relevant for teaching, and proposing practical ways of applying the findings of the current study to the ESP teaching practice.

(21)

Finally, the main conclusions of the study are drawn in Chapter 9, outlining the contribution of the present research to corpus linguistics, to register analysis in ESP, to a genre-based approach to ESP, and to ESP pedagogy. Suggestions for further research are also discussed.

4. Corpus research in ESP register analysis

The areas within the study of ESP, in which corpus research yielded relevant results are the following: (1) language knowledge, especially, lexis in ESP; (2) context knowledge, that is, knowledge of the social context in which specialised texts are used and in which ESP learners will use their English (Tribble, 2000); (3) discourse competence, that is, describing discourse features of certain academic and professional genres; (4) course and materials design and more specifically applications of DDL, lexical approach and evaluation of existing teaching materials; and (5) cross-linguistic analysis.

The present study focuses on language knowledge, more specifically, on the variety of English used in EU documents. The theoretical framework developed for the analysis of situationally defined language varieties, that has been widely used in ESP, is register analysis. Registers can be defined at different levels of generality (Biber, Johansson, Leech, Conrad, & Finegan, 1999) along the descriptive categories field, mode and tenor (Halliday, 1978). Thus, the particular register under study can be defined in terms of these categories as follows: (1) field of discourse: European Union;

(2) mode of discourse: written; (3) tenor of discourse: formal.

As regards the methodology applied in ESP register analysis, several studies applied corpus linguistic methods and examined specialised corpora comprising relevant texts of the particular discipline or professional field. This study takes a lexically-oriented approachto the description of the register in English EU documents, by conducting a corpus linguistic analysis of the lexical and lexicogrammatical features. The analytical frameworks applied in the present study include (1) word lists, that is, identifying lexical items used frequently in a wide range of EU texts; (2) collocational analysis, that is, investigating the lexical items that frequently co-occur

(22)

22

with a list of selected lemmas; (3) lexical bundles, that is, analysis of frequently recurring four-word lexical items.

4.1 Lexis in specialised corpora

Based on empirical evidence, Nation (1990) identified four levels of lexis: (1) high frequency or general service lexis, (2) academic or semi-technical lexis, (3) technical lexis and (4) low frequency lexis. The lexis of these categories can be characterised in terms of frequency, range and text coverage (Chung & Nation, 2003, 2004; Nation &

Hwang, 1995; Sutarsyah, Nation, & Kennedy, 1994). Earlier research on lexis in specialised corpora found that low frequency words cover about 5% of the tokens in specialised corpora, and technical words usually account for another 5% (Nation, 1990). High frequency or general service lexical items in research into lexis in ESP are often represented by the General Service List of English Words (GSL) edited by West (1953). Research into lexis in specialised texts has found that the GSL typically covers 70-75% of tokens of texts (Nation & Hwang, 1995). Furthermore, research into the lexis of specialised corpora resulted in word lists based on frequency lists of specialised corpora. Examples of such word lists created for ESP pedagogic purposes include Coxhead’s (2000) Academic Word List (AWL), Mudraya’s (2006) Student Engineering Word List and Wang, Liang and Ge’s (2008) Medical Academic Word List (MAWL).

4.2 Collocation in specialised corpora

Although several corpus studies focus on collocations in English (Renouf &

Sinclair, 1992; Sinclair, 1991; Sinclair, Jones, Daley, & Krishnamurthy, 2004) there is little research on collocations in specialised corpora representing particular registers.

The results of collocational analyses of specialised corpora found that collocations are highly discipline-specific (Gledhill, 2000; Ward, 2007). Furthermore, these studies revealed that collocates of particular lexical items become more fixed in specialised corpora (Gledhill, 2000; Nelson, 2000, 2006). A few studies also compared the semantic preferences particular lexical items have in specialised and general corpora.

Nelson (2006), for example, noted that lexical items in his specialised Business

(23)

English Corpus were found to be associated with business-specific semantic preferences, and also with semantic preferences that are the same in both BE and in general English.

4.3 Lexical bundles in specialised corpora

The type of MWI that is defined by its frequency in particular corpora is the lexical bundle. The concept of lexical bundles was introduced in The Longman Grammar of Spoken and Written English (Biber et al., 1999). According to Biber, Conrad and Cortes’s (2004) classification, there are three main structural types of lexical bundles, such as (1) lexical bundles that incorporate verb phrase fragments, (2) lexical bundles that incorporate dependent clause fragments, (3) lexical bundles that incorporate noun phrase and prepositional phrase fragments. Previous research also looked into the discourse functions of lexical bundles. Biber et al. (2004) found that the three main functions lexical bundles serve in discourse include: (1) expressing stance, (2) organising discourse, and (3) referring to, for example, time and place.

5. The comprehensive Model for Corpus Creation for ESP

One of the key issues in corpus studies is the creation of the corpus itself. This is a matter of crucial importance, as all the conclusions drawn from an analysis of the corpus can only be interpreted in light of the collection of texts examined. How big should the corpus be? How many texts should be included? What genres and text types should be represented? Should the corpus be made up of whole texts or excerpts of texts of a predetermined size? If we are to include excerpts, how long should they be?

These are some of the important questions researchers have to answer when they begin designing and creating their corpora for research and teaching purposes. Ever since corpora have been used for linguistic research, the ‘how’ and ‘what’ of corpus building has always been an issue. In the literature, theoretical considerations have been suggested (Biber, Conrad, & Reppen, 1998; Clear, 1992; Leech, 1991; McEnery &

Wilson, 1996; Szirmai, 2005) and practical problems raised, whilst solutions have also been proposed (Leitner, 1992; Nelson, 1996; Sinclair, 2005) for systemising the method for compiling a corpus. This dissertation reviews these most important

(24)

24

theoretical and practical considerations of corpus building in order to propose a Model for Corpus Creation for ESP. The model aims to integrate earlier guiding principles and practices, and include all the elements of the process that are essential in sound corpus research. The visual represenation of the Model is provided in Figure 1.

6. Research methods and procedures

The investigation of written English EU discourse was carried out in two stages.

The two stages combined the analysis of linguistic and pedagogic aspects of written English EU discourse and included the application of quantitative as well as qualitative analytical frameworks for the creation and investigation of the EEUD Corpus.

In the first step in Stage 1, a socially oriented perspective was taken in order to identify the relevant genres that may be regarded as representative of written English EU discourse from the perspective of Hungarian EU professionals working in different subject fields within the EU context. This investigation was conducted as a needs analysis survey in the form of questionnaire research. The second step was to create the EEUD Corpus on the basis of the results of the survey. Following the proposed Model for Corpus Creation for ESP as presented in the previous section, this step involved the design of an ideal corpus and the compilation of the final EEUD Corpus, based on the results of the needs analysis survey. The individual steps of the proposed Model as used for the corpus creation of the present study are presented in Table 1.

(25)

Language (register, language variety, genre, etc.) to study

Earlier corpus studies Similar studies

Findings of social sciences and other relevant fields of research

Findings of earlier linguistic research

Findings of needs analyses Statistical information

Purpose of the corpus study

Type of corpus

Representativeness

Comparability

Feasibility, availability

Sampling frame and selection criteria

Structure of the corpus

Size of the corpus

IDEAL CORPUS

Data

collection Data entry FINAL CORPUS

(26)

26 Table 1.

Steps of the design and compilation of the EEUD Corpus

Steps Issues to consider, sources of information 1. Set the aim and purpose of the corpus • analysing written English EU discourse for

pedagogic purposes 2. Set the type of the corpus • specialised corpus 3. Study the population the corpus should

represent

• set external criteria for text selection based on:

• findings of EU studies

• findings of earlier linguistic research into EU discourse

• findings of translation in an EU context

• needs analysis among EU professionals 4. Define the structure and content of the corpus • time period: since 2000

• based on the results of the needs analysis:

• relevant EU genres

• proportion of EU genres

• diversity of EU subject fields

• balance of EU subject fields

• representativeness

5. Set the size of the corpus • number of words: around 1 million

• number of samples

• whole texts

• comparability with other ESP corpora

• feasibility of analysis

6. Data collection • adequate sources: official EU websites,

• texts sent by respondents of the needs analysis

• copyright issued clarified with EU Publication Office

7. Data entry • methods:

• electronic versions converted from pdf, html and Word format into plain text

In Stage 2, the study focused on the lexical and lexicogrammatical characteristics of EU texts. The analyses comprised quantitative elements that were conducted with the help of corpus analysis tools and qualitative elements of manual analysis. In most analyses the corpus investigation package WordSmith Tools 4 (Scott, 2004) was used.

Another tool used was the Sketch engine (Kilgarriff & Tugwell, 2001). This corpus analysis tool has been specially developed for lexicographic research. In the present study it was applied for the collocational analysis of selected lexical items. A further corpus analysis tool was used for the creation of the EUWL. The programme is called Range (Heatley, Nation, & Coxhead, 2002).

The corpus analysis is divided into three further steps, each of them focusing on one particular aspect of the analysis of the lexis in the EEUD Corpus. The analysis started with gaining an overall picture of the most frequent lexical items in the EEUD

(27)

Corpus by creating an EU Word List (EUWL), and identifying key words. The unit of analysis in this step was the word family, as defined by Bauer and Nation (1993).

According to them a word family includes a base word, its inflected forms and transparent derivations. Next, patterns of behaviour of selected frequent lexical items were analysed with the help of collocational analysis and the analysis of semantic preference and semantic prosody. The patterns in the EEUD Corpus were compared to patterns identified in the BNC Written. The collocational analysis focused on lemmas, that is, groups of different word forms of “the same stem and belonging to the same major word class” (Francis & Kučera, 1982, p. 1). Finally, MWIs in the EEUD were identified with a corpus-driven approach as lexical bundles. The present study used the following definition of lexical bundles: “sequences of three or more words that show a statistical tendency to co-occur” (Biber & Conrad, 1999, p. 183).

7. Results and discussion

Results of the present study include the EEUD Corpus, and the overall analysis of lexical and lexicogrammatical features of the written English EU discourse as represented by the EEUD Corpus. On the whole, these findings can be regarded as an important step towards a clearer understanding of the use of English in an EU context.

7.1 The English EU Discourse Corpus

As shown in Appendix 1, the EEUD Corpus contains 1,174,753 running words from 241 written texts representing 40 different EU genres grouped into five text categories based on the categories of the EURlex, the official database of EU documents. These genres (e.g., treaties, regulations, decisions, presidency conclusions, press releases) may be regarded as a list of common core EU genres that can serve as a starting point for a genre-based approach to teaching English for EU purposes. The EEUD Corpus comprises whole texts. The majority (94%) of the texts were published between 2000 and 2008; 5% of the texts were issued in the 1990s, and there are a few texts (1%) from the 1980s. The EEUD Corpus may be claimed to be balanced for EU subject fields, therefore, it can provide a basis for analysing the characteristics of written English EU discourse in general. Although the EEUD Corpus cannot be

(28)

28

considered fully representative, findings relating to its linguistic, especially, lexical and lexicogrammatical aspects, can be generalised to some extent. In addition to further linguistic analysis, the EEUD Corpus can also be used for teaching purposes, not only as a source of developing paper-based teaching materials, but also as a source for concordance lines for DDL activities.

7.2 Lexis in the EEUD Corpus

The results concerning the lexis of English EU texts show that 75% of all tokens in the EEUD Corpus are covered by the first most frequent two thousand word families in English. This corresponds, in general, to findings of earlier analyses of specialised texts of other disciplines (Chung & Nation, 2003; Nation & Hwang, 1995; Sutarsyah et al., 1994). Word families of the AWL (Coxhead, 2000) account for almost 14% of all the tokens in the EEUD Corpus. A higher proportion of the tokens, i.e. 18%, is covered by the EUWL, established as a result of the present study. Although there is a certain overlap between these two word lists, there are 190 word families in the EUWL that can be considered EU-specific. These EU-specific lexical items can be considered the frequent technical lexical items in written English EU discourse, which cover slightly more than 4% of the texts in the EEUD Corpus.

7.3 Collocation in the EEUD Corpus

The collocational analysis of selected lexical items of the EUWL sheds some light on what makes English EU documents examples of hybrid texts. Hybridity refers to the characteristic of a text that it exhibits “features that somehow seem ‘out of place’/’strange’/’unusual’ for the receiving culture” (Schäffner & Adab, 2001a, p.

175). The collocational analysis revealed several differences between the collocates the selected lexical items typically co-occur with in general English texts, and in EU texts. Furthermore, the analysis found that there are also differences in the grammatical relations these lexical items frequently form in the EEUD Corpus, and in the BNC Written. The different collocates or frequent untypical grammatical behaviour of lexical items might be perceived as ‘strange’ or ‘unusual’ features of EU texts, therefore, these features can be considered as elements contributing to the

(29)

hybridity of English EU documents. Furthermore, findings of the collocational analysis revealed that, in general, the selected lexical items form a greater variety of grammatical relations in the EEUD Corpus. The number of collocates and semantic preferences the selected lexical items have, however, is greater in the BNC Written, which indicates a certain degree of fixedness in the lexical aspects of collocation in the EEUD Corpus. As regards semantic preferences, results show that there are EU- specific semantic preferences, and there are also semantic preferences that lexical items share in the two corpora.

7.4 Lexical bundles in the EEUD Corpus

The frequency-based analysis of MWIs in the EEUD Corpus seems to indicate that written English EU discourse applies a large number of different four-word lexical bundles and the frequency of these lexical bundles is higher than the frequency of lexical bundles in other registers; which suggests that the language use in written English EU discourse is rather formulaic. As regards the structural distribution of bundles, the investigation revealed that most bundles in the EEUD Corpus incorporate noun and prepositional phrases and that there is a relatively high proportion of bundles with verb phrases. The functional distribution of bundles in the EEUD Corpus suggests that lexical bundles most frequently perform referential functions specifying logical relations in the text, and referring to time or other texts. The second largest group of bundles is the Subject-specific category, with most lexical bundles making reference to EU-related countries and institutions. The interaction of structural and functional characteristics shows that the majority of referential and subject-specific bundles incorporate noun phrases and prepositional phrases.

8. ESP pedagogic implications

Findings of the analysis have several implications for the teaching of English for EU purposes. Firstly, the analysis of the EEUD Corpus identified the lexical items that are especially associated with written English EU discourse in the form of the EUWL, with 513 word families. The words in the EUWL are not specific to any of the subject fields of the EU’s activities. The evaluation of the EUWL also demonstrated that the

(30)

30

EUWL comprises word families that are used in a wide range of EU texts. Therefore, it can serve as reference for course and materials design for teaching English for EU purposes. With the help of the EUWL, the EU-specific elements can easily be selected and can be used as the basis for traditional lexis teaching exercises, and also for DDL activities focusing on the lexical and lexicogrammatical patterns specific to written English EU discourse. Secondly, the mere list of EU-related lexis can be supplemented with information on the frequently used patterns of individual lexical items that can be explicitly taught to language learners, as suggested by the lexical approach to language teaching (Lewis, 1993). Based on the results of the collocational analysis, such information can be provided in a straight-forward manner in the form of pedagogic collocational profiles. As shown in Appendix 2, this profile not only gives language learners guidance on relevant collocates, but it also presents frequent semantic preferences and constructions, that is, the grammatical relations the particular lemma frequently forms with relevant collocates.

The distributional patterns and general characteristics of lexical bundles in the EEUD Corpus also have several implications for ESP pedagogy. Firstly, the structural analysis of lexical bundles found that certain verb phrases, and noun and prepositional phrases, are prevalent in the EEUD Corpus, therefore, these grammatical structures, for example, noun phrases with of-phrase fragment, prepositional phrases and verb phrases with passive verbs, should be given more emphasis in the teaching practice.

Secondly, the functional analysis revealed that nearly a third of the lexical bundles refer to EU-specific entities. Therefore, they can be used to compile glossaries of useful terms for students. Finally, it was generally found that lexical bundles occur very frequently in the EEUD Corpus. Therefore, explicit instruction in the usage of these recurrent word combinations may increase the efficiency of courses and teaching materials of English for EU purposes. The explicit teaching of lexical bundles in written English EU discourse should (1) raise students’ awareness of lexical bundles, (2) focus on the function of lexical bundles, and (3) provide examples and practice of lexicogrammatical patterns of lexical bundles (Cortes, 2004; Cortes, 2006; Neely &

Cortes, 2009).

(31)

9. Conclusion

This study offers original and novel contributions to the following fields of research: (1) corpus linguistics in ESP research; by the principled design and systematic compilation of the EEUD Corpus for the analysis of written English EU discourse; (2) the methodology of corpus building for ESP; by proposing the Model for Corpus Creation for ESP; (3) register analysis; by identifying distinctive lexical and lexicogrammatical features of written English EU discourse; (4) genre-based approach to ESP; by identifying a list of common core genres of written English EU discourse; (5) ESP pedagogy; by compiling the EUWL and the list of EU-specific lexical bundles that can serve as starting points for ESP course and materials design, and by proposing methods and types of task (see Appendix 3) for the integration of the findings into the practice of teaching English for EU purposes.

10. Call for further research

This study resulted in an overall description of the lexis in written English EU discourse. This description, however, can by no means be considered complete. There are several further lexical and lexicogrammatical aspects of this particular register that need to be tackled and, therefore, offer considerable potential for further research. As the present research concentrated on the collocations of a very limited number of lexical items, the first major area for further investigation is the analysis of collocation in written English EU discourse, with a much wider scope. A further major area for investigation is the analysis of spoken communication within EU institutions in order to complement the present research into the professional discourse in the EU context by the distinctive characteristics of spoken English EU discourse. Such a comprehensive analysis may provide a more detailed picture of the use of English within the EU for ESP pedagogic purposes.

(32)

32

A tézisekben felhasznált irodalom/References

Bauer, L., & Nation, P. (1993). Word families. International Journal of Lexicography, 6(4), 253-279.

Biber, D., & Conrad, S. (1999). Lexical bundles in conversation and academic prose. In H.

Hasselgard, & S. Oksefjell (Eds.), Out of corpora (pp. 181-190). Amsterdam-Atlanta GA: Rodopi.

Biber, D., Conrad, S., & Cortes, V. (2004). If you look at ...: Lexical bundles in university teaching and textbooks. Applied Linguistics, 25(3), 371-405.

Biber, D., Conrad, S., & Reppen, R. (1998). Corpus linguistics: Investigating language structure and use. Cambridge, New York: Cambridge University Press.

Biber, D., Johansson, S., Leech, G., Conrad. S., & Finegan, E. (1999). Longman grammar of spoken and written English. Harlow: Longman.

Chung, T. M., & Nation, P. (2003). Technical vocabulary in specialised texts. Reading in a Foreign Language, 15(2), 103-116.

Chung, T. M., & Nation, P. (2004). Identifying technical vocabulary. System, 32(2), 251-263.

Clear, J. (1992). Corpus sampling. In G. Leitner (Ed.), New directions in English language corpora (pp. 21-31). Berlin, New York: Mouton de Gruyter.

Cortes, V. (2004). Lexical bundles in published and student disciplinary writing: Examples from history and biology. English for Specific Purposes, 23(4), 397-423.

Cortes, V. (2006). Teaching lexical bundles in the disciplines: An example from a writing intensive history class. Linguistics and Education, 17(4), 391-406.

Council Regulation No 1 determining the languages to be used by the European Economic Community. (1958). Official Journal of the European Union 17., 1958.10.6., 385-386.

Retrieved on May 2, 2009 from http://eur-

lex.europa.eu/LexUriServ/LexUriServ.do?uri=CELEX:31958R0001:EN:HTM.

Coxhead, A. (2000). A new Academic Word List. TESOL Quarterly, 34(2), 213-238.

Francis, N., & Kučera, H. (1982). Frequency analysis of English usage: lexicon and grammar. Boston: Houghton Mifflin.

Gledhill, C. (2000). The discourse function of collocation in research article introductions.

English for Specific Purposes, 19(2), 115-135.

Halliday, M. A. K. (1978). Language as a social semiotic - the social interpretation of language and meaning. London: Edward Arnold.

Heatley, A., Nation, P., & Coxhead, A. (2002). Range and frequency programs software.

Retrieved September 1, 2005, from http://www.victoria.ac.nz/lals/staff/paul-nation.aspx Jablonkai, R. (2009). In the light of: A corpus-based analysis of two EU-related registers.

WoPaLP, 3, 1-27. Available at: http://langped.elte.hu/W3Jablonkai.pdf.

Kilgarriff, A., & Tugwell, D. (2001). WORD SKETCH: Extraction and display of significant collocations for lexicography. Proceedings of the ACL Workshop on Collocation:

Computational Extraction, Analysis and Exploitation, (pp. 32-38). Toulouse, France.

Retrieved August 25, 2009, from http://www.kilgarriff.co.uk/publications.htm

Leech, G. (1991). The state of the art in corpus linguistics. In K. Aijmer, & B. Altenberg (Eds.), English corpus linguistics (pp. 8-29). London and New York: Longman.