Korpus 2000 - til hvilken nytte?
Muligheder og grænser for empiriske sprogundersøgelser. Jørg Asmussen
 
Det Danske Sprog- og Litteraturselskab, DSL
Korpus 2000-projektet, HYPERLINK "http://www.dsl.dk/korpus2000"www.dsl.dk/korpus2000
Christians Brygge 1, 1219 København K
 
 
Resumé
 
Korpus 2000 er et korpus over dansk skriftsprog omkring år 2000 udarbejdet med henblik på at give alle sproginteresserede et redskab til at undersøge dansk sprogbrug med. Korpus 2000 er gjort tilgængelig på internettet parallelt med det 10-15 år ældre Korpus 90, en særlig bearbejdet delmængde af Den Danske Ordbogs korpus.

I bidraget skitseres først baggrunden for og opbygningen af Korpus 2000, dernæst vises en række sammenlignende sprogundersøgelser mellem Korpus 2000 og Korpus 90 og mulige konklusioner diskuteres: afspejler observerbare forskelle generelle sproglige forandringer - eller bare uensartet sammensatte korpora?
 
På baggrund af eksemplerne opridses kort muligheder for at gøre såvel udarbejdelsen af korpora som de undersøgelser, man kan udføre på dem, metodisk velfunderede. 

 
1. Baggrund
 
Korpus 2000 (K20000) blev udarbejdet af Det Danske Sprog- og Litteraturselskab i perioden 2000-2002. Hensigten med dette projekt var at etablere en stor samling over eksempler på dansk sprogbrug - et korpus - omkring år 2000. K2000 består af tekster eller tekstuddrag fra årene 1998-2002 og er på 28 millioner tekstord. Teksterne stammer fra et bredt udsnit af skrevet dansk, hentet fra både offentligt tilgængelige kilder som aviser, bøger, blade, radio, tv, brochurer, reklamer, tegneserier, og fra private tekster som dagbøger, breve, skolestile osv. K2000 er stillet offentligt til rådighed på internettet.
 
Parallelt med K2000 blev der udarbejdet en særlig version af Den Danske Ordbogs korpus, Korpus 90 (K90), der omfatter 28 millioner tekstord skriftsprog fra perioden 1983-1992 og dermed indeholder sprogligt materiale, som er ca. 10-15 år ældre end det, man finder i K2000.
 
Målgruppen for K2000 og K90 er først og fremmest lægfolk uden større sprogvidenskabelige forudsætninger, men med interesse for sproget. Derfor er der under opbygningen af korporaene og udviklingen af søgeinterfacet blevet lagt særlig vægt på at gøre håndteringen af hele systemet så ligetil som muligt, så det bliver lettilgængeligt for alle interesserede. Dette indebærer blandt andet, at den morfologiske og syntaktiske opmærkning af korporaene ikke eksplicit vises, og at der i søgninger med det nuværende interface kun kan indgå ordklasseopmærkningen som et kriterium.
 
Adgang til de to korpora får man via et fælles webbaseret søgeinterface, som blev udviklet med særlig henblik på K2000-projektet. Ved hjælp af Korpus 2000's søgesystem er det bl.a. muligt at søge på samtlige forekomster af et ord eller på en sekvens af ord eller ordklasser, og man kan få vist disse forekomster i forskellige oversigter. Endvidere muliggør interfacet umiddelbare sammenligninger mellem Korpus 2000 og Korpus 90.
 
I det følgende afsnit gives eksempler på en række sammenlignende undersøgelser, man kan foretage på de to korpora, og mulige fortolkninger af resultaterne drøftes.
 
 
2. Sammenlignende undersøgelser og fortolkningen af resultater
 
Søger man på enkeltord i K2000-systemet, vises hyppigheder og kollokater i kontrastive oversigter for K2000 og K90, der muliggør en umiddelbar sammenligning af ords udbredelse og kollokationelle egenskaber i de to korpora. Således får brugeren straks et indtryk af de forandringer, der måtte være sket inden for ordforråd, bøjning og kombinatorik/semantik i løbet af den tid, der ligger mellem udarbejdelsen af de to korpora. Ulempen ved den kontrastive præsentation af undersøgelsesresultater er, at brugeren let kan forledes til at drage uhensigtsmæssige slutninger, der giver et forvrænget billede af formodede sproglige forandringer.
 
 
2.1. Ordforråd
 
En sammenligning af alle ords hyppigheder i K2000 og K90 viser ikke overraskende, at nogle ord forekommer betydeligt oftere i det ene korpus end i det andet. Hvis man antager, at begge korpora afspejler deres tids danske sprogbrug, altså K90 sprogbrugen i perioden 1983-1992 og K2000 sprogbrugen i perioden 1998-2002, så kan man med en vis rimelighed fortolke hyppighedsforskelle som forskelle i udbredelsen af de pågældende ord i dansk som helhed.
 
Figur 1 nedenfor viser, hvordan hyppighederne for formerne af substantivet regn oplyses i brugerinterfacet: første søjle oplister samtlige mulige bøjningsformer af lemmaet, anden søjle oplister hver forms hyppighed i K2000 og tredje søjle de tilsvarende hyppigheder i K90. I nederste række står hyppighederne for hele lemmaet regn, dvs. summen af alle dets forskellige former. Hyppighederne oplyses ikke i absolutte tal, men som logaritmiske størrelser i form af mellem 0 og 7 røde (på figuren mørke) prikker. Fordelen ved at udtrykke hyppigheden som en af otte mulige hyppighedsklasser er, at måske tilfældigt betingede forskelle i et ords hyppighed i de to korpora udviskes til en vis grad og risikoen for at brugeren fejlfortolker hyppighedsoplysningerne følgelig mindskes noget. Antallet af prikker synes i øvrigt pænt at følge den intuitive fornemmelse af ords udbredelse i sproget generelt: således er ord med 1-2 prikker forholdsvis sjældne, fx entomologi, ord med 6-7 prikker er meget hyppige, fx i og og, mens ord med 3-5 prikker ligger i den store midtergruppe som fx regn. Som det fremgår af oversigten, kan der ikke konstateres de store forskelle i hyppighederne af de forskellige former af regn i de to korpora, med én undtagelse, nemlig genitiven regns, som slet ikke forekommer i K2000, men scorer én prik i K90. Den løftede tommelfinger indikerer, at denne form forekommer mindst dobbelt så hyppigt i K90 som i K2000. Selvom tommelfingeren ikke må fortolkes som et tegn på, at der er tale om en signifikant forskel i statistisk forstand, skal den rette opmærksomheden på fænomener, som måske kunne være af lingvistisk relevans. Er man interesseret i at erfare det absolutte antal forekomster af en form på listen, klikker man på et af forstørrelsesglassene ud for formen, hvorefter man får vist en KWIC-konkordans over pågældende form sammen med det absolutte antal forekomster i det pågældende korpus: regns forekommer tre gange i K90 - en forskel der nok på ingen måde berettiger til at konkludere noget om et skift i dette ords bøjningsmæssige egenskaber. Tværtimod synes regn - at vurdere ud fra de logaritmiske frekvensoplysninger - at være et ret stabilt udbredt ord.
 
 
Fig. 1. Hyppigheder for regn og former i K2000 og K90
 
Anderledes forholder det sig med et ord som mobiltelefon, som scorer fire prikker i K2000 mod tre i K90; faktisk er lemmaet ca. 25 gange så hyppigt i K2000 (1.586 forekomster) som i K90 (59 forekomster). Hvis man antager, at et sprogs ordforråd afspejler generelle samfundsmæssige forandringer og sammenholder dette med den teknologiske udvikling, der er sket fra midtfirserne til senhalvfemserne, er det nærliggende at fortolke den observerede kvantitative forskel som et udtryk for en faktisk ændring af det danske ordforråd: ordet mobiltelefon er blevet betydelig mere udbredt i sproget, fordi dets denotat er det. Tilsvarende eksempler er biltelefon og benchmarking: biltelefon, som er fem gange hyppigere i K90 (51 forekomster, 3 prikker) end i K2000 (9 forekomster 2 prikker) betegner et apparat, som stort set er blevet erstattet af mobiltelefoner, mens benchmarking slet ikke forekommer i K90 mod 34 gange (3 prikker) i K2000, hvilket kunne tyde på at ordet er nyt i dansk. Jarvad [1999], hvis ordbog over nye ord i dansk ganske vist ikke beror på en dokumenteret empirisk, korpusstatistisk fremgangsmåde, og som derfor bør konsulteres med en vis forsigtighed, daterer første brug til 1996 - hvilket muligvis støtter antagelsen, at der her er tale om et nyt låneord. De nævnte eksempler tyder på, at ændringer i udbredelsen af bestemte ord, som man kan konstatere ved at sammenligne de to korpora, afspejler ændrede forhold i samfundet: sprog og virkelighed følges altså pænt ad, ser det ud til.
 
Et mindre udbredt ord som kambrium forekommer fire gange (2 prikker) i K90, men findes ikke i K2000; det er desuden markeret med en løftet tommelfinger under K90. En fortolkning, analog til dem ovenfor, kunne være, at ordets udbredelse er i aftagende, måske fordi det betegner noget, som ikke længere har så stor relevans. En nærmere undersøgelse af, hvilke kilder de fire forekomster i K90 stammer fra, viser at de er fra tre tekster om geologi, alle fra samme opslagsværk. K2000 indeholder derimod ingen tilsvarende tekster. Noget tyder derfor på, at fagområdet geologi er dækket forskelligt i de to korpora og at forskellen i hyppigheden for ordet kambrium siger mere om korporaenes sammensætning end om sproget som sådant.
 
Eksemplet viser, at rå forekomsttal ikke umiddelbart bør sammenlignes, især ikke, hvis de er lave. Selvom den logaritmiske hyppighedsoplysning i K2000-systemet til en vis grad udjævner hyppighedsforskelle, der kan skyldes tilfældigheder, fejler den, når forekomstallene er lave. Målingen af ords hyppighed, forstået som indikator for deres udbredelse i sproget som helhed, bør ikke blot udtrykkes i antal forekomster eller en logaritmisk funktion heraf, men bør inddrage et mål for forekomsternes jævne fordeling over hele korpus (dispersion): et ord har givetvis en større udbredelse i sproget, hvis det bruges i flere tekster af flere forfattere over hele korpus end blot mange gange i én tekst eller tekster af én forfatter eller tekster om ét ganske snævert fagområde.
 
 
2.2. Bøjning
 
Sammenligner man ikke hele lemmaer (altså summen af alle bøjningsformer), men blot bestemte bøjningsformer af en række ord, vil der ofte vise sig markante hyppighedsforskelle mellem K2000 og K90. I eksemplet regn ovenfor blev det allerede konstateret, at den indefinite genitivform regns ikke var repræsenteret i K2000 - mod tre forekomster i K90. Selvom dette ikke er statistisk signifikant, udelukker det ikke, at systemets brugere kan forledes til at drage tvivlsomme slutninger, tilskyndet både af en løftet tommelfinger og måske desuden af iagttagelsen af, at den definite genitivform regnens absolut set også forekommer lidt sjældnere i K2000 (9 forekomster) end i K90 (12 forekomster). Elbro [2002] observerer, at visse hyppigt brugte konkrete susbstantiver udviser færre genitivformer i K2000 end i K90 og antager på baggrund heraf en tendens i dansk, hvor genitivkonstruktioner tiltagende erstattes af præpositionsforbindelser; antagelsen støttes yderligere af, at han kan konstatere forhøjede forekomsttal for en række præpositioner i K2000.
 
Umiddelbart taler noget for denne antagelse, fx har substantivet bil i alt 393 genitivformer i K2000 mod 586 i K90 - og ganske tilsvarende er resultaterne for fx cykel, hus og mand. Betragter man bil nærmere, viser det sig imidlertid, at lemmaet med alle bøjningsformer forekommer 10.360 gange i K90 mod kun 8.354 gange i K2000 - en observation, der næppe vil få nogen til at antage - i analogi med genitiv-konklusionen -, at ordet bil er ved at blive erstattet af andre ord eller vendinger, eller - i analogi med eksemplet mobiltelefon - at denotatet selv er ved at forsvinde fra virkeligheden. Derfor bør man nok kun vurdere en forms kvantitative udbredelse som den (procentuelle) andel, den udgør af samtlige former af et ord. For ordet bil er andelen af genitivformer i K90 5,7% mod 4,7% i K2000 - forskellen synes intuitivt for beskeden til at kunne underbygge en konklusion om markante ændringer i brugen af genitiver. Desuden underbygges en sådan konklusion ikke af en hel række andre substantiver som fx land eller Danmark. Det, der der forekommer mere suspekt end mindre udsving i genitivandelene, er de markante hyppighedsforskelle for lemmaer som bil (K90: 10.360; K2000: 8.354), land (K90: 21.478; K2000: 28.222) eller Danmark (K90: 22.243; K2000: 30.730), som kan konstateres mellem de to korpora - også selvom de logaritmiske hyppighedsangivelser for disse ord er ens for de to korpora. Og det er snarere igen et tegn på to forskelligt sammensatte korpora end sproglige forandringer.
 
Eksemplerne tyder på, at man næppe kan konstatere generelle forandringer i fleksionssystemet blot ved tilfældigt at udvælge en række hyppige ord og undersøge dem, idet de kvantitative resultater, disse undersøgelser medfører, virker alt for tilfældige. Vil man undersøge sproglige forandringer, der vedrører fleksionssystemet, burde man vel snarere undersøge fænomenet - i dette tilfælde altså andelen af genitivformer - blandt samtlige substantiviske former i hele korpus - et forhold, som Elbro i øvrigt udtrykkeligt anfører.
 
 
2.3. Kollokation
 
K2000-systemet kan vise både hyppige og typiske kollokater (”naboer”) til ord. Hyppige kollokater giver oplysninger om et ords funktionelle kombinatoriske egenskaber, fx hvilke præpositioner de hyppigt optræder sammen med. Hyppige kollokater bestemmes ganske enkelt ved at tælle, hvilke ord der hyppigst optræder i den umiddelbare omgivelse af det ord, man undersøger. De otte hyppigste kollokater til venstre for lemmaet debat i K90 er eksempelvis en, i, den, til, offentlige, og, den og under. Typiske kollokater derimod bestemmes vha. en statistisk metode, mutual information, og fremhæver ord, der især tiltrækkes af det undersøgte ord, men ikke i nær samme grad af det overvejende flertal af andre ord i korpus. Resultatet er et indtryk af ordets semantiske kombinatoriske egenskaber - de ti mest typiske kollokater til venstre for lemmaet debat i K2000 er heftig, følelsesladet, offentlig, saglig, folkelig, livlig, konstruktiv og heftige.
 
Kollokater vises i K2000-systemet som tabeller med fire kolonner: én for hhv. højre- og venstrekollokater for hvert af de to korpora. Kollokaterne er sorteret i faldende orden efter antal samforekomster (hyppighed) eller efter deres mutual information score (typiskhed). Både antal samforekomster samt scoren udtrykkes ikke som absolutte talværdier, men omregnes til et antal prikker (1-5), der synes bedre egnet til at visualisere kollokaters 'tyngde'. Figur 2 viser som eksempel de typiske kollokater for lemmaet terrorist.
 
Fig. 2. Typiske kollokater for terrorist
 
Oversigten i figur 2 kan fortolkes på følgende måde: et af de træk ved terrorist, som åbenbart ikke ændrer sig i løbet af det tidsrum, der ligger imellem de to korpora, er eftersøgte og palæstinensiske, hvorimod vesttyske ikke længere synes at være et typisk træk i K2000, men derimod mange andre nationaliteter, en religiøs orientering, eller bare international. I K2000 knyttes terrorist enten til bestemte personer eller organisationer, mens dræbt (i aktiv eller passiv) er et fremherskende træk i K90. Det større antal kollokater i K2000 er et tegn på, at ordet terrorist er mere udbredt her, og det viser sig da også, at lemmaet forekommer næsten dobbelt så hyppigt i K2000 (477) som i K90 (253) - hvis ikke dette bør tolkes som endnu et tegn på, at de to korpora er sammensat forskelligt. Alligevel synes resultaterne at afspejle generelle træk ved den danske samfundsdebat om dette emne: ens historiske viden hjælper en til at forstå både ændringer og konstanter i dette ords kollokative egenskaber.
 
For et ord som jul må man derimod antage en vis kollokativ stabilitet over en periode på kun ca. 10 år, da ordet vel overvejende bruges i stærkt traditionsbundne sammenhænge - og tilsvarende finder man hovedparten af de fundne kollokater i begge korpora, fx glædelig, fejre eller - til højre for jul - nytår. Det, der imidlertid kan undre en, er, at antallet af kollokater er noget større for K90 end for K2000, hvilket skyldes at jul er betydeligt hyppigere i K90 (2.196 forekomster) end i K2000 (1.275 forekomster) - sandsynligvis endnu et tegn på en uensartet sammensætning af de to korpora. Dette afspejler sig så også i, at en kollokation som hvid jul ikke dukker op i oversigten for K2000: selvom kollokationen faktisk forekommer to gange i K2000 (mod 27 i K90), er den statistisk set ikke udpræget nok til at blive udtrukket af kollokationsalgoritmen. Eksemplet viser, at tilfældige hyppighedsforskelle i et ellers ret udbredt ord, kan have en afgørende indflydelse på statistisk fremfinding af stadig gyldige kollokationer. Eksemplet viser også, at en sammenligning af kollokater bestemt på baggrund af et ord, hvis hyppighed er markant forskellig i de to korpora, ikke nødvendigvis giver et realistisk indtryk af ændringer i dets kollokative egenskaber: selvom et ord faktisk bruges mindre, betyder det jo ikke, at dets kollokative egenskaber har ændret sig af den grund, men dets ellers veletablerede kollokater kan ikke nødvendigvis længere bestemmes vha. en statistisk kollokabilitetsanalyse.
 
Modsat vil den statistiske kollokabilitetsanalyse i visse tilfælde udpege ord, som intuitivt ikke kan betragtes som kollokater til et ord. Udfører man en kollokabilitetsanalyse på juletræ, får man som ventet bl.a. pynte og danse (rundt om), men i K2000 får man som det mest markante venstrekollokat talende! En nærmere undersøgelse af konkordansen med de konkrete forekomster af talende juletræ viser, at de alle stammer fra en og samme tekst. Eksemplet viser, at de rene forekomsttal, et ord har i hele korpus, heller ikke bør lægges umiddelbart til grund for kollokabilitetsberegningen - også her burde man i virkeligheden operere med en dispersionsbaseret korrektion, der ville kunne undertrykke ad hoc-kollokationer som talende juletræ, som alene skyldes én speciel tekst i korpus.
 
 
2.4. Semantik
 
Nært beslægtet med kollokation er mange ords tendens til at indgå i helt bestemte kontekstuelt betingede semantiske sammenhæng, ekempelvis vil man typisk finde sund fornuft, næppe syg fornuft, mens bivirkning sjældent vil blive kendetegnet som uskadelig, men ofte som skadelig - et semantisk fænomen, som bl.a. Rundell [2002] betegner som ”semantisk prosodi”. Mange leksemer indgår således i en ganske bestemt semantisk kontekst, der restringerer deres semantiske kombinatoriske egenskaber. Ordet sideeffekt, som har 11 forekomster i K90 og 22 i K2000, er sandsynligvis et relativt nyt låneord fra engelsk, om end ikke registreret i Jarvad [1999]. Da betydningen af engelsk side effect kan ækvivaleres med den, bivirkning har på dansk, kan man argumentere, at sideeffekt vel egentlig er overflødig på dansk. Omtrent halvdelen af forekomsterne af sideeffekt i K90 viser ordet i en tydelig negativ kontekst, der afslører, at sideeffekt er noget utilsigtet skadeligt, og ordet indgår i semantiske kontekster, der er ganske parallelle med dem for bivirkning. I K2000 er billedet derimod et noget andet: ordet bruges stadigvæk om noget utilsigtet, men nu positivt, egentlig vel svarende til betydningen af sidegevinst - en del af forekomsterne modificeret af adjektivet positiv, jf. figur 3.
 
 
Fig. 3. ”Semantisk prosodi” for sideeffekt
 
Spørgsmålet er nu, hvorvidt sideeffekt-eksemplerne fra K90 og K2000 empirisk kan støtte konklusionen, at sideeffekt faktisk har ændret dets semantisk-prosodiske egenskaber fra de oprindelige engelske til en mere selvstændig dansk 'positiv bivirkning', og dermed måske har fundet en semantisk niche i dansk. Hvor mange eksempler på et ords måske ændrede semantik har man brug for, før man med sikkerhed kan udelukke korpuskompositionel støj og kan fremsætte generelle udsagn om bestemte semantiske forandringer i et sprog som helhed? 

 
2.5. Ordtopologi
 
Der skal gives ét eksempel på sammenlignende ordtopologiske undersøgelser for at illustrere de metodiske problemer, der knytter sig hertil. Almindeligvis betragtes hovedsætningsordstilling af ikke i bisætninger som substandard som fx i ?Anne serverer kaffe, fordi Peter drikker ikke te. Det skal undersøges, hvor udbredt denne konstruktion, der måske især forekommer i talesprog, er i de to skriftsproglige korpora. Intuitivt - eller måske også ud fra en antagelse om, at talesproget determinerer skriftsproget - skulle man forvente, at den ikke-kanoniske placering af ikke i bisætninger er mere udbredt i K2000 end i K90. Om end en tilbundsgående undersøgelse med det eksisterende søgesystem ikke umiddelbart er mulig, viser undersøgelser af bestemte ordtopologiske mønstre, fx en søgning på sekvensen at-pronomen-verbum-ikke, at den ikke-kanoniske placering af ikke er mere udbredt i K90 end i K2000 - figur 4 viser en række eksempler.
 
 
Fig. 4. Eksempler fra K90 på ikke-kanonisk placering af ikke
 
 
3. Korpus 2000 - til hvilken nytte?
 
Eksemplerne ovenfor viser, at sammenlignende korpusundersøgelser i en række tilfælde kan medføre tvivlsomme fortolkninger og generaliseringer vedrørende sproglige forandringer - og man må derfor spørge, hvad man dog skal med et korpus, der ganske vist påstås at kunne bruges til empiriske sprogundersøgelser, der dog så alligevel er præget af tilfældigheder og unøjagtigheder i en grad, så man er henvist til sin egen sproglige intuition, når man skal vurdere undersøgelsesresultaterne. Problemet er dog næppe brugen af et korpus som sådan, men snarere de metoder, man lægger til grund for korpusbaserede undersøgelser i almindelighed og for sammenlignende undersøgelser i særdeleshed.
 
En grundlæggende metodisk vanskelighed ved korpusbaserede sprogundersøgelser er muligheden for at kvantificere sproglige fænomener, mens traditionelle sprogundersøgelser ofte tager udgangspunkt i en kvalitativ beskrivelse af et bestemt sprogligt fænomen, som man - måske tilfældigt - er stødt på. Undersøgelsens focus forskydes altså i korpusbaserede undersøgelser let fra en beskrivelse af hvad man ser, til en beskrivelse af, hvor meget man ser - hvor idealet måske burde være en kombination: både beskrivelsen af et fænomen og dets måske skiftende udbredelse.
 
Hertil kommer, at de forekomsttal, man umiddelbart ser ved sammenligningen af to korpora, ikke nødvendigvis er sammenlignelige. I den fysiske verden er det for de fleste evident, at én kilometer er mere end ti kilometer, men om én kilometer er meget eller lidt, afhænger også af den kontekst, hvori mængedeangivelsen bliver brugt. Ti kilometer kan således være en ganske betragtelig vejlængde, hvis den skal tilbagelægges til fods, mens den samme vejlængde tilbagelagt i bil er knapt så imponerende. Ganske tilsvarende gælder for de forekomsttal, man finder i et korpus: de giver ingen mening i sig selv, men kun i forhold til noget andet, indenfor en kontekst - det er således ganske intetsigende, at konstatere at mand har 1.936 genitivformer i K90 mod 1.606 i K2000, når man ikke i det mindste sætter disse tal i forhold til, hvor mange forekomster lemmaet mand har i de to korpora: gør man det, finder man, at andelen af genitivformer for lemmaet mand er 2,0% i begge korpora. Med andre ord kan forekomsttal aldrig tages for pålydende i korpusundersøgelser, og for hver type undersøgelse kræves der en række metodiske overvejelser, inden man giver sig til at konkludere. Som K2000's søgesystem er opbygget nu, får brugeren i virkeligheden ikke megen metodisk hjælp - det overlades i vid udstrækning til brugeren selv at fortolke de kvantitative resultater hensigstmæssigt. Så selvom sigtet med K2000's webbaserede søgesystem var, at gøre det let for enhver sproginteresseret af lave sine egene sproglige undersøgelser, bidrager grænsefladen ikke til at minimere metodiske fejlgreb - en ulempe, som fremtidige versioner af grænsefladen bør råde bod på.
 
Hertil kommer så spørgsmålet, hvad sammenlignelighed af korpora egentlig vil sige. K90's og K2000's sammensætning er tilstræbt identiske, men i praksis, dvs. i de viste eksempler, er der noget, der tyder på, at sammensætningen ikke kan være så identisk endda. Det gælder først og fremmest forskelle i udbredelsen af bestemte lemmaer, som man intuitivt skulle mene havde en konstant udbredelse i sproget inden for en tidsramme af ca. 10 år, fx bil, jul, mand osv. Og ganske rigtigt er det især andelen af avismateriale i de to korpora, som er meget forskelligt, ca. en tredjedel i K90 mod to tredjedele i K2000. Dette rejser spørgsmålet, hvordan man sikrer sammenlignelighed af to korpora mht. til en bestemt dimension, i dette tilfælde tidsdimensionen: hvordan burde et K90 og et K2000 sammensættes, så man kunne være sikker på, at de forskelle, man kan konstatere imellem dem, vitterligt er sikre indicier på tidsbestemte sproglige forandringer?
 
Løsningen på de skitserede problemstillinger må findes i udviklingen af en generel metodologi for korpusdesign og -udnyttelse - et område, som Det Danske Sprog- og Litteraturselskab trods beskedne resurser arbejder indenfor med henblik på at kunne forbedre kvaliteten både af de eksisterende korpora og af de søgesystemer, der knytter sig til dem. Målet for 2004 er at kunne lancere et forbedret webinterface for K2000, hvori der vil være taget højde for en hel række af de søgemetodiske problemstillinger, som blev skitseret i dette bidrag.
 
Bibliografi
Andersen, M.S., Asmussen, H., Asmussen, J. [2002]: The Project of Korpus 2000 Going Public; in: A. Braasch and C. Povlsen (eds.): Proceedings of the Tenth EURALEX International Congress, EURALEX 2002, København.
Asmussen, J. [2001]: Korpus 2000. Et overblik over projektets baggrund, fremgangsmåder og perspektiver. NyS 30. Nydanske studier & almen kommunikationsteori, København.
Asmussen, J. [under udgivelse]: Towards a methodology for corpus-based studies of linguistic change. Contrastive observations and their possible diachronic interpretations in the Korpus 2000 and Korpus 90 Corpora of Danish; in: Archer, Rayson, Wilson (eds.): Corpus Linguistics Around the World. Rodopi, Amsterdam.
Bick, E. [2003a]: Morfosyntaktisk opmærkede corpora for dansk: Korpus 90/2000 og Arboretum; in: 9. Møde om Udforskningen af Dansk Sprog 10.-11. oktober 2002. Proceedings. Aarhus Universitet.
Bick, E. [2003b]: A CG & PSG hybrid approach to automatic corpus annotation; in: Simov, K. & Osenova P. (eds.): Proceedings of the Workshop on Shallow Processing of Large Corpora (SProLaC 2003) held in conjunction with the Corpus Linguistics 2003 Conference. UCREL technical paper no. 17. UCREL, Lancaster University.
Christ, O. [1994]: A modular and flexible architecture for an integrated corpus query system. COMPLEX'94 Proceedings, Budapest.
Church, K. & P. Hanks [1989]: Word association norms, mutual information and lexicography. ACL Proceedings, 27th Annual Meeting, Vancouver.
Church, K. et al. [1991]: Using Statistics in Lexical Analysis; in: Zernik (ed.): Lexical Acquisition. Exploiting On-Line Resources to Build a Lexicon. Hillsdale, New Jersey 1991
Elbro, C. [2002]: Ift, ifm, mht, mhp og andre uspecifikke præpositioner. Mål og Mæle 3:2002, København, pp. 17-23.
Jarvad, P. [1999]: Nye Ord. Ordbog over nye ord i dansk 1955-1998. København.
Norling-Christensen, O. & J. Asmussen [1998]: The Corpus of The Danish Dictionary; in: Lexikos 8, Afrilex Series 8:1998, Stellenbosch, pp. 223-242.
Rundell, M. [2002]: Good Old-fashioned Lexicography: Human Judgment and the Limits of Automation; in M-H. Corréard (ed.): Lexicography and Natural Language Processing. A Festschrift in Honour of B.T.S. Atkins. EURALEX 2002.
 
Dele af denne artikel, først og fremmest undersøgelseseksemplerne, er også indeholdt i Asmussen [under udgivelse], der desuden giver en mere grundig beskrivelse af de sprogstatistiske elementer i K2000-systemet, og som ellers fokuserer på undersøgelsesmetodologiske og korpuskompositoriske overvejelser og i denne forbindelse introducerer ideen om invariante tekstuelle træk (invariant textual features) som en forudsætning for korporas diakrone sammenlignelighed.
Begrebet korpus bruges i betydningen meget stor digitaliseret samling af (længere uddrag af) skrevne eller nedskrevne sammenhængende autentiske, objektsproglige tekster; samlingen skal med hensyn til fastlagte teksttypologiske kriterier være struktureret efter et eksplicit princip med henblik på at muliggøre sprogbrugsundersøgelser, jf. Asmussen [2001].
http://www.korpus2000.dk
Jf. Norling-Christensen & Asmussen [1998].
Den morfosyntaktiske opmærkning er udført af VISL-projektet ved Syddansk Universitet, jf. Bick [2003a+b]. På VISL's hjemmeside http://visl.hum.sdu.dk/visl/corpora.html er en delmængde af K90 og K2000 søgbar med både morfologiske og syntaktiske kriterier.
En udførlig beskrivelse af principperne for dette interface findes i Andersen et al. [2002].
Som søgemaskine bruges CQP, som er udviklet ved Institut für Maschinelle Sprachverarbeitung ved universitet i Stuttgart, jf. http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/ og Christ [1994]. Det webbaserede søgeinterface er udviklet hos DSL.
Det glade ansigt viser, at lemmaets stavning er i overensstemmelse med Retskrivningsordbogens normering. Hyppighedstabellerne kan også indeholde former og stavemåder, der afviger fra den officielle norm - de vil da være markeret med et vredt ansigt.
Denne undersøgelse kan ikke udføres direkte i K2000-systemet, da der her p.t. ikke er adgang til tekstoplysninger fra konkordanslinjer i K90. Derimod er det muligt at udføre undersøgelsen med korpussøgesystemet Semaskop på hele Den Danske Ordbogs korpus, som kan downloades fra http://korpus.dsl.dk/e-resurser/.
Fakta. Gyldendal 1988.
Jf. Church&Hanks [1989] eller Church et al. [1991]. I K2000-systemet er mutual information modificeret med en række filtre, der bl.a. reducerer statistisk støj, jf. Asmussen [under udgivelse].
En julehistorie fra fyldepennen.dk.
Rundell [2002] betragter fænomenet som en særlig leksikografisk udfordring, idet det ofte kun vanskeligt lader sig beskrive i ordbøger, samtidig med at det kan være af afgørende betydning for acceptabel sprogbrug.
Forfatteren blev gjort opmærksom på dette eksempel af Henrik Gottlieb, Engelsk Institut, KU.