CLARINO Bergen Centre

CLARINO Bergen Centre http://hdl.handle.net/11509/2 2026-06-23T19:03:06Z Frekvensordliste (nynorsk) frå ord i norsk avisspråk http://hdl.handle.net/11509/158 Frekvensordliste (nynorsk) frå ord i norsk avisspråk CLARINO Bergen senter; Lyse Samdal, Gunn Inger Frekvensordliste frå Norsk aviskorpus (nynorsk). Frekvensordlista er ei liste over dei 10 000 mest frekvente orda i Norsk aviskorpus, sortert på frekvens frå høgast til lågast. Norsk aviskorpus (nynorskdelen) inneheld ca. 21 millionar ord frå elleve store aviser, og har per i dag materiale frå 1998 til 2020. Frekvensordlista kan til dømes brukast til å luke ut «stoppord» (vanlege ord med låg informasjonsverdi) i språkteknologisk prosessering av tekst, eller for å talfeste kva som er «vanlege» ord i ordforrådet. Treng du frekvenslister frå andre typar språkmateriale, ta kontakt med clarino@uib.no. Denne lista inneheld både språklige ord og teiknsetjing, og skil mellom store og små bokstavar. På toppen av lista finn du mellom anna: ".", "ikkje", "det" og "Det". Merk at dei mest frekvente orda frå avisspråk, som her, kan vere annleis enn dei mest frekvente orda frå andre sjangerar som skjønnlitteratur, ungdomsspråk eller barnespråk. Blant dei 100 mest frekvente orda finn du mellom anna ordet "Foto" (fordi ordet "Foto" ofte går att i avistekstar med bildekreditering). Frekvensordlista er generert 25.08.2025, og du kan alltid hente ei nyare liste direkte frå Norsk aviskorpus via clarino.uib.no/korpuskel. Du kan då òg hente fleire ord enn dei 10 000 som er nedlastbare her, t.d. alle orda i heile korpuset. 2025-08-25T00:00:00Z Frekvensordliste (bokmål) fra ord i norsk avisspråk http://hdl.handle.net/11509/157 Frekvensordliste (bokmål) fra ord i norsk avisspråk CLARINO Bergen senter; Lyse Samdal, Gunn Inger Frekvensordliste fra Norsk aviskorpus (bokmål). Frekvensordlisten er en liste av de 10.000 mest frekvente ordene i Norsk aviskorpus, sortert på frekvens fra høyest til lavest. Norsk aviskorpus inneholder tekst fra elleve store aviser med materiale fra 1998 til 2022. Frekvensordlisten kan f.eks. bruke for å luke ut «stoppord» (vanlige ord med antatt lav informasjonsverdi) i språkteknologisk prosessering av tekst, eller for å tallfeste hva som er «vanlige» ord og ordforråd. Listen inneholder både språklige ord og tegnsetting, og skiller mellom store og små bokstaver. På toppen av listen finner du bl.a.: ".", "som", "det", og "Det". Merk at de mest frekvente ordene fra avisspråk, som her, kan være annerledes enn de mest frekvente ord fra skjønnlitteratur, ungdomsspråk eller barnespråk. Blant de 100 mest frekvente ordene finner du bl.a. "VG" og "Foto" (fordi ordet "Foto" ofte går igjen i avistekster med bildekreditering). Frekvensordlisten er generert 25.08.2025, og du kan alltid hente en nyere liste direkte fra Norsk aviskorpus via clarino.uib.no/korpuskel. Du kan da også hente flere ord enn de 10.000 som er nedlastbare her. 2025-04-11T00:00:00Z Norwegian Sign Language Corpus – Language Ecology (Conversations and private meetings/events) http://hdl.handle.net/11509/156 Norwegian Sign Language Corpus – Language Ecology (Conversations and private meetings/events) Ferrara, Lindsay The Norwegian Sign Language Corpus is a collection of four datasets, collected at different times and for different projects: – The first dataset was collected as part of a doctoral research project in 2007 (Halvorsen, 2012). – The second dataset was collected in 2015 as part of a pilot Norwegian Sign Language Corpus project. – The third dataset was collected 2017-2018 for a project investigating visual perspective in spatial language. – The fourth dataset was collected 2019-2024 with the aim of establishing a larger and more representative corpus for Norwegian Sign Language, to facilitate investigations into the semiotic diversity of signed interactions. These datasets are archived in CLARINO as five objects according to project and license: – Norwegian Sign Language Corpus – Halvorsen (2012): http://hdl.handle.net/11509/141 – Norwegian Sign Language Corpus – Depicting Perspective: http://hdl.handle.net/11509/144 – Norwegian Sign Language Corpus – Pilot Corpus (Conversations): http://hdl.handle.net/11509/147 – Norwegian Sign Language Corpus – Language Ecology (Retellings and public events): http://hdl.handle.net/11509/155 – Norwegian Sign Language Corpus – Language Ecology (Conversations and private meetings/events): http://hdl.handle.net/11509/156 Each deposit contains data in the form of video-recordings and metadata files. Video-recordings are being annotated in ELAN according to the Norwegian Corpus Annotation Guidelines. Annotated ELAN files are archived elsewhere (see e.g., project publications for details). Additional details and materials, including the Annotation Guidelines, can be found in the deposit on the Open Science Framework for the Norwegian Sign Language Corpus: https://doi.org/10.17605/OSF.IO/TYDF4. For other questions, please contact the Corpus manager (currently Lindsay Ferrara, NTNU). ----- Specific summary for this dataset: Norwegian Sign Language Corpus – Language Ecology (Conversations and private meetings/events) License: CLARIN RES (CLARIN RES+PLAN+BY+NC+INF+PRIV+NORED+ND) *This dataset comes with a CLARIN restricted license that contains a number of conditions. See the file ‘DPNTS_LicenseRestrictions.rtf’ for full details. This license requires that a research plan be submitted to the Corpus manager explaining how the data will be used. By accepting this license, you are stating that you have received access permission from the Corpus manager. Please also note that this content is available for non-commercial purposes only. **Some data in this dataset come with additional restrictions and are thus not included in the archived data here. Please contact the corpus manager to request access to these files. In 2019, funding was granted for a four-year project to investigate the systematic and constantly evolving communication practices within various Norwegian Sign Language interactions. Working from the perspective that language is multimodal, semiotic diverse action, the project investigated (a) how the deaf community’s multilingualism manifests in signed interaction, (b) how reference is created and maintained in conversation, and (c) how iconicity and depiction are leveraged during language use. To carry out these studies, a large sample of Norwegian Sign Language interaction was collected. In total, 87 signers were filmed in cities across Norway (Trondheim, Bergen, Oslo, Stavanger, and Ål). Aged from 22- 91, these signers report using Norwegian Sign Language in their daily life, with most reporting acquisition of the language before the age of seven. The main data collection invited pairs of signers to participate in a 2.5-hour session of a variety of language-based tasks. These tasks where chosen in part to align with previous signed language corpus projects, to facilitate cross-linguistic work. Other tasks were chosen with future research in mind. The main data to be collected was conversational. In addition to these data sessions, several other situations were filmed such as public presentations, meetings, and other types of conversations/interactions. Here, you will find the retellings and public events collected as part of this project. • Warm-up conversations • Free conversations • Discussion of deaf-related issues • Private meetings • Private events _______________________ Norsk tegnspråkkorpus er en samling av fire datasett som er samlet inn på ulike tidspunkt og i forbindelse med ulike prosjekter: - Det første datasettet ble samlet inn som del av et doktorgradsprosjekt i 2007 (Halvorsen, 2012). - Det andre datasettet ble samlet inn i 2015 som en del av et pilotprosjekt for Norsk tegnspråkkorpus. - Det tredje datasettet ble samlet inn i 2017-2018 i forbindelse med et prosjekt som undersøkte visuelle perspektiver i romlige språk. - Det fjerde datasettet ble samlet inn i perioden 2019-2024 med mål om å etablere et større og mer representativt korpus for norsk tegnspråk, for å gjøre det lettere å undersøke det semiotiske mangfoldet i tegnspråklige interaksjoner. Disse datasettene er arkivert i CLARINO som fem objekter i henhold til prosjekt og lisens: – Norwegian Sign Language Corpus – Halvorsen (2012): http://hdl.handle.net/11509/141 – Norwegian Sign Language Corpus – Depicting Perspective: http://hdl.handle.net/11509/144 – Norwegian Sign Language Corpus – Pilot Corpus (Conversations): http://hdl.handle.net/11509/147 – Norwegian Sign Language Corpus – Language Ecology (Retellings and public events): http://hdl.handle.net/11509/155 – Norwegian Sign Language Corpus – Language Ecology (Conversations and private meetings/events): http://hdl.handle.net/11509/156 Hver deponering inneholder data i form av videoopptak og metadatafiler. Videoopptakene blir annotert i ELAN i henhold til de norske retningslinjene for korpusannotasjon. De annoterte ELAN-filene er arkivert andre steder (se f.eks. prosjektpublikasjoner for mer informasjon). Ytterligere detaljer og materiale, inkludert retningslinjene for annotering, finnes på depotet i Open Science Framework for Norsk tegnspråkkorpus: https://doi.org/10.17605/OSF.IO/TYDF4. For andre spørsmål, vennligst kontakt korpusansvarlig (for tiden Lindsay Ferrara, NTNU) ----- Sammendrag for dette datasettet: Norsk tegnspråkkorpus – Språkøkologi (Samtaler og private møter/arrangementer) Lisens: CLARIN RES (CLARIN RES+PLAN+BY+NC+INF+PRIV+NORED+ND) *Dette datasettet leveres med en CLARIN-begrenset lisens som inneholder en rekke betingelser. Se filen «DPNTS_LicenseRestrictions.rtf» for mer informasjon. Denne lisensen krever at det sendes inn en forskningsplan til korpusforvalteren som forklarer hvordan dataene skal brukes. Ved å godta denne lisensen bekrefter du at du har fått tilgangstillatelse fra korpusforvalteren. Vær også oppmerksom på at dette innholdet kun er tilgjengelig for ikke-kommersielle formål. **Noen data i dette datasettet er underlagt ytterligere restriksjoner og er derfor ikke inkludert i de arkiverte dataene her. Ta kontakt med korpusansvarlig for å be om tilgang til disse filene. I 2019 ble det bevilget midler til et fireårig prosjekt for å undersøke systematiske endringer i kommunikative praksiser i ulike interaksjoner blant norske tegnspråkbrukere. Med utgangspunkt i at språk er en multimodal, semiotisk mangfoldig handling, undersøkte prosjektet (a) hvordan flerspråklighet i døvesamfunnet kommer til uttrykk i tegnspråklig interaksjon, (b) hvordan referanser etableres og opprettholdes i samtaler, og (c) hvordan ikonisitet og avbildning utnyttes i språklig samhandling. For å gjennomføre disse studiene ble det samlet inn et stort utvalg av norsk tegnspråklig interaksjon. Til sammen 87 tegnspråkbrukere ble filmet på ulike steder i Norge (Trondheim, Bergen, Oslo, Stavanger og Ål). De er mellom 22 og 91 år gamle og rapporterer at de bruker norsk tegnspråk i det daglige, og de fleste av dem har lært språket før de fylte sju år. I hoved datainnsamlingen ble tegnspråkparene invitert til å delta i en 2,5 timer lang økt med en rekke språkbaserte oppgaver. Disse oppgavene ble delvis valgt for å samkjøre med tidligere tegnspråkkorpusprosjekter, for å fasilitere forskningsarbeid på tvers av ulike tegnspråk. Andre oppgaver ble valgt med tanke på fremtidig forskning. Hoveddelen av dataene som ble samlet inn, var samtaledata. I tillegg til disse datasesjonene ble flere andre situasjoner filmet, for eksempel offentlige presentasjoner, møter og andre typer samtaler/interaksjoner. Her finner du samtaler og diskusjoner som er samlet inn som en del av dette prosjektet. - Oppvarmingssamtaler - Frie samtaler - Diskusjon av døverelaterte spørsmål - Private møter - Private arrangementer 2024-01-01T00:00:00Z Norwegian Sign Language Corpus – Language Ecology (Retellings and public events) http://hdl.handle.net/11509/155 Norwegian Sign Language Corpus – Language Ecology (Retellings and public events) Ferrara, Lindsay The Norwegian Sign Language Corpus is a collection of four datasets, collected at different times and for different projects: – The first dataset was collected as part of a doctoral research project in 2007 (Halvorsen, 2012). – The second dataset was collected in 2015 as part of a pilot Norwegian Sign Language Corpus project. – The third dataset was collected 2017-2018 for a project investigating visual perspective in spatial language. – The fourth dataset was collected 2019-2024 with the aim of establishing a larger and more representative corpus for Norwegian Sign Language, to facilitate investigations into the semiotic diversity of signed interactions. These datasets are archived in CLARINO as five objects according to project and license: – Norwegian Sign Language Corpus – Halvorsen (2012): http://hdl.handle.net/11509/141 – Norwegian Sign Language Corpus – Depicting Perspective: http://hdl.handle.net/11509/144 – Norwegian Sign Language Corpus – Pilot Corpus (Conversations): http://hdl.handle.net/11509/147 – Norwegian Sign Language Corpus – Language Ecology (Retellings and public events): http://hdl.handle.net/11509/155 – Norwegian Sign Language Corpus – Language Ecology (Conversations and private meetings/events): http://hdl.handle.net/11509/156 Each deposit contains data in the form of video-recordings and metadata files. Video-recordings are being annotated in ELAN according to the Norwegian Corpus Annotation Guidelines. Annotated ELAN files are archived elsewhere (see e.g., project publications for details). Additional details and materials, including the Annotation Guidelines, can be found in the deposit on the Open Science Framework for the Norwegian Sign Language Corpus: https://doi.org/10.17605/OSF.IO/TYDF4. For other questions, please contact the Corpus manager (currently Lindsay Ferrara, NTNU). ----- Specific summary for this dataset: Norwegian Sign Language Corpus – Language Ecology (Retellings and public events) License: CC BY-NC-SA 4.0, https://creativecommons.org/licenses/by-nc-sa/4.0/ In 2019, funding was granted for a four-year project to investigate the systematic and constantly evolving communication practices within various Norwegian Sign Language interactions. Working from the perspective that language is multimodal, semiotic diverse action, the project investigated (a) how the deaf community’s multilingualism manifests in signed interaction, (b) how reference is created and maintained in conversation, and (c) how iconicity and depiction are leveraged during language use. To carry out these studies, a large sample of Norwegian Sign Language interaction was collected. In total, 87 signers were filmed in cities across Norway (Trondheim, Bergen, Oslo, Stavanger, and Ål). Aged from 22-91, these signers report using Norwegian Sign Language in their daily life, with most reporting acquisition of the language before the age of seven. The main data collection invited pairs of signers to participate in a 2.5-hour session of a variety of language-based tasks. These tasks where chosen in part to align with previous signed language corpus projects, to facilitate cross-linguistic work. Other tasks were chosen with future research in mind. The main data to be collected was conversational. In addition to these data sessions, several other situations were filmed such as public presentations, meetings, and other types of conversations/interactions. Here, you will find the retellings and public events collected as part of this project. • Re-tellings of “Frog, Where Are You?” (Mayer, 1969) • Re-tellings of “The Snowman” (Briggs, 1978) • Re-tellings of Herr Jakob comics (Press, 1992) • Public presentations Briggs, R. (1978). The snowman. Penguin Random House UK. Mayer, M. (1969). Frog, where are you? Dial Press. Press, H. J. (1992). Jakobs Abenteuer: Comics vom kleinen Herrn Jakob. Ravensburger Buchverlag. ________________________________ Norsk tegnspråkkorpus er en samling av fire datasett som er samlet inn på ulike tidspunkt og i forbindelse med ulike prosjekter: - Det første datasettet ble samlet inn som del av et doktorgradsprosjekt i 2007 (Halvorsen, 2012). - Det andre datasettet ble samlet inn i 2015 som en del av et pilotprosjekt for Norsk tegnspråkkorpus. - Det tredje datasettet ble samlet inn i 2017-2018 i forbindelse med et prosjekt som undersøkte visuelle perspektiver i romlige språk. - Det fjerde datasettet ble samlet inn i perioden 2019-2024 med mål om å etablere et større og mer representativt korpus for norsk tegnspråk, for å gjøre det lettere å undersøke det semiotiske mangfoldet i tegnspråklige interaksjoner. Disse datasettene er arkivert i CLARINO som fem objekter i henhold til prosjekt og lisens: – Norwegian Sign Language Corpus – Halvorsen (2012): http://hdl.handle.net/11509/141 – Norwegian Sign Language Corpus – Depicting Perspective: http://hdl.handle.net/11509/144 – Norwegian Sign Language Corpus – Pilot Corpus (Conversations): http://hdl.handle.net/11509/147 – Norwegian Sign Language Corpus – Language Ecology (Retellings and public events): http://hdl.handle.net/11509/155 – Norwegian Sign Language Corpus – Language Ecology (Conversations and private meetings/events): http://hdl.handle.net/11509/156 Hver deponering inneholder data i form av videoopptak og metadatafiler. Videoopptakene blir annotert i ELAN i henhold til de norske retningslinjene for korpusannotasjon. De annoterte ELAN-filene er arkivert andre steder (se f.eks. prosjektpublikasjoner for mer informasjon). Ytterligere detaljer og materiale, inkludert retningslinjene for annotering, finnes på depotet i Open Science Framework for Norsk tegnspråkkorpus: https://doi.org/10.17605/OSF.IO/TYDF4. For andre spørsmål, vennligst kontakt korpusansvarlig (for tiden Lindsay Ferrara, NTNU) ----- Sammendrag for dette datasettet: Norsk tegnspråkkorpus – Språkøkologi (Gjenfortellinger og offentlige arrangementer) Lisens: CC BY-NC-SA 4.0, https://creativecommons.org/licenses/by-nc-sa/4.0/ I 2019 ble det bevilget midler til et fireårig prosjekt for å undersøke systematiske endringer i kommunikative praksiser i ulike interaksjoner blant norske tegnspråkbrukere. Med utgangspunkt i at språk er en multimodal, semiotisk mangfoldig handling, undersøkte prosjektet (a) hvordan flerspråklighet i døvesamfunnet kommer til uttrykk i tegnspråklig interaksjon, (b) hvordan referanser etableres og opprettholdes i samtaler, og (c) hvordan ikonisitet og avbildning utnyttes i språklig samhandling. For å gjennomføre disse studiene ble det samlet inn et stort utvalg av norsk tegnspråklig interaksjon. Til sammen 87 tegnspråkbrukere ble filmet på ulike steder i Norge (Trondheim, Bergen, Oslo, Stavanger og Ål). De er mellom 22 og 91 år gamle og rapporterer at de bruker norsk tegnspråk i det daglige, og de fleste av dem har lært språket før de fylte sju år. I hoved datainnsamlingen ble tegnspråkparene invitert til å delta i en 2,5 timer lang økt med en rekke språkbaserte oppgaver. Disse oppgavene ble delvis valgt for å samkjøre med tidligere tegnspråkkorpusprosjekter, for å fasilitere forskningsarbeid på tvers av ulike tegnspråk. Andre oppgaver ble valgt med tanke på fremtidig forskning. Hoveddelen av dataene som ble samlet inn, var samtaledata. I tillegg til disse datasesjonene ble flere andre situasjoner filmet, for eksempel offentlige presentasjoner, møter og andre typer samtaler/interaksjoner. Her finner du gjenfortellingene og de offentlige arrangementene som er samlet inn som en del av dette prosjektet. • Gjenfortellinger av «Frosk, hvor er du?» (Mayer, 1969) • Gjenfortellinger av «Snømannen» (Briggs, 1978) • Gjenfortellinger av Herr Jakob-tegneserier (Press, 1992) • Offentlige presentasjoner 2024-01-01T00:00:00Z WAB XML transcriptions of Wittgenstein's Nachlass > 2nd subset of 15000 pages with restricted license (2025-04-07) http://hdl.handle.net/11509/154 WAB XML transcriptions of Wittgenstein's Nachlass > 2nd subset of 15000 pages with restricted license (2025-04-07) Wittgenstein, Ludwig; The Wittgenstein Archives at the University of Bergen (WAB) During his lifetime, the Austrian-British philosopher Ludwig Wittgenstein (1889–1951) published only one philosophical book, the Logisch-philosophische Abhandlung / Tractatus logico-philosophicus (1921/22), and the Dictionary for Elementary Schools (1926). However, on his death in 1951, he left behind a significant 20,000 page corpus of unpublished philosophical notebooks, manuscripts, typescripts and dictations. This corpus is called "Wittgenstein's Nachlass". The Wittgenstein Archives at the University of Bergen (WAB, http://wab.uib.no/) was established in 1990 and has produced a machine-readable version of Wittgenstein's Nachlass in the form of facsimiles and transcriptions. At present the transcriptions are maintained in XML TEI format. In terms of licensing, WAB's transcriptions of the Wittgenstein Nachlass are organized in two sub-parts under two different licenses. Please note that the sub-part made available here (the part that was not already made available in the 1st subset) is licensed under the restricted license Clarin ACA-NC-NORED. Two sets of files are made available. One with the character entity encodings already converted, the other with the character entity encodings retained. Example: In set 2a the encoding "&p.es;" for period at the end of sentence is already converted to ".". For HTML transformations of WAB's XML transcriptions, visit the Wittgenstein Source Bergen Nachlass Edition (BNE) http://www.wittgensteinsource.org/ (static outputs) or http://wittgensteinonline.no/ (Interactive dynamic presentation). Copyright holders: The Master and Fellows of Trinity College, Cambridge; University of Bergen, Bergen 2022-02-15T00:00:00Z WAB XML transcriptions of Wittgenstein's Nachlass > 1st subset of 5000 pages with license CC BY-NC 3.0 (2025-04-07) http://hdl.handle.net/11509/153 WAB XML transcriptions of Wittgenstein's Nachlass > 1st subset of 5000 pages with license CC BY-NC 3.0 (2025-04-07) Wittgenstein, Ludwig; The Wittgenstein Archives at the University of Bergen (WAB) During his lifetime, the Austrian-British philosopher Ludwig Wittgenstein (1889–1951) published only one philosophical book, the Logisch-philosophische Abhandlung / Tractatus logico-philosophicus (1921/22), and the Dictionary for Elementary Schools (1926). However, on his death in 1951, he left behind a significant 20,000 page corpus of unpublished philosophical notebooks, manuscripts, typescripts and dictations. This corpus is called "Wittgenstein's Nachlass". The Wittgenstein Archives at the University of Bergen (WAB, http://wab.uib.no/) was established in 1990 and has produced a machine-readable version of Wittgenstein's Nachlass in the form of facsimiles and transcriptions. At present the transcriptions are maintained in XML TEI format. In terms of licensing, WAB's transcriptions of the Wittgenstein Nachlass are organized in two sub-parts under two different licenses. The sub-part made available here is licensed under CCPL BY-NC 3.0. It contains Wittgenstein Nachlass items Ts-201a1, Ts-201a2, Ms-139a, Ts-207, Ms-114, Ms-115, Ms-153a, Ms-153b, Ms-154, Ms-155, Ms-156a, Ms-148, Ms-149, Ms-150, Ts-212, Ts-213, Ms-141, Ms-152 and Ts-310, amounting in total to ca. 5,000 pages of the Nachlass. This part was made available under a CCPL BY-NC license within the framework of the European project Digital Semantic Corpora for Virtual Research in Philosophy (Discovery, 2006-09) and Open Scholarly Communities on the Web (COST A32, 2006-10). Two sets of files are made available. One with the character entity encodings already converted, the other with the character entity encodings retained. Example: In set 1a the encoding "&p.es;" for period at the end of sentence is already converted to ".". For HTML transformations of WAB's XML transcriptions, visit the Wittgenstein Source Bergen Nachlass Edition (BNE) http://www.wittgensteinsource.org/ (static outputs) or http://wittgensteinonline.no/ (Interactive dynamic presentation). Copyright holders: The Master and Fellows of Trinity College, Cambridge; University of Bergen, Bergen 2022-02-14T00:00:00Z Nyordsliste etter revisjonen av Bokmålsordboka (2018–2024) http://hdl.handle.net/11509/152 Nyordsliste etter revisjonen av Bokmålsordboka (2018–2024) Standardordbøkene Dette datasettet inneholder en fullstendig liste over nye oppslagsord som har blitt lagt til Bokmålsordboka (BOB) i Revisjonsperioden 2018–2024. Denne listen er en måte å få kommunisert ut de operative normeringsvedtakene fra Språkrådet. Datasettet inneholder alle ord som er «Nye» (d.v.s. fantes ikke i noen av de to ordbøkene) eller som er kommet til ved «Utjevning» mellom de to ordbøkene (d.v.s. når ordet allerede fantes i den ene ordboken, og ble lagt inn i den andre gjennom revisjonen). Med ‘oppslagsord’ sikter man til en leksikalsk enhet som har fått et oppslag i ordboken, og datasettet inkluderer både enkeltvise ord (som adjektivet «digg») og faste uttrykk (som «av full hals»). Hvert oppslagsord er listet med tillatte skrivevarianter (for eksempel er det to tillatte varianter av substantivet «adrenalinkick, adrenalinkikk»), ordklasse og en unik artikkel-id. Verdiene i hver kolonne er forklart mer i detalj i en separat dokumentasjonsfil. Faste uttrykk kan identifiseres gjennom «ordklassen» EXPR. Informasjon om normert bøyingsmønster finnes i de publiserte ordbøkene, og også via Ordbanken (ordbank.uib.no), som fortløpende blir oppdatert av ordbokmiljøet ved Universitetet i Bergen i tråd med Språkrådets offisielle normering. Mer informasjon om ordbøkene, og revisjonen av ordbøkene, finnes på https://www.uib.no/lle/144252/ordbokarbeid-ved-uib. Materialet er tilgjengelig som Excel-fil og som tabseparert fil (UTF-16). Datasettet ble generert fra ordbokbasene 03.02.2025. 2025-02-03T00:00:00Z Nyordsliste etter revisjon av Nynorskordboka (2018–2024) http://hdl.handle.net/11509/151 Nyordsliste etter revisjon av Nynorskordboka (2018–2024) Standardordbøkene Dette datasettet inneheld ei fullstendig liste over nye oppslagsord som har vorte lagt til Nynorskordboka (NOB i løpet av prosjektet Revisjon av Bokmålsordboka og Nynorskordboka (Revisjonsprosjektet) 2018–2024. Denne lista er ein måte å få kommunisert ut dei operative normeringsvedtaka frå Språkrådet. Datasettet inneheld alle ord som er «Nye» (d.v.s. fanst ikkje i nokon av dei to ordbøkene) eller som er komne til ved «Utjamning» mellom dei to ordbøkene (d.v.s. når ordet allereie fanst i den eine ordboka, og vart lagd inn i den andre gjennom revisjonen). Med ‘oppslagsord’ siktar ein til ei leksikalsk eining som har fått eit oppslag i ordboka, og inkluderer både enkeltvise ord (som adjektivet «digg») og faste uttrykk (som «av full hals»). Kvart oppslagsord er lista med tillatne skrivevariantar (til dømes er det to tillatne variantar av substantivet «adrenalinkick, adrenalinkikk»), ordklasse og ein unik artikkel-id. Verdiane i kvar kolonne er forklarte meir i detalj i ei separat dokumentasjonsfil. Faste uttrykk kan identifiserast gjennom «ordklassa» EXPR. Informasjon om normert bøyingsmønster finst i dei publiserte ordbøkene, og òg via Ordbanken (ordbank.uib.no), som fortløpande blir oppdaterte av ordbokmiljøet ved Universitetet i Bergen i tråd med Språkrådets offisielle normering. Meir informasjon om ordbøkene, og revisjonen av ordbøkene, finst på https://www.uib.no/lle/144252/ordbokarbeid-ved-uib. Materialet er tilgjengeleg som Excel-fil og som tabseparert fil (UTF-16). Datasettet vart generert frå ordbokbasane 03.02.2025. 2025-02-03T00:00:00Z The Kola Peninsula Spoken Corpus (KoPeSC) 1: Spoken Corpus to “Речь поморов Терского берега Белого моря: Звучащая хрестоматия” [“Pomor Speech on the Ter Coast of the White Sea: A spoken anthology”] (Slavica Bergensia 15) http://hdl.handle.net/11509/150 The Kola Peninsula Spoken Corpus (KoPeSC) 1: Spoken Corpus to “Речь поморов Терского берега Белого моря: Звучащая хрестоматия” [“Pomor Speech on the Ter Coast of the White Sea: A spoken anthology”] (Slavica Bergensia 15) Post, Margje; Pineda Dijkerman, David The Kola Peninsula Spoken Corpus (KoPeSC) is a dataset of sound recordings and their transcriptions in ELAN of Pomor Russian dialect speech and of Sámi and Russian speech as spoken by the indigenous peoples of Kola Peninsula. Most recordings are sociolinguistic interviews collected during fieldwork expeditions that took place between 2001 and 2008, with Margje Post and David Pineda (then UiT, now UiB) as main researchers. KoPeSC 1, the first dataset, consists of all audio files (in mp3- and WAVE-format) and their transcriptions (in ELAN), with metadata, to the following publication: Post, Margje & David Pineda (2024). Речь поморов Терского берега Белого моря. Звучащая хрестоматия [“Pomor Speech from the Ter Coast of the White Sea: A Spoken Anthology”]; Slavic Bergensia, Volume 15. DOI: https://doi.org/10.15845/slavberg.23 The dataset in KoPeSC 1 consists of: – The 30 audio files to the 29 texts in the anthology, both in WAVE-format and in .mp3-format; – 30 ELAN transcription files (.eaf) to these audio files, with their transcriptions (both in simplified phonetic script and in standardized Russian); – metadata: KoPeSC1_SlavBerg15_metadata.xlsx Vol. 15 of Slavica Bergensia is an open access anthology of the Pomor Russian dialect as it is spoken on the Ter Coast of the White Sea, with 30 short excerpts from interviews with 21 elderly dialect speakers. This publication in Russian also contains background information to the region and its dialect, in-depth analyses of a selection of linguistic features and commentaries on each single text. In the publication itself the recordings are transcribed in a simplified phonetic transcription. The transcriptions in ELAN in this repository also contain transcriptions in Standard Russian, which are better suited for queries and analyses. ELAN allows searching through multiple annotation files, so one can search for an expression in all sound and transcriptions files of the anthology at once and listen to each individual token or download a spreadsheet with all tokens of the expression; cf. https://www.mpi.nl/corpus/html/elan/ch07s02.html License: CC BY-NC-SA 4.0, https://creativecommons.org/licenses/by-nc-sa/4.0/ [версия на русском языке: https://creativecommons.org/licenses/by-nc-sa/4.0/deed.ru] Although the sound and text data to Slavica Bergensia 15 are made freely available for access, printing and download for non-commercial use, the audio recordings are classified as personal data. Please note that every individual user is responsible for treating the participants in the interviews with respect and sincerity. The publication of these data has been registered in RETTE (project nr. F3438, https://rette.app.uib.no), UiB’s system for monitoring and control of the processing of personal data in research and student projects, and follows the Norwegian national research ethical guidelines for projects processing personal data (https://www.forskningsetikk.no/en/guidelines/). The dialect recordings were collected during various field work expeditions and for different projects between 1961 and 2006, most of them by Margje Post (then University of Tromsø, now University of Bergen) and colleagues from Tromsø, Moscow and Bochum between 2001 and 2006. The dataset also contains five fairy tales, recorded in 1961 and 1964 by Dmitrij Balašov (Petrozavodsk – St. Petersburg), and an excerpt from a folkloristic interview by Marina Vlasova (St. Petersburg) from 1987. Most speakers are from the village Varzuga, but recordings from Umba, Kuzomen’, Tetrino and Čavanga are represented as well. For details, see KoPeSC1_SlavBerg15_metadata.xlsx. More dialect recordings will be made available in a separate dataset as KoPeSC 2, including the long versions of the interviews from which the excerpts were taken. The fieldwork expeditions, the cooperation with prof. Christian Sappok from the University of Bochum and the transcriptions have been supported by grants from UiT The Arctic University of Norway, DAAD, DFG and the University of Bergen. We are indebted to the Audio Archive of the Institute of Linguistics, Literature and History of the Karelian Research Centre of the Russian Academy of Sciences (KarRC RAS) in Petrozavodsk for the recordings of texts 2-5 (from 1964) and to the folklorist Marina Vlasova (Puškinskij Dom, Saint Petersburg) and to her colleagues at the Audio Archive of Puškinskij Dom for texts 1 (1961) and 8 (1987). For questions or to receive the annotation guidelines or phonetic transcriptions, please contact the Corpus manager (Margje Post, UiB). –––––––––––––––– KoPeSC 1 is the first dataset of the Kola Peninsula Spoken Corpus. The Kola Peninsula Spoken Corpus (KoPeSC) consists of several datasets, which are planned to be archived in CLARINO, including more recordings of Pomor Russian dialect speech from the Ter Coast from the Tromsø-Bergen archive, which have been transcribed in ELAN, and sound files and transcriptions that were collected during fieldwork in 2007 and 2008 in Lovozero and Krasnoščelje (Central Kola Peninsula) by Margje Post and David Pineda (then UiT, now UiB). These recordings consist of interviews in Russian with native speakers of Sámi and Komi-Zyryan and with former Pomor Russian inhabitants of Ponoj, a coastal village on the easternmost part of Kola Peninsula. 2024-03-22T00:00:00Z WAB XML transcriptions of Wittgenstein's Nachlass > 2nd subset of 15000 pages with restricted license http://hdl.handle.net/11509/149 WAB XML transcriptions of Wittgenstein's Nachlass > 2nd subset of 15000 pages with restricted license Wittgenstein, Ludwig; The Wittgenstein Archives at the University of Bergen (WAB) During his lifetime, the Austrian-British philosopher Ludwig Wittgenstein (1889–1951) published only one philosophical book, the Logisch-philosophische Abhandlung / Tractatus logico-philosophicus (1921/22), and the Dictionary for Elementary Schools (1926). However, on his death in 1951, he left behind a significant 20,000 page corpus of unpublished philosophical notebooks, manuscripts, typescripts and dictations. This corpus is called "Wittgenstein's Nachlass". The Wittgenstein Archives at the University of Bergen (WAB, http://wab.uib.no/) was established in 1990 and has produced a machine-readable version of Wittgenstein's Nachlass in the form of facsimiles and transcriptions. At present the transcriptions are maintained in XML TEI format. In terms of licensing, WAB's transcriptions of the Wittgenstein Nachlass are organized in two sub-parts under two different licenses. Please note that the sub-part made available here (the part that was not already made available in the 1st subset) is licensed under the restricted license Clarin ACA-NC-NORED. Two sets of files are made available. One with the character entity encodings already converted, the other with the character entity encodings retained. Example: In set 2a the encoding "&p.es;" for period at the end of sentence is already converted to ".". For HTML transformations of WAB's XML transcriptions, visit the Wittgenstein Source Bergen Nachlass Edition (BNE) http://www.wittgensteinsource.org/ (static outputs) or http://wittgensteinonline.no/ (Interactive dynamic presentation). Copyright holders: The Master and Fellows of Trinity College, Cambridge; University of Bergen, Bergen 2022-02-15T00:00:00Z