Datasets:

Modalities:
Text
Formats:
text
ArXiv:
DOI:
Libraries:
Datasets
License:
text
stringlengths
5
86
calciare la palla
mi servono stivali di gomma
abbiamo troppa roba da mangiare
ognuno ha la sua croce da portare
non dovere niente a nessuno
è venuta la mia ora
la slealtà di un nemico
prendere la mira prima di sparare
ci ha rimandato una lettera
la prua della barca
lui è un mio parente
nascondere un tesoro sottoterra
staccare la luce
spiegare un equivoco
purtroppo è vero
sei proprio deprimente
una persona tenace
vado dalle cugine
i muratori hanno portato via i detriti
a ottobre inoltrato
è una storia inverosimile
fare scoppiare una bomba
soffiare nel fischietto
il saio dei francescani
rifare il tetto
la discussione è finita tra schiamazzi e offese
standardizzare il lavoro
non si sono fermati neanche un momento
tocca sempre a me a chiedere scusa
il conto ammonta a dieci euro
temperare la matita
frizionare la pelle con l’alcol
il temporale ha provocato un allagamento
un frutto che matura tardivamente
imprimere nella mente
"non mi ha sentito, devo richiamarlo"
questa è la giusta medicina per te
la fissazione di una data
purificarsi la coscienza
irrobustire i muscoli
ogni bambino riceverà un premio
uno spago sottile
ho detto praticamente tutto
il tetto è sorretto da colonne portanti
mettere paura a qcn.
aumentare la velocità
tagliare le unghie
è una persona molto fine
un animale scattante
suonano la campana a morto
egli ha sempre da fare
la ripresa delle attività
combattere strenuamente
scagliare una pietra
bisogna rispettare i vecchi
un millesimo di secondo
te la farò pagare!
lavorare come un dannato
ho preso due nove in matematica
avere la goccia al naso
è andata diversamente
sollevare pesi
essere sciolto nei movimenti
guardare dentro
le ciliegie maturano in estate
il vento fischia
ora devi tacere!
trenta è un numero pari
accordarsi sul prezzo
è una strada piena di polvere
anche l’occhio vuole la sua parte
qui comincia la nostra storia
le giornate si stanno scorciando
lui stesso l’ha visto
interrompere un lavoro
il suo carattere si è modificato col tempo
un lavoro saltuario
non voglio tediarti con i miei problemi
il tepore delle sere d’estate
anticipare l’appuntamento
fare una vita da signora
aiutare i profughi
la sveglia si è rotta
attendere una persona
cardare la lana
riordinare la camera
guardare mediante la lente d’ingrandimento
il carro si è sganciato a causa del peso
sostituire un vecchio impianto
bisogna affrettarsi a prenotare
lusingare qcn.
"taci, non sai quello che dici!"
la foto è sfocata
avere un battibecco
parla correntemente l'inglese
la somma residua
non è facile pronunciarsi su argomenti così complessi
ribollire il latte
ha una grande competenza
ascoltiamo il parere degli studiosi

task_categories: - translation language: - it - lld size_categories: - n<1K

Dataset Card: Ladin (Val Badia) - Italiano

Übersicht

Source Paper: "Rule-Based, Neural and LLM Back-Translation: Comparative Insights from a Variant of Ladin"

Description: This dataset consists of parallel sentences in Ladin and Italian. The dataset contains two separate files with aligned sentences. Each line in the Ladin file corresponds to the same line number in the Italian file, providing a straightforward mapping between the languages.

Dataset Structure

  • Dateien:
    • dizionar-lvb.txt: Contains Ladin sentences, one per line.
    • dizionar-ita.txt: Contains the Italian translation of the corresponding Ladin sentences, one per line.

Format

  • File Type: Plain text
  • Encoding: UTF-8
  • Sentence Alignment: 1-to-1

Citation

If you use this dataset, please cite the following paper:

@inproceedings{frontull-moser-2024-rule,
    title = "Rule-Based, Neural and {LLM} Back-Translation: Comparative Insights from a Variant of {L}adin",
    author = "Frontull, Samuel  and
      Moser, Georg",
    editor = "Ojha, Atul Kr.  and
      Liu, Chao-hong  and
      Vylomova, Ekaterina  and
      Pirinen, Flammie  and
      Abbott, Jade  and
      Washington, Jonathan  and
      Oco, Nathaniel  and
      Malykh, Valentin  and
      Logacheva, Varvara  and
      Zhao, Xiaobing",
    booktitle = "Proceedings of the The Seventh Workshop on Technologies for Machine Translation of Low-Resource Languages (LoResMT 2024)",
    month = aug,
    year = "2024",
    address = "Bangkok, Thailand",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2024.loresmt-1.13",
    pages = "128--138",
    abstract = "This paper explores the impact of different back-translation approaches on machine translation for Ladin, specifically the Val Badia variant. Given the limited amount of parallel data available for this language (only 18k Ladin-Italian sentence pairs), we investigate the performance of a multilingual neural machine translation model fine-tuned for Ladin-Italian. In addition to the available authentic data, we synthesise further translations by using three different models: a fine-tuned neural model, a rule-based system developed specifically for this language pair, and a large language model. Our experiments show that all approaches achieve comparable translation quality in this low-resource scenario, yet round-trip translations highlight differences in model performance.",
}
Downloads last month
1
Edit dataset card