Pokaż uproszczony rekord

dc.contributor.authorWołk, Krzysztof
dc.contributor.authorRejmund, Emilia
dc.contributor.authorMarasek, Krzysztof
dc.date.accessioned2017-12-01T21:12:35Z
dc.date.available2017-12-01T21:12:35Z
dc.date.issued2016
dc.identifier.isbn978-83-935320-4-9
dc.identifier.issn2544-4913
dc.identifier.urihttps://depot.ceon.pl/handle/123456789/13390
dc.descriptionGruszczyńska, Ewa; Leńko-Szymańska, Agnieszka, red. (2016). Polskojęzyczne korpusy równoległe. Polish-language Parallel Corpora. Warszawa: Instytut Lingwistyki Stosowanej, pp. 158-179.en
dc.description.abstractTeksty równoległe to zasób językowy spotykany stosunkowo rzadko, jednak stanowiący bardzo użyteczny materiał badawczy o szerokim zastosowaniu np. podczas międzyjęzykowego wyszukiwania informacji oraz w statystycznym tłumaczeniu maszynowym. Niniejsze badanie prezentuje i analizuje opracowane przez nas nowe metody pozyskiwania danych z korpusów porównywalnych. Metody te są automatyczne i działają w sposób nienadzorowany, co czyni je użytecznymi w budowie korpusów równoległych na szeroką skalę. W niniejszym badaniu proponujemy metodę automatycznego przeszukiwania sieci w celu zbudowania korpusów porównywalnych zrównoleglonych na poziomie tematu, np. na podstawie danych z Wikipedii czy strony Euronews.com. Opracowaliśmy również nowe metody pozyskiwania równoległych zdań z danych porównywalnych oraz proponujemy metody filtracji korpusów równoległych zdolne selekcjonować niezgodne ze sobą lub tylko częściowo ekwiwalentne pary zdań. Za pomocą naszych metod można pozyskać zasoby równoległe dla dowolnej pary języków. Ewaluację jakości zbudowanych korpusów przeprowadzono poprzez analizę wpływu ich użycia na systemy statystycznego tłumaczenia maszynowego przy wykorzystaniu typowych miar jakości tłumaczenia. Eksperymenty zostały zaprezentowane na przykładzie pary językowej polski-angielski dla różnego typu tekstów, tj. wykładów, rozmówek turystycznych, dialogów filmowych, zapisów posiedzeń Europarlamentu oraz tekstów zawartych w ulotkach leków. Przetestowaliśmy także drugą metodę tworzenia korpusów równoległych na podstawie danych z korpusów porównywalnych, pozwalającą automatycznie poszerzyć istniejący korpus zdań z danej tematyki, wykorzystując znalezione między nimi analogie. Metoda ta nie wymaga posiadania wcześniejszych zasobów równoległych celem stworzenia i dostosowania klasyfikatora. Wyniki naszych eksperymentów są obiecujące. Z artykułów Wikipedii udało się pozyskać prawie pół miliona zdań równoległych i niespełna 5.000 z portalu Euronews.com (z wykorzystaniem pierwszej z metod) oraz 114.000 z Wikipedii, wykorzystując analogie między artykułami. Pozyskane dane wpłynęły pozytywnie na jakość tłumaczenia maszynowego, która została zmierzona popularnymi miarami automatycznymi tj. BLEU, NIST, TER oraz METEOR. Jednak dane pozyskane automatycznie po manualnej analizie okazały się „zaszumione”, dlatego też podjęto próbę ich automatycznego przefiltrowania. Metodę filtrowania danych zbadano, porównując jej wyniki z wynikami uzyskanymi przy zastosowaniu metody polegającej na ocenie ludzkiej, a także badając jej wpływ na tłumaczenie maszynowe. Filtrowanie okazało się skuteczne, gdyż polepszyło ostateczne wyniki statystycznego tłumaczenia maszynowego.pl
dc.language.isoen
dc.publisherInstytut Lingwistyki Stosowanej UWen
dc.rightsDozwolony użytek*
dc.subjectparallel corpusen
dc.subjectPolishen
dc.subjectEnglishen
dc.subjectmachine learningen
dc.subjectcomparable corporaen
dc.subjectNLPen
dc.subjectkorpus równoległypl
dc.subjectjęzyk polskipl
dc.subjectjęzyk angielskipl
dc.subjectuczenie maszynowepl
dc.subjectkorpusy porównywalnepl
dc.subjectNLPpl
dc.titleMulti-domain machine translation enhancements by parallel data extraction from comparable corporaen
dc.title.alternativePoprawa jakości tłumaczenia maszynowego dla wielu domen poprzez ekstrakcję danych równoległych z korpusów porównywalnychpl
dc.typearticleen
dc.contributor.organizationPolsko-Japońska Akademia Technik Komputerowychen


Pliki tej pozycji

Thumbnail

Pozycja umieszczona jest w następujących kolekcjach

Pokaż uproszczony rekord

Dozwolony użytek
Korzystanie z tego materiału jest możliwe zgodnie z właściwymi przepisami o dozwolonym użytku lub o innych wyjątkach przewidzianych w przepisach prawa, a korzystanie w szerszym zakresie wymaga uzyskania zgody uprawnionego.