Multi-domain machine translation enhancements by parallel data extraction from comparable corpora
dc.contributor.author | Wołk, Krzysztof | |
dc.contributor.author | Rejmund, Emilia | |
dc.contributor.author | Marasek, Krzysztof | |
dc.date.accessioned | 2017-12-01T21:12:35Z | |
dc.date.available | 2017-12-01T21:12:35Z | |
dc.date.issued | 2016 | |
dc.identifier.isbn | 978-83-935320-4-9 | |
dc.identifier.issn | 2544-4913 | |
dc.identifier.uri | https://depot.ceon.pl/handle/123456789/13390 | |
dc.description | Gruszczyńska, Ewa; Leńko-Szymańska, Agnieszka, red. (2016). Polskojęzyczne korpusy równoległe. Polish-language Parallel Corpora. Warszawa: Instytut Lingwistyki Stosowanej, pp. 158-179. | en |
dc.description.abstract | Teksty równoległe to zasób językowy spotykany stosunkowo rzadko, jednak stanowiący bardzo użyteczny materiał badawczy o szerokim zastosowaniu np. podczas międzyjęzykowego wyszukiwania informacji oraz w statystycznym tłumaczeniu maszynowym. Niniejsze badanie prezentuje i analizuje opracowane przez nas nowe metody pozyskiwania danych z korpusów porównywalnych. Metody te są automatyczne i działają w sposób nienadzorowany, co czyni je użytecznymi w budowie korpusów równoległych na szeroką skalę. W niniejszym badaniu proponujemy metodę automatycznego przeszukiwania sieci w celu zbudowania korpusów porównywalnych zrównoleglonych na poziomie tematu, np. na podstawie danych z Wikipedii czy strony Euronews.com. Opracowaliśmy również nowe metody pozyskiwania równoległych zdań z danych porównywalnych oraz proponujemy metody filtracji korpusów równoległych zdolne selekcjonować niezgodne ze sobą lub tylko częściowo ekwiwalentne pary zdań. Za pomocą naszych metod można pozyskać zasoby równoległe dla dowolnej pary języków. Ewaluację jakości zbudowanych korpusów przeprowadzono poprzez analizę wpływu ich użycia na systemy statystycznego tłumaczenia maszynowego przy wykorzystaniu typowych miar jakości tłumaczenia. Eksperymenty zostały zaprezentowane na przykładzie pary językowej polski-angielski dla różnego typu tekstów, tj. wykładów, rozmówek turystycznych, dialogów filmowych, zapisów posiedzeń Europarlamentu oraz tekstów zawartych w ulotkach leków. Przetestowaliśmy także drugą metodę tworzenia korpusów równoległych na podstawie danych z korpusów porównywalnych, pozwalającą automatycznie poszerzyć istniejący korpus zdań z danej tematyki, wykorzystując znalezione między nimi analogie. Metoda ta nie wymaga posiadania wcześniejszych zasobów równoległych celem stworzenia i dostosowania klasyfikatora. Wyniki naszych eksperymentów są obiecujące. Z artykułów Wikipedii udało się pozyskać prawie pół miliona zdań równoległych i niespełna 5.000 z portalu Euronews.com (z wykorzystaniem pierwszej z metod) oraz 114.000 z Wikipedii, wykorzystując analogie między artykułami. Pozyskane dane wpłynęły pozytywnie na jakość tłumaczenia maszynowego, która została zmierzona popularnymi miarami automatycznymi tj. BLEU, NIST, TER oraz METEOR. Jednak dane pozyskane automatycznie po manualnej analizie okazały się „zaszumione”, dlatego też podjęto próbę ich automatycznego przefiltrowania. Metodę filtrowania danych zbadano, porównując jej wyniki z wynikami uzyskanymi przy zastosowaniu metody polegającej na ocenie ludzkiej, a także badając jej wpływ na tłumaczenie maszynowe. Filtrowanie okazało się skuteczne, gdyż polepszyło ostateczne wyniki statystycznego tłumaczenia maszynowego. | pl |
dc.language.iso | en | |
dc.publisher | Instytut Lingwistyki Stosowanej UW | en |
dc.rights | Dozwolony użytek | * |
dc.subject | parallel corpus | en |
dc.subject | Polish | en |
dc.subject | English | en |
dc.subject | machine learning | en |
dc.subject | comparable corpora | en |
dc.subject | NLP | en |
dc.subject | korpus równoległy | pl |
dc.subject | język polski | pl |
dc.subject | język angielski | pl |
dc.subject | uczenie maszynowe | pl |
dc.subject | korpusy porównywalne | pl |
dc.subject | NLP | pl |
dc.title | Multi-domain machine translation enhancements by parallel data extraction from comparable corpora | en |
dc.title.alternative | Poprawa jakości tłumaczenia maszynowego dla wielu domen poprzez ekstrakcję danych równoległych z korpusów porównywalnych | pl |
dc.type | article | en |
dc.contributor.organization | Polsko-Japońska Akademia Technik Komputerowych | en |
Pliki tej pozycji
Pozycja umieszczona jest w następujących kolekcjach
-
Inne prace ILS [26]
Korzystanie z tego materiału jest możliwe zgodnie z właściwymi przepisami o dozwolonym użytku lub o innych wyjątkach przewidzianych w przepisach prawa, a korzystanie w szerszym zakresie wymaga uzyskania zgody uprawnionego.