POSIEDZENIA

P o s i e d z e n i a K o m i s j i J ę z y k o z n a w s t w a K o m p u t e r o w e g o w r o k u 2023:

11 grudnia (posiedzenie zdalne)

Agata Savary (Uniwersytet Paris-Saclay, CNRS, LISN, Francja): Uniwersalistyczna anotacja jednostek wielowyrazowych i wielojęzyczne studia korpusowe w projekcie PARSEME

PARSEME jest międzynarodową siecią naukową poświęconą studiom nad idiomami i innymi jednostkami wielowyrazowymi. Jednym z jej istotnych osiągnięć jest zestaw reguł anotacji jednostek czasownikowych takich jak "mieć muchy w nosie", "śmiać się" czy "pełnić rolę". Reguły te mają postać diagramów decyzyjnych sterowanych testami lingwistycznymi i są ujednolicone dla 26 języków. Na ich podstawie społeczność PARSEME rozwija i ulepsza korpus wielojęzyczny, anotowany tego typu jednostkami i dostępny na swobodnych licencjach. Zasób ten używany jest między innymi do tworzenia i ewaluacji narzędzi do automatycznej identyfikacji jednostek wielowyrazowych w tekście. Służy on również do wielojęzycznych studiów korpusowych. Przedstawię wyniki jednego z takich studiów, poświęconego wystąpieniom jednostek idiomatycznych w ich znaczeniach dosłownych w języku baskijskim, greckim, niemieckim, polskim i portugalskim.

19 czerwca (posiedzenie zdalne)

Marcin Woliński, Katarzyna Krasnowska-Kieraś (IPI PAN): Hybrydowe parsowanie składnikowo-zależnościowe

Tematem wystąpienia będzie nowy algorytm analizy składniowej tworzący hybrydową reprezentację struktury wypowiedzeń. Algorytm tworzy jednocześnie drzewo zależnościowe i drzewo składnikowe, zapewniając ich wzajemną zgodność. Opowiemy o językoznawczej motywacji proponowanej reprezentacji oraz generowaniu takich struktur z wykorzystaniem dużych neuronowych modeli językowych.

30 stycznia (posiedzenie zdalne)

Agnieszka Leńko-Szymańska (ILS UW): Zasoby i metody korpusowe w badaniach nad przyswajaniem języka drugiego

Przyswajanie języka drugiego jako dziedzina językoznawstwa jest często utożsamiane z metodyką nauczania języków obcych, zarówno przez laików jak i lingwistów. Tymczasem jest to samodzielny obszar badawczy zajmujący się opisem i objaśnianiem procesów uczenia się języka innego niż język rodzimy (język drugi, trzeci, dodatkowy, obcy) zarówno w środowisku edukacji formalnej jak i w warunkach naturalnych. Ma on na celu wyodrębnienie uniwersalnych mechanizmów tych procesów oraz czynników, które je kształtują.

Przyswajanie języka drugiego jest dziedziną przede wszystkim empiryczną, w głównej mierzej opartą na danych językowych (wypowiedziach pisemnych i ustnych) pochodzących od osób posługujących się językiem drugim na różnym stopniu zaawansowania. W ostatnich trzech dekadach coraz większe znaczenie zyskują dane gromadzone w tzw. korpusach uczniowskich (lub korpusach interjęzyka) i analizowane za pomocą metod i narzędzi korpusowych. Jednocześnie rodzime dane korpusowe stanowią istotny (choć nie jedyny) punkt odniesienia dla analizy danych uczniowskich.

W prezentacji przedstawione zostaną zasady kompilacji korpusów uczniowskich oraz najważniejsze projekty tego typu na świecie. Omówione zostaną mocne i słabe strony wykorzystania danych korpusowych w badaniach nad przyswajaniem języka drugiego. Dodatkowo zaprezentowane zostaną wybrane metody i narzędzia korpusowe używanych w analizie procesów akwizycyjnych na przykładzie badań autorki nad progresją biegłości leksykalnej i frazeologicznej zawansowanych uczniów języka angielskiego.

P o s i e d z e n i a K o m i s j i J ę z y k o z n a w s t w a K o m p u t e r o w e g o w r o k u 2022:

14 marca (posiedzenie zdalne)

Jan Rybicki (UJ): Sieci w literaturze, literatura w sieciach. Stylometryczne czytanie na dystans w oryginale i przekładzie

Połączenie morettiowskiego czytania na dystans i burrowsowskiej stylometrii opartej na częstościach najczęstszych słów umożliwia interesujące wizualizacje podobieństw i różnic między tekstami – szczególnie wtedy, gdy liczba badanych tekstów przekracza możliwości pojedynczego czytelnika. Choć obserwowane w ten sposób związki językowe są zwykle najsilniejsze między dziełami tego samego autora, całkiem wyraźne są też inne "sygnały": chronologii, rodzaju czy gatunku literackiego. Sytuacja komplikuje się jeszcze bardziej, gdy w badanym zestawie tekstów znajdą się nie tylko oryginały danego języka, lecz i przekłady na ten język: pojawia się wtedy – z różną siłą – "sygnał" tłumacza (również maszynowego) i "sygnał" języka źródłowego. Prezentowane wystąpienie ukaże wszystkie te zjawiska na przykładzie dwóch zestawów tekstów: pięćdziesięciu dziełach klasycznej literatury francuskiej w oryginale, przekładzie polskim i angielskim, oraz na siedmiotysięcznym korpusie literatury po polsku – oryginalnej i przełożonej z różnych języków.

25 kwietnia (posiedzenie zdalne)

Jakub Szymanik (Uniwersyt Amsterdamski): Dlaczego języki są takie jakie są? Obliczeniowe źródła semantycznych uniwersaliów

Używając metod lingwistyki komputerowej, autor proponuje kognitywno-obliczeniowe wyjaśnienie semantycznych uniwersaliów językowych. W szczególności omówiona została uniwersalna preferencja języków do leksykalizacji monotonicznych znaczeń. Dla zilustrowania tego fenomenu pokrótce przedstawiono milionowy podkorpus Narodowego Korpusu Języka Polskiego (tzw. NKJP1M) wzbogacony o warstwę ręcznie anotowanych wyrażeń kwantyfikujących (korpus ). Analiza korpusu potwierdza, że proste kwantyfikatory w języku polskim są zazwyczaj monotoniczne (artykuł). Następnie zaprezentowano wyniki obliczeniowego modelowania oraz psycholingwistycznych eksperymentów, które sugerują, że takie preferencje semantyczne mogą być wynikiem zmierzania języków w kierunku prostoty, tj. preferowania znaczeń, które są kombinatorycznie proste (artykuł), są proste do nauczenia (artykuł) i w efekcie są spontanicznie leksykalizowane w procesie ewolucji (artykuł).

20 czerwca (posiedzenie zdalne)

Agnieszka Patejuk (IPI PAN/University of Oxford): Komputerowa weryfikacja gramatyki języka polskiego ze szczególnym uwzględnieniem zjawiska koordynacji

POLFIE to implementacja gramatyki języka polskiego w teorii Lexical Functional Grammar (LFG). Komputerowa implementacja gramatyki umożliwia automatyczną analizę składniową zdań, dzięki czemu możliwa jest weryfikacja poprawności i zakresu empirycznego gramatyki. Gramatyka POLFIE obejmuje opisem wiele zjawisk składniowych i ich interakcje, w tym szeroką gamę zjawisk związanych z koordynacją (tj. z konstrukcjami współrzędnie złożonymi), m.in. koordynację różnych klas gramatycznych, koordynację różnych funkcji gramatycznych oraz tzw. gapping (koordynacja z elipsą). Implementacja w warstwie leksykalnej jest oparta m.in. na słowniku walencyjnym Walenty, który zawiera informacje o możliwości koordynacji różnych klas gramatycznych na danej pozycji składniowej. Jednym z celów prezentacji było wykazanie użyteczności komputerowej implementacji analiz składniowych dla teoretycznych prac lingwistycznych.

18 listopada (posiedzenie zdalne)

Krzysztof Jassem (Uniwersytet im. Adam Mickiewicza w Poznaniu): O książce, która otwiera się sama i innych zastosowaniach lingwistyki w informatyce

Na przykładzie projektów realizowanych w Centrum Sztucznej Inteligencji UAM referat ukaże, jak wybrane problemy lingwistyczne rozwiązywane są w projektach informatycznych. Przedstawione zostaną metody, dzięki którym na pytanie zadane w języku naturalnym publikacja „otwiera się sama” w akapicie relewantnym do pytania. Wyjaśnione zostanie trenowanie systemu tłumaczenia automatycznego „w locie” w celu adaptacji do dziedziny tekstu. Można się będzie dowiedzieć, jak sprawdzić, czy w dacie powstania dokumentu nie ukrywa się „czeski błąd”. Omówiony zostanie algorytm wykrywania, czy informacje typu „Rosja przygotowuje agresję na Kazachstan” są prawdziwe, czy też są tzw. „fejkiem”.

P o s i e d z e n i a K o m i s j i J ę z y k o z n a w s t w a K o m p u t e r o w e g o w r o k u 2021:

22 lutego (posiedzenie zdalne)

Krzysztof Nowak (IJP PAN), Witold Kieraś (IPI PAN): Zasoby językowe w projekcie "Cyfrowej infrastruktury badawczej dla humanistyki i nauk o sztuce DARIAH-PL"

Projekt „Cyfrowa infrastruktura badawcza dla humanistyki i nauk o sztuce DARIAH-PL” stawia sobie za cel stworzenie w latach 2021-2023 „platformy służącej pozyskiwaniu, przechowywaniu, integracji danych” oraz „przetwarzaniu oraz udostępnianiu zasobów cyfrowych”. Wśród realizowanych przez 17 konsorcjantów zadań znajduje się również opracowanie narzędzi i zasobów, które z jednej strony posłużą badaniom językoznawczym, a z drugiej – pozwolą na popularyzację nowoczesnych narzędzi lingwistycznych wśród szerokiej publiczności. Koordynowane przez Instytut Języka Polskiego PAN zadania zmierzają m.in. do pogłębienia integracji zasobów leksykograficznych, stworzenia dostępu API do treści słownikowych i współpracę z IPI PAN w zakresie tworzenia korpusu. Instytut Podstaw Informatyki PAN z kolei będzie koordynował prace związane z budowaniem zrównoważonego, reprezentatywnego i wielowarstwowo znakowanego korpusu języka polskiego obejmującego lata 2011-2020. W referacie przedstawimy strukturę organizacyjną i finansową projektu, jego założenia i miejsce wśród nich zasobów lingwistycznych.

29 marca (posiedzenie zdalne)

Agnieszka Dziob, Maciej Piasecki (PWr): Relacyjna definicja znaczenia w leksykografii na podstawie Słowosieci - sieci semantyczno-leksykalnej dla języka polskiego

Na uwikłanie jednostek języka w sieć relacji w obrębie systemu językowego zwrócił już uwagę Ferdynand de Saussure, jednak koncepcja semantyki relacyjnej została rozwinięta przez Johna Lyonsa (1963), który podkreślał zdeterminowanie znaczenia jednostki leksykalnej przez relacje semantyczne, w jakie wchodzi ona z innymi jednostkami z pola leksykalnego. Znaczenie, jako cecha jednostki w systemie językowym, jest niezależne od kontekstu, podczas gdy użycie należy do poziomu pragmatycznego i ma cechy kontekstowości. W rozwinięciu teorii Lyonsa (zob. np. Geeraerts 2010) pojawiają się również inne typy relacji, m.in. takie, które wynikają z innych właściwości semantycznych (np. "bycie w relacji do."), gramatycznych (opierających się na powiązaniach słowotwórczych) czy takich, które wymagają od użytkownika języka wiedzy referencyjnej (np. przyczyna – skutek).

Słowosieć jest wordnetem języka polskiego, rodzajem elektronicznego relacyjnego słownika semantycznego, tworzonego pierwotnie na potrzeby przetwarzania języka naturalnego. Zamiarem twórców był jak najszerszy opis słownictwa ogólnego polszczyzny. W celu umożliwienia maszynowego interpretowania znaczenia zastosowano właśnie jego relacyjną definicję. Obok relacji znanych z tradycji leksykologicznej, takich jak hiperonimia, antonimia, synonimia, pojawiają się w niej inne, również oparte o związki gramatyczne (np. żeńskość, nacechowanie, synonimia międzyparadygmatyczna) czy referencyjne (np. kauzacja, uprzedniość, presupozycja).

Celem referatu jest zaprezentowanie koncepcji znaczenia w Słowosieci w odniesieniu do jej zastosowań w przetwarzaniu języka naturalnego oraz dyskusja przydatności tak pojmowanego opisu dla "ludzkiego" użytkownika słownika. Z perspektywy kilkunastu lat nieprzerwanej pracy rozwojem Słowosieci przeanalizujemy doświadczenie w operacyjnym stosowaniu przyjętej definicji znaczenia w opisie wybranych zjawisk semantycznych w ramach czasownika i rzeczownika.

10 maja (posiedzenie zdalne)

Piotr Pęzik (UŁ): Budowa, zastosowania i plany rozwoju korpusu monitorującego MoncoPL

MoncoPL stale aktualizowany korpus monitorujący polszczyzny, który pod koniec kwietnia 2021 r. zawierał ponad 7,2 mld segmentów słów. Referat przybliżył zawartość, zastosowania i plany rozwoju tego korpusu oraz główne funkcje wyszukiwarki o tej samej nazwie. Już sama wielkość danych językowych zindeksowanych w MoncoPL pozwala zaobserwować subtelne zjawiska językowe, takie jak łączliwość frazeologiczna rzadkich słów czy wariantywność frazemów. Z kolei wysoka częstość próbkowania danych włączanych do korpusu umożliwia identyfikację neosemantyzmów oraz badanie trendów i cykliczności występowania różnorodnych konstrukcji językowych w internetowych rejestrach dyskursu medialnego. Poza przykładami zastosowań korpusu w referacie zostaną przedstawione także plany jego dalszego rozwoju.

21 czerwca (posiedzenie zdalne)

Monika Czerepowicka (UWM): Verbel – Słownik paradygmatyczny polskich frazeologizmów czasownikowych

Verbel jest elektronicznym słownikiem fleksyjnym frazeologizmów werbalnych. Jego autorami są badacze z Uniwersytetu Warmińsko-Mazurskiego w Olsztynie: Iwona Kosek, Monika Czerepowicka, Sebastian Przybyszewski. Dla znajdujących się w słowniku ponad 5000 jednostek leksykalnych podaje kompletne paradygmaty (zbiory form fleksyjnych) oraz inne informacje o jednostkach, jak występowanie wariantów leksykalnych, zakresy użycia poszczególnych form oraz w razie potrzeb informacje normatywne lub dodatkowe uwagi gramatyczne. Mimo iż słownik należy do opracowań specjalistycznych, dzięki zastosowanej budowie mogą z niego korzystać również mniej zaawansowani użytkownicy polszczyzny. Podczas wystąpienia zostały przedstawione założenia metodologiczne słownika, jego zawartość, źródła, budowa oraz wybrane zastosowania.

25 października (posiedzenie zdalne)

Anna Czelakowska, Ewa Kozioł-Chrzanowska, Piotr Żmigrodzki (IJP PAN w Krakowie): W sprawie źródeł do badania współczesnej polszczyzny – refleksje nie tylko leksykograficzne

W wystąpieniu dokonano zwięzłego przeglądu źródeł (w formie elektronicznej), jakie ma do dyspozycji lingwista chcący zajmować się dzisiaj analizą polszczyzny XXI wieku, ze szczególnym uwzględnieniem tych, które służą referentom jako współautorom Wielkiego słownika języka polskiego PAN. Przegląd ten dał podstawę do wysunięcia kilku postulatów – ogólniejszych i bardziej szczegółowych – dotyczących kształtu, struktury i formy udostępniania zasobów, jakie będą tworzone w przyszłości. Wystąpienie było rodzajem wprowadzenia do dyskusji z udziałem obecnych na posiedzeniu twórców i współtwórców narzędzi oraz źródeł do badania współczesnej polszczyzny, a także osób zainteresowanych ich wykorzystaniem.

Komitet Językoznawstwa

Posiedzenia Komisji Językoznawstwa Komputerowego KJ