Fonetyka – dźwięki Fonologia – dźwięki należące do języka Ortografia



Pobieranie 48.07 Kb.
Data02.05.2016
Rozmiar48.07 Kb.
InL, zestaw przykładowych pytań teoretycznych na egzamin


  1. Czego dotyczą pojęcia: morfologia, składnia, semantyka, pragmatyka?

Fonetyka – dźwięki

Fonologiadźwięki należące do języka

Ortografia – zasady pisowni

Morfologia – struktura / formy wyrazów

Składnia – zależności strukturalne między słowami (budowa fraz)

Semantyka – znaczenie pojedyńczego zdania

Pragmatyka – znaczenie w kontekście


  1. Podaj przykłady niejednoznaczności morfologicznych, składniowych (syntaktycznych) i semantycznych.

Niejednoznaczności fonologiczne – morze -> może, morze

Niejednoznaczności morfologiczne – mam -> mieć, mamić, mama

Niejednoznaczności składniowe – pokazała siostrze Jana kwiaty

Niejednoznaczności semantyczne – piła (rzeczownik, okreslenie nauczyciela, czasownik)

Niejednoznaczności pragmatyczne – Pacjent opuścił salę operacyjną w dobrym stanie


  1. Co to jest język regularny, podaj przykład. Jak można rozpoznać język regularny?

Język regularny – język generowany przez wyrażenie regularne (liczby całkowite, język owcy). Jest to język formalny, taki że istnieje automat o skończonej liczbie stanów, potrafiący zdecydować czy dane słowo należy do języka.


  1. Czy język angielski jest regularny? Uzasadnij odpowiedź (pełen dowód nie jest wymagany).

Języki naturalne nie są regularne, a w szczególności język angielski, gdy budujemy język regularny L2, którego przecięcie z językiem angielskim da w wyniku L1. Ponieważ przecięcie dwóch języków regularnych jest regularne, a L1 nie, oznacza to, że angielski nie jest regularny.


  1. Co to jest part-of-speech tagging (POS)?

Jest to przypisywanie słowom kategorii składniowej i wartości cech morfologicznych.

Usuwanie niejednoznaczności oznaczeń morfologicznych


  1. Wymień i omów podstawowe problemy składniowe.

- uzgodnienia (Piotr idzie, Piotr i Magda idą)

- wymagania (czsownika, przyimka, liczebnika)

- negacja (Jan nikogo nie oszukal, Jan nikogo oszukal)




  1. Czym różnią się elementy wymagane od modyfikacji, omów na przykładzie wybranego czasownika.

Elementy wymagane są frazami niezbędnymi do utworzenia poprawnego wyrażenia

Modyfikacje – elementy opcjonalne, o które można (teoretycznie) dowolnie rozszerzać frazy

Przykład:

Ewa powiedziała wiersz o zielonym bukiecie.




  1. Czym różni się parsowanie top-down od bottom-up?

Top-down


  • Rozpoczynamy od symbolu początkowego i rozwijamy reguły

  • Analiza tylko tych reguł, które mają szansę być zastosowane

  • Sugerowanie hipotez niezgodnych z analizowanym ciągiem słów

  • Nie może być reguł z lewostronną konkurencją

Bottom-up



  • Staramy się znaleźć analizy poszczególnych elementów ciągu wejściowego i sklejamy je

  • Formułowanie hipotez zgodnych z danymi

  • Sugerowanie hipotez bezsensownych w kontekście

  • Problemy z rekurencją




  1. Podaj własności formalizmów CFG.

Zbiór CFG to

Zapis składników i ich kolejności.

Brak informacji o zależnościach funkcyjnych




  1. Sposoby rozszerzenia formalizmu CFG ułatwiające zapis informacji lingwistycznych.

- Motywacja: dołączenie uzgodnień (liczba, osoba, rodzaj)

- Metoda: rozszerzenie CFG o mechanizmy oparte o struktury atrybutów

- Własności metody




  1. Definicja struktury atrybutów (AVM) oraz utypowionej struktury atrybutów. Warunki poprawności.

Jest to zbiór par cecha-wartość takich, że:

- Atrybuty są symbolami atomowymi

- Wartości atrybutów są albo atomami albo innymi strukturami atrybutów




  1. Definicja relacji pochłaniania struktur z przykładami

Relacja pochłaniania wyznacza porządek częściowy.

- element najmniejszy (pusta pochłania każdą inną)

- zwrotność

- przechodniość




  1. Jakie są operacje zdefiniowane na AVM? Podaj definicje i przykłady.

- sprawdzanie kompatybilności

- łączenie informacji zawartych w dwóch strukturach (unifikacja)

- znajdowanie struktury ogólniejszej od danych dwóch struktur (generalizacja)



  1. Jak opisuje się uzgodnienia i wymagania przy wykorzystaniu gramatyk unifikacyjnych?

Uzgodnienia:

Wprowadzamy atrybuty: number, gender, person, case.
Wymagania:

Opis wymagań umieszczamy w strukturze atrybutów przypisanej danemu wyrazowi jako wartość atrybutu arg-st.




  1. Podaj definicję unifikacji utypowionych struktur atrybutów.

Unifikacja to operacja łączenia informacji zawartych w dwóch strukturach atrybutów. Wynikiem unifikacji B i C jest najbardziej ogólna struktura, która jest bardziej specyficzna niż B i C, o ile taka istnieje.


  1. Jakie problemy obejmuje analiza semantyczna języka naturalnego?

- Reprezentacja znaczenia: metoda zapisu potrzebnych informacji

- Wnioskowanie: uzyskiwanie nowych informacji z już dostępnych

- Analiza semantyczna: automatyczne generowanie zapisu znaczenia zdań


  1. Podaj przykłady niejednoznaczności morfologicznych, syntaktycznych i semantycznych.

Pkt. 2


  1. Podaj dwa sposoby reprezentowania semantyki zdań języka naturalnego wraz z przykładami.




  1. Czego dotyczy założenie kompozycyjności semantyki?

Semantyka całości wyrażenia jest funkcją semantyk wszystkich części tego wyrażenia.

Przyjęcia założenia, że znaczenie większych fragmentów teksty może zostać określone jako funkcja znaczeń jego elementów, czyli słów i fraz.




  1. Podaj własny przykład zdania z dwoma interpretacjami kolejności kwantyfikatorów.




  1. Co to jest DRT?

Jest to metoda reprezentacji znaczenia wypowiedzi polegająca na konstruowaniu specjalnej struktury.




  1. Podaj prawo Bayesa i przykład jego zastosowania w modelowaniu zjawisk związanych z językiem naturalnym


P(A|B) = p(B|A) p(A) / p(B)
Zastosowanie: kontrola pisowni



  1. Opisz model kanału szumów ("noisy channel model") i jego przykładowe zastosowanie.

Zadaniem jest odkodowanie sygnału źródłowego.

Input -> The channel -> Output
Zastosowanie:

- OCR


- Rozpoznawanie pisma odręcznego

- Poprawianie błędów

- Rozpoznawanie mowy


  1. Na czym polega założenie Markova (aproksymacja Markova k-tego rzędu) w przypadku modelu języka naturalnego?

Założenie – przybliżanie


Robimy założenie, które umożliwia nam zbieranie statystyk:

- Zapominamy o zbyt dawnych poprzednikach

- Pamiętamy tylko kilka (k) poprzedzających słów


  1. Co to jest n-gramowy model języka? Jak się go buduje?

Aproksymacja Markowa (n-1) (do potęgi th) rzędu -> n gram LM.




  1. Czego dotyczą problemy z zerowymi licznościami w n-gramowych modelach języka?

Przy analizie systemu przypisuje zerowe prawdopodobieństwa wyrażeniom, które zawierają takie elementy, które nie wystąpiły w korpusie.




  1. Podaj dwie metody poprawiania modelu n-gramowego.

- nie wykorzystywać n-gramów wyższego rzędu

- wprowadzenie poprawek do modelu – wygładzanie


  1. Co to jest ukryty model Markova (HMM). Jakiego typu zjawiska można za jego pomocą modelować? Podaj przykład.

Często mamy do czynienia z informacjami pośrednimi np. Rzucamy nierzetelnymi monetami i znamy ciąg wyników, ale nie wiemy kiedy która jest rzucana. Mamy zatem do czynienia z ukrytym poziomem i modele charakteryzujące takie poziomy nazywamy Ukrytymi Modelami Markowa.


- rzuty monetami

- Modelowanie rozpoznawania słów




  1. Opisz wykorzystanie HMM do przypisywania nazw części mowy (part-of-speech tagging, POS).




  1. Co to jest WordNet?

Utworzona ręcznie baza zawierająca opisy i powiązania semantyczne dla słów danego języka (pierwszy był angielski, polskiego jeszcze nie ma).


  1. Podaj 3 nazwy relacji semantycznych między słowami z przykładami (własnymi).




  1. Jakie informacje o słowach zawiera FrameNet?

FrameNet zawiera role słów




  1. Na czym polega zadanie ujednoznaczniania słów i do czego mogą być przydatne jego wyniki?

Ustalenie ile i jakich znaczeń posiada dane słowo.

Rozpoznawanie w jakim konkretnym znaczeniu wystąpiło dane słowo.
Wyniki mogą być przydatne w hierarchii pojęć.


  1. Na czym polega powierzchniowa analiza (shallow parsing)? Jakie ma zalety w stosunku do analizy pełnej? Kiedy jest wykorzystywana?

Powierzchniowa analiza zdania identyfikuje elementy zdania (frazy, czasowniki...) ale nie określa ich wewnętrznej struktury ani ich roli w zdaniu.
Wykorzystywana szeroko w przetwarzaniu języka naturalnego.
- rozpoznawanie granic fraz

- rozpoznawanie liczb pisanych słownie




  1. Wymień i krótko scharakteryzuj 3 metody automatycznego tłumaczenia tekstów z jednego języka naturalnego na drugi.




  1. Jakie są zadania IR (information retrieval) i IE (information extraction)?

IR – wyszukiwanie informacji w tekście

IE – selekcja informacji


  1. W jaki sposób można reprezentować dokumenty tekstowe na potrzeby zadania IR?

Dokumenty przedstawiane są w postaci wektorów cech reprezentujących występujące obiekty.




  1. Jakie są podstawowe miary jakości systemów wyszukiwania dokumentów?

- Pełność

- Precyzja

- Umiejętność ignorowania szumu




  1. Jakie są różnice między tłumaczeniem przez transfer a tłumaczeniem z wykorzystaniem języka pośredniego?




  1. Do czego wykorzystujemy automaty w przetwarzaniu języka naturalnego.

Do testowania czy dane słowo należy do danego języka naturalnego.




  1. Co to jest tagset

Jest to spis wszystkich kombinacji wybranych cech gramatycznych dla danego języka.




  1. Do czego wykorzystujemy uzgodnienie? Podaj przykłady gdzie jest ono przydatne.

- Podmiot, orzeczenie (rodzaj, liczba, osoba): Piotr idzie / Magda i Piotr idą

- Rzeczownik, przymiotnik (przypadek, rodzaj, liczba): białym krukiem


  1. Wymień i omów na przykładzie trzy różne typy modyfikacji frazy rzeczownikowej.

NP -> AdjP NP – mały piec kaflowy

NP -> N – mysz

NP -> NP PP – długopis na biurku




  1. Co to jest tokenizacja?

- Identyfikacja podstawowych elementów tekstu



- Podział na zdania


©absta.pl 2016
wyślij wiadomość

    Strona główna