Warsztaty „Digitalizacja historycznych dokumentów tekstowych na potrzeby badań humanistycznych”

Termin: poniedziałek, 15 kwietnia 2013 r., 8:30 – 14:00

Miejsce: Ośrodek konferencyjny IOR

Opis: Niezmiernie istotnym elementem badań humanistycznych jest praca z materiałem źródłowym. Materiały te można pozyskać na wiele różnych sposobów, które wymagają często odbycia fizycznej wizyty w różnego rodzaju archiwach czy bibliotekach. Nie da się polemizować z tym, że wyprawy te mają swoisty urok i stanowią integralną część życia badacza, jednak wraz z postępem cyfryzacji rzeczywiste wizyty zastępuje powoli przeglądanie stron bibliotek cyfrowych lub własnoręcznie wykonanych skanów/zdjęć zbiorów. Zarówno w przypadku samodzielnego skanowania jak i przeglądania zasobów polskich bibliotek cyfrowych często okazuje się, że jedyne na co możemy liczyć to dostęp do cyfrowego obrazu strony. Taki skan dokumentu pozwala na zapoznanie się z jego treścią, ale nie daje możliwości pracy z samym tekstem np. Wklejenia fragmentu jako cytowania do własnej publikacji. Nie jest również możliwe automatyczne przeszukiwanie tekstu w poszukiwaniu nazwisk konkretnych osób czy nazw miejsc. W ramach warsztatów pokażemy czym różni się cyfrowy obraz tekstu od cyfrowego tekstu. Zaprezentujemy uczestnikom przykłady wykorzystania automatycznej analizy tekstu w badaniach humanistycznych. Następnie pokażemy jak można zamienić skan (lub zdjęcie strony dokumentu) w przeszukiwalny i zrozumiały dla programów komputerowych tekst. Dokonamy tego przy pomocy narzędzi takich jak DigitLab i Wirtualne Laboratorium Transkrypcji (WLT).

Uczestnicy z własnymi laptopami będą mogli spróbować uruchomić na nich darmowy system operacyjny DigitLab. Jest to system stworzony w oparciu o Linux Ubuntu. Oferuje on użytkownikom dostęp do oprogramowania, które pozwala na obróbkę własnoręcznie wykonanych zdjęć/skanów i przygotowanie wysokiej klasy dokumentu, który można potem umieścić w bibliotece cyfrowej.

Drugim z prezentowanych w ramach warsztatów narzędzi będzie Wirtualne Laboratorium Transkrypcji. Jest to portal zbierający w jednym miejscu narzędzia, które mogą znacznie ułatwić pozyskanie wysokiej jakości tekstu zdatnego do wykorzystania w badaniach naukowych. WLT pozwala użytkownikom pracować z ich plikami, umożliwia też bezpośredni import plików z dokumentów istniejących już w polskich bibliotekach cyfrowych. Użytkownicy mają do dyspozycji usługę automatycznego rozpoznawania znaków, która potrafi zamienić skany starych dokumentów na przeszukiwalny tekst. Tak otrzymany tekst może być poddany społecznościowej korekcie (ang. crowdsourcing). W wyniku tych działań otrzymujemy sprawdzony tekst, który może następnie posłużyć do opracowania np. nowego wydania zeskanowanej przez nas książki. WLT pozwala pobrać wyniki transkrypcji zarówno w postaci prostych plików tekstowych jak i w szeroko stosowanym w publikacjach elektronicznych formacie ePUB.

Aby w pełni uczestniczyć w zajęciach uczestnicy powinni posiadać:

  • laptop (wifi, możliwość uruchomienia systemu z pendrive’a)
  • (opcjonalnie) pendrive o pojemności co najmniej 4GB z zainstalowanym DigitLabem (zgodnie z instrukcją dostępną tutaj: http://bit.ly/Zn2dUy)

 Agenda

8:30 – 9:00
Rejestracja uczestników
9:00 – 10:30 Podstawy cyfryzacji dokumentów tekstowych wraz z przykładami wykorzystania w badaniach humanistycznych
10:30 – 11:00 Przerwa kawowa
11:00 – 13:00 Przygotowanie cyfrowej wersji dokumentów historycznych przy wykorzystaniu systemu DigitLab i Wirtualnego Laboratorium Transkrypcji – ćwiczenia praktyczne
13:00 – 14:00 Lunch