Termin: poniedziałek, 15 kwietnia 2013 r., 8:30 – 14:00
Miejsce: Ośrodek konferencyjny IOR
Opis: Niezmiernie istotnym elementem badań humanistycznych jest praca z materiałem źródłowym. Materiały te można pozyskać na wiele różnych sposobów, które wymagają często odbycia fizycznej wizyty w różnego rodzaju archiwach czy bibliotekach. Nie da się polemizować z tym, że wyprawy te mają swoisty urok i stanowią integralną część życia badacza, jednak wraz z postępem cyfryzacji rzeczywiste wizyty zastępuje powoli przeglądanie stron bibliotek cyfrowych lub własnoręcznie wykonanych skanów/zdjęć zbiorów. Zarówno w przypadku samodzielnego skanowania jak i przeglądania zasobów polskich bibliotek cyfrowych często okazuje się, że jedyne na co możemy liczyć to dostęp do cyfrowego obrazu strony. Taki skan dokumentu pozwala na zapoznanie się z jego treścią, ale nie daje możliwości pracy z samym tekstem np. Wklejenia fragmentu jako cytowania do własnej publikacji. Nie jest również możliwe automatyczne przeszukiwanie tekstu w poszukiwaniu nazwisk konkretnych osób czy nazw miejsc. W ramach warsztatów pokażemy czym różni się cyfrowy obraz tekstu od cyfrowego tekstu. Zaprezentujemy uczestnikom przykłady wykorzystania automatycznej analizy tekstu w badaniach humanistycznych. Następnie pokażemy jak można zamienić skan (lub zdjęcie strony dokumentu) w przeszukiwalny i zrozumiały dla programów komputerowych tekst. Dokonamy tego przy pomocy narzędzi takich jak DigitLab i Wirtualne Laboratorium Transkrypcji (WLT).
Uczestnicy z własnymi laptopami będą mogli spróbować uruchomić na nich darmowy system operacyjny DigitLab. Jest to system stworzony w oparciu o Linux Ubuntu. Oferuje on użytkownikom dostęp do oprogramowania, które pozwala na obróbkę własnoręcznie wykonanych zdjęć/skanów i przygotowanie wysokiej klasy dokumentu, który można potem umieścić w bibliotece cyfrowej.
Drugim z prezentowanych w ramach warsztatów narzędzi będzie Wirtualne Laboratorium Transkrypcji. Jest to portal zbierający w jednym miejscu narzędzia, które mogą znacznie ułatwić pozyskanie wysokiej jakości tekstu zdatnego do wykorzystania w badaniach naukowych. WLT pozwala użytkownikom pracować z ich plikami, umożliwia też bezpośredni import plików z dokumentów istniejących już w polskich bibliotekach cyfrowych. Użytkownicy mają do dyspozycji usługę automatycznego rozpoznawania znaków, która potrafi zamienić skany starych dokumentów na przeszukiwalny tekst. Tak otrzymany tekst może być poddany społecznościowej korekcie (ang. crowdsourcing). W wyniku tych działań otrzymujemy sprawdzony tekst, który może następnie posłużyć do opracowania np. nowego wydania zeskanowanej przez nas książki. WLT pozwala pobrać wyniki transkrypcji zarówno w postaci prostych plików tekstowych jak i w szeroko stosowanym w publikacjach elektronicznych formacie ePUB.
Aby w pełni uczestniczyć w zajęciach uczestnicy powinni posiadać:
- laptop (wifi, możliwość uruchomienia systemu z pendrive’a)
- (opcjonalnie) pendrive o pojemności co najmniej 4GB z zainstalowanym DigitLabem (zgodnie z instrukcją dostępną tutaj: http://bit.ly/Zn2dUy)
Agenda
8:30 – 9:00
|
Rejestracja uczestników |
9:00 – 10:30 | Podstawy cyfryzacji dokumentów tekstowych wraz z przykładami wykorzystania w badaniach humanistycznych |
10:30 – 11:00 | Przerwa kawowa |
11:00 – 13:00 | Przygotowanie cyfrowej wersji dokumentów historycznych przy wykorzystaniu systemu DigitLab i Wirtualnego Laboratorium Transkrypcji – ćwiczenia praktyczne |
13:00 – 14:00 | Lunch |