IX Warsztaty „Biblioteki cyfrowe”

Termin: środa, 17 kwietnia 2013 r., 14:30 – 18:00

Miejsce: Ośrodek konferencyjny IOR

Opis: Warsztaty „Biblioteki cyfrowe” są imprezą organizowaną regularnie przez PCSS już od 2004 roku. Od samego początku głównym celem warsztatów jest popularyzacja bibliotek cyfrowych oraz stymulacja ich rozwoju w Polsce, poprzez stworzenie miejsca do wymiany doświadczeń oraz integracji środowiska osób związanych z tą tematyką. Każda z edycji warsztatów ma swój własny, niepowtarzalny charakter, ściśle związany z aktualnym stanem rozwoju bibliotek cyfrowych w Polsce i najważniejszymi problemami oraz wyzwaniami występującymi w tym obszarze.

Warsztaty nastawione są na praktyczne aspekty tworzenia i rozwoju bibliotek cyfrowych w Polsce. W tym roku skupione są one na usługach dodanych do bibliotek cyfrowych oraz na wykorzystaniu narzędzi open source. 

Agenda

14:30 – 16:00

Sesja 1. Biblioteki cyfrowe – usługi dodane

16:00 – 16:30 Przerwa kawowa
16:30 – 18:00

Sesja 2. Biblioteki cyfrowe – narzędzia open source

Abstrakty

Sesja 1. Biblioteki cyfrowe – usługi dodane

Przygotowanie pełnotekstowych reprezentacji dokumentów z polskich bibliotek cyfrowych przy pomocy Wirtualnego Laboratorium Transkrypcji

A. Dudczak, M. Dudziński, P. Smoczyk (PCSS)

Polskie biblioteki cyfrowe zawierają materiały, które są potencjalnie doskonałym źródłem materiałów badawczych dla naukowców z takich dziedzin jak socjologia, historia czy lingwistyka. Z badań ankietowych przeprowadzonych w 2010 w ramach projektu SYNAT wynika, że tylko 40% materiałów tekstowych było poddanych przetwarzniu przy pomocy oprogramowania do automatycznego rozpoznawania znaków (ang. OCR). Wyniki przetwarzania OCR dalekie są od ideału i w większości przypadków konieczna jest manualna korekta wyników przetwarzania na którą biblioteki cyfrowe nie mają środków. Dostepność przeszukiwalnego tekstu jest kluczowa dla zwiększenia wykorzystania materiałów udostępnionych w polskich bibliotekach cyfrowych. W ramach referatu przedstawiony zostanie portal Wirtualnego Laboratorium Transkrypcji (WLT), który znacznie upraszcza proces tworzenia wysokiej jakości przeszukiwalnego tekstu na podstawie skanów dokumentów historycznych. WLT poza usługą OCR dostępną przez przegladarkę internetową i wygodnym edytorem transkrypcji, pozwala również na import treści bezpośrednio z bibliotek cyfrowych. Korekta wyników przetwarzania OCR może być realizowana przez jedną osobę, grupę osób bądź przez wszystkich użytkowników portalu. Wynikowy tekst może zostać wyeksportowany z WLT w otwartym formacie, umożliwiającym jego wykorzystanie do dalszej pracy w innych narzędziach.

Kursy e-learningowe FBC

A. Dudczak, B. Wróż (PCSS)

W ramach portalu Federacji Bibliotek Cyfrowych  w czerwcu 2011 udostępnione zostały dwa kursy e-learningowe „Cyfrowe repozytoria dla małych instytucji kultury” oraz „Współpraca z Europeaną”. Omawiają one zagadnienia dotyczące realizacji procesu digitalizacji i udostępniania dokumentów historycznych oraz współpracy z portalem Europeana. Kursy te stanowią kompedium wiedzy i dobrych praktyk sprofilowane pod kątem potrzeb małych i średnich instytucji kultury, które chciałyby rozpocząć digitalizację i udostępnianie swoich zbiorów. Polska wersja kursu powstała na bazie rozwijanych od 2009 kursów angielskich, stworzonych w ramach projektów ACCESS IT i ACCESS IT plus. Kursy te zostały wdrożone i przetłumaczone przez partnerów projektu w Grecji, Serbii, Chorwacji, Bośni i Hercegowinie oraz Turcji. Sumaryczna liczba absolwentów to ponad 1200 osób. W kwietniu rusza kolejna edycja polskiej wersji kursu w ramach referatu omówione zostaną najważniejsze zmiany jakie zostały wprowadzone w kursie w związku z nowym cyklem szkoleniowym.


Platforma wymiany danych dotyczących działań użytkowników bibliotek cyfrowych

M.Werla (PCSS)

Usługi pozwalające na monitorowanie działań użytkowników portali internetowych są obecnie dość łatwo dostępne i w przypadku serwisów o małym czy umiarkowanym ruchu mogą być wdrożone praktycznie bezpłatnie. Dzięki temu można uzyskać informacje o tym ile czasu spędzają średnio użytkownicy na stronie WWW, ilu użytkowników odwiedza serwis internetowy, jak często wracają, z jakiego są kraju czy jakiej przeglądarki WWW używają. Są to informacje bardzo wartościowe zarówno dla administratorów serwisów internetowych, jak i dla twórców oprogramowania na bazie którego te serwisy funkcjonują.

Celem niniejszego wystąpienia jest rozszerzenie kontekstu analizy tego typu danych i pokazanie możliwości ich wymiany pomiędzy instytucjami prowadzącymi biblioteki cyfrowe. W ramach wystąpienia zarysowane zostaną korzyści wynikające z tego typu działań oraz dyskusji poddana zostanie praktyczna możliwość ich wdrożenia na gruncie Polskim.

Sesja 2. Biblioteki cyfrowe – narzędzia open source

Wprowadzenie do tematyki open source

A. Ciemniewska, B. Lewandowski (Centrum Kompetencji OSS, PCSS)

Dynamiczny rozwój sieci Internet stworzył idealne warunki dla rozwoju oprogramowania open source. Produkty wypracowane w tym modelu obejmują zarówno samodzielne pakiety, na przykład system operacyjny Linux, oraz komponenty i biblioteki, które są szeroko wykorzystywane przez inne projekty OSS, ale również przez producentów oprogramowania zamkniętego. Wykład stanowi będzie wprowadzenie do tematyki open source: czym jest open source, czym się charakteryzuje oraz jakie są zalety, wady i mity o open source w porównaniu z modelem zamkniętym. W prezentacji znajdą się również zasady rozwoju oprogramowania open source oraz wskazówki co brać pod uwagę przy wyborze narzędzi open source.

Otwarte oprogramowanie w Jagiellońskiej Bibliotece Cyfrowej

B. Siedlarz (Biblioteka Jagiellońska)

Przedstawienie wdrożenia i zastosowania otwartego oprogramowania w procesie digitalizacji i przetwarzania dokumentów w Jagiellońskiej Bibliotece Cyfrowej, głównie w zakresie edycji obrazu oraz zarządzania plikami. Omówienie wykorzystania programów Scan Tailor oraz ImageMagick do przekształcenia surowych skanów w materiał zdatny do dalszego przetwarzania; użycia c44, cpaldjvu, cjb2 oraz didjvu do kompresji obrazu, a także wykorzystania djvm i djvmcvt do scalania i rozbijania dokumentów DjVu. Tworzenie dodatkowego oprogramowania automatyzującego pracę: generowanie miniatur z dokumentów DjVu, dodawanie adnotacji, modyfikacja nazw plików, pobieranie danych z nazw plików, automatyczne tworzenie plików konfiguracyjnych do masowego ładowania publikacji do dLibry. Linux jako system operacyjny stacji roboczej: omówienie wstępnej fazy testów. Integracja rozwiązań otwartych z oprogramowaniem własnościowym. Omówienie zysków oraz potencjalnych zagrożeń wynikających ze stosowania otwartego oprogramowania.

Od skanowania do udostępniania z systemem DigitLab

A. Dudczak, P. Smoczyk (PCSS)

DigitLab to specjalnie przystosowany system operacyjny oparty o Linux Ubuntu (w wersji 12.04 LTS). DigitLab powstał ponieważ z różnych względów potrzebne było środowisko pozwalające na realizację procesu cyfryzacji w oparciu o narzędzia, które są ogólnodostępne i darmowe. Wykorzystanie tego typu technologii jest naturalnym rozwiązaniem problemów związanych z brakiem środków na zakup specjalistycznego oprogramowania.

DigitLab oferuje dostęp do narzędzi pozwalających na przetwarzanie graficzne bezpośrednich wyników skanowania, OCR tychże wyników (również dla mniej popularnych czcionek takich jak gotyk, cyrylica), umożliwia tworzenie dokumentów prezentacyjnych w formatach takich jak DjVu, PDF, HTML, Zoomify. Oprócz pracy z materiałami tekstowymi i ikonograficznymi dostępne są również narzędzia pozwalające obróbkę materiałów audio-wizualnych.

W pierwszej części referatu przedstawiona zostanie motywacja dla stworzenia w ramach projektu ACCESS IT Plus nowego systemu operacyjnego. DigitLab powstał w pierwszej kolejności na potrzeby realizowanych w projekcie szkoleń, każdy z uczestników otrzymał pendrive z nagranym systemem. Dzięki temu wszyscy uczestnicy mieli do dyspozycji identyczne, gotowe do użycia środowisko w ramach, którego mogli praktykować prezentowane na szkoleniu techniki. Udana realizacja tego typu przedsięwzięcia wskazuje również na zasadność wykorzystania DigitLabu do realizacji prostych projektów digitalizacyjnych. W ramach niniejszego referatu chcielibyśmy zaprezentować możliwe do realizacji scenariusze prac digitalizacyjnych.

W drugiej części referatu zademonstrujemy wykorzystanie narzędzi dostępnych w DigitLabie do realizacji przetwarzania wybranych typów dokumentów począwszy od ich wstępnej obróbki aż po udostępnianie.