Go to content Go to navigation Go to search

- 23 12 2003 - 16:43 - katatonik

Die Weihnachtsfrage an die technologieiinteressierten Besucher

Ungefähr zeitgleich wurden in Katatonien zwei Projekte planungsreif, die beide mit XML zu tun haben: (1) die Herstellung eines Sanskrit-Manuskriptkataloges, der zu Beginn recht grobe Manuskriptbeschreibungen enthalten soll, die aber auch im Laufe der Zeit detaillierter werden können, (2) die Herstellung einer Terminologiedatenbank zur indischen Logik, anfangs recht bescheidenen Ausmaßes, was den Inhalt anbelangt. Der Struktur nach soll das wie ein zweisprachiges Wörterbuch aussehen.

Mein Ansatz bei beiden Projekten war (und ist), sich nach bereits einigermaßen etablierten internationalen Standards zu richten. Für den Manuskriptkatalog gibt es bereits MASTER: “Manuscript Access through Standards for Electronic Records”. MASTER stellt eigene Document Type Definitions zur Verfügung, die an die Richtlinien der Text Encoding Initiative andocken. (Hier die vollständige Master Reference.) An sich wurde MASTER zur Beschreibung mittelalterlicher europäischer Manuskripte entwickelt, ist aber auch für altindische, nagerzerfressene Palmblattfetzen mit Spuren von Zeichenketten, die wie Schrift aussehen, verwendbar. (“History of the manuscript: must have spend centuries in the company of happy rodents.”)

Für die Terminologiedatenbank gibt es eine Fülle von Anknüpfungspunkten, einen Urwald aus Akronymen (SALT, MARTIF, LISA, TMF, ISO 16642), den ich soeben erst betrete. Vermutlich wird sich aber auch hier irgendwo eine DTD finden oder entwickeln lassen.

Der Punkt, an dem das Ganze noch hakt, ist die Eingabe der Daten. Sie soll auch Menschen ermöglicht werden, die mit “XML” eher Grunzlaute eines gutmütigen Schlafriesen verbinden und bei “Markup” an Ketchup denken, aber natürlich von indischen Manuskripten mehr verstehen als ich mir vorstellen kann.

Wenn man so jemanden durch einen XML-Editor jagt, gibt der an jeder Abzweigung so viele Wege vor, wie die DTD gestattet. Wir wollen aber nicht, dass jetzt jeder dieser Wege bei unserem Projekt beschritten werden kann, auch wenn er prinzipiell beschritten werden könnte. Wir wollen auch die Ketchup-Markuper nicht unnötig verwirren.

Darüber hinaus hat eine gesamte Manuskriptbeschreibung unter Umständen einige Komponenten mehrmals. Wenn ein Manuskript etwa mehrere Texte enthält, gibt es mehrere Textbeschreibungselemente.

Es wird uns also nichts übrig bleiben, als in irgendeinem Programm irgendwelche Eingabeformulare zu gestalten. Das Ganze riecht nach relationaler Datenbank. Das Ganze muss auf nicht mit dem Internet verbundenen Maschinen laufen, weil unsere Hauptdateneingeber irgendwo in der asiatischen Pampa sitzen werden und erst später ihre wohlgeformten, hochinteressanten XML-Dateien in ein kollaboratives System eingespeist werden (dafür ist gesorgt, das machen ausnahmsweise Profis). Das Ganze soll auch nicht auf Windows beschränkt sein (f*** Access).

Ich dachte da zunächst an OpenOffice. Da gibt es aber keine native relationale Datenbank. StarOffice kommt mit Adabas, das ginge vielleicht. (Bisher habe ich mit Adabas Einrichtungsschwierigkeiten auf SuSE.) Ziel wäre dann eine Eingabestruktur, bei der Eingabefelder und XML-Elemente isomorph sind, so dass die Datenbank letztlich in der DTD konforme XML-Dateien exportiert werden kann.

Nun ja, für diejenigen technologieinteressierten Besucher, die ihre familienabgekehrte Nerd-Festtagsfreizeit mit Herumlesereien in Weblogs zubringen und auch vor elendslangen Texten wie diesem hier nicht zurückschrecken, nun die Frage: Wie gehe ich sowas am besten und aufwandssparendsten an? Gibt es noch etwas anderes als relationale Datenbanken, irgendeine verquere XML-Eingabemöglichkeit, an die ich noch nicht gedacht habe? Wunderwerkzeuge, die weder Geld noch Mühen kosten?

UTF-8 reicht uns übrigens. Wir sind nicht anspruchsvoll.


Bevor Du Adabas nimmst, solltest Du nachschauen, ob die Version, die mitgeliefert wird, nicht in ihrer Leistungsfähigkeit eingeschränkt ist. Da war mal was...

gHack (Dec 23, 05:15 pm) #


Verquere XML-Eingabemöglichkeit: ich habe da einen Proto-Prototypen, der sich mit diesem Problem beschäftigt. Ganz kurze Beschreibung (wegen familienorientierten ´eektums): Sri Markupvedanta erstellt _Typen_, z.B. für "Person", sagt also "Person" hat "Name", "Geburtsdatum" usw. Sri Ketchupvedanta sagt "Neue Person anlegen" und kriegt ein dynamisch erzeugtes Formular mit entsprechenden Eingabefeldern. Soweit, so langweilig.

Das ganze ist mit einer wikiartigen Geschichte vermischt. Im Feld "Lebenslauf" kann also geschrieben werden "...beschäftigte sich intensiv mit dem Werk von [[Ivan Sanskrituljubitel']]". Das Programm weiss aber, dass Ivan eine "Person" ist, und ersetzt die Klammer mit von Markupvedanta vorgegebenen Tags und Werten aus dem Eintrag für diesen russischen Gentleman, z.B. [Person][Name]Ivan Sanskritoljubitel'[/Name][School-of-thought]Russischer Strukturalismus[/School-of-thought][/Person].

Nein, ich glaube nicht, dass diese Beschreibung verständlich ist. Bei Interesse die Tage mehr.

xyll (Dec 24, 03:22 pm) #


Doch, das ist sehr verständlich, danke schön. Für diese Projekte hier bräuchte ich die Wiki-Einbindung nicht, sie ist aber an sich sehr interessant.

Was mich hier jetzt mehr interessiert, ist die sprachtechnische Seite: Was erzeugt das dynamische Formular? In welcher Applikation kriegt der Eingeber das? Wie gesagt, ich suche nach etwas Lokalem, ohne Netzanbindung, und nach Möglichkeit auch ohne Notwendigkeit, einen Server installieren, konfigurieren und anfeuern zu müssen.

Und: könnte dieses Formular bei Ihnen da auch Relationen haben, also z.B. dass Sie eine Gruppe "Sri" erzeugen, die dann als Mitglieder Markupvedanta und Ketchupvedanta enthält?

katatonik (Dec 24, 04:28 pm) #


Der Prototyp ist MySQL+Perl und läuft im Browser, aber er ist eh viel zu alpha um ernsthaft eingesetzt zu werden (gerade mal 200 Zeilen Code).

Re Relationen: kommt darauf an, was Sie erreichen wollen. Möglich wäre "Sri" als Subtyp von "Person", oder aber die Eingabe von [[[[Sri]] Irgendwas]]. Bei ersterem würde die Darstellung im (XML-)Text von der für "Sri" definierten abhängen, bei zweiterem von der für "Sri" und für "Person".

xyll (Dec 26, 02:53 pm) #

  Textile help