Zweck des Seminars
- Einführung in das "Wer, wie, warum?" der IT Standardisierung
- Beispiel einer Standardisierungsorganisation: W3C
- Exemplarische Standardisierungsdomäne Linguistische Datenverarbeitung
Zur Person
- Geboren und Studium in Berlin (Japanologie und germanistische Linguistik)
- Verschiedene Studienaufenthalte in Japan
- Promotion in Bielefeld (Bereich Texttechnologie und Computerlinguistik)
- Mitarbeit beim World Wide Web Consortium, Bereich
Übersicht 1
- Einführung
- Ziele von Standardisierung
- Geschichte
- Arten von Standards
- Beispiele für IT-Standardisierungsorganisationen
- ISO/IEC
- IETF
- W3C
- OASIS
- Unicode
Übersicht 2
- Fallbeispiel W3C
- Organisation und Prozess: Charter, Working Group, Deliverables, etc.
- Technische Aspekte und Werkzeuge
- Unvermeidbar: Patentrechtliche Fragen
- Konsensus und Schwierige Leute
- Die Sprache der Standards
- Identifikation und Versionierung
- Internationalisierungsaspekte
- Dokumentstruktur
- RFC 2119 Keywords, normative vs. informative
Übersicht 3
- Wer und warum: Standardisierung von
- Aktivitäten zum Bereich linguistischer Datenverarbeitung
- Zusammenfassung
Standardisierung - ein trockenes Thema
Was tun?
Nutzung eines alltäglichen Gegenstandes
Standardisierung der digitalen Banane!

- Standardisierungsaspekte Farbe, Form, Geschmack, Verpackung, etc.
- Hervorhebung von Bananenbeispielen
Übersicht 1
- Einführung
- Ziele von Standardisierung
- Geschichte
- Arten von Standards
- Beispiele für IT-Standardisierungsorganisationen
- ISO/IEC
- IETF
- W3C
- OASIS
- Unicode
Ziele von Standardisierung
- Verbesserung des Waren- und Serviceaustausch (national und international)
deutsche Verpackungen für japanische Bananen
- Rationalisierung automatisierte Färbung der Banane
- Interoperabilität deutsche Verpackungen für japanische Bananen
- Informationsaustausch Verknüpfung von Beschreibungen
(Bananenschale, Inhalt, Geschmack, etc.)
- etc.
Standardisierung versus Innnovation
- Innovation
- Verbreitete Anwendung (Adoption)
- Standardisierung
(Abfolge bei althergebrachter Standardisierung)
Standardisierung versus Innnovation
- Innovation: unabhängige Entwicklung verschiedener Bananenmodelle
- Verbreitete Anwendung (Adoption): weltweiter Bananenhandel
- Standardisierung: Anpassung von Bananengrößen nötig
Beispiel aus der realen Welt: amerikanische Eisenbahn
- Innovation: Unabhängige Entwicklung in West und Ost
- Verbreitete Anwendung (Adoption): Verbreitung in Nordamerika
- Standardisierung: Anpassung der Schienenbreiten
Besonderheit der Internet(IT)-Standardisierung
Standardisierung verhilft verbreiteter Anwendung, siehe HTML 2, 3, 4, etc.:
- | Eisenbahn | HTML |
1) | Innovation | Innovation |
2) | Adoption | Standardisierung |
3) | Standardisierung | Adoption |
Althergebrachte Standardisierung: Verbreitung erfordert Standardisierung
(Eisenbahn/HTML Vergleich entwickelt von Jacek Kopecký)
Übersicht 1
- Einführung
- Ziele von Standardisierung
- Geschichte
- Arten von Standards
- Beispiele für IT-Standardisierungsorganisationen
- ISO/IEC
- IETF
- W3C
- OASIS
- Unicode
Anfänge der Standardisierung
- Kalenderentwicklung in Ägypten
- Erste Standards in Babylon / Ägypten für Maßeinheiten
- Nutzung im Handel
- Später nationale und internationale Standardisierung
Industrialisierung im 19. Jahrhundert
Zunehmende Notwendigkeit für Standards
- Eisenbahnschienen
- Feuerlöschschlauche und Hydranten
- etc.
Technologieverbreitung erfordert Standardisierung
19. Jahrhundert - heute
Internationale Standardisierung (u.a.) für Elektrik, Elektronik, Kommunikation, Informatik
Übersicht 1
- Einführung
- Ziele von Standardisierung
- Geschichte
- Arten von Standards
- Beispiele für IT-Standardisierungsorganisationen
- ISO/IEC
- IETF
- W3C
- OASIS
- Unicode
Das wunderbare an Standards ist ...
... dass es so viele davon gibt
The wonderful thing about standards is that there are so many of them to choose from
(Grace Hopper, amerikanische Informatikerin)
De jure vs. De facto
- De jure
- International normierte Banane
- Reales Beispiel SVG
- De facto
- Proprietäre, aber erfolgreich gehandelte Banane
- Reales Beispiel FLASH
Unterschied ist bereichsabhängig, vgl. Nutzung von SVG Tiny in mobilen Einheiten
Industriestandard vs. offene Standards
- Industriestandard
- Potentielle Standardisierung durch / für Bananenkonzerne
- Reales Beispiel Textverarbeitungsformate
- Offene Standards
- Standardisierung durch Bananenkonzerne, Händler, Konsumenten für alle
- Reales Beispiel XML
Ausmaß der Standardisierung
- Industriesektor
- Internationale Banane (vs. Birne)
- National oder regional
- Deutsche oder süddeutsche Banane
- International, industrieübergreifend
- Allgemeine Fruchtstandardisierung
Ausmaß der Standardisierung
- Industriesektor
- National oder regional
- International, industrieübergreifend
NSB vs. SDO
- National Standards Body
- (staatlich, privat, gemischt)
- Beispiele DIN, ANSI
- Standards Developing Organizations
- SDO sind Mitglieder in NSB
SDO Beispiel Nationaler Bananenentwicklerverband
- NSB sind Mitglieder in ISO/IEC
Übersicht 1
- Einführung
- Ziele von Standardisierung
- Geschichte
- Arten von Standards
- Beispiele für IT-Standardisierungsorganisationen
- ISO/IEC
- IETF
- W3C
- OASIS
- Unicode
ISO
International Organization for Standardization
- Themata: Generell
- Struktur: Mitglieder sind NSB (z.B. DIN)
IEC
- International Electrotechnical Commission
- Themata: Elektronik, Elektrotechnik
- Struktur: Mitglieder sind NSB (z.B. VDI)
Kritik an ISO/IEC Standards
- Standardisierung zeitaufwändig
- Undurchsichtiger Standardisierungsprozess
- Langsame Reaktion auf rasante technologische Entwicklung
Übersicht 1
- Einführung
- Ziele von Standardisierung
- Geschichte
- Arten von Standards
- Beispiele für IT-Standardisierungsorganisationen
- ISO/IEC
- IETF
- W3C
- OASIS
- Unicode
IETF
Internet Engineering Taskforce
- Themata: Protokolle (z.B. HTTP)
Bananenverpackung (Schalenform)
- Struktur: technologiebezogene Segmentierung der Aktivitäten
IETF Motto
We reject kings, presidents and voting. We believe in rough consensus and running code
(David D. Clark, amerikanischer Informatiker)
rough consensus
: keine formalen Abstimmungen (votes)
running code
: Implementation neuer Technologien statt nur Beschreibung
Bananen bauen, nicht nur beschreiben
Kritik an IETF
- IETF Arbeitsgruppe = Mailingliste
- Keine Teilnahmebeschränkungen
Nicht nur Bananenexperten, auch Amateure können teilnehmen
- Zu offener Prozess verlangsamt Standardisierung
- Reales Beispiel: Entwicklung von HTML
- Standardisierung in IETF, dann
- Standardisierung im W3C
Übersicht 1
- Einführung
- Ziele von Standardisierung
- Geschichte
- Arten von Standards
- Beispiele für IT-Standardisierungsorganisationen
- ISO/IEC
- IETF
- W3C
- OASIS
- Unicode
W3C
World Wide Web Consortium
- Themata: Formate, die (IETF) Protokolle nutzen
Bananenmodelle
- Struktur: Mitgliedsorganisation
- Softwarefirmen
- teilweise Nutzer von W3C Technologie
W3C versus IETF
running code
für beide bedeutsam
- W3C stärker abhängig von Mitgliedern
Bananenproduzenten bedeutsamer als Konsumenten
- W3C Prozess formal beschrieben
Kritik am W3C
- Bevorzugung bestimmter Themata
Beispiel großindustriell gefertigte Bananenmodelle, versus Kleinbauern
- Langsame Reaktion auf Wünsche verschiedener Communities
Neue Bananenmodelle nur langsam standardisiert
Übersicht 1
- Einführung
- Ziele von Standardisierung
- Geschichte
- Arten von Standards
- Beispiele für IT-Standardisierungsorganisationen
- ISO/IEC
- IETF
- W3C
- OASIS
- Unicode
OASIS versus W3C
- Beides Mitgliedsorganisationen
- Unterschiedliche Themata
- Unterschiedliche Patentrichtlinien
- W3C Standards potentiell
offener
Kritik an OASIS
- OASIS Standards mit Patenten möglich
- Wirklich
offene Standards im Internet
?
Übersicht 1
- Einführung
- Ziele von Standardisierung
- Geschichte
- Arten von Standards
- Beispiele für IT-Standardisierungsorganisationen
- ISO/IEC
- IETF
- W3C
- OASIS
- Unicode
Unicode
- Thema: Standardisierung von Zeichen (
characters
)
weltweit elementarer Bestandteil jeder Banane
- Bezug zu existierenden Standards
- Zeichenvorrat abgeglichen mit ISO/IEC JTC1
Unicode versus ...
- IETF und W3C: Bezug zu ISO erschwert individuelle Beiträge zum Unicode Zeichenvorrat
- Unicode thematisch stärker beschräkt
- Unicode relevant für W3C und IETF Standards
keine Banane ohne!
Reale Beispiele: Unicode in Webadressen
- International Domain Names
http://meine-universität.example.com
- Internationalized Resource Identifier
http://uni.example.com/studiengebühr/
Warum so viele Organisationen?
- Entwicklung von Organisationen nicht geplant
- Neue Technologien > neue Organisation
- Neue Marktentwicklung > neue Organisation
10 Jahres-Regel
: Lebensdauer spezifischer Organisationen ist begrenzt
Übersicht 2
- Fallbeispiel W3C
- Organisation und Prozess: Charter, Working Group, Deliverables, ...
- Technische Aspekte und Werkzeuge
- Unvermeidbar: Patentrechtliche Fragen
- Konsensus und Schwierige Leute
- Die Sprache der Standards
- Identifikation und Versionierung
- Internationalisierungsaspekte
- Dokumentstruktur
- RFC 2119 Keywords, normative vs. informative
Charter
- Beschreibung des Themas
neues Bananenmodell
- Was ist
out of scope
?
Entwicklung von Bananenstauden
(z.B. Vermeidung von Überlappung zu anderen Organisationen)
- Festlegung der Dokumente (
deliverables
)
(1) Definition des Modells, (2) Benutzerrichtlinien (guidelines
)
- Zeitrahmen
- Liaisons
Liaison mit Bananenverpackungsstandardisierungen
Working Groups
- Arbeitsplan durch Charter festgelegt
- Mitgliedschaft mit Verpflichtungen verbunden
- Mitarbeit an Dokumenten, eventuell Implementationen
- patentrechtliche Verplichtungen
Keine Inanspruchnahme von Rechten an Bestandteilen des neuen Bananenmodells
Stufen von Dokumenten
First Public Working Draft
Last Call
(Generelles Feedback zu Merkmalen erwünscht)
Candidate Recommendation
(Implementationsentwicklung)
Proposed Recommendation
(Feedback speziell von W3C Mitgliedsfirmen)
Recommendation
(Web Standard)
Arten von Dokumenten
- Normative Dokumente (W3C Recommendations) Banane 5.0
- Informative Dokumente
- Working Group Notes Banane 5.0 User Guidelines
- Member Submissions, oft Eingabe zu Recommendations
Banane 5.0 Member Submission
- Team Submissions Banane 5.2 Submission
- etc.
Unterschiede hinsichtlich Patentrechtsstatus und Grad der Zustimmung (endorsment
)
Übersicht 2
- Fallbeispiel W3C
- Organisation und Prozess: Charter, Working Group, Deliverables, ...
- Technische Aspekte und Werkzeuge
- Unvermeidbar: Patentrechtliche Fragen
- Konsensus und Schwierige Leute
- Die Sprache der Standards
- Identifikation und Versionierung
- Internationalisierungsaspekte
- Dokumentstruktur
- RFC 2119 Keywords, normative vs. informative
Technische Aspekte und Werkzeuge
Kommunikationsformen
- Mail
- Telefonkonferenz
- Face-to-face Meeting
Schwierige Entscheidung: um wieviel Uhr telefonieren?
- Abhängig von der Teilnehmerschaft
- Nächtliche Telefonkonferenzen oft unvermeidbar
- Teilweise Rotation der Zeiten
W3C-spezifische Werkzeuge
- Nutzung von IRC (
Internet Relay Chat
) bei Telefonkonferenzen,
Face-to-face Meetings
- Bei großen Gruppen wichtig: Sprecher Queue im Chat
- IRC BOTs
- Zakim für die Queue, Telefonkonferenz
- rrsagent für Action items, Sitzungsprotokoll (
minutes
)
Sprecher Queue in IRC
[2007/07/18 0:47] <scribe> Asir : the same examples are in the primer
[2007/07/18 0:48] <scribe> Frederick: the value of keeping this section is not clear
[2007/07/18 0:48] <DaveO> q+ to respond to frederick on why ...
[2007/07/18 0:48] * Zakim sees fjh, DaveO on the speaker queue
[2007/07/18 0:49] <scribe> Frederick: what's the value of documenting this?
[2007/07/18 0:51] <scribe> Tom : the pain WSAaddressing group was so big
that it would be helpful to show how they came to the right solution
[2007/07/18 0:52] <pbc> q?
[2007/07/18 0:52] * Zakim sees fjh, DaveO on the speaker queue
[2007/07/18 0:52] <pbc> ack fjh
[2007/07/18 0:52] * Zakim sees DaveO on the speaker queue
Issue
und Action items
Issue 7: Bananenkrümung ist nicht eindeutig beschrieben
Action: Felix entwickelt eine Revision des Bananenmodells 5 basierend auf Issue 7
Teilweise hunderte von Issues und Action items!
- Issue tracking via Bugzilla
- Issue / action item tracking via Tracker
- Die Qual der Tool-Wahl
Abstimmungen
- Im W3C Abstimmung per Mitgliedsorganisation
Einsprüche gegen Revision nach Issue 7? ... Issue 7 gelöst!
- Externe Issues (ausserhalb der Working Group) bedeutsam für
Last Call
: müssen beantwortet werden
- Exemplarische Disposition of comments
Dokumentproduktion
- XML Format
XMLSPEC
- Elemente (
tags
) spezifisch für W3C Dokumente
<spec ...
<w3c-designation>banane5 ...
<w3c-doctype>W3C Candidate Recommendation ...
<status> ...
Übersicht 2
- Fallbeispiel W3C
- Organisation und Prozess: Charter, Working Group, Deliverables, ...
- Technische Aspekte und Werkzeuge
- Unvermeidbar: Patentrechtliche Fragen
- Konsensus und Schwierige Leute
- Die Sprache der Standards
- Identifikation und Versionierung
- Internationalisierungsaspekte
- Dokumentstruktur
- RFC 2119 Keywords, normative vs. informative
W3C Patentrichtlinien
- W3C Patentrichtlinien
- Entwicklung von
royalty-free
Standards
- Mitarbeit in Working Groups nur möglich wenn Organisation keine Patente einbringt
Patentrichtlinien anderer Organisationen
- ISO/IEC: Patentrichtlinien in der Entwicklung; nicht royalty-free
- IETF: Registrierung der Freigabe von Patenten; nicht zwingend
- OASIS: Freigabe von Patenten nicht zwingend
Welche Patenthandlung ist besser?
- Keine eindeutige Antwort
- Hohe Bedeutung von Patenten für Internetunternehmen
- Hohe Bedeutung von patentfreien Standards für komplexe standalone Software-Produkte
- Lob und Kritik für W3C Patentrichtlinien
Übersicht 2
- Fallbeispiel W3C
- Organisation und Prozess: Charter, Working Group, Deliverables, ...
- Technische Aspekte und Werkzeuge
- Unvermeidbar: Patentrechtliche Fragen
- Konsensus und Schwierige Leute
- Die Sprache der Standards
- Identifikation und Versionierung
- Internationalisierungsaspekte
- Dokumentstruktur
- RFC 2119 Keywords, normative vs. informative
Konsensus
- Vorraussetzung für Fortschritte im Standardisierungsprozess
- Nachweis von Konsensus je nach Organisation (un)wichtig
- Konfliktlösung im W3C durch
letzte Instanz
: W3C Director
(sehr selten nötig)
Konsensus im IRC-Log festgehalten
[2007/07/18 0:15] <paulc> Proposal for 4661/4662:
[2007/07/18 0:16] <paulc> 1. Adopt changes in 4661 taking into consideration the 4854 change for @any
and the BP from Chris's ACTION-304.
[2007/07/18 0:16] <paulc> 2. Adopt change in 4662 taking into considertion the real time edits
done on Jul 17 during the meeting (checked in CVS).
[2007/07/18 0:17] <paulc> 3. Adopt the change to the remaining text in 5.6.1 based on proposal
from Monica in message Jun/0088.html
[2007/07/18 0:18] <cferris> RESOLUTION: issue 4661 and 4662 closed with above proposal
[2007/07/18 0:18] <cferris> rrsagent, where am i?
[2007/07/18 0:18] <RRSAgent> See http://www.w3.org/2007/07/17-ws-policy-irc#T15-18-24
Schwierige Leute
- Sich selbst unbewusste Störenfriede
- Arten von Störungen
- Konsensus verhindern
- Ständig neue Vorschläge
- etc.
Maßnahmen gegen schwierige Leute
- Warten ...
- Beweise sammeln
- Individuen in der Gruppe befragen
- Problem öffentlich machen
Konkretes Beispiel
In the last 25 days, the top 6 posters to the svn [dev|users] list have
been:
294 kfogel@collab.net
236 "C. Michael Pilato" <cmpilato@collab.net>
220 "J. Random" <jrandom@problematic-poster.com>
176 Branko Čibej <brane@xbc.nu>
130 Philip Martin <philip@codematters.co.uk>
126 Ben Collins-Sussman <sussman@collab.net>
I would say that five of these people are contributing to Subversion
hitting 1.0 in the near future.
(Quelle: http://producingoss.com/html-chunk/difficult-people.html)
Übersicht 2
- Fallbeispiel W3C
- Organisation und Prozess: Charter, Working Group, Deliverables, ...
- Technische Aspekte und Werkzeuge
- Unvermeidbar: Patentrechtliche Fragen
- Konsensus und Schwierige Leute
- Die Sprache der Standards
- Identifikation und Versionierung
- Internationalisierungsaspekte
- Dokumentstruktur
- RFC 2119 Keywords, normative vs. informative
Identifikation und Versionierung
Beispiel http://standards.example.com/TR/2007/CR-banane5-20070720
This version:
http://standards.example.com/TR/2007/CR-banane5-20070720
Latest version:
http://standards.example.com/TR/banane5
Previous version:
http://standards.example.com/TR/2007/WD-banane5-20070403
- Stufe
CR
(Candidate Recommendation)
- Identifikator banane5
- Datum
20070720
cool URI's don't change!?!
Andere Sicht der IETF:
Internet-Drafts are not an archival document series.
These documents should not be cited or quoted in any formal document.
Unrevised documents placed in the Internet-Drafts directories have a maximum life of
six months. After that time, they must be updated, or they will be deleted.
Alte Draftdokumente werden gelöscht!
Bedeutung von Namensräumen
Prefix und URI zur Abgrenzung von Namen in (XML) Dokumenten
<b:banane xmlns:b="http://standards.example.com/NS/banane">
<b:length xmlns:fs="http://standards.example.com/NS/fruitsize"
fs:type="a">...</b:length> ...
Namensräme im W3C
URIs für W3C Namensräume
- zwei Sorten
- http://www.w3.org/ns/ssss
- http://www.w3.org/YYYY/MM/ssss
- zusätzlich
Namespace Document
Änderung des Namensraums
... kann verheerend sein. Namespace Document
gibt Aufschluß
should the specifications revert to Working Draft status, and a
subsequent revision, published as a WD, CR or PR draft, results in non-backwardly
compatible changes from a previously published WD, CR or PR draft of the specification,
the namespace URI will be changed accordingly
Nicht cool
Aus RFC 2606 Reserved Top Level DNS Names
four domain names are reserved ...
.test
.example
.invalid
.localhost
Vermischung von .example
und Firmennahmen ist nicht cool
http://myCompany.example.com
mycompany ist urheberrechtlich geschützt!
Übersicht 2
- Fallbeispiel W3C
- Organisation und Prozess: Charter, Working Group, Deliverables, ...
- Technische Aspekte und Werkzeuge
- Unvermeidbar: Patentrechtliche Fragen
- Konsensus und Schwierige Leute
- Die Sprache der Standards
- Identifikation und Versionierung
- Internationalisierungsaspekte
- Dokumentstruktur
- RFC 2119 Keywords, normative vs. informative
Internationalisierungsaspekte
Nutzung von Unicode und Referenz auf Unicode-Zeichen
- codepoint
U+002E
- Unicode name
full stop
- Unicode alias
dot
Internationalisierungsaspekte
Datumsangaben
Internationalisierungsaspekte
Vorbereitung auf Übersetzung
postal code
statt ZIP code
- Markierung von Schlüsselwörtern
The <code>title</code> attribute ...
- Vermeidung von Personalpronomen, z.B.
http://www.mybanana.com
auf Japanisch schwer übersetzbar
Übersicht 2
- Fallbeispiel W3C
- Organisation und Prozess: Charter, Working Group, Deliverables, ...
- Technische Aspekte und Werkzeuge
- Unvermeidbar: Patentrechtliche Fragen
- Konsensus und Schwierige Leute
- Die Sprache der Standards
- Identifikation und Versionierung
- Internationalisierungsaspekte
- Dokumentstruktur
- RFC 2119 Keywords, normative vs. informative
Dokumentstruktur: Vor dem Haupttext
- Titel und Sorte
- Versionsinformationen
- Autoren
- Rechte
- Zusammenfassung
Beispiel
Banane Version 1.0
Candidate Recommendation 20 Juli 2007
This version: http://standards.example.com/TR/2007/CR-banane5-20070720/
Latest version: ...
Editors: Herr Meyer
Copyright © 2007 W3C® (MIT, ERCIM, Keio), All Rights Reserved.
W3C liability, trademark and document use rules apply.
Abstract
This document defines the form and the content of bananas for international use. ...
Dokumentstruktur
- status section
- Hauptteil
- Normative Abschnitte
- Informative Abschnitte
- Anhang
- Normative Referenzen
- Weitere Referenzen
changelog
Unabdingbare Abschnitte
security considerations
in IETF Dokumenten
status section
in W3C Dokumenten
- Konformanzbeschreibungen
Die status section
- Stufe z.B.
Candidate Recommendation
- Eventuell
features at risk
Bananen mit braunen Punkten eventuell nicht implementiert
- Eventuell Implementationsreport
Zwei unabhängige Implementationen von Banane5 sind entwickelt worden.
Beide Implementationen passen in standardisierte Bananenpackungen.
- Name der Working Group
Banana Working Group
Die status section
: Was wird aus dem Dokument?
The Working Group expects to advance
this Working Draft to Recommendation Status.
oder zum Beispiel
The Working Group expects to advance
this Working Draft to Working Group Note.
Konformanz
- Was für Produkte, Prozesse, Services definiert die Spezifikation?
(1) Bananenfüllung, (2) Kombination von Füllung und Schale
- Anforderungen der Produkte:
Conformance Clause
(CC1) Bananenfüllung muss in Bananenschale passen.
(CC2) Kombination muss in standardisierte Bananenverpackungen passen.
Konformanz
- Definition verschiedener Konformanztypen (z.B. (1) und (2)) anhand der Conformance Clause
- Konformanz als Voraussetzung für Test von Implementationen
Übersicht 2
- Fallbeispiel W3C
- Organisation und Prozess: Charter, Working Group, Deliverables, ...
- Technische Aspekte und Werkzeuge
- Unvermeidbar: Patentrechtliche Fragen
- Konsensus und Schwierige Leute
- Die Sprache der Standards
- Identifikation und Versionierung
- Internationalisierungsaspekte
- Dokumentstruktur
- RFC 2119 Keywords, normative vs. informative
RFC 2119 Keywords
Übersetzung Aus RFC2119
MUST, MUST NOT, SHOULD, SHOULD NOT
MUST
ein unverzichtbares Merkmal
The banana MUST be yellow
MUST NOT
ein verbotenes Merkmal
The banana MUST NOT be pink
RFC 2119 Keywords
SHOULD
ein erwüschtes Merkmal; mit guten Gründen verzichtbar
The banana SHOULD be hard
SHOULD NOT
Gegenteil von SHOULD
The banana SHOULD NOT be soft
MAY
wirklich optional
The banana MAY be brown
RFC 2119 von vielen Spezifikationen referenziert
Normative
versus informative
- Unterscheidung durch Textabschnitte
This section is normative.
This section is informative.
- (Semi)Formale Notation
[1] banane := schale, füllung
[2] schale := ...
- Für XML Formate: Normative Schema (XML DTD, XML Schema, RELAX NG)
Varianten formaler Notationen
Vereinheitlichung wünschenswert ...
Übersicht 3
- Wer und warum: Standardisierung von
- Aktivitäten zum Bereich linguistischer Datenverarbeitung
- Zusammenfassung
Web Services Policy 1.5
- Web Services Policy Working Group
- 43 Mitglieder, 19 Organisationen
- Arbeit an zwei normativen Dokumenten
- Web Services Policy 1.5 - Framework
- Web Services Policy 1.5 - Attachment
Web Services Policy 1.5
- Drei informative Dokumente
- Web Services Policy 1.5 - Primer
- Web Services Policy 1.5 - Guidelines for Assertion Authors
- WSDL 1.1 Element Identifiers
- Test scenarios, test suite
- Implementationsentwicklung, Tests
Web Services Policy Working Group Arbeitsweise
- Agenda einer Telefonkonferenz mit 11 Punkten plus Unterpunkten
- 7 Editoren bearbeiten alle Dokumente
- 5 Dokumente nahezu vollendet innerhalb eines Jahres
Internationalization Tag Set (ITS) 1.0
Internationalization Tag Set (ITS) 1.0
- Zwei informative Dokumente
- Internationalization and Localization Markup Requirements
- Best Practices for XML Internationalization
- ITS 1.0 test suite
- Implementationsentwicklung, Tests
ITS Working Group Arbeitsweise
Unterschiede?
- Industrielles Interesse
- Bezug zu existierenden Technologien
- Relevanz für
- Softwarefirmen, versus
- Internet Nutzern
- Freiheitsgrad für Neuentwicklungen
Übersicht 3
- Wer und warum: Standardisierung von
- Aktivitäten zum Bereich linguistischer Datenverarbeitung
- Zusammenfassung
Aktivitäten zum Bereich linguistischer Datenverarbeitung
Fokussierung auf W3C- und IETF-Aktivitäten
- Sprachidentifikation
- Textrepräsentation und -manipulation
Locale
-bezogene Standardisierung
- Internationalisierung von XML
- Speech und Multimodalität
- Metadaten und semantische Ressourcen
IETF Standard BCP 47: Repräsentation und Verarbeitung von Sprachidentifikatoren
- Umfasst zur Zeit RFC 4646 ("Tags for Identifying Languages") und RFC 4647 ("Matching of Language Tags")
- (Nicht linguistische) Anwendungsgebiete:
- Sprachspezifisches layout
- Suche
- Vergleich
- Generelle Metadaten
- ...
- Linguistik: nachhaltige Korpuserzeugung und -verarbeitung
Beispiel: Sprachspezifisches Layout
<p xml:lang="zh-CN" lang="zh-CN">雪 zh-CN</p>
<p xml:lang="zh-HK" lang="zh-HK">雪 zh-HK</p>
<p xml:lang="ja" lang="ja">雪 ja</p>
<p xml:lang="ko" lang="ko">雪 ko</p>
雪 zh-CN
雪 zh-HK
雪 ja
雪 ko
Textrepräsentation und -manipulation
- Textrepräsentation / -auszeichnung mit Unicode und XML
- Textmanipulation mit XPath, XSLT, XQuery
- XQuery 1.0 and XPath 2.0 Full-Text
- Erweiterung von XQuery 1.0 und XPath 2.0 um:
- Operatoren für Wort und Phrasensuche
- Matchoptionen (Stemming, Diacritics, Stopwörter etc.)
- Nutzung von Zusatzinformationen (Lexika, Algorithmen etc.) implementationsabhängig
Volltextsuche: Beispiele
Variante Inputdaten:
<s><cl>Ich mag Gießen </cl> <cl>nicht aber Tokyo</cl></s>
<s><cl>Ich mag Gießen nicht</cl> <cl>aber Tokyo</cl></s>
übergreifende Suche:
//s[ftcontains "nicht" && aber" window 2 words]
Nutzung von BCP 47:
//s[ftcontains "mögen" with stemming language "de"]
Was ist eine "locale"?
- "A Set of User Preferences"
- Posix Locale Identifier: umfasst Zeichenkodierungsinformationen
- Locale mit oder ohne Sprachinformationen? Beispiel: Zeitzonen, Währung
- Normative Definition nicht möglich
- W3C: Nicht normative Beschreibung von
Language and Locale Identifiers for the World Wide Web
"locale" Identifier Beispiel
Unicode "Common Locale Data Registry" CLDR Locale Identifier:
locale_id := base_locale_id options?
base_locale_id := bcp_47_identifier
options := "@" key "=" type ("," key "=" type )*
Beispiel für "locale" spezifische Suche / Sortierung:
de_DE@collation=phonebook
Internationalisierung von XML
- Internationalization Tag Set (ITS) 1.0
- Bereitstellung von Markup und Verarbeitungsregeln für
- "Translate": Informationen zur (nicht) übersetzbarkeit
- "Localization Notes"
- "Terminology": Termidentifikation, Referenzen zu termbezogenen Informationen
- "Directionality": Direktionalitätsinformationen in Text mit verschiedenen Skripten
- "Ruby": Annotation z.B. zur Aussprache
- "Language Information": Identifikation von BCP 47 "language tags" Werten
- "Elements Within Text": Beschreibung von "nesting" Eigenschaften
ITS 1.0 Anwendungsszenarien
- Unterstützung von automatischen übersetzungstools
- Unterstützung von Lokalisierungstools
- Termextraktion
- Spellcheck Parametrisierung
- etc.
Speech und Multimodalität
- VoiceXML 2.1
- SISR ("Semantic Interpretation for Speech
Recognition")
- SSML 1.1 ("Speech Synthesis Markup Language")
- PLS 1.0 ("Pronunciation Lexicon Specification (PLS) Version
1.0")
- EMMA ("EMMA: Extensible MultiModal Annotation markup language")
Metadaten über Ressourcen / semantische Annotationen
- SWASDL ("Semantic Annotations for WSDL and XML Schema)"
<xs:element name="s"
sawsdl:modelReference="http://www.corpusdata.example.com/ontology/textualcorpus#s">
[...]
</xs:element>
Zukünftige Entwicklungen
Übersicht 3
- Wer und warum: Standardisierung von
- Aktivitäten zum Bereich linguistischer Datenverarbeitung
- Zusammenfassung
Zusammenfassung
- Beschreibung des
Was?
von Standardisierung
- Hintergrund
- Organisationen
- Strukturen
- Beschreibung des
Wie?
- Beispiel W3C
- Sprache von Standardisierung
- Beschreibung des
Wer und Warum?
von Standardisierung an zwei Beispielen