PROJECT CONSULT Dr. Ulrich Kampffmeyer
|
|
| Archivierte alte Webseite - Datenschutzerklärung, Adressen und Links zu externen Seiten sind vielfach ungültig - Bitte besuchen Sie www.PROJECT-CONSULT.com Archived old Web Site - Privacy declaration, addresses and links to external web sites may be invalid - Please visit www.PROJECT-CONSULT.com | | Chancen und Risiken der automatischen Klassifikation | | | | | | PROJECT CONSULT Newsletter 20000307
| | | | | Die Klassifikation von Dokumenten, z. B. zur korrekten Einbringung in ein DMS, ist seit jeher das Nadelöhr in allen Systemen. Die ständig zunehmende Flut an Informationen und Dokumenten lässt den „Flaschenhals“ der Klassifikation und Indizierung immer enger werden. Dadurch gewinnt die Forderung nach Automatisierung und Vereinfachung bei der Dokumentenerfassung immer stärker an Bedeutung. Auf der diesjährigen CeBIT stellte sich das Thema als das kommende der nächsten Zeit dar. Obwohl das eigentliche BuzzWord „Content-Management“ das Umfeld und die Werbeaktivitäten der DRT-Anbieter bestimmt hat, haben die aktuellen und die zukünftigen „Schwergewichte“ der Branche erkannt, dass das eigentliche Problem nicht in der Verteilung der Informationen, sondern vielmehr in ihrer Erschließung und damit der Basis für Content, Knowledge und sonstigem Informationsmanagement liegt. Dabei sind die unter den jeweiligen Lösungsansätzen liegenden Technologien höchst unterschiedlich: Während Unternehmen, wie IBM (www.ibm.de), Docutec (www.docutec.de), CGK (www.cgk.de), Kleindienst (www.kleindienst.de), Wisent (www.wisent.de) und COI (www.coi.de) mit regelbasierten Algorithmen operieren, arbeiten die Produkte von Anbietern wie CE (www.ceag.com), EASY (www.easy.de) und SER (www.ser.com) mit Ansätzen, die im Bereich der künstlichen Intelligenz (KI) anzusiedeln sind. Diese beiden unterschiedlichen Ansätze bedingen auch unterschiedliche Vorgehensweisen im Umgang mit den zu klassifizierenden Dokumenten. Regelbasierte Ansätze setzen typischerweise eine manuelle Definition der zu unterscheidenden Dokumenttypen voraus. Dabei werden die Merkmale, die einen Dokumententyp bestimmen, dem System mitgeteilt und bei Veränderungen manuell nachgepflegt. „Intelligente“ Verfahren dagegen erkennen aufgrund der Dokumente selbst, welches die relevanten Unterscheidungskriterien sind. Daher bezeichnet man diese Verfahren auch als selbstlernend. Einer solchen Lösung muss lediglich eine gewisse Lernmenge an manuell klassifizierten Dokumenten mitgeteilt werden. Alle zukünftig anfallenden Dokumente können fortan automatisch klassifiziert werden. In Fällen, in denen sich das System nicht ausreichend sicher ist, wo ein Dokument einsortiert werden soll, muss dieses manuell geschehen. Der Grad für eine „sichere“ Einsortierung lässt sich durch Festlegung entsprechender Schwellwerte einstellen. Dieses erweitert dann die Lernmenge, so dass der hinzugekommene Fall zukünftig automatisch durch das System bearbeitet werden kann. Es wäre jedoch falsch zu behaupten, je größer die Lernmenge, desto besser kann das System die Dokumente klassifizieren, da mit einer überdimensionierten Lernmenge der Effekt des Übertrainierens eintritt, der dann zu falschen Klassifikationen und steigendem Korrekturaufwand führt. Nur durch die automatische Klassifikation von Dokumenten ist den Unternehmen allerdings wenig geholfen. Neben der rein technischen Betrachtungsweise steht für ein Unternehmen die Integration im Blickpunkt. Wertvoll sind dabei Lösungen, die die relevanten Daten aus den Dokumenten extrahieren und mit Informationen aus operativen Systemen abgleichen und diese dann ergänzen können. Besteht so doch die Möglichkeit, über den reinen Posteingang und seiner Verteilung hinaus weitere Prozesse, wie z. B. eine logische Rechnungsprüfung oder Vorkontierungen zu unterstützen und somit ebenfalls stark zu vereinfachen bzw. zu beschleunigen. Außer dem im Posteingang gescanntem Schriftgut sind auch die elektronisch in das Unternehmen gelangenden oder im Unternehmen erzeugten Dokumente in die Betrachtung miteinzubeziehen. Allerdings sind diese Hersteller meistens darauf angewiesen, die originären Dateiformate in reinen ASCII-Text zu wandeln, um die automatische Klassifikation durchführen zu können. Aus diesem Grund muss bei jedem Anbieter genau hinterfragt werden, welche Dateiformate als Quellformat überhaupt verarbeitet werden können. Besondere Probleme können Formate wie Adobe’s PDF bereiten, bei denen der eigentliche Inhalt gekapselt repräsentiert wird.
| | | | | Diese neuen Techniken bieten sich nicht nur für Firmen, die ein DMS neu und auf der grünen Wiese planen, an. Vielmehr ist dieser Ansatz auch für solche Unternehmen interessant, die mit Altlasten zu kämpfen haben und sich mit Migrations- oder Re-Indizierungsgedanken, z. B. aufgrund schlecht erschlossener Informationen, tragen. Dies hat seine Ursache darin, dass damals die heutigen Anforderungen an die Nutzung der Dokumente nicht abgesehen werden konnten und den Daten deshalb zu wenig Kriterien / Indizes mitgegeben worden sind. Heute hat man allerdings erkannt, dass die Erschließung der Wissensbasis in den Unternehmen einen wesentlichen Wettbewerbsvorteil darstellt. Allerdings dürften reine Klassifikations- und Indizierungsprodukte als Einzellösung kaum am Markt zu bekommen sein. Nicht zuletzt wegen der zu beobachtenden Konsolidierung am DRT-Markt ist festzustellen, dass die meist kleineren Anbieter solcher Speziallösungen aufgekauft und deren Lösungen in das vorhandene Produktportfolio als „unsichtbare“ Dienste eingegliedert werden (siehe dazu in diesem Newsletter die Beiträge „CE übernimmt Insiders IM“ und „ICR mit Quantensprung?“). Bei aller Begeisterung, die sich durch die Möglichkeiten dieser neuen Technologie ergibt, muss deutlich gemacht werden, dass wir hier erst am Anfang der Entwicklungen stehen. Zum einen müssen die auf KI basierenden Ansätze noch beweisen, dass sie auch mit großen Dokumentenmengen performant arbeiten können. Vielfach fehlen noch die Anbindungen bzw. Schnittstellen an das Archivsystem und Datenbanken. Und schließlich bleibt die Antwort auf die Frage offen, welcher Overhead durch die Lernmenge bei großen Dokumentenvolumen entsteht. Betrachtet man noch einmal die Produkte der eingangs erwähnten Hersteller, so lässt sich folgendes feststellen: Im Bereich der KI kann die Lösung von CE mit der gerade hinzugekauften Produktpalette der Firma Insiders als am innovativsten beurteilt werden. Im Bereich der klassischen regelbasierten Systeme hingegen hat IBM zweifelsfrei die Nase vorn. Nicht zuletzt wegen der praxiserprobten Einsätze, in denen die performante Verarbeitung von hochvolumigen Dokumenteneingängen unter Beweis gestellt worden ist. (RG/FvB)
| | | |
| | | |
|
Seitentitel: Artikel_Diskussion_2000_Klassifikation, Zitierung: http://www.pc.qumram-demo.ch/portal.asp?SR=656 Zuletzt aktualisiert am: 21.6.2004
| |
CopyRight © 1992-2012 PROJECT CONSULT Unternehmensberatung Dr. Ulrich Kampffmeyer GmbH 20251 Hamburg, Breitenfelder Str. 17, Tel.: +49-40-46076220, E-Mail, Rechtshinweis Optimiert für MS Explorer 5.x, 6.x, 1024x768 Pixel, Cookies(on), JavaScript(on) | | Archivierte alte Webseite - Datenschutzerklärung, Adressen und Links zu externen Seiten sind vielfach ungültig - Bitte besuchen Sie www.PROJECT-CONSULT.com Archived old Web Site - Privacy declaration, addresses and links to external web sites may be invalid - Please visit www.PROJECT-CONSULT.com |
|
|
|