Ein Delta-Rätsel: Nicht-normalisierte mittelhochdeutsche Texte, Z-Wert-Begrenzung und ein Normalisierungswörterbuch. Oder: Auf welche Wörter kommt es bei Delta an?

2017 | working paper

Jump to: Cite & Linked | Documents & Media | Details | Version history

Cite this publication

​Ein Delta-Rätsel: ​Nicht-normalisierte mittelhochdeutsche Texte, Z-Wert-Begrenzung und ein Normalisierungswörterbuch. Oder: Auf welche Wörter kommt es bei Delta an?​ (​​DARIAH-DE Working Papers​, 25​​)
Dimpel, F. M.​ (2017)
Göttingen​: DARIAH-DE.

Documents & Media

dwp-2017-25.pdf2.74 MBAdobe PDF

License

Attribution 4.0 CC BY 4.0

Details

Authors
Dimpel, Friedrich Michael
Abstract
Bei nicht-normalisierten mittelhochdeutschen Texten liegt die Erkennungsquote bei Autorschaftsanalysen mit Burrows’ Delta deutlich unter der Quote für normalisierte Texte. Mit zwei Optimierungsverfahren – der Z-Wert-Begrenzung und dem Einsatz eines Normalisierungswörterbuchs – gelingt es, die Erkennungsquote um 11% zu verbessern. Die Z-Wert-Begrenzung dämpft den Einfluss von Ausreißerwerten, das Normalisierungswörterbuch erlaubt ein Mapping von nicht-normalisierten auf normalisierte Wortformen, um eine bessere Vergleichbarkeit verschiedener Texte herzustellen. Erstaunlich ist jedoch, dass beide Verfahren nicht jeweils anteilig zu einem Verbesserungseffekt beitragen, der sich auf 11% summieren lassen würde: Wendet man nur die Z-Wert-Begrenzung an, kommt es sogar zu einer geringen Verschlechterung. Analysen fördern zwar keine einfache Erklärung dieses Rätsels zutage, sie bieten jedoch einige Erkenntnisse darüber, bei welchen Z-Wert-Konstellationen eine Autorerkennung erschwert wird. Einzeltestanalysen zeigen, welche Konsequenzen jeweils Normalisierungswörterbuch und Z-Wert-Begrenzung für den Vergleich von zwei Texten haben. Beispielsweise führt der Einsatz des Normalisierungswörterbuchs dazu, dass nicht etwa weniger, sondern mehr nicht-normalisierte Wortformen in den Bereich der untersuchten Most Frequent Words (MFWs) gelangen. Während man annehmen könnte, dass Wortformen, bei denen hohe Z-Wert auftreten, spezifisch für einen Autor sein könnten, zeigt sich, dass bei diesen Wortformen häufig auch hohe Z-Wert-Differenzen zu einem Vergleichstext des gleichen Autors vorliegen. Und während man annehmen könnte, dass hohe Z-Wert-Differenzen zwischen zwei Texten des gleichen Autors einer korrekten Autorerkennung meist entgegenstehen würden, zeigt sich in einer Testreihe, dass bei diesen Wortformen die Differenz der Z-Werte zu einem Vergleichstext eines anderen Autors häufig noch größer sind. Bildet man erstens die Z-Wert-Differenz zwischen einem Untersuchungstext und einem Vergleichstext eines anderen Autors und zweitens die Z-Wert-Differenz zwischen dem ersten Untersuchungstext und einem Vergleichstext des gleichen Autors und sodann die Differenz dieser beiden Differenzen (Leveగ-2-Dଆfferenz), so lässt sich sagen, dass bei einer positiven Level-2-Differenz die jeweilige Wortform gut geeignet ist, um den ersten Text vom Vergleichstext des anderen Autors zu unterscheiden; ist die Level-2-Differenz negativ, so steht diese Wortform einer korrekten Autorerkennung entgegen. Das Auftreten negativer Level-2-Differenzen wird durch das Normalisierungswörterbuch deutlich reduziert; die Z-Wert-Begrenzung verstärkt in manchen Bereichen mitunter vorhandene Differenzen. Bei diesen Analysen wurde (als Serendipitätseffekt) nebenbei eine Möglichkeit entdeckt, störende Features zu eliminieren, die bei Use-Case-Szenarios dann interessant sein könnte, wenn kürzere Texte vorliegen, bei denen es zweckmäßig ist, alle Mittel zur Verbesserung der Erkennungsquote auszuschöpfen.
Issue Date
2017
Publisher
DARIAH-DE
Series
DARIAH-DE Working Papers 
Extent
34
Language
German

Reference

Citations