Hallo Leute,
ich habe in einem Text (UTF-8), der von der OCR-Software Tesseract produziert wird, das Problem, daß ich die Zeilenumbrüche per Batch oder VBS löschen möchte. VBA usw. hilft mir nicht.
Wer hat da einen Tipp?
Danke!!!
Hallo Leute,
ich habe in einem Text (UTF-8), der von der OCR-Software Tesseract produziert wird, das Problem, daß ich die Zeilenumbrüche per Batch oder VBS löschen möchte. VBA usw. hilft mir nicht.
Wer hat da einen Tipp?
Danke!!!
Hallo,
ich kenne die Software nicht, deshalb würde ich erst ein kleines Programm schreiben, mit dem ich herausfinden würde, wie der Zeilenumbruch aussieht. Dazu würde ich in etwa abschätzen, bei welchem Zeichen etwa der erste Zeilenumbruch steht und von diesem Bereich die ASCII-Werte der Zeichen auflisten lassen.
Vermutlich wird der Zeilenumbruch durch VbCrLf, also Chr(10);Chr(13) realisiert sein. Auf Unix(Linux) Systemen ist das meist nur Chr(19), das muss man also kontrollieren.
Dann kann man ja in einer Schleife nach Zeichenumbrüchen suchen und diese entfernen: Etwa …
Umbruch = Chr(10) & Chr(13)
Do
Position = Instr(Text, Umbruch)
If Position 0 Then
Mid(Text, Position,2) = „“
End If
Loop While Position 0
Ungetestet, da kann noch ein Fehler drin stecken. Ich hab’s nur hier im Browser schnell getippt. Das soll nur ein Denkanstoß sein. So etwa müsste es gehen, denke ich.
Gruß Chewpapa
Geht auch ohne Schleife
Hallo Chewpapa,
hier eine etwas kürzere Version:
Umbruch = Chr(10) & Chr(13)
Text = Replace(Text, Umbruch, "")
Gruß, Andreas
Hallo Andreas,
Grundsätzlich hast Du Recht, aber ich glaube, Replace gibt es nur in VB6 oder .NET. VBS kann das nicht.
Gruß Chewpapa
Genau!
Ich kann das Zeichen über Winword löschen, dann ist es ein ^p
Nur der Weg ist zu umständlich.
(Tesseract ist eine freie OCR-Software.)
Aber letztlich ist es egal, wie man es macht, solange es eine Lösung gibt.
Noch jemand einen Tipp für mich? In Sachen VB6 etc. bin ich zu unbeleckt.
Hallo Chewpapa,
sorry, ich war von VBA ausgegangen.
Aber laut MS gibt’s das auch in VBScript:
http://msdn.microsoft.com/en-us/library/238kz954(v=v…
Gruß, Andreas
Dann bin ich schon ganz still. Da hab’ ich mir wohl etwas falsch gemerkt.
Replace ist natürlich viel eleganter, nicht so Fehleranfällig und viel schneller.
Der Vorschlag von Andreas mit Replace bezieht sich auf VBS.