Divné chování file.read() a re.sub()

Fórum › Python

xxxObiWan 0

Duch

9. 2. 2011 #1

Ahoj, píšu si takový menší projekt v pythonu a potřebuji nahrazovat obsah txt souboru pomocí regulárních výrazů. A tady je problém, chová se to nějak divně.

Například když chci (teď jen z testovacích důvodů) odstranit z obsahu souboru všechny bílé znaky:
soubor test.py:

# -*- coding: utf8 -*-

import os, sys, re



file = open('test.txt', 'r')

content = file.read()

file.close()



print re.sub(r'\s*', '', content, re.MULTILINE|re.DOTALL|re.UNICODE)

soubor test.txt:

; 

ahoj tady prográmator



ahoj tady prográmator 

ahoj tady prográmator 

ahoj tady prográmator 

ahoj tady prográmator 



ahoj tady prográmator 

ahoj tady prográmator

výstup:

;ahojtadyprográmatorahojtadyprográmatorahojtadyprográmator 

ahoj tady prográmator 

ahoj tady prográmator 



ahoj tady prográmator 

ahoj tady prográmator

Prostě náhrada se provede asi 10x (mezery a zalomení řádků) a zbytek obsahu to ignoruje. Oba soubory jsou v kódování utf-8. Už ten problém řeším od včerejška a nevím si s tím rady.

Děkuji za pomoc

Nahlásit jako SPAM

IP: 213.29.146.–

Blog.Glor.cz - blog nejenom o cestování

sputnikone +1

Věrný člen

9. 2. 2011 #2

To xxxObiWan : Zkus odstranit všechny nastavené flags

Nahlásit jako SPAM

IP: 147.251.201.–

xxxObiWan 0

Duch

9. 2. 2011 #3

No to jsem z toho jelen... Doopravdy to funguje, moc díky. Dokázal bys vysvětlit, proč ty přepínače (nebo jak se to nazývá v pythonu) udělaly takové problémy?

Nahlásit jako SPAM

IP: 213.29.146.–

sputnikone +1

Věrný člen

9. 2. 2011 #4

To xxxObiWan :



#!/usr/bin/env python

# -*- coding: utf-8 -*-

 

import os, sys, re

  

file = open('test.txt', 'r')

content = file.read()

file.close()



print re.sub(r'\s*', '', content, flags=re.MULTILINE|re.DOTALL|re.UNICODE)

:smile1:

Nahlásit jako SPAM

IP: 147.251.201.–

xxxObiWan 0

Duch

9. 2. 2011 #5

To hodí chybu

sub() got an unexpected keyword argument `flags`

Jak jsem pochopil z http://forums.devshed.com/python-programming-11/string-match-and-replace-733417.html, tak flagy se dají používat jen v příkazu re.compile()

takže pokud to někomu pomůže, správně bez errorů je to takto:

# -*- coding: utf8 -*-

import os, sys, re



file = open('test.txt', 'r')

content = file.read()

file.close()



pattern = re.compile(r'\s*', flags=re.MULTILINE|re.DOTALL|re.UNICODE)

print re.sub(pattern, '', content)

Nahlásit jako SPAM

IP: 213.29.146.–

sputnikone +1

Věrný člen

9. 2. 2011 #6

To xxxObiWan : To je nestandardní chování, alespoň dle oficiální dokumentace http://docs.python.org/library/re.html#module-contents. Jakou verzi Pythonu používáš? Já jsem to testoval na 2.7 a 3.1.2.

Nahlásit jako SPAM

IP: 147.251.201.–

xxxObiWan 0

Duch

9. 2. 2011 #7

Měl bych mít 2.6, stahoval jsem jí tak před rokem, když jsem se v pythonu začal učit. Od té doby až do teď jsem na python ani nesáh :-D takže nevím, jestli se vyplatí stahovat si nějakou novější verzi.

Nahlásit jako SPAM

IP: 213.29.146.–

nervak 0