Excluir todas as tags html de uma planilha do excel, preservando o texto entre

0

Oi eu tenho uma folha de excel que foi exportada diretamente de um banco de dados. Isso inclui várias strings, algumas das quais são tags html. Quero excluir todas as tags de link, por exemplo

(<a href="mylink" target="_blank">

mas mantenha todas as outras cordas intactas. Eu estava tentando fazer isso com um encontrar e substituir, mas eu não consigo descobrir um Regex que vai fazer isso e também trabalhar no excel. Eu vasculhei a rede, mas não consegui encontrar uma solução para isso.

Se eu fizer isso

<a href*>

Ele excluirá quase todo o conteúdo da planilha porque vai para a última tag de fechamento que pode encontrar. Existe uma maneira de refazer minha pesquisa para que ela receba a próxima tag de fechamento e não a última?

Samuel
fonte

Respostas:

0

O mais fácil, ou seja, apenas uma boa maneira que conheço é o uso do Lynx, o antigo navegador de modo de texto:
lynx --dump URL_or_HTML-file
- mas, então, você precisa encontrar uma maneira de executá-lo no Windows (por exemplo, cygwin ou WSL).

Oh ... mais uma coisa: você deve perceber; o que você está pedindo é essencialmente um navegador da web em toda a sua glória.

O lince é isso, mesmo com suas limitações e defeitos inerentes.

Exemplo:

$ lynx --dump www.google.se

   Sök [1] Imagens [2] Mapas [3] Play [4] YouTube [5] Nyheter [6] Gmail [7] Drive
   [8] Mer »
   [9] Webbhistorik | [10] Instabilidade | [11] Logga em

   Google

     _______________________________________________________
   Sugestões para o Google Jag har tur [12] Avancerad sökning
      [13] Språkverktyg

   Google på: [14] Inglês

   [15] Notícias do Google [16] Företagslösningar [17] + Google
   [18] Allt om Google [19] Google.com

                    © 2019 - [20] Sekretess - [21] Villkor

Referências

   1. http://www.google.se/imghp?hl=sv&tab=wi
   2. http://maps.google.se/maps?hl=sv&tab=wl
   3. https://play.google.com/?hl=sv&tab=w8
   4. http://www.youtube.com/?gl=SE&tab=w1
   5. http://news.google.se/nwshp?hl=sv&tab=wn
   6. https://mail.google.com/mail/?tab=wm
   7. https://drive.google.com/?tab=wo
   8. https://www.google.se/intl/sv/about/products?tab=wh
   9. http://www.google.se/history/optout?hl=sv
  10. http://www.google.se/preferences?hl=sv
  11. https://accounts.google.com/ServiceLogin?hl=sv&passive=true&continue=http://www.google.se/
  12. http://www.google.se/advanced_search?hl=sv&authuser=0
  13. http://www.google.se/language_tools?hl=sv&authuser=0
  14. http://www.google.se/setprefs?sig=0_aqHPilDIYLLsVqHCw93WtOpJW0k=&hl=pt&source=homepage&sa=X&ved=0ahUKEwifvrHulZHgAhXGjywKHVziBaIQ2ZgBCAQ
  15. http://www.google.se/intl/sv/ads/
  16. http://www.google.se/intl/sv/services/
  17. https://plus.google.com/103822168634868962761
  18. http://www.google.se/intl/sv/about.html
  19. http://www.google.se/setprefdomain?prefdom=US&sig=K_KnzY40g4UTDMelz-_ON-EEbQQGM=
  20. http://www.google.se/intl/sv/policies/privacy/
  21. http://www.google.se/intl/sv/policies/terms/
Hannu
fonte