Como alguém pode analisar HTML / XML e extrair informações
Como alguém pode analisar HTML / XML e extrair informações
Fechado . Esta questão precisa ser mais focada . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela se concentre apenas em um problema editando esta postagem . Fechado há 6 anos . Estou pensando...
Eu procurei uma solução, mas nada era relevante, então aqui está o meu problema: Eu quero analisar uma string que contém texto HTML. Eu quero fazer isso em JavaScript. Eu tentei esta biblioteca, mas parece que ela analisa o HTML da minha página atual, não de uma string. Porque quando tento o...
Parece que todas as perguntas no stackoverflow em que o solicitante está usando o regex para obter algumas informações do HTML terão inevitavelmente uma "resposta" que diz para não usar o regex para analisar o HTML. Por que não? Estou ciente de que existem analisadores HTML "reais" entre aspas,...
Atualmente, essa questão não se encaixa no nosso formato de perguntas e respostas. Esperamos que as respostas sejam apoiadas por fatos, referências ou conhecimentos, mas essa pergunta provavelmente solicitará debate, argumentos, pesquisas ou discussão prolongada. Se você acha que...
Estou procurando um módulo Parser HTML para Python que possa me ajudar a obter as tags na forma de listas / dicionários / objetos em Python. Se eu tiver um documento do formulário: <html> <head>Heading</head> <body attr1='val1'> <div class='container'> <div...
Qual é a melhor maneira de selecionar todo o texto entre duas tags - ex: o texto entre todas as tags 'pré' na
Eu vejo perguntas todos os dias perguntando como analisar ou extrair algo de alguma string HTML e a primeira resposta / comentário é sempre "Não use RegEx para analisar HTML, para não sentir a ira!" (essa última parte às vezes é omitida). Isso é um pouco confuso para mim, sempre pensei que, em...
Eu preciso analisar (lado do servidor) grandes quantidades de páginas HTML. Todos concordamos que regexp não é a melhor opção aqui. Parece-me que o javascript é a maneira nativa de analisar uma página HTML, mas essa suposição se baseia no código do lado do servidor com toda a capacidade DOM que o...
Eu tenho um arquivo parecido com este: <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="content_analyzer2" primary-key="id"> <type="global" /> </table> <table name="content_analyzer_items"