Back to Question Center
0

Semalt klarigas kiel eltiri la datumojn bezonitajn de HTML-retejoj

1 answers:

Granda kvanto da informoj prezentitaj en la reto estas "nestrukturita" ĉar Ĝi ne estas organizita konvene. HTML-retejoj estas malsamaj en la maniero, ke ili enhavas organizitajn dokumentojn, kaj la teksto prezentita en la dokumentoj estas strukturita ene de la suba HTML-kodo.

Ekzistas tri ĉefaj datumoj eltirataj metodoj de HTML-retejoj:

  • Ŝpari la tekston enhavan retpaĝon al via komputilo;
  • Skribante la kodon por eltiraĵo de datumoj;
  • Uzante specialajn eltrajnajn ilojn;

1. Kiel ĉerpi HTML de la retejo sen kodigo

Vi ​​povas skrapi retpaĝon enhavon uzante la paŝojn priskribitajn sube:

Eltiraĵo teksto nur

Post malfermado de retpaĝo enhavanta la tekston, kiun vi volas, dekstra klako kaj elektu la "Konservi paĝon kiel," aŭ "Konservi kiel" opcion - website creation company. Tajpu nomon por la dosiero en la kampo "File Name" kaj de la menuo malsupren "Save as Type", elektu "Retpaĝon, HTML nur. "Alklaku la butonon" Konservi "kaj atendu kelkajn sekundojn.

La tuta teksto en tiu paĝo estas ĉerpita kaj konservita kiel HTML-dosiero. La originalaj paĝoj-formataj opcioj restas nerompitaj, kaj vi povas redakti la enhavon en tiaj redaktistoj kiel Notepad.

Elprenante tutan retpaĝon

Elektu la opcion "Konservi kiel" aŭ "Konservi paĝon kiel" en la menuo "Dosiero". Poste, alklaku "Retpagxon, Kompleta" el la menuo malsupren "Save as Type". Post klaki "Konservi", la teksto kaj bildoj estos eltiritaj de la paĝo kaj konservos, kien ajn vi volas. La teksto estas metita en HTML-dosieron dum la bildoj estas konservitaj en dosierujo.

2. Eltiri HTML de retejo per kodigo

Vi ​​povas labori rekte kun HTML-dosieroj per specialaj iloj. Ankaŭ vi povas krei kodon por forigi ĉiujn HTML-etikedojn kaj konservi tekston en HTML-dosierojn per XPath aŭ regula esprimo. Kelkaj el la plej popularaj programlingvoj por ĉi tiu tasko inkluzivas Python, Java, JS, Go, PHP kaj NodeJs.

3. Uzante retpaĝajn ilojn de retejo

Se vi nur volas ĉerpi HTML-dosierojn de retejo sen skribi solan linion de kodo aŭ eviti la torturon de la kopio kaj elmeti la metodon, uzu retrapetojn ilojn. Fakte, ekzistas multaj helpemaj iloj, kiuj povas rikolti la necesan informon de retejo kaj poste konverti ĝin en la strukturitan formaton. Nur provu kelkajn skrapanta ilon s, kaj vi certe trovos la plej taŭga por viaj frapantaj bezonoj.

December 22, 2017