jsoup: Java HTML Scrapper - Reviżjoni ta 'Semalt

jsoup huwa repożitorju Java li jeżegwixxi HTML. Huwa mgħammar b'API effiċjenti u effettiv li jiġbor, janalizza, u jimmaniġġja d-dejta, bl-użu tad-DOM, CSS, u metodi simili ta 'jquery.

Programmaturi jsoup u disinjaturi tal-web jistgħu jiżviluppaw dokumenti minn fajls ta 'sors tal-web mingħajr ma jisfiguraw l-istruttura tal-fajls tas-sors. Wara li rkupraw il-fajls, l-utenti jsoup jistgħu jikkonfiguraw mill-ġdid jew iddisinjaw mill-ġdid l-elementi tal-istruttura kollha jew komponenti tal-element billi jżidu jew jimmodifikaw l-elementi jew il-kontenut jew it-tnejn.

L-għodda hija mibnija b'aġilità estensiva biex tipprovdi interface ta 'programmazzjoni flessibbli u standard għall-utenti fi ħdan diversità wiesgħa ta' ambjent tal-web u applikazzjonijiet. Dan jagħti lill-utent tiegħu l-aċċess meħtieġ biex ibiddel, iħassar, jew iżid komponenti mad-derivazzjonijiet tagħhom.

jsoup jista 'jiddekowdja u jiddiżintegra d-dejta f'kostitwenti iżgħar għal traduzzjoni faċli f'formati oħra. Id-dejta tal-input tkun imminata fil-forma ta 'progressjoni algoritmika li hija magħmula minn kodiċi ta' struzzjonijiet inkorporati fil-ġbir jew siġra tad-derivazzjoni. Hija mibnija biex tifhem u tintegra komponenti HTML b’tali mod li tkun tista ’tirkupra kostitwenti tal-fajl b’tali flessibilità skont l-istruttura tal-kodifikazzjoni. Kif tagħmel dan? Huwa jitkaxkar u jinbarax il-paġna tal-web kollha għall-aċċess u l-mudell biex jaqbad id-dejta. Jekk id-derivazzjoni tad-data tkun possibbli, din tipproċedi billi:

In-navigazzjoni u l-analiżi tas -siġra parse mill-ogħla livell tagħha permezz tal-istruttura tal-konfigurazzjoni sal-iktar livell baxx tagħha meta wieħed iqis kull komponent tad-dejta. Dan l-approċċ jissejjaħ il-metodu ta 'analizzar minn fuq għal isfel.

Brix ta 'data mill-iktar livell baxx ta' l-istruttura, tanalizza kull komponent tad-data, permezz tal-kompożizzjonijiet intermedjarji sal-parti ta 'fuq tas-siġra ta' analizzatur jew derivazzjoni.

jsoup hija soluzzjoni effettiva li tgħaddi minn multiplikazzjoni ta 'operazzjonijiet kumplessi f'sekondi maqsuma minħabba d-disinn avvanzat tagħha. Il-proċess normalment jinkludi suċċessjoni ta 'tliet stadji bażiċi minn:

1. Il-frammentazzjoni tal-karattri estratti u d-dejta f'pakketti iżgħar aktar sempliċi, u l-analiżi ta 'dawn il-bits ta' karattri u dejta li toħloq.

2. Interpretazzjoni li tista 'tinqara u tinġabar bil-lingwa tal-magna li tkun kapaċi tqiegħed l-elementi tad-dejta f'ordni ta' preferenza u tista 'tintuża biex tipproduċi

3. L-espressjonijiet elettroniċi li jiffurmaw biċċiet ta 'informazzjoni li huma tal-konfigurazzjoni meħtieġa, il-valur u r-rilevanza għall-utent.

huwa kompatibbli ma 'jsoup u kapaċi jwettaq struttura vasta ta' skripts HTML, interface tal-lingwa, programmi u stil ta 'dokument inklużi r-rekwiżiti ta' WhatWG HTML5. Huma kapaċi jirrisolvu strutturi HTML bl-istess Mudell ta 'Oġġett ta' Dokument bħall-applikazzjonijiet tas-software tal-web użati għall-estrazzjoni, navigazzjoni u preżentazzjoni ta 'dejta u riżorsi ta' informazzjoni fuq il-World Wide Web.

jsoup għandu l-abbiltà li:

  • jinbarax u jispara l-HTML minn URL, fajl jew sekwenza
  • issib u tiskopri data, billi tuża traversers DOM jew seletturi CSS
  • isaħħaħ l-elementi, attributi u test HTML
  • tħassar kontenut sottomess mill-utent kontra lista bajda sigura, biex tevita attakki XSS
  • jagħti HTML pulit

Is-softwer huwa mibni biex isolvi t-tipi kollha ta 'HTML irrispettivament mill-konfigurazzjoni: minn verġni u validazzjoni, sa soppa tat-tikketta invalida: se jsoup toħloq l-istruttura mixtieqa mixtieqa.