✍️ 🧑‍🦱 💚 Autor:innen verdienen bei uns doppelt. Dank euch haben sie so schon 418.243 € mehr verdient. → Mehr erfahren 💪 📚 🙏

Estrazione dei dati del web profondo basata sulla visione per il raggruppamento dei documenti web

Estrazione dei dati del web profondo basata sulla visione per il raggruppamento dei documenti web

von M. Lavanya
Softcover - 9786205023549
79,90 €
  • Versandkostenfrei
Auf meine Merkliste
  • Hinweis: Print on Demand. Lieferbar in 5 Tagen.
  • Lieferzeit nach Versand: ca. 1-2 Tage
  • inkl. MwSt. & Versandkosten (innerhalb Deutschlands)

Autorenfreundlich Bücher kaufen?!

Beschreibung

L'approccio VDEC comprende due fasi: 1) estrazione dei dati web basata sulla visione e 2) raggruppamento dei documenti web. Nella fase 1, le informazioni della pagina Web vengono segmentate in vari chunk, dai quali vengono rimossi il rumore in eccesso e i chunk duplicati utilizzando tre parametri, quali la percentuale di collegamenti ipertestuali, il punteggio del rumore e la somiglianza del coseno. Per identificare i chunk rilevanti, vengono utilizzati tre parametri, quali la rilevanza del titolo, la selezione dei chunk basata sulla frequenza delle parole chiave e le caratteristiche della posizione, per poi estrarre un insieme di parole chiave da questi chunk principali. Infine, le parole chiave estratte vengono sottoposte a clustering dei documenti web utilizzando il Fuzzy C-Means clustering (FCM). L'estrazione di dati web profondi basata sulla visione proposta è stata implementata e testata utilizzando un set di dati sintetici. I risultati sono stati confrontati con i due algoritmi esistenti, il ViDE (Vision-based Data Record Extraction) e l'MDR (Mining Data Region). Dai risultati sperimentali eseguiti su due diversi set di dati sintetici, è emerso che il metodo VDEC proposto è in grado di ottenere risultati stabili e buoni, con un valore di precisione di circa il 99,2% e il 99,1% in entrambi i set di dati con diversi valori di soglia.

Questo lavoro propone un approccio all'estrazione di dati web profondi basato sulla visione per il clustering dei documenti web (VDEC)

Details

Verlag Edizioni Sapienza
Ersterscheinung 28. Juli 2022
Maße 22 cm x 15 cm x 1.2 cm
Gewicht 298 Gramm
Format Softcover
ISBN-13 9786205023549
Seiten 188