基于統(tǒng)計(jì)的技術(shù)自動化程度是
基于統(tǒng)計(jì)的技術(shù)和基于視覺特征的技術(shù)在多數(shù)情況下都涉及對待抽取內(nèi)容本身進(jìn)行區(qū)域劃分等處理,需要進(jìn)行人工干預(yù),因此,操作人員的主觀行為可能會造成區(qū)域劃分不合理,從而直接影響信息抽取的效果?;谀0宓募夹g(shù)需要依賴于表示待抽取位置的節(jié)點(diǎn)串,通常需要針對某一類待抽取對象進(jìn)行分析和標(biāo)記,總結(jié)出一個統(tǒng)一的模板節(jié)點(diǎn)串。盡管利用模板來抽取信息較為便捷,但生成模板的過程卻需要大量的人工操作?;贒OM樹結(jié)構(gòu)的技術(shù)針對Web網(wǎng)頁本身的結(jié)構(gòu)優(yōu)勢,通過對網(wǎng)頁樹進(jìn)行對比操作,就可以確定頁面內(nèi)主題信息的位置進(jìn)而實(shí)現(xiàn)信息的抽取,極少受到操作者主觀因素的影響。
基于統(tǒng)計(jì)的復(fù)雜性是
基于統(tǒng)計(jì)的技術(shù)在理論上易于實(shí)現(xiàn),但其難點(diǎn)在于確定一個合理的閾值。閾值的確定方法會對主題對象的確定產(chǎn)生直接的影響,并且對于不同種類的對象必須分別討論閾值。基于視覺特征的技術(shù)對對象的分塊更加注重可視化信息的組織形式?;贒OM樹結(jié)構(gòu)的技術(shù)不需要再對抽取對象進(jìn)行分塊處理,可以直接通過對比得出主題信息區(qū)域,但卻需要對每個對象都進(jìn)行同樣的處理,沒有充分利用已有的結(jié)果總結(jié)出針對同類相似對象進(jìn)行處理的統(tǒng)一方法?;谀0宓募夹g(shù)免去了對同類對象的重復(fù)操作,針對相似對象總結(jié)出統(tǒng)一的抽取模板,但在模板的生成方法和模板通用性方面還有待于改善。
標(biāo)簽: 基于統(tǒng)計(jì)的 技術(shù)自動 自動化程度是