Wat zijn ensemblemethoden?

Ensemble-methoden zijn technieken die gericht zijn op het verbeteren van de nauwkeurigheid van resultaten in modellen door meerdere modellen te combineren in plaats van één model te gebruiken. De gecombineerde modellen verhogen de nauwkeurigheid van de resultaten aanzienlijk. Dit heeft de populariteit van ensemble-methoden bij machine learning een boost gegeven.

Ensemble-methoden

Korte samenvatting

  • Ensemble-methoden zijn gericht op het verbeteren van de voorspelbaarheid in modellen door verschillende modellen te combineren tot één zeer betrouwbaar model.
  • De meest populaire ensemble-methoden zijn boosting, bagging en stacking.
  • Ensemble-methoden zijn ideaal voor regressie en classificatie, waar ze bias en variantie verminderen om de nauwkeurigheid van modellen te vergroten.

Categorieën van ensemblemethoden

Ensemblemethoden vallen in twee brede categorieën, namelijk sequentiële ensemble-technieken en parallelle ensemble-technieken. Sequentiële ensemble-technieken genereren basisleerders in een reeks, bijvoorbeeld Adaptive Boosting (AdaBoost). Het opeenvolgend genereren van basisleerders bevordert de afhankelijkheid tussen de basisleerders. De prestaties van het model worden vervolgens verbeterd door hogere gewichten toe te kennen aan eerder verkeerd voorgestelde leerlingen.

In parallelle ensembletechnieken worden basisleerders gegenereerd in een parallel formaat, bijv. Random forest Random Forest Random forest is een techniek die wordt gebruikt bij het modelleren van voorspellingen en gedragsanalyse en is gebouwd op beslissingsbomen. Een willekeurig bos bevat veel beslissingsbomen. Parallelle methoden maken gebruik van de parallelle generatie van basisleerders om de onafhankelijkheid tussen de basisleerders aan te moedigen. De onafhankelijkheid van basisleerders vermindert de fouten aanzienlijk als gevolg van de toepassing van gemiddelden.

De meeste ensemble-technieken passen een enkel algoritme toe bij basisleren, wat resulteert in homogeniteit bij alle basisleren. Homogene basisleerders verwijst naar basisleerders van hetzelfde type, met vergelijkbare kwaliteiten. Andere methoden passen heterogene basisleerders toe, waardoor heterogene ensembles ontstaan. Heterogene basisleerders zijn leerlingen van verschillende typen.

Belangrijkste soorten ensemblemethoden

1. Opzakken

Bagging, de korte vorm voor bootstrap-aggregatie, wordt voornamelijk toegepast bij classificatie en regressie. Regressieanalyse Regressieanalyse is een reeks statistische methoden die worden gebruikt voor het schatten van relaties tussen een afhankelijke variabele en een of meer onafhankelijke variabelen. Het kan worden gebruikt om de sterkte van de relatie tussen variabelen te beoordelen en om de toekomstige relatie daartussen te modelleren. . Het verhoogt de nauwkeurigheid van modellen door het gebruik van beslissingsbomen, waardoor de variantie grotendeels wordt verminderd. De vermindering van variantie verhoogt de nauwkeurigheid, waardoor overfitting wordt geëlimineerd, wat een uitdaging is voor veel voorspellende modellen.

Bagging is onderverdeeld in twee typen, namelijk bootstrapping en aggregatie. Bootstrapping is een steekproeftechniek waarbij steekproeven worden afgeleid van de hele populatie (set) met behulp van de vervangingsprocedure. De steekproef met vervangingsmethode helpt om de selectieprocedure gerandomiseerd te maken. Het basisleeralgoritme wordt op de monsters uitgevoerd om de procedure te voltooien.

Aggregatie bij het opvangen wordt gedaan om alle mogelijke uitkomsten van de voorspelling op te nemen en de uitkomst willekeurig te maken. Zonder aggregatie zullen voorspellingen niet nauwkeurig zijn, omdat niet alle uitkomsten in aanmerking worden genomen. De aggregatie is daarom gebaseerd op de waarschijnlijkheids-bootstrapping-procedures of op basis van alle uitkomsten van de voorspellende modellen.

Bagging is voordelig omdat zwakke basisleerders worden gecombineerd om één sterke leerling te vormen die stabieler is dan alleenstaande leerlingen. Het elimineert ook elke variantie, waardoor de overfitting van modellen wordt verminderd. Een beperking van het inpakken is dat het rekenkundig duur is. Het kan dus leiden tot meer vertekening in modellen wanneer de juiste procedure voor het inpakken wordt genegeerd.

2. Stimuleren

Boosting is een ensemble-techniek die leert van eerdere voorspelfouten om in de toekomst betere voorspellingen te doen. De techniek combineert verschillende zwakke basisleerders om één sterke leerling te vormen, waardoor de voorspelbaarheid van modellen aanzienlijk wordt verbeterd. Het stimuleren van werken door zwakke leerlingen in een reeks te rangschikken, zodat zwakke leerlingen leren van de volgende leerling in de reeks om betere voorspellende modellen te creëren.

Boosting kan vele vormen aannemen, waaronder gradiëntversterking, Adaptive Boosting (AdaBoost) en XGBoost (Extreme Gradient Boosting). AdaBoost maakt gebruik van zwakke leerlingen in de vorm van beslissingsbomen, die meestal één splitsing bevatten die in de volksmond bekend staat als beslissingsstronken. De belangrijkste beslissingsstomp van AdaBoost omvat observaties met vergelijkbare gewichten.

Gradient boosting Gradient boosting Gradient boosting is een techniek die wordt gebruikt bij het maken van modellen voor voorspelling. De techniek wordt vooral gebruikt bij regressie- en classificatieprocedures. voegt voorspellers sequentieel toe aan het ensemble, waarbij voorgaande voorspellers hun opvolgers corrigeren, waardoor de nauwkeurigheid van het model toeneemt. Nieuwe voorspellers zijn geschikt om de effecten van fouten in de vorige voorspellers tegen te gaan. De dalingsgradiënt helpt de gradiëntbooster bij het identificeren van problemen in de voorspellingen van leerlingen en deze dienovereenkomstig tegen te gaan.

XGBoost maakt gebruik van beslissingsbomen met een verhoogde hellingshoek, waardoor de snelheid en prestaties worden verbeterd. Het is sterk afhankelijk van de rekensnelheid en de prestaties van het doelmodel. Modeltraining moet een reeks volgen, waardoor de implementatie van machines met gradiëntverhoging traag wordt.

3. Stapelen

Stapelen, een andere ensemble-methode, wordt vaak gestapelde generalisatie genoemd. Deze techniek werkt door een trainingsalgoritme toe te staan ​​verschillende andere soortgelijke voorspellingen van leeralgoritmen te combineren. Stapelen is met succes geïmplementeerd in regressie, dichtheidsschattingen, afstandsonderwijs en classificaties. Het kan ook worden gebruikt om het foutenpercentage tijdens het opzakken te meten.

Variantie reductie

Ensemble-methoden zijn ideaal om de variantie in modellen te verkleinen, waardoor de nauwkeurigheid van voorspellingen toeneemt. De variantie wordt geëlimineerd wanneer meerdere modellen worden gecombineerd om een ​​enkele voorspelling te vormen die wordt gekozen uit alle andere mogelijke voorspellingen uit de gecombineerde modellen. Een ensemble van modellen is het combineren van verschillende modellen om ervoor te zorgen dat de resulterende voorspelling de best mogelijke is, gebaseerd op de overweging van alle voorspellingen.

Aanvullende bronnen

Finance is de officiële aanbieder van de wereldwijde Certified Banking & Credit Analyst (CBCA) ™ CBCA ™ -certificering De Certified Banking & Credit Analyst (CBCA) ™ -accreditatie is een wereldwijde standaard voor kredietanalisten die betrekking heeft op financiën, boekhouding, kredietanalyse en cashflowanalyse , convenantmodellering, terugbetalingen van leningen en meer. certificeringsprogramma, ontworpen om iedereen te helpen een financiële analist van wereldklasse te worden. Om uw carrière verder te ontwikkelen, zijn de onderstaande aanvullende financiële bronnen nuttig:

  • Elastic Net Elastic Net Elastic net gebruikt lineair de straffen van zowel de lasso- als de noktechniek om regressiemodellen te regulariseren. De techniek combineert zowel de lasso als
  • Overfitting Overfitting Overfitting is een term die in statistieken wordt gebruikt en verwijst naar een modelleringsfout die optreedt wanneer een functie te nauw overeenkomt met een bepaalde set gegevens
  • Schaalbaarheid Schaalbaarheid Schaalbaarheid kan vallen in zowel financiële als bedrijfsstrategische contexten. In beide gevallen staat het voor het vermogen van de entiteit om druk van te weerstaan
  • Spoofing Spoofing Spoofing is een ontwrichtende algoritmische handelspraktijk waarbij biedingen worden geplaatst om te kopen of aanbiedingen om futurescontracten te verkopen en de biedingen of aanbiedingen worden geannuleerd voordat de deal wordt uitgevoerd. De praktijk is bedoeld om een ​​verkeerd beeld van de vraag of vals pessimisme in de markt te creëren.

Aanbevolen

Is Crackstreams afgesloten?
2022
Is het MC-commandocentrum veilig?
2022
Verlaat Taliesin een cruciale rol?
2022