Wat is inpakken (Bootstrap-aggregatie)?

Ensemble machine learning kan voornamelijk worden onderverdeeld in bagging en boosting. De opzaktechniek is nuttig voor zowel regressie als statistische classificatie. Bagging wordt gebruikt met beslissingsbomen, waar het de stabiliteit van modellen aanzienlijk verhoogt door de variantie te verminderen en de nauwkeurigheid te verbeteren, waardoor de uitdaging van overfitting wordt geëlimineerd.

Opzakken

Figuur 1. Opzakken (Bootstrap Aggregation) stroom. Bron

Voor het samenvoegen van machine learning zijn verschillende zwakke modellen nodig, waarbij de voorspellingen worden samengevoegd om de beste voorspelling te selecteren. De zwakke modellen zijn gespecialiseerd in verschillende delen van de functieruimte, waardoor voorspellingen voor het gebruik van zakken uit elk model kunnen komen om het hoogste doel te bereiken.

Snel Su mmary

  • Bagging en boosting zijn de twee belangrijkste methoden van ensemble machine learning.
  • Bagging is een ensemble-methode die kan worden gebruikt bij regressie en classificatie.
  • Het is ook bekend als bootstrap-aggregatie, die de twee classificaties van zakken vormt.

Wat is bootstrapping?

Bagging bestaat uit twee delen: aggregatie en bootstrapping. Bootstrapping is een steekproefmethode, waarbij een steekproef uit een set wordt gekozen met behulp van de vervangingsmethode. Het leeralgoritme wordt vervolgens uitgevoerd op de geselecteerde monsters.

De bootstrapping-techniek maakt gebruik van steekproeven met vervangingen om de selectieprocedure volledig willekeurig te maken. Wanneer een steekproef wordt geselecteerd zonder vervanging, zijn de volgende selecties van variabelen altijd afhankelijk van de vorige selecties, waardoor de criteria niet willekeurig zijn.

Wat is aggregatie?

Modelvoorspellingen ondergaan aggregatie om ze te combineren voor de uiteindelijke voorspelling om alle mogelijke uitkomsten te overwegen. De aggregatie kan worden gedaan op basis van het totale aantal uitkomsten of op de waarschijnlijkheid van voorspellingen die zijn afgeleid van de bootstrapping van elk model in de procedure.

Wat is een ensemblemethode?

Zowel bagging als boosting vormen de meest prominente ensemble-technieken. Een ensemble-methode is een machine learning-platform dat meerdere modellen helpt bij het trainen door middel van hetzelfde leeralgoritme. De ensemble-methode is een deelnemer van een grotere groep multi-classifiers.

Multi-classifiers zijn een groep van meerdere leerlingen, tegen duizenden aan, met een gemeenschappelijk doel dat kan samensmelten en een veelvoorkomend probleem kan oplossen. Een andere categorie van multi-classifiers zijn hybride methoden. De hybride methoden gebruiken een aantal leerlingen, maar in tegenstelling tot de meerclassificatoren kunnen ze verschillende leermethoden gebruiken.

Leren wordt geconfronteerd met meerdere uitdagingen, zoals fouten die voornamelijk te wijten zijn aan bias, ruis en variantie. De nauwkeurigheid en stabiliteit van machine learning worden gegarandeerd door ensemble-methoden zoals bagging en boosting. Combinaties van meerdere classificaties verminderen de variantie, vooral wanneer classificaties onstabiel zijn, en ze zijn belangrijk bij het presenteren van betrouwbaardere resultaten dan een enkele classificatie.

De toepassing van ofwel opvangen of stimuleren vereist eerst de selectie van een basisalgoritme voor de leerling. Als iemand bijvoorbeeld een classificatieboom kiest, is het stimuleren en inpakken een pool van bomen met een grootte die gelijk is aan de voorkeur van de gebruiker.

Voordelen en nadelen van zakken

Random forest Random forest Random forest is een techniek die wordt gebruikt bij het modelleren van voorspellingen en gedragsanalyse en is gebouwd op beslissingsbomen. Een willekeurig bos bevat veel beslissingsbomen en is een van de meest populaire algoritmen voor het opvangen van zakken. Bagging biedt het voordeel dat veel zwakke leerlingen hun inspanningen kunnen combineren om een ​​enkele sterke leerling te overtreffen. Het helpt ook bij het verminderen van variantie, waardoor de overfitting wordt geëlimineerd Overfitting Overfitting is een term die in statistieken wordt gebruikt en verwijst naar een modelleringsfout die optreedt wanneer een functie te nauw overeenkomt met een bepaalde set gegevens van modellen in de procedure.

Een nadeel van bagging is dat het een verlies aan interpreteerbaarheid van een model introduceert. Het resulterende model kan veel vertekening ervaren wanneer de juiste procedure wordt genegeerd. Ondanks dat het inpakken zeer nauwkeurig is, kan het rekenkundig duur zijn en dit kan het gebruik ervan in bepaalde gevallen ontmoedigen.

Bagging versus boosting

De beste techniek om te gebruiken tussen opzakken en boosten hangt af van de beschikbare gegevens, simulatie en eventuele bestaande omstandigheden op dat moment. De variantie van een schatting wordt aanzienlijk verminderd door opzak- en boosttechnieken tijdens de combinatieprocedure, waardoor de nauwkeurigheid toeneemt. Daarom vertonen de verkregen resultaten een hogere stabiliteit dan de individuele resultaten.

Wanneer een evenement de uitdaging van lage prestaties biedt, zal de opzaktechniek niet resulteren in een betere vertekening. De boosting-techniek genereert echter een uniform model met minder fouten, aangezien het zich concentreert op het optimaliseren van de voordelen en het verminderen van tekortkomingen in een enkel model.

Wanneer de uitdaging in een enkel model overfitting is, presteert de opzakmethode beter dan de boosttechniek. Boosting staat voor de uitdaging om te veel te passen, omdat het op zichzelf al gepaard gaat met te veel passen.

Gerelateerde metingen

Finance biedt de Financial Modelling & Valuation Analyst (FMVA) ™ FMVA®-certificering Sluit je aan bij 350.600+ studenten die werken voor bedrijven als Amazon, JP Morgan en Ferrari-certificeringsprogramma voor diegenen die hun carrière naar een hoger niveau willen tillen. Bekijk de aanvullende relevante financiële bronnen hieronder om te blijven leren en uw kennisbasis te ontwikkelen:

  • Clusterbemonstering Clusterbemonstering In statistieken is clusterbemonstering een bemonsteringsmethode waarbij de gehele populatie van het onderzoek wordt onderverdeeld in extern homogene maar intern
  • Overmoed Vooringenomenheid Overmoed Vooringenomenheid Overmoed is een verkeerde en misleidende beoordeling van onze vaardigheden, intellect of talent. Kortom, het is een egoïstische overtuiging dat we beter zijn dan we in werkelijkheid zijn. Het kan een gevaarlijke vooringenomenheid zijn en is zeer productief in gedragsfinanciering en kapitaalmarkten.
  • Regressieanalyse Regressieanalyse Regressieanalyse is een verzameling statistische methoden die wordt gebruikt voor het schatten van relaties tussen een afhankelijke variabele en een of meer onafhankelijke variabelen. Het kan worden gebruikt om de sterkte van de relatie tussen variabelen te beoordelen en om de toekomstige relatie daartussen te modelleren.
  • Tijdreeksgegevensanalyse Tijdreeksgegevensanalyse Tijdreeksgegevensanalyse is de analyse van gegevenssets die in de loop van de tijd veranderen. Tijdreeksdatasets registreren waarnemingen van dezelfde variabele over verschillende tijdstippen. Financiële analisten gebruiken tijdreeksgegevens zoals koersbewegingen van aandelen of de verkopen van een bedrijf in de loop van de tijd

Aanbevolen

Is Crackstreams afgesloten?
2022
Is het MC-commandocentrum veilig?
2022
Verlaat Taliesin een cruciale rol?
2022