Wat is Random Forest?

Random forest is een techniek die wordt gebruikt bij het modelleren van voorspellingen en gedragsanalyse en is gebouwd op beslissingsbomen. Het bevat veel beslissingsbomen die een duidelijk exemplaar vertegenwoordigen van de classificatie van gegevens die in het willekeurige forest worden ingevoerd. De random forest-techniek houdt rekening met de gevallen afzonderlijk en neemt degene met de meerderheid van de stemmen als de geselecteerde voorspelling.

Willekeurig bos Figuur 1. Willekeurige bosstructuur (bron)

Elke boom in de classificaties neemt input van monsters in de initiële dataset. Functies worden vervolgens willekeurig geselecteerd, die worden gebruikt bij het laten groeien van de boom op elk knooppunt. Elke boom in het bos mag niet worden gesnoeid tot het einde van de oefening, wanneer de voorspelling definitief is bereikt. Op deze manier stelt het willekeurige forest alle classificaties met zwakke correlaties in staat om een ​​sterke classifier te maken.

Korte samenvatting

  • Random forest is een combinatie van beslissingsbomen die kunnen worden gemodelleerd voor voorspelling en gedragsanalyse.
  • De beslissingsboom in een bos kan niet worden gesnoeid voor bemonstering en dus voorspellingsselectie.
  • De random forest-techniek kan grote gegevenssets aan omdat het kan werken met vele variabelen die oplopen tot duizenden.

Voorspellingen modelleren

De willekeurige bosmethode kan voorspellingsmodellen bouwen met behulp van willekeurige bosregressiebomen, die meestal niet worden geknipt om sterke voorspellingen te doen. De bootstrap-bemonsteringsmethode wordt gebruikt op de regressiebomen, die niet mogen worden gesnoeid. Optimale knooppunten worden bemonsterd uit het totale aantal knooppunten in de boom om de optimale splitsingsfunctie te vormen.

De willekeurige steekproeftechniek die wordt gebruikt bij de selectie van de optimale splitsingsfunctie, verlaagt de correlatie en daarmee de variantie van de regressiebomen. Het verbetert het voorspellend vermogen van verschillende bomen in het bos. De bemonstering met behulp van bootstrap vergroot ook de onafhankelijkheid tussen individuele bomen.

Variabel belang

Variabelen (kenmerken) zijn belangrijk voor het willekeurige bos omdat het een uitdaging is om de modellen te interpreteren, vooral vanuit biologisch oogpunt. De naïeve benadering toont het belang van variabelen aan door belang toe te kennen aan een variabele op basis van de frequentie waarmee alle bomen deze in de steekproef opnemen. Het kan gemakkelijk worden bereikt, maar vormt een uitdaging aangezien de effecten op kostenreductie en nauwkeurigheidsverhoging overbodig zijn.

Het belang van permutatie is een maat die de voorspellingsnauwkeurigheid bijhoudt, waarbij de variabelen willekeurig worden gepermuteerd uit steekproeven buiten de zak. De benadering van het belang van permutatie werkt beter dan de naïeve benadering, maar is meestal duurder.

Omdat het willekeurige bos niet in staat is om voorspellingen goed genoeg te interpreteren vanuit biologisch perspectief, vertrouwt de techniek op de naïeve, gemiddelde afname van onzuiverheid en de permutatiebelangrijke benaderingen om ze directe interpreteerbaarheid van de uitdagingen te geven. De drie benaderingen ondersteunen de voorspellende variabelen met meerdere categorieën.

In het geval van continue voorspellende variabelen met een vergelijkbaar aantal categorieën, vertonen zowel het permutatiebelang als de gemiddelde afname van de onzuiverheidsbenaderingen echter geen vooroordelen Dataminingbias Dataminingbias verwijst naar een veronderstelling van belang die een handelaar toekent aan een gebeurtenis in de markt die eigenlijk een gevolg was van toeval of onvoorzien. Variabele selectie gaat vaak gepaard met vooringenomenheid. Om dit te voorkomen, moet men subsampling uitvoeren zonder vervanging, en waar voorwaardelijke gevolgtrekking wordt gebruikt, moet de willekeurige forest-techniek worden toegepast.

Schuine willekeurige bossen

Schuine willekeurige bossen zijn uniek omdat ze gebruik maken van schuine splitsingen voor beslissingen in plaats van de conventionele beslissingssplitsingen op de knooppunten. Schuine bossen vertonen veel superioriteit door de volgende kwaliteiten te vertonen.

Ten eerste kunnen ze verdelingen op de coördinaatassen scheiden door het gebruik van een enkele multivariate splitsing die de conventioneel noodzakelijke diepe as-uitgelijnde splitsingen zou bevatten. Ten tweede maken ze een verminderde bias van de beslissingsbomen mogelijk voor de geplotte beperkingen. De conventionele as-uitgelijnde splitsingen zouden twee extra niveaus van nesten vereisen wanneer vergelijkbare klassen worden gescheiden met de schuine splitsingen, waardoor het gemakkelijker en efficiënter te gebruiken is.

Willekeurige bosclassificatie

De random forest classifier is een verzameling voorspellingsbomen, waarbij elke boom afhankelijk is van willekeurige vectoren die onafhankelijk zijn bemonsterd, met een vergelijkbare verdeling met elke andere boom in het willekeurige forest. Oorspronkelijk ontworpen voor machine learning, heeft de classificator aan populariteit gewonnen in de teledetectiegemeenschap, waar hij vanwege zijn hoge nauwkeurigheid wordt toegepast in op afstand gedetecteerde beeldclassificatie. Het bereikt ook de juiste snelheid die vereist is en efficiënte parametrering in het proces. De random forest classifier bootstraps willekeurige steekproeven waarbij de voorspelling met de hoogste stem van alle bomen wordt geselecteerd.

De eigenheid van de bomen is belangrijk in het hele proces. De individualiteit van elke boom wordt gegarandeerd door de volgende eigenschappen. Ten eerste gebruikt elke tree training in de steekproef willekeurige subsets uit de initiële trainingssteekproeven. Ten tweede wordt de optimale splitsing gekozen uit de willekeurig geselecteerde kenmerken van de niet-geknipte boomknooppunten. Ten derde: elke boom groeit onbeperkt en mag helemaal niet worden gesnoeid.

Voordelen van willekeurige bossen

Willekeurige bossen presenteren schattingen voor variabel belang, dwz neurale netten. Ze bieden ook een superieure methode om met ontbrekende gegevens te werken. Ontbrekende waarden worden vervangen door de variabele die het meest voorkomt in een bepaald knooppunt. Van alle beschikbare classificatiemethoden bieden willekeurige bossen de hoogste nauwkeurigheid.

De random forest-techniek kan ook omgaan met big data met talloze variabelen die oplopen tot duizenden. Het kan automatisch datasets balanceren wanneer een klasse zeldzamer is dan andere klassen in de gegevens. De methode verwerkt variabelen ook snel, waardoor het geschikt is voor gecompliceerde taken.

Meer middelen

Finance biedt de Financial Modelling & Valuation Analyst (FMVA) ™ FMVA®-certificering Sluit je aan bij 350.600+ studenten die werken voor bedrijven als Amazon, JP Morgan en Ferrari-certificeringsprogramma voor diegenen die hun carrière naar een hoger niveau willen tillen. Bekijk de aanvullende relevante financiële bronnen hieronder om te blijven leren en uw kennisbasis te ontwikkelen:

  • Cross-sectionele data-analyse Cross-sectionele data-analyse Cross-sectionele data-analyse is de analyse van cross-sectionele datasets. Enquêtes en overheidsgegevens zijn enkele veelgebruikte bronnen van transversale gegevens
  • Clusterbemonstering Clusterbemonstering In statistieken is clusterbemonstering een bemonsteringsmethode waarbij de gehele populatie van het onderzoek wordt onderverdeeld in extern homogene maar intern
  • Normale verdeling Normale verdeling De normale verdeling wordt ook wel Gauss- of Gauss-verdeling genoemd. Dit type distributie wordt veel gebruikt in de natuur- en sociale wetenschappen. De
  • Roy's Safety-First Criterion Roy's Safety-First Criterion Roy's safety-first-criterium is een risicobeheertechniek die door beleggers wordt gebruikt om een ​​portefeuille te vergelijken en te kiezen op basis van het criterium dat de waarschijnlijkheid

Aanbevolen

Is Crackstreams afgesloten?
2022
Is het MC-commandocentrum veilig?
2022
Verlaat Taliesin een cruciale rol?
2022