Wat is overfitting?

Overfitting is een term die in statistieken wordt gebruikt en verwijst naar een modelleringsfout die optreedt wanneer een functie te nauw overeenkomt met een bepaalde set gegevens. Als gevolg hiervan is het mogelijk dat overfitting niet past bij aanvullende gegevens, en dit kan de nauwkeurigheid van het voorspellen van toekomstige waarnemingen beïnvloeden.

Overfitting

Overfitting kan worden vastgesteld door validatiestatistieken zoals nauwkeurigheid en verlies te controleren. De validatiestatistieken nemen gewoonlijk toe tot een punt waarop ze stagneren of beginnen af ​​te nemen wanneer het model wordt beïnvloed door overfitting. Tijdens een stijgende trend zoekt het model een goede pasvorm, die, wanneer deze wordt bereikt, ervoor zorgt dat de trend begint af te nemen of te stagneren.

Korte samenvatting

  • Overfitting is een modelleringsfout die vooringenomenheid in het model introduceert omdat het te nauw verband houdt met de dataset.
  • Overfitting maakt het model alleen relevant voor zijn dataset en niet relevant voor andere datasets.
  • Enkele van de methoden die worden gebruikt om overfitting te voorkomen, zijn onder meer ensembling, gegevensvergroting, gegevensvereenvoudiging en kruisvalidatie.

Hoe overfitting te detecteren?

Overfitting detecteren is bijna onmogelijk voordat u de gegevens test. Het kan helpen bij het aanpakken van het inherente kenmerk van overfitting, namelijk het onvermogen om datasets te generaliseren. De gegevens kunnen daarom worden gescheiden in verschillende subsets om het trainen en testen gemakkelijk te maken. De gegevens zijn opgesplitst in twee hoofddelen, namelijk een testset en een trainingsset.

De trainingsset vertegenwoordigt een meerderheid van de beschikbare gegevens (ongeveer 80%) en traint het model. De testset vertegenwoordigt een klein deel van de dataset (ongeveer 20%) en wordt gebruikt om de nauwkeurigheid te testen van de data waarmee nog nooit eerder interactie is geweest. Door de dataset te segmenteren, kunnen we de prestaties van het model op elke set gegevens onderzoeken om overfitting te detecteren wanneer deze zich voordoet, en kunnen we zien hoe het trainingsproces werkt.

De prestatie kan worden gemeten met behulp van het nauwkeurigheidspercentage dat in beide gegevenssets is waargenomen om de aanwezigheid van overfitting te concluderen. Als het model beter presteert op de trainingsset dan op de testset, betekent dit dat het model waarschijnlijk overmaats is.

Hoe overfitting te voorkomen?

Hieronder staan ​​enkele manieren om overfitting te voorkomen:

1. Trainen met meer gegevens

Een van de manieren om overfitting te voorkomen, is door te trainen met meer gegevens. Zo'n optie maakt het gemakkelijk voor algoritmen Algoritmen (Algos) Algoritmen (Algos) zijn een reeks instructies die worden geïntroduceerd om een ​​taak uit te voeren. Algoritmen worden geïntroduceerd om de handel te automatiseren om winst te genereren met een frequentie die voor een menselijke handelaar onmogelijk is om het signaal te detecteren beter om fouten te minimaliseren. Naarmate de gebruiker meer trainingsgegevens in het model invoert, zal het niet in staat zijn om alle monsters te overtreffen en zal het gedwongen worden om te generaliseren om resultaten te verkrijgen.

Gebruikers moeten voortdurend meer gegevens verzamelen om de nauwkeurigheid van het model te vergroten. Deze methode wordt echter als duur beschouwd en daarom moeten gebruikers ervoor zorgen dat de gebruikte gegevens relevant en schoon zijn.

2. Gegevensvergroting

Een alternatief voor training met meer gegevens is gegevensvergroting, die minder duur is in vergelijking met de eerste. Lukt het je niet om continu meer data te verzamelen, dan kun je de beschikbare datasets divers laten lijken. Door gegevensvergroting zien voorbeeldgegevens er elke keer dat ze door het model worden verwerkt, iets anders uit. Het proces zorgt ervoor dat elke dataset uniek lijkt voor het model en voorkomt dat het model de kenmerken van de datasets leert.

Een andere optie die op dezelfde manier werkt als gegevensvergroting, is het toevoegen van ruis aan de invoer- en uitvoergegevens. Door ruis aan de invoer toe te voegen, wordt het model stabiel, zonder de datakwaliteit en privacy aan te tasten, terwijl het toevoegen van ruis aan de uitvoer de gegevens diverser maakt. Het toevoegen van ruis moet echter met mate gebeuren, zodat de mate van ruis niet zo groot is dat de gegevens onjuist of te verschillend zijn.

3. Vereenvoudiging van gegevens

Overfitting kan optreden als gevolg van de complexiteit van een model, zodat het model, zelfs met grote hoeveelheden data, toch de trainingsdataset weet te overtreffen. De gegevensvereenvoudigingsmethode wordt gebruikt om overfitting te verminderen door de complexiteit van het model te verminderen om het zo eenvoudig te maken dat het niet overfittig is.

Enkele van de acties die kunnen worden geïmplementeerd, zijn onder meer het snoeien van een beslissingsboom, waardoor het aantal parameters wordt verminderd. Parameter Een parameter is een nuttig onderdeel van statistische analyse. Het verwijst naar de kenmerken die worden gebruikt om een ​​bepaalde populatie te definiëren. Het is gewend in een neuraal netwerk en uitval op een neutraal netwerk. Door het model te vereenvoudigen, kan het model ook lichter worden en sneller werken.

4. Ensembleren

Ensembling is een machine learning-techniek die werkt door voorspellingen van twee of meer afzonderlijke modellen te combineren. De meest populaire ensembling-methoden zijn onder meer boosting en bagging. Boosting werkt door eenvoudige basismodellen te gebruiken om hun totale complexiteit te vergroten. Het traint een groot aantal zwakke leerlingen, gerangschikt in een reeks, zodat elke leerling in de reeks leert van de fouten van de leerling ervoor.

Boosting combineert alle zwakke leerlingen in de reeks om één sterke leerling naar voren te brengen. De andere ensembling-methode is bagging, wat het tegenovergestelde is van boosting. Bagging werkt door een groot aantal sterke leerlingen op te leiden die in een parallel patroon zijn gerangschikt en ze vervolgens te combineren om hun voorspellingen te optimaliseren.

Meer middelen

Finance is de officiële aanbieder van de wereldwijde Financial Modelling & Valuation Analyst (FMVA) ™ FMVA®-certificering Sluit je aan bij 350.600+ studenten die werken voor bedrijven als Amazon, JP Morgan en Ferrari-certificeringsprogramma, ontworpen om iedereen te helpen een financiële analist van wereldklasse te worden . Om uw carrière verder te ontwikkelen, zijn de onderstaande aanvullende financiële bronnen nuttig:

  • Basisconcepten voor statistieken in financiën Basisconcepten van statistieken voor financiën Een gedegen kennis van statistieken is van cruciaal belang om ons een beter begrip van financiën te geven. Bovendien kunnen statistische concepten investeerders helpen bij het monitoren
  • Datamining bias Datamining bias verwijst naar een veronderstelling van belang die een handelaar toekent aan een gebeurtenis op de markt die feitelijk het gevolg was van toeval of onvoorziene
  • Random Forest Random Forest Random forest is een techniek die wordt gebruikt bij het modelleren van voorspellingen en gedragsanalyse en is gebouwd op beslissingsbomen. Een willekeurig bos bevat veel beslissingsbomen
  • Onvoorwaardelijke kans Onvoorwaardelijke kans Onvoorwaardelijke kans, ook wel marginale kans genoemd, verwijst naar een kans die niet wordt beïnvloed door eerdere of toekomstige gebeurtenissen. Met andere woorden,

Aanbevolen

Is Crackstreams afgesloten?
2022
Is het MC-commandocentrum veilig?
2022
Verlaat Taliesin een cruciale rol?
2022